You are on page 1of 216

Sciences de gestion

Synthse de cours exercices corrigs

&

Analyse de donnes
avec SPSS

Toutes les tapes cls dune analyse de donnes


101 001 10010 011 10011 0110 100 010 001 001 11001 1011 0 10 01 10 001 01010 0101 010 110 1 100 011 110 011

Une pdagogie active avec le logiciel SPSS

Les fichiers des exercices disponibles l'adresse www.pearson.fr

collection

Synthex

Manu CARRICANO Fanny POUJOL

Sciences de gestion

Synthse de cours

&

exercices corrigs

Analyse de donnes avec SPSS

Manu Carricano
INSEEC Paris

Fanny Poujol
IAE Valenciennes

Directeur de collection : Roland Gillet


Universit Paris I Panthon-Sorbonne

Avec la contribution de Laurent Bertrandias pour la relecture de fond


Institution dAdministration des Entreprises Universit Toulouse 1

Synthex

collection

ISBN : 978-2-7440-4075-7 ISSN : 1768-7616 Copyright 2009 Pearson Education France

Tous droits rservs

Mise en page : edito.biz

Aucune reprsentation ou reproduction, mme partielle, autre que celles prvues larticle L. 122-5 2 et 3 a) du code de la proprit intellectuelle ne peut tre faite sans lautorisation expresse de Pearson Education France ou, le cas chant, sans le respect des modalits prvues larticle L. 122-10 dudit code.

Sommaire
Prface ......................................................................... Introduction .................................................................. Les auteurs .................................................................... Chapitre 1 Chapitre 2 Chapitre 3 Chapitre 4 Chapitre 5 Chapitre 6 Chapitre 7 Chapitre 8 Analyser pour dcider .................................................. Dcrire les donnes ...................................................... Simplifier les donnes .................................................. Segmenter ................................................................... Lanalyse de variance .................................................. La rgression linaire ................................................... Lanalyse conjointe ...................................................... Communiquer les rsultats ........................................... Bibliographie gnrale .................................................. Index ............................................................................
VII IX XI 1 29 51 79 107 133 155 177 195 197

Prface
Il existe aujourdhui de nombreux livres consacrs aux tudes de march et lanalyse marketing, ce que les Anglo-Saxons nomment marketing research. Louvrage de Fanny Poujol et Manu Carricano, Analyse de donnes avec SPSS, se distingue clairement de ceux existant sur le march par son parti pris rsolument oprationnel. Linstrumentation de gestion est souvent nglige dans la littrature francophone consacre au management. Tendance bien cartsienne la conceptualisation ? Bien des manuels, peut-tre en contradiction avec la dnition mme de ce genre dcrit, consacrent la portion congrue aux outils et leur application pratique. Analyse de donnes avec SPSS prend le contre-pied dune telle tendance. Peut-tre est-ce en raison de la jeunesse et de la singularit des auteurs : une docteur en gestion, aujourdhui matre de confrences luniversit de Valenciennes, et un professeur assistant dans une grande cole, tous deux chercheurs lInseec et encore trs proches des difcults dapprentissage de la recherche quantitative en marketing ? En tout tat de cause, les huit chapitres de leur ouvrage prsentent avec rigueur les problmes oprationnels de la recherche quantitative en marketing et leur rsolution pratique, en prenant patiemment le lecteur par la main grce des exemples et des exercices et en le guidant dans lutilisation du logiciel SPSS. Le titre des chapitres rsume ce parcours initiatique dans la recherche quantitative en marketing : analyser pour dcider, dcrire les donnes, simplier les donnes, segmenter, lanalyse de variance, la rgression linaire, lanalyse conjointe, communiquer les rsultats. Dans ce parcours en huit tapes, cest rsolument lapplication et la mise en uvre pratique qui sont privilgies aux dpens des considrations thoriques rsumes clairement en tte de chapitre. Outre laspect oprationnel, les auteurs ont galement eu comme objectif de privilgier la dimension synthtique de leurs dmonstrations. Il ntait pas question pour eux de faire une somme de plus sur le sujet, les bibliothques tant dj fournies en livres de ce type. Certes, dautres mthodes mriteraient de gurer dans louvrage, mais on ne peut reprocher aux auteurs davoir privilgi les techniques les plus couramment utilises. Nul doute que ce livre original connatra le succs quil mrite auprs des nombreux chercheurs en marketing, professionnels et universitaires. Il sera alors temps pour les auteurs doffrir un second tome dans la mme veine. Cest tout ce que nous leur souhaitons, pour eux-mmes et pour leurs futurs lecteurs. Pierre-Louis Dubois, Professeur Universit Panthon-Assas (Paris II) ESCP-EAP Prsident du Comit scientique de lInseec VII

Introduction
Approche adopte
La plupart des dcisions de lentreprise reposent sur des donnes collectes sur le march, les clients, les concurrents. Mais le plus souvent, ces analyses sont simplistes, limites, voire biaises : dune part, parce quelles se limitent des analyses descriptives (tableaux croiss, analyses factorielles) et non pas explicatives des phnomnes observs ; dautre part, parce quelles ne sassurent pas toujours des conditions de validit et de abilit des rsultats. Dans le mme temps, lexercice du marketing sest considrablement transform ces dernires annes : le volume de donnes disponible est plus important, et les outils danalyse plus sophistiqus. Ces solutions analytiques, telles les suites de logiciels dveloppes par SPSS, visent tirer parti de cette profusion de donnes an daider les dirigeants prendre des dcisions fondes, optimales. Comme le signale Sunil Garga, prsident dIRI Analytic Insight Group : Les approches analytiques en marketing ont amen plus de changement durant les 24 derniers mois que lors de ces 24 dernires annes. La diffusion de ces nouvelles approches dans lentreprise passe par la mise sur le march de jeunes diplms clairs et sensibiliss une dmarche analytique dpassant lintuition et fonde sur des modles an de prendre des dcisions optimales. Lide force qui nous a guids tout au long de la rdaction de cet ouvrage est de dmontrer la valeur ajoute de lanalyse de donnes dans loptimisation de dcisions courantes au sein de lentreprise. Le marketing, notre domaine de spcialisation, nous a sembl tout indiqu pour mettre en uvre une telle approche fonctionnelle. Loin dun inventaire de techniques statistiques, nous avons souhait dnir une srie de questions simples faisant le lien entre les outils danalyse de donnes et les dcisions marketing, parmi lesquelles : Comment transposer un problme managrial en modle danalyse ? Comment amliorer la validit et la abilit dun questionnaire ? Quelle approche mobiliser pour dcrire les rsultats dune enqute ? Comment synthtiser les donnes collectes ? Comment segmenter un march ? Comment expliquer linuence dune dcision sur un march ? Comment modliser un comportement dachat ?

IX

Comment expliquer les prfrences des consommateurs ? Comment communiquer les rsultats ?

Cet ouvrage sadressant principalement des tudiants et sinspirant fortement des remarques de nos propres tudiants , nous avons galement cherch prsenter les informations de manire simple, passant rapidement le relais une mise en application des concepts statistiques par le biais dune manipulation du logiciel SPSS. Apprendre en faisant permettra au lecteur dacqurir des comptences en analyse de donnes de manire progressive, et sur lensemble de la dmarche. Cette forme dapprentissage par lexprience, de pdagogie active, stant rvle payante pour nous, nous esprons quelle le sera galement pour dautres collgues enseignants et les tudiants. An de faciliter lutilisation de ce livre dans le cadre dun cours (en licence ou master), lintgralit des chiers de donnes est disponible sur le site de Pearson Education France.

Structure du livre
Le domaine de lanalyse de donnes tant vaste et complexe, nous avons souhait organiser ce livre en deux grandes parties distinctes. Une premire partie (chapitres 1 4) prsente les mthodes descriptives en analyse de donnes (analyses univaries et bivaries, tris croiss, analyses factorielles), la plupart des enqutes en marketing se limitant aux tests prsents dans cette partie. La seconde partie de louvrage (chapitres 5 7) prsente un panorama de techniques plus avances (analyse de variance, rgressions, analyse conjointe) an de guider lanalyste dans ces procdures plus sophistiques. Enn, le dernier chapitre traite de la rdaction du rapport, la valeur ajoute dune dmarche analytique passant aussi par la capacit communiquer les rsultats de manire prcise et intelligible.

Remerciements
Nous voudrions remercier vivement ceux qui nous ont aids raliser cet ouvrage, en particulier, Roland Gillet, professeur l'universit Paris 1 Panthon-Sorbonne et directeur de la collection, pour ses remarques et sa conance, et Pierre-Louis Dubois, professeur l'universit Paris 2 Panthon-Assas et l'ESCP-EAP, pour ses encouragements constants et son aide prcieuse. Nos remerciements sadressent aussi Laurent Bertrandias (matre de confrences lIAE universit Toulouse 1), Ren Darmon (professeur mrite lESSEC), Laurent Flors (CEO crmmetrix et professeur associ lINSEEC), Jean-Franois Trinquecoste (professeur lIAE Bordeaux), Herv Fenneteau (professeur luniversit Montpellier I), Jean-Philippe Grouthier (administrateur lInsee). Merci aussi Christophe Lenne et toute lquipe de Pearson Education France pour leur travail ditorial constructif et enrichissant. Enn, nos plus vifs remerciements vont nos proches, pour les longs instants vols, le temps tant le plus prcieux des cadeaux. Comme le dit Paul Claudel : Le temps, tout le consume, et lamour seul lemploie.

Analyse de donnes avec SPSS

Les auteurs
Manu Carricano est enseignant-chercheur lInseec Paris o il est responsable du dpartement marketing. Il y enseigne le marketing et les tudes de marchs en licence et master. Il intervient galement lIAE de Bordeaux dans le master marketing en formation continue. Ses recherches portent sur la convergence des mthodes quantitatives et qualitatives sur Internet ainsi que sur loptimisation des stratgies de prix. Ses travaux ont fait lobjet de publications et ont t prsents dans des confrences acadmiques internationales. Fanny Poujol est titulaire dun MBA de luniversit de Birmingham ainsi que dun doctorat de luniversit Montpellier II. Elle est matre de confrences lIAE de Valenciennes, et chercheur associ au laboratoire de recherche Inseec. lIAE, elle enseigne la mthodologie, le marketing des services, le commerce international et le management des forces de ventes en licence et master. Elle intervient aussi en master marketing et vente lUPMC (Universit Pierre-et-Marie-Curie). Ses recherches portent sur la gestion des forces de vente. Ses travaux ont t prsents dans des congrs internationaux (IAE, AFM, EMAC, ANZMAC) et publis dans des revues acadmiques (Dcisions Marketing, Journal of Business and Industrial Marketing).

XI

Chapitre

Analyser pour dcider


1. tudes et recherche en marketing...............................2 2. Des donnes aux variables...........7 3. Mesurer laide dun questionnaire.....................16

Exercices 1. Quand Pampers collecte des donnes..............................23 2. Laudience de la super star.........24 3. Lenqute point de vente .......25

Une bonne dcision consiste choisir la plus optimale des solutions parmi une srie dalternatives. Le marketing et en particulier sa dimension tudes sest longtemps cantonn un rle purement descriptif. Mais les bonnes dcisions narrivent pas par hasard : elles doivent tre fondes sur des informations ables et valides. Tour tour, les outils dtudes de marchs et les techniques danalyse se sont considrablement enrichis. Lavnement dInternet, la sophistication et lexhaustivit des donnes de panel, la monte en puissance des bases de donnes clients et du data mining ont repouss les limites des tudes de marchs traditionnelles, favorisant lmergence dune information marketing de grande qualit et danalyses explicatives, voire prdictives, des comportements. Ce chapitre prsente les grandes familles dtudes de marchs et pose les bases de lanalyse de donnes en marketing en abordant les concepts de donnes, de variables et de mesure.

(1)

tudes et recherche en marketing


Les tudes et recherche marketing ont pour but daider le responsable marketing rsoudre un problme spcique, contrler ses performances, planier les dcisions (Evrard, Pras et Roux, 2003). Leur objectif est de lier lentreprise son environnement en dveloppant des instruments de mesure, en collectant et en analysant des donnes, et en communiquant les rsultats et leur interprtation. Telle est la dnition du processus de recherche en marketing qui nous guidera tout au long des huit chapitres de cet ouvrage.

1.1 LA

DMARCHE DTUDE partir de la dnition prcdente, nous pouvons rsumer la dmarche dtude cinq tapes principales, reprises la gure 1.1 ci-aprs.

Figure 1.1
Les cinq tapes dune dmarche dtude.
Anticipation du problme

Dfinition du problme

Analyse de la situation

Collecte des donnes

Analyse et interprtation

Rsolution du problme

La premire tape de la dmarche dtude est didentier le problme managrial : le besoin dtude est donc dtermin par lexistence dun problme rsoudre. Plusieurs types de problmes et plusieurs types de rsolutions peuvent tre envisags, comme le montre le tableau 1.1. Tableau 1.1 : Du problme managrial la technique dtude
Problme managrial Existe-t-il un march potentiel pour un nouveau produit ? Objectifs dtude Tester les ractions des consommateurs lide Tester la composition du produit Estimer le taux dessai et de rachat Connatre les concurrents Techniques dtude Test de concept Test de formule March-test simul March-tmoin Analyse de la concurrence Panels

Analyse de donnes avec SPSS

Chapitre

Tableau 1.1 : Du problme managrial la technique dtude (suite)


Problme managrial Objectifs dtude Connatre les attentes des consommateurs Dtecter les forces et faiblesses de la marque Techniques dtude Identier les bnces recherchs par les consommateurs tude de segmentation tude du capital marque Analyse des images de marque des concurrents

Dterminer un prix de vente Test de prix psychologiques Analyse conjointe


Source : adapt de Vernette, 2000.

La formulation correcte dun problme permet de faire le lien entre un besoin de dcision et la mise en uvre dune dmarche de recherche, de collecte, danalyse et dinterprtation dinformations. La fonction tude doit donc tre envisage autour de ce paradigme informationnel. Son rle consiste transformer des informations brutes en donnes utiles dans la recherche de nouvelles opportunits, mettre en place des systmes dcoute du march et de veille concurrentielle, et prescrire les comportements adopter sur les marchs. Au conuent des ux dinformations de lentreprise, elle acquiert aujourdhui une dimension stratgique croissante. Si la collecte et lanalyse de donnes sont au cur du mtier danalyste en marketing, ces derniers font de plus en plus appel des donnes secondaires et des donnes stockes dans des entrepts de donnes (data warehouses). Cette tendance est accentue par le recours Internet qui, en combinant habilement sites de marque et techniques de marketing direct, savre tre une source inpuisable dinformations sur les marchs, les consommateurs, les concurrents. Lexistence de cette profusion de donnes fait voluer les besoins dtude dans lentreprise et modie par suite le recours aux diffrentes techniques. Auparavant, la conduite dune tude de march tait principalement entendue comme la ncessit de procder une collecte de donnes terrain, souvent par le biais du questionnaire, de lentretien ou de runions de consommateurs. Dornavant, laccs ais des donnes secondaires, la dissmination interfonctionnelle dune intelligence marketing dans lorganisation modie quelque peu la donne. Cette vaste quantit dinformations disponibles rend ncessaire, pour le charg dtude comme pour le chef de produit, une comptence accrue en analyse de donnes. Elle permettra dviter les erreurs dinterprtation et de matriser la qualit dtudes souvent ralises par des instituts. Un besoin croissant doprationnalit se fait sentir en la matire. Cette oprationnalit passe tout dabord par le dveloppement de mesures pertinentes et valides supportant des construits psychologiques (dcisions dachat, notorit, intrt pour la marque, le produit, etc.), an de bien mesurer ce qui se rapporte au problme managrial. Elle passe ensuite par la mise en uvre danalyses qui permettent dexpliquer et de prdire des comportements, an de bien comprendre le problme managrial pour le rsoudre et agir.

Analyser pour dcider 3

1.2 LES

TECHNIQUES DTUDES Les techniques dtudes sont regroupes en deux catgories principales, selon leurs objectifs et leurs limites. Les tudes quantitatives dominent largement le march des tudes, mme si, dernirement, les dpartements marketing ont manifest un intrt croissant pour les tudes qualitatives. Le tableau 1.2 montre la rpartition des diffrentes techniques en fonction des mthodes de collecte les plus frquemment utilises en marketing. Tableau 1.2 : Rpartition des diffrentes techniques dtude
Techniques Quantitatives tudes quantitatives via Internet tudes par tlphone Tests en salle tudes en face--face tudes postales 13 % 29 % 11 % 42 % 5% 20 % 30 % 10 % 37 % 4% 2005 2006

Qualitatives Runions de groupe Entretiens individuels tudes qualitatives via Internet Autres techniques qualitatives
Source : adapt de SEMO, 2008 (Syntec tudes Marketing et Opinion).

57 % 22 % 5% 16 %

55 % 22 % 17 % 5%

Parmi les techniques les plus largement utilises, on peut retenir : ltude ad hoc : tude quantitative ou qualitative ralise pour le compte dun seul client ; ltude omnibus : tude quantitative ralise date rgulire. Le questionnaire regroupe lensemble des questions de diffrents souscripteurs ; le baromtre : tude ralise date xe comme lomnibus, mais avec le mme questionnaire dune tude lautre, pour le compte dun ou de plusieurs clients ; le panel : investigation approfondie ralise priodiquement pour plusieurs clients. Les interviews sont identiques dune vague lautre. Il sappuie sur des chantillons importants de 2 000 10 000 individus ;

Analyse de donnes avec SPSS

Chapitre

le march-test : tude quantitative visant prvoir les ventes et parts de march dun nouveau produit ; on parle galement de march-test pour des observations de type exprimental en magasin ; lentretien individuel : tude qualitative dont lobjectif est de recueillir le discours individuel. On distingue lentretien non directif (libre propos), semi-directif (intervention et thmes), directif (guide dentretien strict, questions ouvertes), associatif ou projectif (analogie, associations de mots, complments de phrases, jeux de rle, etc.) ; la runion de groupe : tude qualitative libre et non structure dun groupe de 8 12 participants, conduite par un animateur. La discussion libre repose sur les phnomnes de psychologie collective des groupes restreints, fonde notamment sur les travaux de Kurt Lewin. Le tableau 1.3 reprsente les objectifs et les limites des approches qualitatives et quantitatives. Tableau 1.3 : Objectifs et limites des approches qualitative et quantitative
Approche Objectifs Rpertorier Explorer Gnrer Comprendre Dnombrer Hirarchiser Pondrer Rsumer Limites Gnralisation des rsultats

Qualitative

Quantitative

Biais dclaratifs Mmorisation des rpondants

Source : adapt de Vernette, 2000.

Les tudes qualitatives sont utilises dans une dimension principalement exploratoire, an de comprendre en profondeur des comportements de consommateurs par exemple. Si elles ne permettent pas de gnraliser les rsultats quelles produisent, elles nen sont pas moins utiles pour dpasser les mesures dattitudes des questionnaires. Elles permettent daccder une tude approfondie des processus lis aux comportements de consommation, grce notamment aux entretiens et aux runions de consommateurs, et daccder plus profondment lexplication de ces comportements, en levant le voile sur des facteurs inconscients (le non-verbal, le non-dit ), en dautres termes le monde interne des consommateurs et notamment leur rapport aux marques. Les tudes qualitatives se distinguent galement par la place quelles occupent dans la dmarche de recherche. Souvent considres comme un prlude ltude quantitative ou limites la conrmation des rsultats dune enqute par questionnaire, elles se substituent de plus en plus aux approches traditionnelles, grce notamment lutilisation dInternet et de ses potentialits multimdias, et la ncessit croissante pour le marketing dtre connect au terrain. Garnier, par exemple, a lanc, il y a peu, une vaste opration de type ethnographique baptise Consumer Connect, dont lobjectif tait avant tout dimmerger les chefs de produit parmi les consommateurs et dobserver leur utilisation du produit in situ. Lavnement dInternet a contribu repopulariser cette technique auprs des instituts dtude : on peut citer lmergence de la netnographie (voir ci-aprs) ou encore le Home Use Blog (HUB), dvelopp conjointement par Danone et la socit Repres.

Analyser pour dcider 5

EXEMPLE

La netnographie
On constate, depuis quelques annes, un intrt grandissant pour linformation collecte partir de lobservation de communauts virtuelles, nouvelles formes de communauts dont Internet a permis lmergence. Ainsi, de nombreuses rmes ont ralis des tudes sur la base dinformations issues de forums de discussion et nont pas tard saisir les opportunits offertes par ces nouveaux types dinteractions sociales. Kozinets a dvelopp rcemment une approche nouvelle lethnographie sur Internet ou netnographie quil dnit comme une nouvelle mthode de recherche qualitative qui adapte la mthode de lethnographie ltude des cultures et des communauts qui mergent grce aux communications informatises (Kozinets, 2002, p. 62). En tant que technique de recherche en marketing, la netnographie utilise linformation publique disponible sur les forums en ligne an didentier et de comprendre les besoins et les inuences qui psent sur les dcisions dachat de groupes de consommateurs prsents sur Internet. Pour Laurent Flors, CEO de la socit dtude crmmetrix, spcialiste de lcoute client, le canal Internet permet aux marques de participer de vritables conversations et de sappuyer sur un puissant levier du marketing : le bouche oreille. Il est dsormais possible de quantier le volume de ces conversations, danalyser leur contenu et le prol des intervenants, avec un avantage important sur les techniques traditionnelles, puisque cette approche naltre pas le contexte tudi par lintervention dun analyste mais collecte plutt une information en langage naturel.

Les techniques quantitatives, auxquelles cet ouvrage est essentiellement consacr, constituent la part dominante des tudes marketing. Leur objectif est avant tout de mesurer, de quantier et de permettre de gnraliser les rsultats partir de lchantillon de la population concerne. Ce type dtude repose gnralement sur un grand nombre dobservations et sur des informations structures (valeurs numriques, chelles ou valeurs nominales) par opposition aux informations non structures (discours, texte libre/questions ouvertes, etc.). Plus prcisment, trois types dtudes quantitatives peuvent tre distingus, en fonction du contexte de dcouverte de linformation : dcrire, expliquer, prdire. Les tudes descriptives sont fondes sur des mesures dont le but est de collecter des donnes brutes an de crer des structures dcrivant les caractristiques dune population cible ou dun march. Elles peuvent tre utiles, entre autres, pour faire la photographie dun march, de la satisfaction des consommateurs, de la notorit dune marque. La dimension descriptive est lobjectif premier traditionnellement assign aux tudes marketing. Cette tape importante a pour objet de mesurer la force dassociation entre deux variables, par exemple, et permet de poser un cadre danalyse ncessaire aux tudes explicatives et prdictives. Les tudes explicatives ont pour objet de transformer des donnes brutes en structures expliquant des relations de causalit entre deux ou plusieurs variables. Lapproche explicative est utile lorsque ltude a pour objectif de comprendre les causes directes dun phnomne. Ce type dtude peut permettre, par exemple, de modliser limpact de la publicit sur les ventes. Lapproche explicative est particulirement utile dans un contexte daide la dcision, o le but assign ltude nest plus simplement de dcrire mais aussi de comprendre, de la manire la plus able et la plus valide, les dterminants affectant la performance des dcisions marketing. Les tudes prdictives, quant elles, ont pour objet de transformer les donnes brutes collectes sur les caractristiques comportementales des consommateurs ou des entreprises/marchs pour crer des modles prdictifs des ns doptimisation. Ces approches,

Analyse de donnes avec SPSS

Chapitre

surtout utilises dans des contextes de gestion de la relation client, ncessitent des observations en trs grand nombre et des outils sophistiqus (voir focus 1.1). Pour notre part, dans les chapitres suivants, nous nous concentrerons principalement sur les deux premiers types dtude.

* Focus 1.1

Le data mining
Le data mining, ou fouille de donnes, est lensemble des mthodes et techniques destines lexploration et lanalyse de bases de donnes informatiques (souvent de grande taille), de faon automatique ou semi-automatique, en vue de dtecter des rgles, des associations, des tendances inconnues ou caches, des structures particulires restituant lessentiel de linformation utile tout en rduisant la quantit de donnes. En bref, le data mining est lart dextraire des informations, voire des connaissances partir de donnes. Le data mining est soit descriptif, soit prdictif : les techniques descriptives en data mining visent mettre en vidence des informations prsentes mais caches par le volume des donnes (cest le cas des classications automatiques dindividus et des recherches dassociations de produits) ; les techniques prdictives visent extrapoler de nouvelles informations partir des informations prsentes, ces nouvelles informations pouvant prendre la forme de classements ou scorings (slection de clients selon certains critres), ou de prdictions comme lapptence pour un produit (probabilit dachat futur) ou le risque dattrition (probabilit de dpart la concurrence).
Source : adapt de Tuffry, 2005.

(2)

Des donnes aux variables


La plupart des entreprises sont aujourdhui noyes sous linformation mais elles ont soif de connaissance. Cest la capacit de lanalyste mettre en uvre une dmarche analytique qui permet de crer, de grer et de diffuser cette connaissance dans lorganisation. Ce processus repose sur trois concepts que nous allons maintenant dnir : les donnes, lchantillon et les variables.

2.1 TYPES

DE DONNES Les types de donnes en marketing sont en gnral identis en fonction de leur source. Ainsi, on distingue les donnes secondaires et les donnes primaires (voir gure 1.2). Les donnes secondaires sont des donnes qui ont t collectes pralablement ltude, pour rpondre dautres problmes, ce qui peut fortement en limiter la pertinence et la prcision (Malhotra et al., 2007). Elles sont cependant dun accs facile et leur cot est relativement faible. Souvent perues comme des donnes faible valeur ajoute en marketing (limites une dnition de problme, voire quelques tests pour mettre en valeur les rsultats principaux), elles occupent dsormais une place de plus en plus importante dans les tudes. Les sources dinformation de cette nature sont aujourdhui abondantes et doivent systmatiquement tre prises en considration avant toute collecte de donnes primaires. On distingue les donnes secondaires internes, issues de lentreprise (reportings, intranet, donnes comptables, informations manant des salaris) et les donnes secondaires externes, issues de lenvironnement de lentreprise :

Analyser pour dcider 7

Figure 1.2
Les sources de donnes.
Donnes secondaires Internet, gouvernement, panels, tudes Hors-entreprise commerciales, publications, interactions consommateurs, etc. Entreprise Documents internes, intranet, rapports, salaris, donnes comptables, etc.

Observer Donnes primaires

Exprimentation, ethnographie, approches personnelles, etc.

Interroger

Entretiens en profondeur, focus groupes, questionnaires (on-line, face--face, tlphone, courrier), etc.

en premier lieu Internet qui donne accs des donnes structures (chiers logs, cookies, etc.) et surtout des donnes non structures (blogs, forums, interactions sociales, etc.) que lon commence aujourdhui analyser, traiter (netnographie, analyse lexicomtrique, text mining, etc.) ; les donnes gouvernementales : donnes de recensement, donnes macroconomiques, etc. ; les donnes de panels (consommateurs, distributeurs, audience) ; les tudes de marchs publies de nature commerciale ; les interactions avec les consommateurs ou points de contacts : lettres de rclamations, call-centers, e-mails reus, etc.

* Focus 1.2

Les panels
Les panels ont considrablement volu ces dernires annes : gains de restitution de linformation, amlioration de la couverture des circuits de distribution (donnes de panels et donnes issues du scanning en sortie de caisse), offre enrichie (information accessible en ligne, analyses spciques des variables du mix et de leur performance). On distingue, en France, plusieurs types de panels largement plbiscits (42 % du march des tudes) : les panels de consommation, les access panels (ou panels de consommateurs), les access panels on-line, les panels de distributeurs (ou panels de dtaillants) et les panels daudience. Panels de consommation : recueil dinformations sur leurs achats auprs dun chantillon de mnages. Ce type de panel permet de rpondre aux questions : Qui consomme quoi ? et En quelle quantit ? (taux de pntration, quantits achetes, etc.) et de mesurer lvolution de la consommation dans le temps. Access panels : recueil dinformations auprs dindividus ou de foyers reprsentatifs de la population nationale, qui ont accept de participer des enqutes ponctuelles. Ils sont interrogs sur leurs pratiques, leurs opinions, leurs gots et leurs prfrences, pour des tudes ad hoc (tests de produits, de concepts, tudes dusages et dattitudes, tracking, etc.). Access panels on-line : recueil dinformations auprs dinternautes panliss qui ont accept de participer des enqutes ponctuelles. Le recrutement se fait le plus souvent via un site de recrutement sur Internet. Ils sont interrogs sur leurs pratiques, leurs opinions, leurs gots, leurs prfrences.

Analyse de donnes avec SPSS

Chapitre
Panels de distributeurs : recueil dinformations auprs dun chantillon de points de vente an de connatre les volumes, les prix de vente, les parts de march de diffrentes marques dun segment, dvaluer la prsence de la marque dans les diffrents canaux de distribution (distribution numrique, distribution valeur), de suivre les volutions de la distribution, loffre disponible dans les points de vente (linaires accords aux diffrentes marques, ruptures, promotions), de mesurer limpact sur les ventes dune modication de loffre (promotion, lancement, etc.). Infoscan Census (panel dInformation Resources Inc., IRI) est le premier du genre abandonner la mthode de lchantillon au prot dune remonte exhaustive des magasins. Panels daudience : chantillon reprsentatif de foyers dont on mesure lcoute des diffrentes chanes de tlvision. Il nexiste quun seul panel depuis larrt du panel SofresNielsen : Mediamat, de Mdiamtrie, panel de 3 100 foyers, soit 8 000 individus de 4 ans et plus quips dun audimtre.

Les donnes primaires sont des donnes qui ont t collectes dans le but de rsoudre le problme managrial propre ltude. Il sagit de donnes brutes, qui doivent tre prpares, analyses puis interprtes (Hair et al., 2006). Dans ce cas, les cinq tapes de la dmarche dtude doivent tre respectes. Ce chapitre tant consacr ltape de la collecte des donnes, les chapitres suivants aborderont lanalyse et linterprtation des rsultats pour une srie de tests pouvant tre mis en uvre dans une dmarche dtude ou de recherche marketing.

2.2 LCHANTILLON
An de bien illustrer les tapes dun plan de sondage, un petit dtour historique peut savrer intressant. Tout commence aux tats-Unis, lorsque Franklin D. Roosevelt se reprsente contre Alf Landon aux lections de 1936. Derrire les candidats, deux hommes saffrontent pour pronostiquer le rsultat de ces lections. Dune part Codely, rdacteur en chef du Literary Digest, utilise la technique du vote de paille (straw vote) : quelques jours avant les lections, il fait paratre des bulletins de vote dans son journal et demande ses lecteurs de mentionner leur choix. Il reoit 2,4 millions de rponses et donne Landon gagnant. Dautre part, Gallup, crateur de linstitut ponyme, ninterroge que 4 000 personnes et joue Roosevelt gagnant. La victoire de ce dernier marque la naissance des instituts de sondage. Gallup est le pre de lchantillon reprsentatif, le premier avoir eu lide de reconstituer une population en miniature. Deux ans aprs, les sondages sont imports en France par Jean Stoetzel, philosophe et sociologue, crateur en 1938 de lInstitut franais dopinion publique (IFOP). Cette jeune pratique est construite autour de deux tapes principales : la dnition de la population tudier et la slection de lchantillon. La population tudier doit tre dnie avec le plus grand soin (par exemple les clients dune enseigne de distribution). Cette dnition inclut celle des units de sondage (lindividu dtenant linformation) qui sont lobjet de lobservation. Dans de nombreux cas, en marketing, on ne se proccupe pas de lensemble de la population mais plutt des consommateurs de tel ou tel produit, ou catgorie de produits, qui constituent la cible des actions envisages. Vient ensuite ltape du choix de lchantillon et de sa taille. Deux mthodes principales sont utilises, dont lobjectif est de slectionner un chantillon assurant la meilleure prcision possible des rsultats au moindre cot (pour une description dtaille, voir Evrard et al., 2003). La mthode probabiliste, dans laquelle chaque individu de la population

Analyser pour dcider 9

concerne a une probabilit connue dappartenir lchantillon, permet dobtenir des chantillons reprsentatifs. Gnralement utilise sur de grands chantillons, elle savre trs coteuse (lInsee, par exemple, la pratique en France). Les mthodes non probabilistes (ou mthodes empiriques) permettent de constituer un chantillon rsultant dun choix raisonn qui vise le faire ressembler la population dont il est issu. Parmi ces mthodes, les instituts de sondages franais recourent volontiers la mthode dite des quotas, qui, bien que scientiquement moins prcise, moins able que la mthode alatoire, prsente lnorme avantage de pouvoir sappliquer des chantillons plus rduits, de coter moins cher et dtre mise en uvre beaucoup plus rapidement. Ainsi, un sondage au tlphone selon la mthode des quotas peut tre ralis en moins de 48 h. La gure 1.3 dtaille les mthodes dchantillonnage qui seront dnies dans la section suivante. Figure 1.3
Les mthodes dchantillonnage.
Tirage au hasard chantillons probabilistes chantillonnage stratifi

Mthode des quotas Mthode des itinraires chantillonnage de convenance chantillonnage boule de neige

chantillons non probabilistes

Tirage au hasard : lchantillon alatoire consiste tirer au hasard un individu de la population avec une probabilit connue et diffrente de zro dappartenir lchantillon. La connaissance de cette probabilit dappartenance de lindividu lchantillon permet de calculer la marge derreur sur les rsultats obtenus (voir focus 1.3). Ce type dchantillonnage permet de protger les utilisateurs des rsultats contre une slection biaise de lchantillon (mme si les risques de biais dus au questionnaire et aux nonrponses subsistent). On parlera de tirage alatoire simple si les individus qui composent la population ne font lobjet daucun regroupement avant tirage. chantillonnage strati : dans le cas o les variables tudies sont fortement disperses, cest--dire dans ceux o des classes seraient sous- ou surreprsentes en raison du tirage au hasard, il peut savrer utile dutiliser des variables dites de stratication, qui permettent de raliser une rpartition de la population en classes appeles strates . La stratication sera dautant plus efcace pour amliorer la prcision que les strates seront homognes par rapport aux variables tudies. Dans le cas dune tude sur des points de vente, cette variable pourra tre le fait dtre client ou non. Mthode des quotas : cette mthode, la plus utilise en France, reprend les principes de qualication de lchantillonnage strati. Elle est moins coteuse que les mthodes alatoires o lenquteur, en cas dabsence de la population, doit revenir/rappeler jusqu 3 ou

10

Analyse de donnes avec SPSS

Chapitre

4 fois ladresse/au numro qui lui a t indiqu. Cette mthode prsente lavantage de la simplicit : on choisit quelques caractristiques dont on connat la distribution statistique dans la population tudie (par exemple, sexe, ge, catgorie socioprofessionnelle [CSP] du chef de famille), puis on donne chaque enquteur un plan de travail qui lui impose le respect de certaines proportions au sein des interviews. Cette mthode, par opposition aux deux mthodes prcdentes, donne des estimations biaises car les diffrentes catgories de population prsentent des probabilitis diffrentes et inconnues dtre touches par un enquteur. Dautre part, la mthode des quotas ne permet thoriquement pas de calculer les marges derreur associes aux rsultats trouvs, comme une mthode alatoire permet de le faire. Mthode des itinraires (ou random route) : dans une commune, par exemple, on impose lenquteur un point de dpart et un itinraire suivre, avec tirage systmatique des logements dans lesquels il doit effectuer des interviews (par exemple, interroger les foyers toutes les trois portes dans un immeuble). chantillonnage de convenance : il est conu par lenquteur pour des raisons de praticit. Il fait gnralement appel des personnes interceptes dans la rue, la sortie des caisses en magasin, etc. Cest la moins coteuse et la plus rapide de toutes les techniques dchantillonnage mais elle prsente de fortes limites : biais de slection, non-reprsentativit. Il nest donc thoriquement;pas signicatif de gnraliser les rsultats. chantillonnage boule de neige : on choisit un premier groupe de rpondants, au hasard gnralement, puis on leur demande dindiquer dautres rpondants potentiels appartenant la population cible. Cette mthode peut tre utile pour des enqutes sur les leaders dopinion par exemple. La dtermination de la taille de lchantillon est une tape cruciale en analyse de donnes. Un chantillon trop petit peut induire une perte dinformations importante ou empcher la ralisation de nombreux tests soumis des contraintes en termes de nombre dobservations. linverse, un chantillon trop important constitue une perte de temps et de budget dommageable pour la russite de ltude. Il est important de noter que la prcision de linformation recueillie dpend principalement de la taille de lchantillon et non du taux de sondage (dni par le rapport n/N, o n est la taille de lchantillon et N celle de la population). Dans la pratique, les chargs dtudes utilisent des abaques (feuilles de calcul) donnant la taille de lchantillon en fonction du degr de prcision des rsultats que lon veut obtenir. Certains professionnels des tudes considrent quil ny a pas de raison valable de travailler avec des chantillons de plus de 1 000 1 500 rpondants. En effet, sil est admis que la prcision des rsultats est inuence par la taille de lchantillon, cette inuence savre ngligeable au-dessus de 1 500 observations. Pour trouver la taille adquate de lchantillon N, une rgle empirique facile appliquer mme si elle est contestable dun point de vue purement statistique consiste partir de lerreur, exprime en pourcentage, que lon est prt tolrer : N = 1/erreur2. Par exemple, si lon accepte une erreur de +/5 % au niveau de la prcision des rsultats, on obtient une taille dchantillon de 1/0,052, soit 400 rpondants. Les lments lis la prcision de la mesure sont centraux en analyse de donnes. Nous dtaillons la mthode de calcul de lintervalle de conance dans le focus 1.3. Les lments de discussion dpendant du principe de test statistique seront abords dans le chapitre 2.

Analyser pour dcider 11

* Focus 1.3

Lintervalle de conance
La prcision statistique dun test (proportion ou moyenne) sexprime en calculant lintervalle de conance, qui indique la marge derreur lorsquon gnralise une estimation obtenue sur un chantillon lensemble de la population reprsente. La longueur de lintervalle diminue lorsque la taille de lchantillon augmente. On retient la formule suivante pour calculer lintervalle de conance dune proportion : pz o : p = pourcentage observ dans lchantillon ; q = 1 p; z = valeur drive de la loi normale centre rduite, gale 1,96 si = 0,05 (degr de conance) ; = pourcentage rel dans la population mre ; n = taille de lchantillon. Lintervalle de conance dune moyenne m sur n individus avec un cart type la manire suivante : mz se calcule de pq pq p +z n n

m+z n n

Prenons lexemple suivant : un sondeur ralise une tude daudience par tlphone pour connatre les caractristiques sociodmographiques et les comportements notamment en termes de dpenses en SMS des tlspectateurs de la Super Star, mission de tl-ralit diffuse en prime time sur le cble et le satellite. Il slectionne 1 000 numros de tlphone par tirage alatoire simple dans la base de donnes des abonns de la chane (qui en compte 120 000 sur le cble et 2 100 000 sur le satellite). On pose lhypothse que les 1 000 personnes rpondent effectivement aux enquteurs. On constate que lmission absorbe 36,8 % de laudience des personnes interroges de moins de 35 ans, et que le montant moyen dpens par cette cible en SMS et appels tlphoniques est de 6,2 , avec un cart type de 2,2 . Le montant moyen dpens par ces abonns est de : 6, 2 1 96 , Soit : 6,06 6,33 Laudience moyenne des abonns de moins de 35 ans est de : 0, 368 1 96 , (0, 368 * 0, 632) (0, 368 * 0, 632) 0, 368 + 1 96 , 1 000 1 000 2, 2 2, 2 6, 2 + 1 96 , 1000 1000

Soit : 33,6 % 39,7 % Le sondage ralis permet donc destimer cette proportion avec une prcision absolue de 3,2 % (au degr de conance 0,95).

12

Analyse de donnes avec SPSS

Chapitre

SPSS

SPSS permet galement destimer lintervalle de conance dune mesure. Lexemple retenu ici servira de l rouge tout au long de cet ouvrage. Une enseigne de grands magasins souhaite ouvrir un nouveau point de vente, mais elle ne le fera que si le potentiel de march est sufsant. Une enqute a donc t ralise sur 400 rpondants, en face--face. Parmi les questions poses, les enquteurs ont relev lintrt des rpondants pour louverture du nouveau point de vente, ainsi que le montant quils seraient prts dpenser. Il est possible didentier lintervalle de conance dune moyenne avec SPSS en utilisant la procdure du test t pour chantillon unique. Ouvrez le chier exemple pointdevente.sav disponible comme tous les chiers dexercices sur le site de louvrage 1. Allez dans le menu Analyse > Comparer les moyennes > Test T pour chantillon unique Une bote de dialogue safche (voir gure 1.4).

Figure 1.4
Test t pour chantillon unique sous SPSS.

Faites glisser dans la bote de dialogue la variable tester montant qui correspond la question suivante : Quel montant moyen dpensez-vous par mois dans ce type de point de vente ? Lanalyse donne les rsultats prsents la gure 1.5.

Figure 1.5
Statistique sur chantillon unique.

Le premier rsultat donne le nombre de rpondants, la moyenne, lcart type et lerreur standard. Le second rsultat donne lintervalle de conance pour un degr de conance de 95 % qui se situe entre 144,55 et 162,46 (voir gure 1.6). Les lments dinterprtation lis la thorie des tests statistiques seront approfondis au chapitre 2.

Figure 1.6
Test sur chantillon unique.

1. Vous trouverez ce fichier ladresse : http://www.pearsoneducation.fr.

Analyser pour dcider 13

Notons galement quun des modules de SPSS (SamplePower) permet doptimiser la combinaison entre la puissance du test, lintervalle de conance et la taille de lchantillon. Lapproche est fonde sur des tests de moyenne et de diffrences de moyennes, des tests de proportions et de diffrences de proportions, des analyses de variance, entre autres.

2.3 LA

NOTION DE VARIABLE Le principe de modlisation, sous-jacent lanalyse des donnes, impose de dnir la notion de variable. La modlisation est entendue ici comme la ralisation dune reprsentation simplie dun phnomne, la variable tant lexpression du caractre observ dans la population. La formulation la plus simple dun modle vise dnir une relation de cause effet entre deux natures de variables : les variables indpendantes (ou variables explicatives) et les variables dpendantes (ou expliques). Dans ce modle simple, la variable indpendante reprsente la cause, dont leffet se mesure sur la variable dpendante (voir gure 1.7). Ce modle permet, par exemple, de reprsenter le lien entre la frquence dachat et la dlit au point de vente.

Figure 1.7
Relation causale simple.

Dautres variables peuvent intervenir dans cette relation directe entre la (ou les) variable(s) indpendante(s) et la (ou les) variable(s) dpendante(s) [Thitart et al. 1999, p. 339]. Dans le premier cas, leffet de la variable indpendante X sur la variable dpendante Y se mesure par lintermdiaire dune troisime variable dite mdiatrice . Lassociation ou la causalit observe entre X et Y rsulte du fait que X inuence Z qui son tour inuence Y. Cette variable Z le montant dpens par exemple peut intervenir dans la relation entre la frquence dachat et la dlit au magasin. Dans le second cas, la prsence de la variable modratrice modie lintensit (cest--dire lamplie ou la diminue) et/ou le signe de la relation entre la variable indpendante et la variable dpendante. On pourra mesurer leffet de cette variable modratrice par exemple en dcomposant la population en sous-populations (classes dge, segments de clients, etc.) et en testant la relation dans les sous-groupes pour y vrier le type deffet (voir gure 1.8). Figure 1.8
Effets mdiateur et modrateur.

Les tests statistiques mis en uvre pour mesurer ces relations seront slectionns en fonction de lobjectif de lenqute (voir section 3 : Mesurer laide dun questionnaire) et en fonction des variables collectes. Les variables sont de deux types : qualitatives : leurs modalits, cest--dire la manire dont les observations sont regroupes, ne peuvent tre calcules ;

14

Analyse de donnes avec SPSS

Chapitre

quantitatives : leurs modalits sont mesurables et les tests envisageables sont nombreux. Le marketing et plus largement les sciences sociales sintressent galement la mesure de phnomnes mentaux, telles les opinions, les attitudes ou encore les prfrences, au travers dindicateurs : les chelles de mesure. Ces dernires ont pour objet de fournir au rpondant un support dexpression de ces phnomnes complexes observer, le plus souvent sous la forme dchelles de notation : Lchelle nominale a pour principe dutiliser les nombres comme des tiquettes an de classer chacune des modalits. Les chelles nominales peuvent tre utilises pour identier des classes dindividus. Par exemple, on peut utiliser la nomenclature des catgories socioprofessionnelles (CSP) ou encore identier des marques lors dune tude de notorit assiste, identier des attributs de produits. Dans lchelle nominale, chacune des modalits de la variable est quivalente aux autres. Exemple : tes-vous ? 1. Un homme 2. Une femme Lchelle ordinale est une chelle de classement comme lchelle nominale, dans laquelle les nombres attribus chaque modalit ont une relation dordre avec un continuum sous-jacent. On peut, par exemple, utiliser une chelle ordinale pour classer des prfrences de marques. Lchelle ordinale permet en effet de dterminer les relations dordre en calculant les fractiles, les dciles et les mdianes partir de ces donnes (voir chapitre 2). Exemple : Notez de 1 5 la qualit gustative du produit X (1 tant la note la plus faible, 5 la note la plus leve) :
1 2 3 4 5

Lchelle mtrique possde les proprits des chelles nominale et ordinale, mais elle permet galement de comparer les distances entre les objets, les modalits tant spares par des espaces quidistants. Lexemple le plus courant est celui du thermomtre, la diffrence entre 0 C et 1 C tant la mme quentre 1 C et 2 C, etc. Lchelle mtrique est la plus couramment utilise en marketing, mme si pour ces mesures dattitudes les intervalles ne sont pas toujours quidistants. Appartiennent cette catgorie, lchelle de diffrentiel smantique dOsgood ou lchelle de Stapel, qui ont pour but de conduire llaboration de prols de rpondants, lchelle dintensit de Likert ou chelle daccord, les chelles dintention. Exemples : chelle dOsgood Avez-vous trouv que le got du produit X tait ?
Mauvais 1 2 3 4 5 Bon

Analyser pour dcider 15

chelle de Stapel Choisissez un nombre positif si vous pensez que le mot dcrit bien le produit X, un nombre ngatif si vous pensez que le mot ne dcrit pas bien le produit X, en notant de +5 5 :
Bon Utile Pratique etc. . . .

chelle de Likert
(Pas du tout daccord) 1 2 3 4 5 (Tout fait daccord)

chelle dintention Si la marque M lanait ce type de produit :


Je nachterai certainement pas ce produit 1 2 3 4 5 Jachterai certainement ce produit

SPSS

Dans SPSS, ces trois types de variables (nominale, ordinale et mtrique) doivent tre dnis dans la partie Afchage des variables de lditeur de donnes (lorsque le chier a t ouvert), dans la colonne Mesure.

(3)

Mesurer laide dun questionnaire


La construction dun questionnaire amne sinterroger sur la mesure des concepts. Comment mesurer, par exemple, la qualit du service ? Mme en cas dtudes se fondant sur une seule question pour mesurer un concept, il est recommand davoir recours des chelles de mesure. Lobjectif dune chelle est dviter davoir reprsenter un phnomne abstrait un construit par le biais dune seule et unique variable, en privilgiant lutilisation dindicateurs qui permettent de reprsenter les diffrentes facettes de ce construit. Ainsi, un charg dtude qui chercherait mesurer la satisfaction vis--vis dune marque pourrait poser une question unique : tes-vous satisfait ? et fonder son analyse sur cette seule rponse. De manire vidente, le fait de dvelopper une mesure de la satisfaction partir dun ensemble ditems (de libells) dont on sait (par des tudes pralables ou par le biais de la thorie) quils mesurent correctement la satisfaction, permet de collecter des rponses mieux orientes et destimer la abilit de la mesure effectue, non plus partir dune rponse mais plutt partir dune forme de rponse moyenne une srie de questions associes. On mesurera donc la satisfaction en interrogeant des clients sur la satisfaction globale, la propension recommander le produit et la probabilit de rachat par exemple.

16

Analyse de donnes avec SPSS

Chapitre

Ainsi, il est gnralement recommand dutiliser plusieurs items pour mesurer un concept et donc de commencer par chercher sil existe un outil de mesure du concept que lon souhaite valuer. Sil nexiste pas dchelle (parce que le concept est nouveau ou quil sapplique un domaine particulier), il faut en crer une.

3.1 LE

DVELOPPEMENT DES OUTILS DE MESURE Churchill, qui est souvent pris comme rfrence dans la construction dchelles de mesure, prcise que, pour remplir son vritable rle, le questionnaire doit susciter et maintenir lintrt du rpondant (Churchill, 1998, p. 343). Pour ce faire, le charg dtude doit se poser un certain nombre de questions an de limiter divers biais. Ces questions sont prsentes la gure 1.9.

Figure 1.9
Les tapes du dveloppement du questionnaire.

1. Le type de questionnaire et son mode dadministration 2. Le contenu des questions individuelles 3. La forme de rponse chaque question 4. La formulation de chaque question 5. La squence des questions 6. Les caractristiques physiques du questionnaire 7. Le prtest du questionnaire

La forme du questionnaire et son mode dadministration ne sont pas neutres. Lintroduction du questionnaire doit prsenter les objectifs de ltude et prciser le caractre condentiel de lenqute. Une phrase daccroche peut rassurer le rpondant et linciter rpondre de manire authentique. Le choix du contenu des questions est une tape fondamentale. Il est recommand de dnir le cadre conceptuel dans lequel se situent ltude et les concepts de base, laide dune revue de la littrature. Ltude des articles acadmiques et des ouvrages dj parus sur le sujet permet dapprofondir la dnition du concept tudi. Cette tape permet aussi de trouver des instruments de mesure prexistants qui peuvent tre rutiliss, traduits ou encore adapts. On utilise la plupart du temps des chelles de mesure prexistantes. An de valider dans un contexte franais ces instruments de mesure (souvent anglo-saxons), un certain nombre dtapes doivent tre respectes (voir focus 1.4).

* Focus 1.4

La traduction dchelles de mesure


Il existe diffrentes mthodes pour traduire un questionnaire : la mthode traditionnelle : le chercheur effectue seul la traduction ou avec laide de traducteurs professionnels. Cette mthode est peu recommande si le chercheur nest pas parfaitement bilingue ou si les traducteurs sont extrieurs au domaine de la recherche ; la mthode du comit : le chercheur runit un ensemble de chercheurs qui matrisent parfaitement la langue et qui sont spcialistes de son domaine de recherche. Tous les items sont traduits. Le problme de cette mthode est quil est difcile de runir un tel comit dexperts ;

Analyser pour dcider 17

la rtro-traduction : des chercheurs bilingues sont sollicits pour traduire le questionnaire. Les traductions sont ensuite remises des chercheurs dont la langue dorigine est celle du questionnaire, an quils le traduisent. Cette dernire version est ensuite compare avec la version originale pour reprer les ventuelles diffrences.

Lorsque le charg dtude ne trouve pas dchelle et souhaite dvelopper son propre outil de mesure, il est prconis de raliser une tude exploratoire (entretiens, mthode des incidents critiques). Par exemple, une recherche sur la satisfaction au travail des commerciaux fait ressortir plusieurs composantes : les relations avec les pairs, avec la hirarchie, avec les clients, etc. Une tude qualitative a ainsi t ralise auprs dun chantillon de 30 vendeurs, auxquels on demandait ce qui les satisfaisait dans leur travail. partir de la dnition retenue, on dresse ensuite une liste ditems partir de la littrature (items prexistants emprunts dautres chelles ou adapts) ou partir dune tude de terrain exploratoire (extraction de verbatims 1). Le pool ditems est ensuite soumis un ou deux panels dexperts (chercheurs ou praticiens du domaine) qui liminent les noncs ne leur paraissant pas adquats la mesure du concept. Il sagit ici dvaluer ce que lon appelle la validit faciale du concept (voir chapitre 3). Nous avons prsent au point 2.3 les diffrentes formes possibles dchelles. Dans un souci de neutralit et de symtrie, il faut veiller ce que lquilibre des rponses positives vs ngatives autour du point mdian plac au centre soit respect. Le choix du nombre dalternatives de rponse se fait par arbitrage : lattention des rpondants faiblit aussi avec le nombre de questions et de modalits de rponses. En ce qui concerne la formulation et la squence des questions, il est gnralement recommand dalterner lordre des questions et le sens des interrogations, an de limiter les effets de lassitude, de halo ou de contamination. Leffet de halo se manifeste lorsquune suite de questions est pose dans le mme sens : la personne interroge peut alors avoir tendance rpondre toujours de la mme manire alors que leffet de contamination concerne linuence directe dune question sur les questions suivantes. Enn, il est trs important de tester le questionnaire avant de ladministrer, dune part, pour vrier que toutes les questions sont bien comprises et quelles nengendrent pas de blocage et, dautre part, an de tester le temps ncessaire pour y rpondre. Une vingtaine de rpondants peuvent savrer ncessaires pour effectuer ce type de prtest de comprhension.

3.2 LE

CONCEPT DE MESURE Lacte de mesurer est lopration par laquelle on fait correspondre une donne collecte une grandeur considre comme capable de reprsenter le phnomne dcrit par la donne. Cette opration est affecte par un certain nombre dlments qui loignent la mesure idale de la mesure obtenue. Le modle de la vraie valeur (Evrard et al., 1997, p. 287) consiste dcomposer le rsultat dune mesure en ses diffrents lments : la vraie valeur (cense reprsenter la mesure parfaite) et les termes derreur (erreur alatoire et erreur systmatique), comme le montre lquation suivante :

1. Lextraction de verbatims fait partie des stratgies danalyse dun corpus textuel (type retranscriptions dentretiens). Les verbatims permettent de nourrir lanalyse de citations des personnes interroges.

18

Analyse de donnes avec SPSS

Chapitre

M (mesure obtenue) = V (vraie valeur) + Es (erreur systmatique) + Ea (erreur alatoire) La vraie valeur est la mesure idale , cest--dire celle qui correspondrait parfaitement au phnomne tudi. Elle est le plus souvent impossible atteindre. Lerreur systmatique (ou biais) provient du fait que linstrument de mesure peut prsenter un cart systmatique avec le phnomne tudi (par exemple, un biais li au manque de clart de lchelle, une surcharge du questionnaire, etc.). Lerreur alatoire provient du fait que le phnomne mesur par linstrument peut tre affect par des alas tels que la fatigue du rpondant, lhumeur, etc. Ces termes derreur ajoutent du bruit aux variables observes ; la mesure obtenue contient donc la fois la vraie valeur de la mesure et le bruit . Lorsque lon mesurera des corrlations ou des moyennes, par exemple, leffet mesur sera partiellement masqu par lerreur de mesure, ce qui entrane un affaiblissement de lintensit des corrlations mesures ou une moindre prcision de la moyenne calcule. Lanalyste doit donc sinterroger sur la qualit de linstrument de mesure quil construit et met en uvre. La validation dun questionnaire, par exemple, consistera donc tester les instruments de mesure utiliss (Hair et al., 1998, p. 117-118). Ces outils de mesure doivent rpondre deux critres principaux : la abilit et la validit. La abilit renvoie la cohrence entre les indicateurs censs mesurer le mme concept, alors que la validit dsigne la capacit dun instrument de mesure apprhender un phnomne. La validit : les instruments de mesure choisis doivent permettre dapprhender le mieux possible le phnomne mesurer. Il sagit de rduire lensemble des termes derreur an dtre en mesure de rpondre la question suivante : Mesure-t-on bien ce que lon cherche mesurer ? . La abilit : aprs stre assur de la validit des instruments de mesure, lanalyste peut envisager la abilit des mesures, en dautres termes le fait que si lon mesure un phnomne plusieurs fois avec le mme instrument, on doit obtenir le mme rsultat. Il sagit de sassurer de la cohrence interne de linstrument. Ce problme est concern par lerreur alatoire. De plus, aprs avoir diminu les erreurs de mesure par lamlioration de chacune des variables, lanalyste doit chercher dvelopper des mesures multiples, autrement dit des reprsentations de construits cohrentes, travers ce que lon nomme des chelles, soit lassociation de plusieurs variables dans la mesure composite dun phnomne (voir chapitre 3).

3.3 STRATGIES DANALYSE


Lanalyse des donnes nest pas une n en soi ; elle a pour objectif daider prendre une dcision sur la base dune information able et valide. Une stratgie danalyse doit donc tre dnie an de procder la modlisation dun ou de plusieurs phnomnes. Cette stratgie repose sur la mise en lumire progressive des rsultats et la complmentarit des techniques utilises, dues la nature des donnes et aux proprits des tests envisags. Les hypothses qui sous-tendent les diffrents tests doivent tre vries : certaines techniques seront utiles pour tudier les diffrences entre variables, dautres pour mettre en vidence leur dpendance, dautres encore visent classer les individus, etc. Toutes ces hypothses seront abordes lorsque nous dtaillerons lensemble de ces tests dans les chapitres suivants.

Analyser pour dcider 19

Dune manire gnrale, il est possible de reprsenter lensemble de ces techniques danalyse en trois phases successives (voir gure 1.10). Figure 1.10
Les stratgies danalyse.
1 Univarie Tris plat/description de lchantillon/recodage

Bivarie

Tris croiss/mesures dassociation

Multivarie

Descriptive : par groupes de variables Explicative : entre groupes

Source : adapt de Evrard et al., 2003.

Lanalyse univarie consiste examiner la distribution des modalits de rponse pour une variable : dans le cas dune variable nominale, par exemple, il sagit dun tri plat, cest-dire le dnombrement des observations correspondant chaque modalit de la variable. Lanalyse bivarie consiste tudier les relations entre deux variables. Dans le cas de variables nominales, il sagira dun tableau crois dnombrant les nombres dobservations correspondant chaque combinaison possible des deux variables, ou plus gnralement de mesures dassociation quantiant la relation (par exemple coefcient de corrlation pour des variables mtriques). Lanalyse multivarie permet de dpasser les techniques prcdentes en ce sens quelle laisse de ct la parcellisation de linformation induite par ces techniques. En effet, si le nombre de variables est lev, il est difcile de prendre en compte lensemble des combinaisons possibles. Lanalyse multivarie permet donc le traitement simultan de plusieurs variables. Lambition du charg dtude quant au traitement statistique peut se situer deux niveaux : dcrire les donnes : il sagira par exemple de dcrire une variable (moyenne, tris), de rechercher des diffrences entre les modalits dune ou de plusieurs variables (test statistique) ou encore de synthtiser et de visualiser un ensemble dinformations (analyse factorielle, typologie par exemple) ; expliquer les donnes : chaque mthode a ses exigences spciques en matire de proprit des variables (voir tableau 1.4). Tableau 1.4 : Panorama des mthodes envisageables
Mthodes descriptives Variables Nominale Variable Individu Ordinale Mtrique Analyse factorielle

Analyse factorielle des correspondances Typologie

20

Analyse de donnes avec SPSS

Chapitre
Mthodes explicatives Variables indpendantes Une variable dpendante Nominale Ordinale Mtrique Plusieurs variables dpendantes Nominale Mtrique Nominale Logit Analyse conjointe Analyse de variance Nominale Modles log-linaires quations structurelles Ordinale Mtrique Logit ordonn Ordinale Mtrique Rgression logistique Analyse discriminante

Dune manire gnrale, on peut classer les mthodes selon trois dimensions : descriptif/explicatif : cest la dimension principale en ce qui nous concerne, et celle qui structure les chapitres suivants. Les mthodes descriptives ont pour but de reprsenter les donnes ou les observations (frquences et tris croiss : chapitre 2 ; analyses factorielles : chapitre 3 ; typologie : chapitre 4), tandis que les mthodes explicatives ont pour objet la modlisation, autrement dit la liaison entre deux phnomnes (analyse de variance : chapitre 5 ; rgressions : chapitre 6 ; analyse conjointe : chapitre 7). Plus prcisment et cest la raison pour laquelle nous faisons le lien ici avec ce qui a t voqu lorsque nous avons prcis la notion de variable , les mthodes explicatives traitent des relations entre deux sous-ensembles de variables : les variables expliquer, dont on cherche dterminer les variations ; les variables explicatives, qui contribuent cette explication. types de variables traites : cette dimension doit tre prise en compte trs en amont, lors de la cration de linstrument de mesure. En effet, le recueil de donnes impose automatiquement une contrainte quant aux traitements envisageables, lesquels doivent donc tre anticips. Le tableau 1.4 reprend bien les mthodes envisageables suivant les types de variables traites. Il est important de garder lesprit que ces mthodes danalyse de donnes ont t essentiellement dveloppes dans des disciplines o les donnes sont majoritairement mtriques. Le marketing reposant sur des variables principalement non mtriques, il a t ncessaire dadapter les mthodes danalyse en introduisant des variables nominales dans des mthodes utilisant habituellement des variables mtriques (rgression avec variables binaires) ou en crant des mthodes utilisant ces variables qualitatives comme, par exemple, lanalyse des correspondances trs populaire en marketing ; nombre de variables traites : les mthodes descriptives ne sont limites en termes de variables traiter que par les capacits des logiciels utiliss. Les outils rcents comme

Analyser pour dcider 21

SPSS ou SAS permettent de traiter de trs larges volumes de donnes, et un nombre trs lev de variables. La plupart des mthodes explicatives ne peuvent traiter quune seule variable dpendante (ou expliquer). Seules lanalyse canonique, lanalyse discriminante multiple et les analyses multivaries de la variance (MANOVA) et de la covariance (MANCOVA) permettent de traiter plusieurs variables dpendantes. Ces dernires seront abordes dans le chapitre 5. Nous pouvons complter notre tour dhorizon de la mise en uvre des principales mthodes danalyse de donnes envisageables en marketing par quelques critres complmentaires : laccent sur les individus ou les variables (la typologie est plus frquemment utilise pour classer des individus alors que lanalyse factorielle est associe aux variables) ; la linarit (la rgression par exemple implique des hypothses de linarit des relations entre les variables tudies, alors que la segmentation ou la typologie peuvent saffranchir de ces hypothses) ; laspect paramtrique ou non paramtrique (on suppose dans de nombreux tests que les variables suivent des lois de distribution thoriques dpendant dun nombre ni de paramtres loi normale ou multinormale par exemple ; le charg dtude devra donc sassurer que ces hypothses implicites ont t satisfaites avant de raliser les tests).

Rsum
Lanalyse de donnes en marketing doit tre au service de la prise de dcision. Ce qui implique de respecter une dmarche rigoureuse faisant le lien entre le problme qui se pose au dcideur et la mthode mettre en uvre. Cette dmarche de recherche, de collecte, danalyse et dinterprtation de linformation dnit un marketing plus analytique, orient vers une logique doptimisation (Lilien et al., 2007). Aujourdhui, le charg dtudes dispose dun vaste ventail de mthodes, Internet ayant fait voluer la place traditionnellement dvolue aux approches quantitative et qualitative approches qui semblent dsormais converger grce, notamment, limportance nouvelle accorde aux donnes secondaires. Une fois les donnes collectes, lanalyste doit prendre en compte les lments lis la prcision de la mesure quil souhaite dvelopper, an de construire un instrument able et valide. Il mettra ensuite en place une stratgie danalyse reposant sur la mise en lumire progressive des rsultats et la complmentarit des techniques utilises, dues la nature des donnes et aux proprits des tests envisags.

Pour aller plus loin


Sur les tudes de march : Giannelloni J. C., Vernette E., Les tudes de march, Broch, Paris, 2001. Sur la dmarche de recherche en marketing : Evrard Y., Pras B., Roux E., Market. tudes et recherche en marketing, Nathan, Paris, 2003. Malhotra N., Decaudin J. M., Bouguerra A., tudes marketing avec SPSS, 5e d., Pearson Education, Paris, 2007.

22

Analyse de donnes avec SPSS

Chapitre

Exercices
EXERCICE 1
nonc

QUAND PAMPERS

COLLECTE DES DONNES

Scwallbach, prs de Francfort en Allemagne, plus de 1500 mres de famille frquentent chaque semaine le centre dinnovation de Procter & Gamble. Elles viennent prendre des couches pour les tester et remplissent, en change, des questionnaires. Dans lespace de jeu disposition, des chercheurs tudient les attitudes et comportements de bbs venus sy amuser une partie de leur journe. Plus loin, des pices au sol trs mou pour simuler la marche dun tout petit , et aux meubles gants, mettent les salaris du groupe dans la peau de jeunes enfants diffrents stades de leur volution. En France, les salaris en charge du marketing peuvent faire des sjours dimmersion dans des familles avec bbs, se levant la nuit avec les parents. Cette approche visant scruter les usages et leur volution sinscrit dans une nouvelle dmarche qui commence avec la traditionnelle bote remise la maternit. Des mailings prennent ensuite le relais. Les parents dun premier enfant sont en gnral avides dinformations : un site internet de la marque Pampers met en avant conseils et donnes, des jeux en ligne trs apprcis pour se mettre dans la peau dun bb, nourrissant dbats, changes, autant dinformations tudies de prs par les spcialistes de la marque. 1. Quel est le principal intrt de la dmarche de Pampers ? Quelle est la mthode utilise, et quels en sont les principaux avantages ? 2. Comment, votre avis, les quipes de Pampers valorisent-elles les donnes collectes ? Selon vous, quels outils danalyse ont-elles recours ? 3. Quel type de mthode, complmentaire, pourraient-elles mettre en place ? Argumentez.

* Solution

1. Le principal intrt de la dmarche de Pampers est de mettre le consommateur au centre du processus de collecte de donnes. La mthode utilise est lvidence qualitative. Elle permet dtudier en profondeur les processus de consommation en interrogeant les parents, plus particulirement les mres, et en observant les interactions mre-enfant. De plus, en simulant les attitudes et les comportements des bbs, elle permet surtout dimmerger les salaris du groupe dans la peau de jeunes enfants diffrents stades de leur volution. Nous sommes ici dans une dmarche oriente march, o la dissmination de linformation sur les consommateurs vers lensemble de lorganisation tient une place importante. Deux mthodes sont donc principalement utilises : une exprimentation Scwallbach, o les chercheurs peuvent observer et tester les comportements des bbs ; lethnographie en France, o les marketeurs font des sjours dimmersion dans des familles. Des outils quantitatifs denqute classiques prennent ensuite le relais partir des donnes collectes dans les maternits. 2. Deux dimensions doivent tre prises en considration. Les donnes issues des approches qualitatives font lobjet danalyses de plusieurs ordres : des analyses de contenu par exemple, an de faire merger des thmes, des discours, mais galement un traitement des

Analyser pour dcider 23

donnes issues de lexprimentation o il sagit dobserver limpact sur certaines variables dune variable dont on contrle les effets. Pour traiter des donnes dexprimentation, on pourra utiliser lanalyse de variance (voir chapitre 4) ou lanalyse conjointe (voir chapitre 7), par exemple, en fonction des contraintes lies la nature des variables. 3. Les donnes issues de la campagne de marketing direct et provenant du site de marque sont dune grande richesse et peuvent nourrir de nombreuses analyses. On peut tudier les retours de la campagne de marketing direct en mettant en relation les prols sociodmographiques des parents ayant reu la bote dchantillons avec la probabilit dachat. En ce qui concerne le site internet, les chiers logs, ou chiers regroupant lensemble des vnements survenus sur un serveur, peuvent servir de base des analyses pousses, comme le fait Amazon.com pour customiser sa page daccueil en fonction des prols de navigation des internautes.

EXERCICE 2
nonc

LAUDIENCE

DE LA SUPER STAR

Reprenons lexemple de la mesure daudience utilise pour illustrer lintervalle de conance. Un sondeur ralise une tude daudience par tlphone pour connatre les caractristiques sociodmographiques et les comportements des tlspectateurs de la Super Star, mission de tl-ralit diffuse en prime time sur le cble et le satellite. Il slectionne 1 000 numros de tlphone par tirage alatoire simple dans la base de donnes des abonns de la chane (qui en compte 120 000 sur le cble et 2 100 000 sur le satellite). On pose lhypothse que les 1 000 personnes rpondent effectivement aux enquteurs. On constate que lmission absorbe 36,8 % de laudience des personnes interroges de moins de 35 ans, et que le montant moyen dpens par cette cible en SMS et appels tlphoniques est de 6,2 , avec un cart type de 2,2 . 1. Quel aurait t lintervalle de conance si ltude daudience avait port sur 5 000 abonns de la chane ? 2. Un annonceur souhaite investir en devenant sponsor de lmission condition quelle ralise 40 % daudience sur les moins de 35 ans. Lui recommanderiez-vous linvestissement publicitaire ?

* Solution

1. Si lon avait interrog 5 000 abonns de la chane, on aurait calcul lintervalle de conance de la manire suivante : p = 0,368 q = 1 p = 0,632

Soit : 35,4 %

38,1 %

Le sondage ralis permet donc destimer cette proportion avec une prcision absolue de 2,99 % (au degr de conance 0,95). En augmentant la taille de lchantillon, on diminue lamplitude de lintervalle de conance.

24

Analyse de donnes avec SPSS

Chapitre

2. Dans le cadre de la premire tude daudience, lintervalle de conance se situait entre 33,8 % et 39,7 % (au degr de conance 0,95). La borne suprieure restant en de de la mesure plancher souhaite par lannonceur, il nest donc pas souhaitable de raliser linvestissement publicitaire. Il peut tre intressant de refaire le calcul pour un degr de conance plus faible, 0,90 (z = 1,64), titre dillustration. On obtient alors les rsultats suivants :

Soit : 34,3 %

39,3 %

EXERCICE 3
nonc

LENQUTE

POINT DE VENTE

Reprenons lexemple sur les points de vente que nous avons utilis dans la section 2.2 (pointdevente.sav). Si lon rsume lensemble des questions de lenqute dans le tableau suivant, on obtient : Frquentez-vous ce point de vente au moins toutes les deux semaines ? Quel montant moyen dpensez-vous par mois dans ce type de point de vente ? Seriez-vous prt faire vos achats dans ce (nouveau) point de vente ? combien estimez-vous le prix moyen dune paire de chaussures dans ce point de vente ? Vous dcririez-vous comme un auditeur rgulier de radio ? Quel type de programme de radio coutez-vous le plus souvent ? Regardez-vous rgulirement le journal tlvis ? Quel journal TV regardez-vous le plus frquemment ? Lisez-vous la presse quotidienne ? Quelle rubrique de presse quotidienne lisez-vous le plus souvent ? tes-vous abonn un titre de presse magazine ? La dcoration de la boutique est importante mes yeux. Je prfre un point de vente situ moins de 30 minutes de chez moi. Je prfre tre conseill(e) par des vendeurs(ses). Jaime que les collections soient originales. Jaime quil y ait de nombreuses rfrences dans les collections. Jaime quil y ait des marques connues dans les collections. Je prfre une dcoration sobre. Je prfre une dcoration sophistique. Je prfre une musique dambiance classique. Je prfre une musique dambiance rock. Quelle est votre anne de naissance ? Quel est votre niveau dtude ?

Analyser pour dcider 25

Exercices

1. 2.

Quel est votre statut marital ? En incluant les enfants de moins de 18 ans, quelle est la taille de votre foyer ? Quels sont approximativement les revenus de votre foyer ? Quel est votre sexe ? Possdez-vous une carte de dlit de lenseigne ? Dcrivez le type dchelle associ chacune des questions du tableau. Donnez trois exemples de tests que vous pourriez mettre en uvre partir de ces variables.

* Solution

1. Vous pouvez reprendre le tableau en y incluant le type de variable.


Frquentez-vous ce point de vente au moins toutes les deux semaines ? Nominale Quel montant moyen dpensez-vous par mois dans ce type de point de vente ? Seriez-vous prt faire vos achats dans ce (nouveau) point de vente ? Numrique chelle mtrique

combien estimez-vous le prix moyen dune paire de chaussures dans Numrique ce point de vente ? Vous dcririez-vous comme un auditeur rgulier de radio ? Quel type de programme de radio coutez-vous le plus souvent ? Regardez-vous rgulirement le journal tlvis ? Quel journal TV regardez-vous le plus frquemment ? Lisez-vous la presse quotidienne ? Quelle rubrique de presse quotidienne lisez-vous le plus souvent ? tes-vous abonn un titre de presse magazine ? La dcoration de la boutique est importante mes yeux. Je prfre un point de vente moins de 30 minutes de chez moi. Je prfre tre conseill(e) par des vendeurs(euses). Jaime que les collections soient originales. Jaime quil y ait de nombreuses rfrences dans les collections. Jaime quil y ait des marques connues dans les collections. Je prfre une dcoration sobre. Nominale Nominale (chelle) Nominale Nominale (chelle) Nominale Nominale (chelle) Nominale chelle mtrique chelle mtrique chelle mtrique chelle mtrique chelle mtrique chelle mtrique chelle mtrique

26

Analyse de donnes avec SPSS

Chapitre

Je prfre une dcoration sophistique. Je prfre une musique dambiance classique. Je prfre une musique dambiance rock. Quelle est votre anne de naissance ? Quel est votre niveau dtude ? Quel est votre statut marital ? En incluant les enfants de moins de 18 ans, quelle est la taille de votre foyer ? Quels sont approximativement les revenus de votre foyer ? Quel est votre sexe ? Possdez-vous une carte de dlit de lenseigne ?

chelle mtrique chelle mtrique chelle mtrique Numrique Nominale (chelle) Nominale (chelle) Numrique Nominale (chelle) Nominale Nominale

2. De nombreux tests sont envisageables : a. un tri crois entre le montant moyen dpens dans le point de vente et le niveau dtudes par exemple, an de mettre en vidence un impact de la CSP sur les achats ; b. une analyse typologique an de classer les individus de lenqute en fonction de leur prol de rponse ; c. une analyse de variance multiple (MANOVA) dont lobjet serait dexpliquer le montant moyen dpens par une srie de variables explicatives comme, par exemple, le niveau dtudes, le statut marital, etc.

Analyser pour dcider 27

Exercices

Chapitre

Dcrire les donnes


1. Description dune variable..........30 2. Analyses bivaries.....................36 3. Thorie des tests statistiques........39

Exercices 1. Les tests ....................................45 2. Applications SPSS : lenqute point de vente .......46

La description des donnes est une tape importante de la dmarche danalyse. La plupart des enqutes se limitent cette tape, qui donne un premier niveau de lecture des rsultats ou lidentication de certaines relations entre des variables de ltude. Cette tape peut servir de fondement, dune part, des analyses plus pousses, dont lobjectif est de simplier les donnes (analyses factorielles par exemple), de les classer (typologies), dautre part, des mthodes plus sophistiques, de nature explicative (rgressions, analyses de variance, analyse conjointe, etc.). Ce chapitre a pour objectif de prsenter les principales mthodes de description des donnes an de produire une premire analyse de ces donnes collectes lors dune enqute. Aprs avoir abord la nature des variables, nous tudierons les tris croiss et les principaux tests statistiques associs, ainsi que les tests dhypothses paramtriques et non paramtriques.

29

(1)

Description dune variable


On appelle variable lensemble des valeurs observes sur les diffrents individus pour une caractristique donne (Tenenhaus, 1996). Une variable est qualitative ds lors quelle a pour valeur des modalits ; elle peut tre nominale (lorsque lensemble des modalits ne possde pas de structure particulire) ou ordinale (lorsque lensemble des modalits est ordonn). Une variable est considre comme quantitative ou mtrique lorsque ses modalits peuvent tre mesures (par exemple lge, la valeur dune action, etc.).

1.1 DCRIRE

UNE VARIABLE QUALITATIVE La description dune variable qualitative consiste prsenter les effectifs, cest--dire le nombre dindividus de lchantillon pour chaque modalit de la variable, et les frquences, cest--dire le nombre de rponses associes aux modalits de la variable tudie. En effet, dans de nombreux cas, le charg dtude cherche rpondre une srie de questions ne concernant quune seule et mme variable.

SPSS

Il existe plusieurs possibilits dans SPSS pour dcrire les donnes collectes. On peut par exemple, dans un premier temps, gnrer un rapport sur les observations pour sassurer quelles ne comportent pas derreurs de saisie, de valeurs aberrantes (Analyse > Rapport > Rcapitulatif des observations) ou plus simplement pour prendre connaissance des variables dans un tableau synthtique, ce qui savre souvent utile en dbut danalyse (Outils > variables). La procdure Frquence permet dobtenir les afchages statistiques et graphiques qui servent dcrire des variables quantitatives et qualitatives. Pour obtenir un tableau deffectifs et de frquences pour une ou plusieurs variables dans SPSS, ouvrez le chier de donnes pointdevente.sav , slectionnez dans le menu Analyse > Statistiques descriptives > Effectifs, puis procdez la description de la variable de type nominal marital correspondant la question : Quel est votre statut marital ? . La bote de dialogue de la gure 2.1 apparat.

Figure 2.1
Bote de dialogue de la procdure Frquence.

Figure 2.2
Description de la variable marital.

30

Analyse de donnes avec SPSS

Chapitre
La gure 2.2 correspond un tri plat de la variable qualitative marital ; en dautres termes, il reprend les effectifs et les frquences (prsents ici en pourcentage) pour une variable. Lintrt du tri plat est de fournir une description rapide de la variable tudie. Le tableau montre immdiatement que 65,8 % des individus de lchantillon interrog sont en couple et que 23,3 % sont clibataires. Ces rsultats peuvent galement tre visualiss sous forme de graphiques (diagrammes en btons, en secteurs), dans lesquels les surfaces associes aux diffrentes modalits sont proportionnelles leur frquence, exprime en valeur ou en pourcentage, comme le montre la gure 2.3.

Figure 2.3
Diagramme en secteurs des effectifs de la variable marital.

Mo = Me = X

1.2 DCRIRE

UNE VARIABLE QUANTITATIVE Plusieurs critres permettent de dcrire une variable quantitative : les mesures de la tendance centrale : moyenne, mdiane, mode ; les mesures de la dispersion : tendue, variance, cart type, coefcient de variation ; les mesures de la distribution : asymtrie, aplatissement ; les reprsentations graphiques : histogrammes ou botes moustaches, par exemple.

Mesures de la tendance centrale


Les mesures de la tendance centrale ont pour objet de rsumer la srie dobservations par une valeur considre comme reprsentative. La plus frquemment employe est la moyenne, ou somme des valeurs de toutes les observations divise par leffectif ; celle que lon utilise le plus souvent est la moyenne arithmtique. La moyenne rvle la tendance centrale en ce sens que les rponses se trouvent rparties de part et dautre de la moyenne. Si certaines valeurs sont trs loignes les unes des autres, elles peuvent avoir une inuence importante sur la moyenne. Dans ce cas, il vaut mieux utiliser la mdiane, qui nest pas sensible aux valeurs aberrantes ou extrmes (outliers). La mdiane reprsente la valeur audessus et au-dessous de laquelle se situent la moiti des observations, cest--dire le 50e centile (voir focus 2.1 ci-aprs). Le mode reprsente la valeur prsentant la plus grande frquence doccurrence. Si plusieurs valeurs la fois prsentent la plus grande frquence doccurrence, chacune dentre elles est un mode.
Dcrire les donnes 31

* Focus 2.1

Les fractiles
Les fractiles sont les valeurs dune variable quantitative qui divisent les donnes tries en classes par centime. Les quartiles (25e, 50e et 75e centiles) divisent les observations en quatre classes de taille gale. On les dnit dans SPSS partir de la bote de dialogue Effectifs > Statistiques (voir gure 1.1), en slectionnant Partition en n classes gales (n dnissant le niveau de partition souhait). Vous pouvez galement spcier des centiles particuliers (par exemple le 95e centile), autrement dit les valeurs au-dessus de 95 % des observations.

Mesures de la dispersion
Les mesures de la dispersion reposent sur les indicateurs suivants : ltendue, la variance, lcart type et le coefcient de variation. Ltendue (ou intervalle) est la diffrence entre la plus grande et la plus petite des valeurs observes. La variance est la mesure de la dispersion autour de la moyenne, gale la somme des carrs des carts par rapport la moyenne, divise par le nombre dobservations moins un. Lorsque les donnes se concentrent autour de la moyenne, la variance est faible. Si les donnes sont disperses autour de la moyenne, la variance est leve. Il sagit dune mesure plus ne de la dispersion, au sens o toutes les donnes sont prises en compte. En revanche, elle est sensible aux valeurs extrmes. Lcart type est la mesure de la dispersion autour de la moyenne, exprime dans la mme unit que la variable. Lcart type est la racine carre de la variance. On lcrit de la manire suivante :

s=

(Xi X )
i =1

n 1

Le coefcient de variation est le rapport de lcart type la moyenne (

), exprim

en pourcentage. Son objet est de mesurer le degr de variation de la moyenne dun chantillon lautre, lorsque ceux-ci sont issus de la mme distribution.

Mesures de la distribution
On mesure la symtrie et la forme de la distribution par lasymtrie et laplatissement. Ces statistiques sont prsentes avec leur erreur standard. Le coefcient de symtrie (skewness) mesure lasymtrie dune distribution. Une distribution normale est symtrique (voir gure 2.4), cest--dire que les valeurs sont les mmes de part et dautre du centre de la distribution, et possde une valeur de skewness de 0. Une distribution avec un skewness positif signicatif est une distribution asymtrique droite (la distribution prend la forme dune longue queue droite) et une distribution avec un skewness ngatif signicatif est une distribution asymtrique gauche (la distribution prend la forme dune longue queue gauche). Cette asymtrie sexplique par le fait que les carts sont plus importants dans une direction que dans lautre. Le coefcient daplatissement (kurtosis) permet de mesurer le relief ou la platitude dune courbe issue dune distribution de frquences. En dautres termes, le coefcient daplatissement permet de mesurer le degr de concentration des observations dans les queues de la courbe. Le coefcient de kurtosis est de 0 pour une distribution normale (gaussienne).

32

Analyse de donnes avec SPSS

Chapitre

Un kurtosis ngatif indique donc que les queues comptent un plus grand nombre dobservations que dans une distribution gaussienne. Les coefcients de kurtosis et de skewness peuvent tre utiliss pour sassurer que les variables suivent une distribution normale, condition ncessaire pour de nombreux tests statistiques. On estime que le coefcient de symtrie ou skewness doit tre infrieur 1 et le coefcient daplatissement ou kurtosis doit tre infrieur 1,5 pour considrer que la variable suit bien une loi normale. Figure 2.4
Reprsentation dune distribution normale.

Mo = Me = X

SPSS

Reprenons notre exemple avec SPSS (pointsdevente.sav) : rappelez la bote de dialogue de la procdure prcdente (Effectifs) en cliquant sur licne dans la barre doutils. Procdez aux mmes oprations mais cette fois pour la variable montant. Dans la bote de dialogue Effectifs que vous venez de rappeler, cliquez sur longlet Statistiques et cochez les statistiques de mesure de la tendance centrale, de dispersion et de distribution, puis slectionnez un graphique (un histogramme avec courbe gaussienne par exemple) pour reprsenter la distribution. Les gures 2.5 et 2.6 reprennent les statistiques descriptives de la variable montant.

Figure 2.5
Description de la variable montant.

Dcrire les donnes 33

Figure 2.6
Reprsentation dun graphique de la variable montant.

Figure 2.7
Cration dune bote moustaches.

Le montant moyen dpens dans le point de vente est de 153,51 , avec un cart type de 91,15 . Pour 59 rpondants, le montant est nul, cest--dire quil sagit de non-clients du magasin. En termes de dispersion, la variance est leve (8 307,9) en raison de valeurs extrmes importantes, ce qui est conrm par lcart type. On constate que lasymtrie pour la variable montant est lgrement ngative (0,67).

Reprsentations graphiques
En ce qui concerne les reprsentations graphiques, les frquences peuvent tre reprsentes par des histogrammes et des graphiques en secteurs, comme nous lavons vu prcdemment. Pour visualiser la rpartition des frquences, les diagrammes en btons sont souvent pertinents. La ralisation des graphiques dans SPSS seffectue soit partir des botes de dialogue des diffrents tests (dans notre cas, le menu Effectifs), soit directement dans le menu Graphes. Parmi les options qui vous sont proposes, slectionnez Botes de dialogues hrites dans le menu Graphes, puis de nouveau la variables montant. Slectionnez le graphique Bote moustaches, puis, dans Donnes du diagramme, loption Analyse par variable (voir gure 2.7).

34

Analyse de donnes avec SPSS

Chapitre
La bote moustaches est une reprsentation graphique intressante car elle permet de rcapituler une variable numrique en reprsentant la mdiane, les quartiles et les valeurs extrmes. Cliquez sur Dnir : on vous propose dtiqueter les observations en utilisant une variable de type numrique ou une variable textuelle an didentier les valeurs extrmes. Si vous ne choisissez rien, les numros dobservation serviront tiqueter ces valeurs. Nous obtenons le graphique reprsent la gure 2.8.

Figure 2.8
Reprsentation de la variable montant sous forme de bote moustaches.

Lintrt de cette reprsentation est quelle permet de visualiser de manire compacte la dispersion des donnes. La gure 2.8 montre des valeurs extrmes qui apparaissent isoles du graphique. On peut donc observer que le montant dpens varie entre 444 (observation n 43) et 0 (moustache infrieure), avec une mdiane qui partage la bote centrale et qui est de 172 . Il est possible daller plus loin dans la description des variables en slectionnant les observations sur lesquelles on souhaite faire porter lanalyse. On peut notamment chercher savoir si les hommes dpensent en moyenne plus ou moins que lensemble de la population. Pour ce faire, il faudra ltrer les observations en fonction du sexe des rpondants. Dans le menu Donnes, appelez la bote de dialogue Slectionner les observations puis, dans la partie Slectionner, cliquez sur Selon une condition logique. Pour ne slectionner que les hommes, vous devez faire glisser la variable sexe en prcisant la condition : sexe = 1 (1 tant ltiquette retenue pour les hommes). Vous obtenez la bote de dialogue de la gure 2.9.

Figure 2.9
Bote de dialogue Slectionner des observations.

Dcrire les donnes 35

Dans la fentre de rsultats, on obtient un montant moyen dpens par les hommes de 155,89 , avec un cart type de 95,31 , montants lgrement suprieurs la dpense moyenne de lchantillon. On remarque galement que les hommes reprsentent un peu plus de la moiti des rpondants (204 observations).

(2)

Analyses bivaries
Lexamen de variables uniques permet une premire lecture intressante des rsultats mais elle ne prsente pas de vritable intrt en termes danalyse. Les descriptions faites sur les variables soulvent toute une srie de questions sur leurs relations, qui devront tre mises en lumire en les rapprochant deux deux dans des analyses bivaries. Les tris croiss, par exemple, permettent dexaminer les relations entre deux ou plusieurs variables. Ces relations peuvent tre symtriques lanalyse cherche mesurer la liaison entre les deux variables et en tester la signication , ou dissymtriques lanalyse cherche expliquer les variations dune variable dpendante par les variations dune variable indpendante (Evrard et al., 2003). Ce dernier cas constituant le plus souvent une occurrence particulire des mthodes multivaries explicatives (corrlations, ANOVA, etc.), il sera trait dans les chapitres suivants.

2.1 TRIS

CROISS Les tableaux croiss deux ou plusieurs modalits sont en gnral complts par des mesures dassociation qui permettent de dmontrer la signication statistique dune association observe entre les variables. Ces tests seront dvelopps dans la section suivante. Les tris croiss ont pour objet de rassembler dans un tableau unique les distributions de frquences de deux ou plusieurs variables. Ce premier outil danalyse des relations entre deux variables, ou relations bivaries, permet de rpondre des questions qui se posent ds lorigine de ltude (par exemple : Les hommes dpensent-ils plus que les femmes sur le point de vente ? ; Le sexe et les revenus ont-ils une inuence sur le montant moyen dpens ? ) ou de mettre en lumire des relations dont on souponne lexistence lissue des traitements raliss variable par variable. Le principe du tableau crois est de proposer une ventilation des frquences de rponse par variable et par modalit (voir gure 2.10).

SPSS

Il existe deux approches pour gnrer un tableau crois dans SPSS. Vous pouvez crer un tableau crois depuis le menu Analyse > Statistiques descriptives > Tableaux croiss ou bien depuis le menu Analyse > Tableaux > Tableaux personnaliss Nous utiliserons ici la seconde possibilit. Pour ventiler les montants moyens dpenss en fonction du sexe nous avons dj obtenu les donnes variable par variable , faites glisser la variable montant de la liste des variables vers la zone Lignes du tableau. Lunit danalyse propose par dfaut est la moyenne, la variable tant mtrique. Puis faites glisser la variable sexe de la liste vers la zone Colonnes du tableau.

Figure 2.10
Tri crois du montant moyen dpens en fonction du sexe.

36

Analyse de donnes avec SPSS

Chapitre
Poursuivons lexploration en introduisant une troisime variable : les revenus. Lintroduction dune troisime variable est pertinente si elle permet dafner lassociation entre les deux variables. Rappelez la bote de dialogue Tableaux personnaliss et faites glisser la variable revenus de la liste vers la zone Colonnes du tableau. Le tableau obtenu est relativement difcile lire, car trop large. Double-cliquez sur le tableau obtenu dans votre feuille de rsultats SPSS pour ouvrir un tableau pivotant. Le tableau pivotant vous permet dinverser lignes et colonnes. On obtient la gure 2.11 ci-aprs.

Figure 2.11
Tri crois du montant moyen dpens en fonction du sexe et des revenus.

On constate que les montants moyens dpenss augmentent a priori en fonction des revenus, relation qui apparat relativement moins vidente en fonction du sexe. Les tris croiss ne nous permettent pas de dduire quoi que ce soit quant au type de relation existant entre les variables. Avant de conclure une ventuelle relation entre le montant moyen dpens et les revenus ou le sexe, le charg dtude doit donc mesurer la force dassociation entre ces variables. Sil souhaite tudier linuence dune variable sur une autre, il devra mettre en uvre le test appropri (voir la section 3 du chapitre).

2.2 TESTS DASSOCIATION

DE DEUX VARIABLES

Les tris croiss prsentent la distribution des frquences de rponse pour deux ou plusieurs variables mises en relation mais ils ne permettent pas de dmontrer lexistence de cette association du point de vue statistique. Pour mesurer vritablement la relation entre les variables, il est ncessaire de mettre en place des tests de signication statistique de lassociation. Nous aborderons de manire plus prcise la thorie des tests statistiques dans la section 3 de ce chapitre.

Test du khi-deux
Le test le plus couramment utilis est celui du khi-deux (2), car il consiste tester la signication statistique dune association de deux variables qualitatives (nominales ou ordinales). Plus prcisment, il a pour objet de tester lindpendance des variables dans un tableau crois en comparant la distribution observe (Oij) sur lchantillon une distribution thorique (Tij) qui correspond lhypothse que lon veut tester. Le 2 observ sur lchantillon se calcule de la manire suivante : 2 =

Dcrire les donnes 37

La loi du khi-deux suit une distribution asymtrique dont la forme dpend du nombre de degrs de libert (DDL). Le nombre de degrs de libert varie en fonction du nombre de modalits des variables compares et se calcule de la manire suivante : n 1 p 1 (avec n : modalits de la 1re variable et p : modalits de la 2e variable). On rejettera lhypothse nulle (pas dassociation entre les variables) si le 2 calcul est suprieur la valeur de rfrence du 2 se trouvant dans la table de khi-deux pour n degrs de libert (lignes) et pour un (niveau de prcision donn en colonnes). Pour interprter la valeur du 2, il est prfrable de se rfrer au seuil de signication statistique (> 0,05 par exemple) plutt qu la valeur du 2 qui varie selon le nombre de degrs de libert. Le test du khi-deux sobtient par la procdure des tableaux croiss vue plus haut (Analyse > Statistiques descriptives > Tableaux croiss) et peut tre slectionn dans le menu Statistiques, comme lindique la gure 2.12. Figure 2.12
Bote de dialogue du tableau crois et test du khi-deux.

Si lon cherche tablir le prol des clients les plus dles en croisant le statut marital et la possession dune carte de dlit, par exemple, le test du khi-deux permettra de dnir si ces deux variables sont indpendantes. Il est important de noter que ce test est assez sensible la taille de lchantillon et que chaque case du tableau doit comporter au moins cinq observations (voir gures 2.12 et 2.13). Figure 2.13
Tableau crois des variables marital/ carte.

Nous avons cr un tableau crois dans SPSS selon la procdure prsente plus haut et slectionn le test du khi-deux dans le menu Statistiques de la bote de dialogue Tableaux croiss. Conformment ce que nous pouvions penser a priori, la valeur du 2 est la fois leve et suprieure la valeur critique correspondant au seuil de signication statistique de 0,05 (nous obtenons 0,035). Ce rsultat nous permet de rejeter Ho ( il nexiste pas de lien entre les variables ) et de conclure quil existe bien une relation entre le statut marital et la possession dune carte de dlit dans la population observe. 38
Analyse de donnes avec SPSS

Chapitre

Figure 2.14
Test du khi-deux des variables marital/carte.

Autres tests
Dans le cas particulier des tableaux carrs ou 2 2 (2 lignes et 2 colonnes), qui comparent deux variables deux modalits, il est recommand dappliquer une correction au 2, ou dutiliser le coefcient phi (). Celui-ci correspond la racine carre du 2 divis par la taille de lchantillon, soit : = (2/n) Le coefcient de contingence (C) peut tre appliqu pour des mesures dassociation sans contrainte de taille de tableau. Lindicateur oscille entre une borne infrieure de 0 lorsquil ny a aucune association (lorsque 2 = 0) et une borne suprieure infrieure 1. Cette valeur maximale du coefcient dpend de la taille du tableau (nombre de lignes nombre de colonnes), raison pour laquelle il ne doit tre employ que pour comparer des tableaux de mme taille. On le calcule de la manire suivante : C = (2/2+n) Le V de Cramer est un coefcient norm, cest--dire quil peut atteindre 1, quelle que soit la taille du tableau. Il sagit dune version modie du coefcient phi (). Il est not : V= Le coefcient dassociation prdictive (lambda) permet de mesurer le pourcentage damlioration de la valeur dune variable nominale dpendante en fonction de la valeur de la variable nominale indpendante, celle-ci tant utilise comme pivot. Le lambda est un coefcient dissymtrique, cest--dire que le rsultat varie selon la variable qui sert de pivot (ainsi dans la rgression, par exemple).

(3)

Thorie des tests statistiques


Les tests statistiques reposent sur le principe dinfrence, cest--dire le fait de procder des gnralisations sur les comportements dune population. Ils sont fonds sur des mesures effectues sur des variables ou sur des facteurs partir dobservations ralises sur un chantillon de cette population. Lobjectif de la statistique dans la logique infrentielle est donc de tester des hypothses formules essentiellement sur la base dune thorie prexistante ou de rsultats antrieurs.

Dcrire les donnes 39

3.1 LHYPOTHSE

STATISTIQUE

Une hypothse statistique est un nonc quantitatif concernant les caractristiques dune population ou, plus prcisment, une afrmation portant sur une ou plusieurs variables. Elle se prsente traditionnellement sous la double forme dune premire hypothse, appele hypothse nulle, et dune seconde hypothse, appele hypothse alternative. Son objectif est de rfuter lhypothse nulle, laquelle concerne le plus souvent un statu quo ou une absence de diffrence, au prot de lhypothse alternative. Exemple : on peut poser lhypothse nulle Ho quil nexiste pas de diffrence de ventes entre les points de vente situs en centre-ville et ceux de la priphrie urbaine, et lhypothse alternative H1 quelles sont diffrentes en centre-ville et en priphrie urbaine. Les tests statistiques tant conus pour la rfutation dhypothses et non pour leur conrmation, lhypothse alternative est celle qui sera accepte si lhypothse nulle est rejete. Accepter une hypothse revient donc dire que lhypothse est non rejete plutt quaccepte, cest--dire que les donnes recueillies au cours dune exprience particulire sont compatibles avec lhypothse alternative propose. Lobjectif de lanalyse de donnes est donc de prendre une dcision : en loccurrence, rejeter ou non lhypothse nulle Ho. Les tests tant fonds sur des informations incompltes issues dobservations portant sur un chantillon de la population, il est ncessaire de dnir le seuil de signication du test, seuil formul en pourcentage de chances de rejeter lhypothse nulle alors quen ralit celle-ci tait vraie. Le seuil de signication est habituellement not et exprim en pourcentage. Le choix du seuil est li au niveau de risque accept (1 % ou 5 % tant les valeurs usuelles). Son complment (1 ), appel seuil de conance, correspond au pourcentage de cas o on acceptera lhypothse nulle juste titre. On appelle erreur de type I le fait de rejeter, la suite des rsultats dun test statistique, une hypothse qui serait en ralit vraie (condamner un innocent) et erreur de type II lerreur lie au fait daccepter une hypothse qui serait en ralit fausse (innocenter un coupable). La probabilit de commettre ce type derreur est note ; on appelle puissance du test son complment (1 ), lequel correspond la probabilit de rejeter une hypothse qui serait rellement fausse (voir tableau 2.1). Tableau 2.1 : Types derreurs dans un test statistique
Situation dans la population Ho vraie Ho accepte Dcision Ho rejete Erreur de type I (seuil de signication = ) Dcision correcte (puissance du test = 1 ) Dcision correcte (seuil de conance = 1 ) Ho fausse Erreur de type II ()

Bien que l tablisse le niveau de signication du test, cest la puissance du test (1 ) qui donne une estimation de la probabilit de trouver des diffrences signicatives si elles existent dans les donnes. Pourquoi, ds lors, ne pas prendre en compte l et le en tant que niveaux de conance ? La raison voque est que lerreur de type I et lerreur de

40

Analyse de donnes avec SPSS

Chapitre

type II sont inverses : plus lerreur de type I devient restrictive (proche de 0) et plus la probabilit dune erreur de type II augmente ; de mme, rduire lerreur de type I rduit la puissance du test. Lanalyste doit donc trouver le juste quilibre entre le degr de conance () et la puissance du test qui en rsulte. La seule manire de faire baisser simultanment et est daugmenter la taille de lchantillon tudi.

3.2 LES

TESTS DHYPOTHSES Les tests dhypothses, ou tests dinfrence, ont pour objectif de mesurer leffet dune variable indpendante sur une variable dpendante, en fonction du nombre dchantillons et en fonction de la nature des variables tudies. On nomme tests paramtriques les approches reposant sur des donnes mtriques (et par suite sur des paramtres connus tels que la moyenne ou lcart type, par exemple), et tests non paramtriques les approches reposant sur des donnes non mtriques (et qui, par suite, peuvent saffranchir de conditions de distribution particulires). Les tests non paramtriques tant peu sensibles la taille de lchantillon et aux donnes aberrantes, ils sont utiliss en marketing o les chantillons peuvent parfois tre de petite taille (moins de 30 individus). Le nombre dchantillons joue galement un rle important dans le choix du test appropri. En effet, deux situations doivent tre distingues : lorsque lon tudie deux populations distinctes sur une mme variable, on parle de mesures indpendantes (comparer les clients et les non-clients) ; et lorsque les mmes individus sont mesurs sur une mme variable dans deux situations distinctes, on parle de mesures apparies (comparer les niveaux de prix deux priodes distinctes). Ces lments affectent de manire importante les statistiques de tests (voir gure 2.15).

Figure 2.15
Tests paramtriques et tests non paramtriques (Malhotra et al., 2007).
Tests dhypothses

Tests paramtriques

Tests non paramtriques

chantillon unique - Test t - Test z

Deux chantillons ou plus

chantillon unique - Khi-deux - Kolmogorov - Smirnov - Squenes - Binomial

Deux chantillons ou plus

chantillons indpendants - Test t deux classes - Test z

chantillons apparis - Extension du test t

chantillons indpendants - Khi-deux - Mann - Whitney - Mdiane - Kolmogorov - Smirnov

chantillons apparis - Signe - Wilcoxon - McNemar - Khi-deux

Dcrire les donnes 41

3.3 TESTS

PARAMTRIQUES Les deux principaux tests paramtriques sont le test t et le test Z, qui ont pour objet de tester des diffrences de moyenne. Ces tests sont souvent mis en uvre en marketing, car ils permettent, par exemple, de comparer la moyenne dune variable dpendante mtrique en fonction des modalits dune variable nominale. On formule alors une hypothse nulle qui sera vrie par le test t ou le test Z. Pour plus de simplicit, ces deux tests sont prsents ici pour des chantillons uniques.

Test t
Le test t est directement li la statistique t de Student, qui suppose que la variable adopte une distribution normale, que la moyenne soit connue et que la variance, lorsquelle est inconnue, soit estime sur lchantillon. On le calcule de la manire suivante :
: moyenne de lchantillon : moyenne de la variable : variance de lchantillon

t = ( X ) /s X

O :

Dans SPSS, ce test paramtrique peut tre estim avec la procdure suivante : menu Analyse > Comparer les moyennes > Test T pour chantillon unique, procdure que nous avons utilise au chapitre 1 pour estimer lintervalle de conance. Pour comparer les moyennes de deux chantillons indpendants (comparaison des clients et des non-clients par exemple), on utilisera une analyse de variance (ANOVA) 1 facteur (voir chapitre 4). Pour comparer les moyennes de deux chantillons apparis (comparaison de relevs de prix deux priodes distinctes par exemple), on suivra une extension du test t pour chantillons apparis qui est disponible dans la mme bote de dialogue.

Test Z
Le test Z peut tre mis en place lorsque la variance de lchantillon est connue. La valeur de Z sobtient par la formule suivante : Z= o : est lcart type de la population

Ce test peut galement tre tendu pour tester des proportions.

3.4 TESTS

NON PARAMTRIQUES Les tests non paramtriques sont souvent mis en uvre dans la pratique en marketing : ils sappliquent aux variables qualitatives et savrent relativement performants sur de petits chantillons, mme sils sont moins puissants que les tests paramtriques. Voici les principaux tests paramtriques prsents ici : un test dajustement (le test de KolmogorovSmirov), des tests de comparaison dchantillons indpendants (le test U de MannWhitney et le test de la mdiane), ainsi que des tests de comparaison dchantillons apparis (le test de Wilcoxon, le test du signe et le test de McNemar). Test de Kolmogorov-Smirov (K-S)

42

Analyse de donnes avec SPSS

Chapitre

Le test de Kolmogorov-Smirov est un test dit dajustement, car il permet dtablir si une population donne suit une distribution particulire (normale, uniforme ou poisson par exemple), condition exige par de nombreux tests. Le K-S est calcul partir de la plus grande diffrence (en valeur absolue) entre les fonctions de distribution thorique et observe cumules : K = Max |Ai-Oi| Le K-S pour un chantillon sobtient dans SPSS partir du menu Analyse > Tests non paramtriques > K-S 1 chantillon Test U de Mann-Whitney Le test de Mann-Whitney permet de vrier que deux chantillons (ou groupes) proviennent bien de la mme population. On peut lutiliser, par exemple, pour comparer les rponses dans un dpartement par rapport aux rponses nationales. La statistique du test U runit les deux chantillons et ordonne les observations par ordre croissant de taille. Le test calcule le nombre de fois o un rsultat du groupe 1 prcde un rsultat du groupe 2, ainsi que le nombre de fois o un rsultat du groupe 2 prcde un rsultat du groupe 1. U est dautant plus petit que les groupes sont diffrents. Pour calculer le U de Mann-Whitney dans SPSS, il faut dabord dnir la variable qui servira scinder les donnes en deux chantillons : Analyse > Test non paramtrique > 2 chantillons indpendants, puis slectionner une variable de regroupement (Facteur) et cliquer sur Dnir les niveaux. Pour dnir les groupes, vous devez indiquer les valeurs pour le groupe 1 et celles pour le groupe 2. Slectionnez ensuite le test U de Mann-Whitney dans la bote de dialogue. Test de la mdiane Ce test, moins puissant que le U de Mann-Whitney, permet de dterminer si deux groupes sont issus de populations ayant la mme mdiane, en estimant la position de chaque observation par rapport la mdiane globale des deux chantillons. Pour calculer le test de la mdiane dans SPSS, vous devez suivre la procdure suivante : Analyse > Test non paramtrique > K chantillons indpendants, puis slectionner le test de la mdiane dans le menu du type de test envisag. Test de Wilcoxon Le test de Wilcoxon est utilis dans le cas de la comparaison de deux chantillons apparis, cest--dire lorsque lon souhaite, par exemple, comparer deux types de rponses : avant/aprs lexposition un message publicitaire, attitude par rapport une marque A et une marque B, etc. La statistique z du test de Wilcoxon sobtient en calculant la diffrence entre les scores des deux observations par paires dobservations, puis en calculant le rang de toutes les diffrences, et enn la somme des rangs positifs et des rangs ngatifs. On rejette lhypothse nulle (absence de diffrence entre les deux groupes) sil y a une diffrence entre la somme des rangs positifs et la somme des rangs ngatifs. Le sens de la statistique indique le sens de la diffrence de la paire examine. Dans SPSS, ouvrez le menu Analyse > Test non paramtrique > 2 chantillons lis, puis slectionnez le test que vous souhaitez mettre en uvre (Wilcoxon, Signe, McNemar), comme le montre la gure 2.16. Test du signe Le test du signe est relativement proche du test de Wicoxon, mais il est plus limit et par suite moins puissant. Il ne sattache en effet qu une comparaison des signes des diffrences, sans procder un classement comme le fait le test de Wilcoxon.

Dcrire les donnes 43

Figure 2.16
Bote de dialogue des tests de comparaison de deux chantillons apparis.

Test de McNemar Le test de McNemar peut galement tre mis en uvre dans le cas dchantillons apparis, pour comparer les valeurs de deux variables dichotomiques ( deux dimensions).

Rsum
Premire tape de lanalyse proprement parler, la description des donnes permet de reprsenter les valeurs observes sur les diffrents individus de lchantillon. Lanalyse univarie, qui examine une seule variable la fois, repose sur la description (frquences, tendance centrale, dispersion, distribution) et la visualisation graphique des variables, ainsi que sur linfrence, cest--dire la comparaison des valeurs dtermines. Lanalyse bivarie permet daller plus loin par ltude des relations entre deux variables, grce aux tris croiss et aux principaux tests danalyse bivarie : tests dassociation (khi-deux) et tests de comparaison (test t, test K-S, test U de Mann-Whitney, etc.). Pour aller encore plus loin dans lanalyse, le charg dtude devra mettre en place des analyses multivaries, lesquelles seront abordes dans les chapitres suivants.

Pour aller plus loin


Evrard Y., Pras B., Roux E., Market. tudes et recherche en marketing, Nathan, Paris, 2003. Hair J. F., Anderson R. E., Tatham R. L., Black W. C., Multivariate Data Analysis, Prentice Hall International, New Jersey, 2007. Malhotra N., Decaudin J. M., Bouguerra A., tudes marketing avec SPSS, 5e d., Pearson Education, Paris, 2007. Tenenhaus M., Mthodes statistiques en gestion, Dunod, Paris, 2006.

44

Analyse de donnes avec SPSS

Chapitre

Exercices
EXERCICE 1
nonc

LES

TESTS

Rpondez aux questions suivantes. 1. Quel(s) test(s) recommanderiez-vous un charg dtude souhaitant comparer lintention dachat dun produit avant et aprs son exposition dans un lm publicitaire ? 2. Une compagnie de tlphonie mobile cherche dterminer les principaux facteurs explicatifs de lattrition, cest--dire de la rsiliation de labonnement en faveur dun concurrent. En complment des donnes dont lentreprise disposait dans sa base de donnes, une tude par tlphone a t commande auprs dun institut pour interroger les clients et les anciens clients. Interprtez les rsultats mentionns dans le tableau suivant.
Item ge moyen Dure de labonnement Possession dun abonnement xe Possession dun abonnement Internet Possession dun deuxime tlphone portable Degr de satisfaction* exprim : qualit globale du service couverture du rseau qualit des communications qualit du centre dappel options de labonnement nombre de SMS dans labonnement prix de labonnement cot total mensuel de labonnement Clients 47,6 ans 7,1 ans 87 % 72 % 13 % 5,5 6,1 5,5 6,3 5,7 5,8 6,1 5,2 Anciens clients 22,1 ans 1,3 ans 85 % 79 % 23 % 4,9 5,8 2,3 5,9 3,2 5,2 4,0 4,8 Signication ,000 ,000 ,372 ,540 ,025 ,459 ,248 ,031 ,462 ,001 ,659 ,001 ,001

Dcrire les donnes 45

Exercices

* Mesur sur une chelle de Likert en 7 points. 3. Quel test pourriez-vous mettre en place pour en apprendre davantage sur les deux derniers items du tableau ci-dessus : prix de labonnement et cot total mensuel de labonnement ?

* Solution

1. Dans ce cas de gure, le charg dtude doit comparer la moyenne des rponses de deux chantillons deux priodes distinctes, en dautres termes avant et aprs lexposition du produit dans un message publicitaire. Il sagit donc dune mesure sur chantillons apparis. Il pourra, par exemple, mettre en uvre une extension du test t. 2. Les rsultats de lenqute comportent 7 rsultats signicatifs un degr de conance de 95 %. On peut donc conclure que les abonns ayant prfr la concurrence sont en gnral plus jeunes et que leur abonnement tait plus rcent que celui des abonns interrogs. En outre, ils sont plus nombreux possder un second tlphone portable et sont relativement moins satisfaits de la qualit des communications, des options de leur abonnement ainsi que du prix et du cot global mensuel de labonnement que les abonns interrogs. 3. On peut raliser un tri crois des deux variables qualitatives et procder un test de khideux pour savoir si les deux variables sont lies. Comme nous navons aucune information sur le nombre dobservations, nous ne sommes pas certains de pouvoir respecter la condition de 5 observations par case du tableau. En outre, il est possible de procder un test sur chantillons apparis pour comparer les rponses aux deux questions : un test de Wicoxon serait alors appropri.

EXERCICE 2
nonc

APPLICATIONS SPSS : LENQUTE

POINT DE VENTE

Reprenons lenqute sur le point de vente aborde dans la partie thorique de ce chapitre. Notre charg dtude cherche en savoir davantage sur les donnes dont il dispose. An de progresser dans la matrise de loutil SPSS, ouvrez le chier pointdevente.sav disponible sur le site de louvrage, et accompagnez le charg dtude dans sa rexion en rpondant aux questions suivantes. 1. Nous souhaitons en savoir un peu plus sur les rpondants lenqute. Vous devez par consquent poursuivre la description des variables de lenqute que nous avons amorce. Que pouvez-vous dire propos des variables suivantes : a. progradio ? b. dition TV ? c. rubrikpress ? 2. Quel est le prol type du client de ce point de vente ? Que pouvez-vous en conclure sur le type de magasin dont il sagit ? 3. Lenseigne mise sur ses clients les plus dles. Lquipe du magasin considre en effet que les clients ayant la plus forte intention deffectuer leurs achats dans le magasin sont galement ceux qui sont susceptibles de dpenser le plus. Lquipe a-t-elle raison de penser de la sorte ? Combien ces clients sont-ils susceptibles de dpenser pour un tee-shirt ? Les prix moyens afchs dans le magasin tant de 9 , quen concluez-vous ? 4. Lenqute sintresse galement aux gots des clients potentiels. Nous avons lanc des pistes en ce qui concerne les prix, mais pouvez-vous aider lquipe marketing du magasin choisir la bonne musique dambiance : plutt rock ou plutt classique ?

46

Analyse de donnes avec SPSS

Chapitre

* Solution

1. Ces trois variables sont des variables qualitatives (nominales) et nous souhaitons les dcrire. Il faut donc appeler la bote de dialogue Effectifs dans le menu Analyse, puis le sous-menu Statistiques descriptives Nous ne reprsenterons ici que la variable progradio, qui correspond la question : Quel type de programme radio coutez-vous le plus souvent ? et qui peut tre dcrite de la manire suivante (voir gure 2.17).

Figure 2.17
Effectifs de la variable progradio.

Nous avons choisi de reprsenter la variable progradio dune faon relativement simple, en ne demandant que les effectifs, les pourcentages ainsi que le mode. Le mode reprsentant la valeur la plus frquemment obtenue pour chaque modalit, le rsultat est conrm dans le tableau ci-dessus o la radio rock est la plus frquemment coute (39,8 % des rponses). On peut galement reprsenter la variable par un diagramme btons (voir gure 2.18). Figure 2.18
Diagramme btons de la variable progradio.

Dcrire les donnes 47

Exercices

2. Pour tablir le prol type du client de ce point de vente, il est ncessaire de dcrire un certain nombre de variables de catgorisation, tels lge, le sexe (nous avons dj dcrit cette variable dans la partie thorique du chapitre), les revenus, le niveau dtudes, etc. Dans le jeu de donnes, seule lanne de naissance est disponible. Il faut donc transformer cette variable an de dnir lge des rpondants. Dans le menu Transformer, ouvrez la bote de dialogue Calculer la variable. Pour calculer lge des rpondants, il suft de retirer lge de chaque rpondant lanne actuelle (2008) comme le montre la gure 2.19.

Figure 2.19
Bote de dialogue Calculer une variable.

Nous appelons AGE la nouvelle variable cre. On peut maintenant calculer lge moyen des rpondants (voir gure 2.20). Figure 2.20
ge des rpondants.

Dcrivons maintenant les revenus ainsi que le niveau dtudes des rpondants (voir gures 2.21 et 2.22). Figure 2.21
Revenus des rpondants.

Pour conclure rapidement, on peut dire que lge moyen du rpondant est de 39,33 ans, quil sagit de mnages aiss (seuls 29 % des foyers gagnent moins de 50 000 annuels), ayant fait des tudes suprieures (plus de 80 % ont au moins une licence). Si lon complte en incorporant les lments vus dans la partie cours, on peut galement dire quil sagit aussi bien dhommes que de femmes, et que le montant moyen mensuel dpens dans le magasin est relativement lev (pour en savoir plus, il faudrait mettre en place une analyse typologique). Il pourrait sagir dune enseigne de prt--porter moyen de gamme, mme si les donnes dont nous disposons sont relativement limites pour ce genre de conclusion. 3. Pour apporter une rponse lquipe marketing du magasin, il faut dabord slectionner les rpondants qui nous intressent. Allez dans le menu Donnes > Slectionner des observations Slectionnez les observations de la variable intention ( Seriez-vous prt faire vos achats dans ce point de vente ? ) selon la condition logique : intention = 5

48

Analyse de donnes avec SPSS

Chapitre

Figure 2.22
Desription du niveau dtudes des rpondants.

(5 tant le score de la plus haute intention dachat). Une fois que vous avez cliqu sur OK, les autres observations sont barres dans lditeur de donnes. Nous cherchons donc calculer la moyenne des dpenses du groupe des rpondants ayant la plus forte intention dachat, en essayant dtablir sils sont prts payer plus que la moyenne des clients du magasin (on suppose ici que le prix moyen est le prix afch). Il sagit dun test t sur chantillon unique o la valeur compare sera le prix afch (p = 9). Les rsultats apparaissent dans les tableaux de la gure 2.23. Figure 2.23
Comparaison de moyenne de la variable prix.

Les clients ayant la plus forte intention dachat dpensent en moyenne plus de 18 pour un tee-shirt, soit plus du double du prix afch. Ces rsultats sont signicatifs (p < 0.05), ce qui signie que la diffrence moyenne constate (+9,13 ) est statistiquement diffrente du prix moyen afch. Une piste pour largir la fourchette des prix pratiqus ?

Dcrire les donnes 49

Exercices

4. On peut comparer les rponses deux questions mesures de la mme manire par le biais dun test t pour chantillons apparis, ou bien en mettant en place un test de Wilcoxon si lon prfre un test non paramtrique. Attention ! Vous devez slectionner de nouveau lensemble des rpondants. Les tableaux de la gure 2.24 prsentent les statistiques et les rsultats du test t.

Chapitre

Figure 2.24
Statistiques et test t sur chantillons apparis.

Le premier tableau reprend les moyennes de rponses ainsi que les statistiques associes. On constate que la prfrence va la musique rock. Le second tableau permet de rejeter lhypothse nulle relative lgalit des deux mesures. Il existe donc une prfrence signicative pour une musique dambiance de type rock. On peut galement obtenir ces rsultats en utilisant le test de Wilcoxon comme lindiquent les rsultats reports sur la gure 2.25. Figure 2.25
Rangs et test de Wilcoxon sur chantillons apparis.

Le test de Wilcoxon conrme le rsultat prcdent. Le sens de la statistique conrme galement le sens de la diffrence examine, en faveur du second lment de la paire : la musique rock.

Dcrire les donnes 50

Exercices

Chapitre

Simplier les donnes


1. Principes de validation dune chelle de mesure.............52 2. Lanalyse factorielle ...................54

Exercices 1. Analyse dune AFC....................68 2. Analyse de la validit et de la fiabilit .........................70 3. Gnrer une carte perceptuelle par lAFC..................................72

La simplication ou lagrgation des donnes est fondamentale, elle sert identier les diffrentes dimensions dun concept. Lanalyse factorielle est utilise pour dcrire les donnes en un nombre agrg de facteurs. Elle traduit une matrice de nombres difcile lire par une srie de tableaux plus simples, reprsents sous forme de graphiques. Les principes de validation dune chelle de mesure : les notions de validit et de abilit sont tout dabord exposs. Ensuite, nous prsentons lanalyse factorielle et ses applications.

51

(1)

Principes de validation dune chelle de mesure


Nous avons vu dans le chapitre 1 que les concepts taient mesurs avec plusieurs questions ou items. Par exemple, pour estimer lattitude du client lgard dun produit, le charg dtude pose des questions qui permettent de bien saisir les diffrentes facettes de ce concept (part affective, cognitive, etc..). Ensuite, il faut vrier que ces diffrentes questions ou items mesurent bien ce que lon cherche mesurer, an dobtenir au nal des rsultats plus proches de la ralit. Dans larticle intitul Un paradigme pour dvelopper de meilleures mesures des construits marketing , Churchill (1979) propose une procdure pour renforcer la validit et la abilit des mesures. Aprs avoir slectionn des chelles (jeu ditems pour mesurer un concept), il sagit, dans un premier temps, de les soumettre lanalyse factorielle exploratoire puis au test de la abilit 1.

1.1 LA

VALIDIT DUNE CHELLE DE MESURE La validit dune chelle de mesure dsigne sa capacit apprhender un phnomne (Hair et al., 2006). Les tests de validit ont pour objectif de vrier si les diffrents items dun instrument sont une bonne reprsentation du phnomne tudi : mesure-t-on ce que lon cherche mesurer ? (Evrard et al., 2003). La validit prend plusieurs formes ; il existe donc plusieurs techniques pour la vrier : la validit faciale ou de contenu : il sagit de savoir si la mesure capture les diffrents aspects du phnomne tudi. Elle est fonde sur le jugement du chercheur et de ses pairs. Par exemple, lors du test du questionnaire, des experts du domaine peuvent mettre un avis sur la capacit des items recouvrir tous les aspects dun concept ; la validit de trait ou de construit : est-ce que les diffrents indicateurs offrent une bonne reprsentation du phnomne tudi ? Il faut vrier si les indicateurs censs mesurer le mme phnomne sont corrls (validit convergente) et s'ils se distinguent des indicateurs censs mesurer des phnomnes diffrents (validit discriminante) (Evrard et al., 2003) : la validit convergente est tablie lorsque les mesures dun mme construit sont corrles ; la validit discriminante est destine sassurer que les indicateurs de mesure dun construit sont faiblement corrls aux indicateurs de mesure dautres construits, conceptuellement distincts du premier. Lanalyse factorielle exploratoire (AFE) permet de tester ces deux validits ; la validit nomologique ou prdictive rsulte de la conformit des relations entre les mesures dun concept et celles dautres concepts avec les prdictions de la thorie (Evrard et al., 2003). Cette tape de validation intervient au cours de la phase conrmatoire.

1. Puis, dans une phase de validation, les chelles modifies aprs suppressions dnoncs subissent une deuxime fois ces procdures, on parle danalyse confirmatoire. Cette seconde tape vise connatre les qualits psychomtriques des instruments de mesure.

52

Analyse de donnes avec SPSS

Chapitre

1.2 LA

FIABILIT DUNE CHELLE DE MESURE La abilit correspond au degr avec lequel les instruments utiliss mesurent de faon constante le construit tudi (Evrard et al., 2003). Par consquent, une chelle est dle si lon retrouve plusieurs fois les mmes rsultats sur les mmes sujets. Trois mthodes permettent de tester la abilit dune mesure : la mthode du test/retest : le questionnaire est administr deux fois la mme population et les rsultats obtenus sont compars. Cette technique est particulirement approprie pour la mise au point dinstrument de mesure ; la mthode du Split half , ou des deux moitis : le questionnaire est administr au mme moment des chantillons diffrents (lchantillon est scind en deux) et les rsultats sont compars. Il existe cependant un risque de slection ; les deux chantillons sont-ils apparis ? se ressemblent-ils ? la technique des formes alternatives : il sagit dintroduire dans le questionnaire plusieurs questions sur le mme phnomne mais formules diffremment. Le questionnaire est administr aux mmes individus. Le coefcient alpha de Cronbach est calcul pour vrier si les noncs partagent des notions communes, et sils sont en cohrence entre eux.

* Focus 3.1

Estimer la abilit avec le coefcient alpha de Cronbach


Lalpha de Cronbach est un coefcient de abilit qui mesure la cohrence interne dune chelle construite partir dun ensemble ditems. La pratique consiste rduire un grand nombre ditems initiaux dans un processus itratif de conservation/limination des items en fonction de la valeur du coefcient alpha, qui varie entre 0 et 1. Plus la valeur de lalpha est proche de 1, plus la cohrence interne de lchelle (sa abilit) est forte. On limine donc les items qui diminuent le score, et on conserve ceux qui contribuent augmenter lalpha. Lexamen de lalpha de Cronbach vite au charg dtude de tomber dans un travers frquent qui consiste reprendre un questionnaire existant sans se proccuper de ses problmes de mesure.

Le seuil dacceptabilit de lalpha varie selon lobjectif de la recherche. Pour une tude exploratoire, un coefcient plus faible est acceptable (0,7) alors que dans le cadre dune recherche fondamentale, il doit tre plus lev (> 0,8) (Nunnally et Bernstein, 1994). Lorsquune chelle est utilise pour comparer des groupes, un alpha de 0,8 est satisfaisant, et il est inutile dessayer dobtenir un niveau suprieur. De Vellis (2003) propose une typologie (voir tableau 3.1). Tableau 3.1 : Les valeurs de lalpha de Cronbach
< 0,6 entre 0,6 et 0,65 entre 0,65 et 0,7 entre 0,7 et 0,8 entre 0,8 et 0,9 > 0,9 Insufsant Faible Minimum acceptable Bon Trs bon Considrer la rduction du nombre ditems

Simplifier les donnes 53

Il existe une relation entre le nombre ditems et la valeur de lalpha : un nombre restreint ditems (de deux trois) donne un alpha gnralement plus faible (0,6) quune mesure de quatre noncs (0,7). Au-del de 0,9, lalpha risque, en revanche, de traduire davantage une redondance inter-items, appauvrissant ainsi le domaine conceptuel tudi (Peterson, 1995). Il est, par consquent, recommand de ne pas dpasser le seuil de 0,9. Le logiciel SPSS fournit les niveaux du coefcient dalpha de lchelle lorsque chaque item est supprim. Les items dont la suppression amliore sensiblement le coefcient ne sont gnralement pas retenus si la validit de contenu ne sen trouve pas amoindrie.

* Focus 3.2

Le traitement des items inverss


La conception dun questionnaire demande des prcautions (plusieurs items, non-rponse possible, clart de la question, ordre des questions, etc.) car la formulation des questions peut inuencer la mesure dun concept. Linversion ditem est souvent employe pour sassurer de la validit et de la abilit de la mesure (par exemple, la satisfaction lgard dun service est mesure par un item : je suis pleinement satisfait par ce service et un autre, invers, ce service ne me satisfait pas pleinement ). Nous cherchons valuer dans quelle mesure les items utiliss sont de bons indicateurs des concepts quils sont censs mesurer. Pour cela, il est gnralement conseill de raliser une analyse factorielle exploratoire pour vrier que les items se regroupent bien de la manire prvue, et de calculer ensuite le coefcient alpha de Cronbach qui value la abilit de chaque chelle (Churchill, 1979).

(2)

Lanalyse factorielle
Lanalyse factorielle est une mthode exploratoire danalyse des tableaux de contingence dveloppe essentiellement par J.-P. Benzecri durant la priode 1970-1990. Elle dsigne un ensemble de mthodes statistiques multivaries dont le principal objectif est de dnir la structure des corrlations entre un grand nombre de variables (par exemple, les rponses un questionnaire) en dterminant un ensemble de dimensions communes appels facteurs.

2.1 LES

UTILISATIONS DE LANALYSE FACTORIELLE Lanalyse factorielle sert identier les dimensions de la structure et dterminer dans quelle mesure chaque variable peut expliquer chaque dimension. Les deux objectifs de lanalyse factorielle sont : Rsumer les donnes. Lanalyse factorielle fait ressortir les dimensions sous-jacentes qui, une fois interprtes, dcrivent les donnes de manire synthtique. Rduire les donnes. Elle calcule des scores pour chaque dimension et les substitue aux variables originelles. Alors que dans les autres mthodes (rgressions, analyse de variance, etc.) les variables sont considres comme des variables soit dpendantes, soit indpendantes, dans lanalyse factorielle, toutes les variables sont considres chacune par rapport aux autres. Les facteurs sont forms pour maximiser lexplication de lensemble des variables et non pour prdire des variables dpendantes. Ds lors, lanalyse factorielle est approprie dans une optique exploratoire (analyse factorielle exploratoire ou AFE).

54

Analyse de donnes avec SPSS

Chapitre

EXEMPLE

Les critres importants dans lvaluation dun club de sport


Dans une enqute sur les attentes des clients vis--vis de leur salle de sport, on interroge les individus sur une vingtaine de critres. Lanalyse factorielle sert regrouper les attentes en trois ou quatre points plus simples. Elle agrge les variables en facteurs ou combinaisons de variables. Lobjectif est de rendre linformation plus synthtique et facile lire sur une carte factorielle (voir tableaux 3.2 et 3.3).

Tableau 3.2 : Exemple dapplication de lanalyse factorielle


Prise en charge Lieu agrable 2 1 2 2 3 Dfoulement Dynamisme Esthtisme Rencontre conomie 1 1 4 1 2 Facteur 3

1 2 3 4 5 6

4 1 2 3 1

1 2 4 4 4

4 4 2 2 3

2 5 4 4 4

4 4 3 3 4

1 1 1 3 4

1 1 1 3 4

titre dexemple, le confort, les aspects dfoulement, dynamisme et sant reprsentent peuttre en fait la mme chose : tre en forme.

Tableau 3.3 : Exemple dapplication de lanalyse factorielle (suite)


Facteur 1 Forme 1 2 3 4 5 6
La solution de lanalyse factorielle est trouve par essai/erreur et le jugement stablit en fonction des concepts (voir gure 3.1). Sur laxe horizontal de la gure, gauche les atten-

Facteur 2 Contact

Simplifier les donnes 55

Confort 2 1 2 2 3

Muscles

Sant

tes des clients portent sur la forme physique ; droite, sur le confort de la salle. Sur laxe vertical sopposent le ct sociable du club de sport et le besoin de sy dfouler. Au total, la variance restitue par ces deux axes (les deux premiers facteurs) est de 50,43.

Figure 3.1
Reprsentation graphique de lanalyse factorielle.

Lanalyse factorielle exploratoire permet didentier des groupes ditems qui covarient les uns avec les autres et semblent reprsenter des variables latentes pertinentes. Autrement dit, lAFE consiste explorer la relation entre des variables mesures, an de dterminer si ces relations peuvent tre rsumes par un nombre moins important de construits latents. LAFE permet de vrier le nombre de dimensions ou, plus souvent, lunidimensionalit dun concept. En effet, un concept peut comporter une ou plusieurs facettes. Par exemple, limplication comporte une composante affective, une composante calcule et une composante normative. Lorsque lon fait appel des chelles de mesure dj utilises, lAFE permet de vrier si lon retrouve, pour lchantillon tudi, la mme structure factorielle. Elle fera alors ressortir autant de facteurs que le construit a de dimensions (un seul facteur si le construit est unidimensionnel). Dans le cadre du dveloppement de nouveaux instruments, lAFE permet de constater si les items correspondent effectivement aux concepts prsents aux rpondants.

2.2 LES

CONDITIONS ET OPTIONS DE LANALYSE FACTORIELLE En fonction des caractristiques de lchantillon et des donnes collectes, plusieurs options sont possibles pour la ralisation dune AFE (analyse factorielle exploratoire). Nous verrons, dans un premier temps, la taille de lchantillon requise avant de prsenter les diffrentes options et tests permettant de valider les rsultats dune AFE.

La taille de lchantillon ncessaire


La taille de lchantillon dpend du nombre ditems soumis lAFE. Il faut un minimum de cinq observations par item (un ratio de 10 pour 1 est prfrable). Le nombre total dobservations doit tre dau moins 50 et il est souhaitable dinterroger au moins 100 individus.

56

Analyse de donnes avec SPSS

Chapitre

La mthode dextraction utilise


La mthode dextraction la plus employe est lanalyse en composantes principales (ACP). LACP a pour objet de rsumer lensemble des donnes quantitatives dun tableau individus/ variables. En effet, lACP synthtise les donnes en construisant un petit nombre de variables nouvelles, les composantes principales. Les lments critiques de la grille peuvent alors tre capts rapidement, laide de reprsentations graphiques tablies partir des ACP.

Le choix de la matrice des donnes


Il est possible de travailler sur la matrice de corrlation ou sur la matrice de covariance. Pour simplier, ce choix seffectue ainsi : matrice de corrlation : lorsque les variables sont mesures avec des chelles diffrentes ; matrice de covariance : lorsque lon applique lanalyse factorielle plusieurs groupes avec des variances diffrentes pour chaque variable.

Ladquation des donnes


Avant de raliser lanalyse, il est important de sassurer que les donnes sont factorisables. Elles doivent former un ensemble cohrent pour pouvoir y chercher des dimensions communes qui aient un sens et qui ne soient pas des artefacts statistiques (Evrard et al., 2003). La matrice des donnes doit comporter sufsamment de corrlations pour justier la ralisation dune AFE. Plusieurs indicateurs peuvent tre utiliss : La matrice des corrlations anti-image reprsente la valeur ngative des corrlations partielles. Des corrlations anti-image importantes indiquent que la matrice des donnes nest peut-tre pas adapte lAFE. Le test de Sphricit de Bartlett examine la matrice des corrlations dans son intgralit et fournit la probabilit de lhypothse nulle selon laquelle toutes les corrlations sont de zro. La Measure of Sampling Adequacy (MSA) ou Kaiser-Meyer-Olkin (KMO) indique dans quelle proportion les variables retenues forment un ensemble cohrent et mesurent de manire adquate un concept. Elle teste si les corrlations partielles entre les variables sont faibles. Des valeurs de KMO comprises entre 0,3 et 0,7 reprsentent des solutions factorielles acceptables. Ce test, dabord ralis pour chaque variable, doit ensuite tre repris avec lensemble des variables (Hair et al., 2006).

Lextraction des facteurs


Il nexiste pas de base quantitative exacte pour dterminer le nombre de facteurs extraire. Les critres sont souvent choisis sur la part de variance de chaque item quun facteur permet dexpliquer : l eigenvalue , ou rgle des valeurs propres > 1 ou rgle de Kaiser-Guttman : une valeur propre reprsente la quantit dinformations capture par un facteur. Un facteur qui aurait une valeur propre infrieure 1 reprsenterait moins dinformations quun simple item. le Scree Test , ou test du coude ou de lboulis : ce test se fonde galement sur les valeurs propres des facteurs mais dans une perspective relative et non absolue. tant

Simplifier les donnes 57

donn que chaque facteur est extrait dune matrice qui est le rsidu de lextraction prcdente, la quantit dinformations contenue dans les facteurs successifs dcrot. Lorsque, entre deux facteurs, la dcroissance en termes dinformations devient faible ou nulle, on peut estimer que le dernier facteur ne contient pas sufsamment dinformations pour tre retenu. le critre du pourcentage de variance : il sagit dune approche par laquelle on observe les pourcentages cumuls de la variance extraite par les facteurs successifs. Lobjectif est de sassurer quun facteur explique une quantit signicative de variance. Il est souvent conseill darrter lextraction lorsque 60 % de la variance explique est extraite (Hair et al., 2006).

La rotation des facteurs


An de pouvoir interprter les facteurs, il est gnralement ncessaire de raliser une rotation. Celle-ci permet didentier des groupes de variables fortement lis les uns aux autres. La rotation fait en sorte que chaque item ne soit fortement li qu un seul facteur. Cette opration est ralise par une redistribution de la variance des premiers facteurs extraits aux facteurs successifs, an daboutir une structure factorielle plus simple (Hair et al., 2006). Lorsque les axes sont maintenus 90 degrs, on parle de rotation orthogonale ; lorsque les axes ne sont pas contraints tre indpendants, on parle de rotation oblique. Il existe plusieurs mthodes de rotation : Varimax : rotation orthogonale qui minimise le nombre de variables ayant de fortes corrlations sur chaque facteur. Simplie linterprtation des facteurs. Oblimin direct : rotation oblique, cest--dire dans laquelle les axes se positionnent en fonction des items et ne sont donc pas orthogonaux. Quartimax : mthode qui minimise le nombre de facteurs requis pour expliquer chaque variable. Simplie linterprtation des variables observes. Equamax : mthode de rotation qui minimise la fois le nombre de variables qui psent fortement sur un facteur et le nombre de facteurs requis pour expliquer une variable (combinaison des mthodes Varimax et Quartimax).

* Focus 3.3

Lanalyse factorielle exploratoire : rotation orthogonale ou oblique ?


Les critres de choix entre la rotation orthogonale (Varimax) et la rotation oblique sont les suivants : La rotation orthogonale maintient les axes de lespace factoriel en angle droit. Ce type de rotation permet de minimiser le nombre ditems ayant des contributions leves sur un axe et donc de simplier les facteurs. Elle permet dobtenir une structure factorielle plus claire. Si la corrlation entre facteurs est faible, infrieure 0,15 (De Vellis, 2003) ou 0,3 (Nunnally et Bernstein, 1994), la rotation orthogonale sera prfre pour sa simplicit. Toutefois, si lon a des raisons de penser que des items ou facteurs sont corrls, il est logique de raliser une rotation oblique. On peut galement comparer la solution avec rotation oblique et rotation orthogonale. Sil est possible dassigner un item au mme facteur dans les deux cas, alors la rotation orthogonale sera choisie pour sa simplicit. Dans la grande majorit des cas, une rotation orthogonale est sufsante pour aboutir une structure simple. Hair et al. (2006) estiment cependant que la rotation oblique est conseille si lon souhaite dterminer des facteurs reprsentant des concepts qui seront analyss postrieurement car la structure factorielle obtenue possde une plus grande stabilit.

58

Analyse de donnes avec SPSS

Chapitre

2.3 LPURATION

DES DONNES

LAFE pour vrier le nombre de dimensions dun concept


Lanalyse factorielle est utilise pour vrier la validit de trait ou de construit. Il sagit de tester et de purier les chelles dun questionnaire. LAFE permet de sassurer que lchelle value prcisment et exclusivement le construit quelle est cense mesurer. Lorsque le construit est unidimensionnel, lAFE fera ressortir un seul facteur, plusieurs pour les construits multidimensionnels. Il est aussi possible de xer a priori le nombre de facteurs sous SPSS. Nous traitons ici de la question des items et facteurs retenir ou, au contraire, supprimer, suite une AFE. En effet, lorsque les facteurs sont extraits, il est ncessaire dvaluer la validit convergente et discriminante au niveau de litem ainsi que la abilit des chelles. La validit convergente concerne le fait que les rponses obtenues par diffrents indicateurs du mme construit soient fortement corrles ; la validit discriminante est dmontre lorsque la mesure dun construit dtermin est faiblement corrle une mesure dun autre construit. Ces analyses sont ralises pour chaque chelle. Les items prsums mesurer un mme construit doivent donc tre fortement corrls les uns aux autres (validit convergente) et faiblement corrls aux items censs mesurer dautres construits (validit discriminante). Le niveau du coefcient structurel de lAFE (composante) sert dterminer si litem satisfait au critre de validit convergente. Le tableau 3.4 prsente les niveaux de signicativit des contributions factorielles des items selon la taille de lchantillon tudi. Tableau 3.4 : Niveau de signicativit des coefcients structurels selon la taille de lchantillon
Niveau des coefcients structurels 0,30 0,35 0,40 0,45 0,50 0,55 0,60 0,65 0,70 0,75
Source : adapt de Hair et al., 2006.

Taille de lchantillon ncessaire 350 250 200 150 120 100 85 70 60 50

Simplifier les donnes 59

Lpuration dune chelle de mesure se fait en deux temps : Dune part, pour les coefcients structurels ou composantes, un seuil est dtermin en fonction de la taille de lchantillon. Par exemple, pour un test dchelle sur un chantillon de 200 individus, un seuil de 0,40 sera retenu. Pour les chelles multidimensionnelles, sont limins les items dont les poids factoriels sont suprieurs 0,30 sur plusieurs facteurs et ceux nayant aucune contribution suprieure ou gale 0,50 sur lune des composantes principales identies. Ces seuils peuvent aussi varier en fonction de la taille de lchantillon (Hair et al., 2006). Dautre part, la formation des facteurs repose sur limportance des variables initiales sur ces facteurs. Les communalits (part de variance explique par litem) doivent dpasser 0,5 et si possible 0,7. Le niveau de reprsentation est considr comme moyen pour un seuil de 0,40, bon pour un seuil de 0,65 et excellent lorsque la communalit dpasse 0,80 (Evrard et al., 2003).
SPSS
Dans cet exemple, nous testons lchelle destine mesurer lambition professionnelle. Cette chelle unidimensionnelle de 10 items est issue de la littrature. Les rponses aux questions sont collectes grce une chelle de Likert cinq chelons allant de Pas du tout daccord Tout fait daccord (voir tableau 3.5). Tableau 3.5 : Exemple de lchelle destine mesurer lambition
Item 1 - Jaimerais avoir un poste plus important et que les autres menvient. Item 2 - Jaime bien discuter avec des gens importants. Item 3 - Je veux tre une personne importante dans la communaut. Item 4 - Jadmire beaucoup les gens qui ont gravi les chelons et sont au sommet. Item 5r1 - Si javais sufsamment dargent, je ne travaillerais plus*. Item 6 - Mme si je gagnais beaucoup dargent au jeu, je continuerais exercer mon mtier. Item 7r - Si je pouvais toucher le chmage, je prfrerais ne pas travailler*. Item 8 - Jaime tre admir(e) pour ma russite. Item 9r - Je naime pas tre remarqu(e)*. Item 10 - Jaime que des employs me demandent conseil.

1. Le r signie que cet item est invers.

Les 10 items sont, dans un premier temps, soumis une analyse factorielle exploratoire (mthode de lACP), an de vrier la structure du construit mesur. Cette chelle est teste avec un chantillon de 106 individus. Ouvrez le chier challenge 1. Allez dans le menu Analyse > Positionnement > Analyse factorielle. Une bote de dialogue apparat (voir gure 3.2).

1. Vous trouverez ce fichier ladresse : http://www.pearsoneducation.fr.

60

Analyse de donnes avec SPSS

Chapitre
Transfrez les items destins mesurer lambition en les slectionnant chacun leur tour et en cliquant sur la che.

Figure 3.2
Demande danalyse factorielle.

Avant de lancer lAFE, plusieurs commandes sont effectuer. An de vrier ladquation des donnes, on peut demander lindice KMO et le test de Bartlett par le bouton Descriptives dans la bote de dialogue prcdente. La structure initiale (prcoche) donne les communalits, les valeurs propres et la part de variance explique initiale (voir gure 3.3).

Figure 3.3
Demande de lindice KMO et du test de Bartlett.

Cliquez ensuite sur Poursuivre pour revenir la bote de dialogue initiale. Pour slectionner la mthode de lanalyse factorielle, cliquez sur Extraction et la bote de dialogue de la gure 3.4 apparat. Nous pouvons choisir la mthode de lanalyse factorielle (composantes principales ; facteurs communs, etc.). Nous slectionnons Composantes principales. Pour obtenir les facteurs, le logiciel prslectionne les valeurs propres suprieures 1. Mais il est aussi possible de dterminer le nombre de facteurs. Dans une optique exploratoire, nous laissons libre ce nombre de facteurs. Le choix de la matrice de dpart est aussi x dans cette bote de dialogue : la matrice de corrlation est prslectionne. Nous gardons cette matrice pour lanalyse. On peut demander un graphique des valeurs propres qui sert liminer des facteurs avec le test du coude. Cliquez ensuite sur Poursuivre pour revenir la bote de dialogue initiale.

Simplifier les donnes 61

Figure 3.4
Choix de la mthode dextraction, de la matrice de dpart et demande de graphique.

Pour slectionner la mthode de rotation, cliquez sur Rotation et la bote de dialogue de la gure 3.5 apparat. Cochez la mthode choisie, nous slectionnons Varimax.

Figure 3.5
Choix de la mthode de rotation.

Cliquez ensuite sur Poursuivre pour revenir la bote de dialogue puis sur OK pour lancer lAFE. Les rsultats de lanalyse apparaissent dans longlet rsultats (voir gure 3.6).

Figure 3.6
Interprtation des rsultats de lAFE : KMO, test de Bartlett et communalits.

Lindice KMO (0,816) ainsi que le test de Bartlett permettent daccepter les rsultats de cette analyse factorielle.

62

Analyse de donnes avec SPSS

Chapitre
Les rsultats montrent que les deux facteurs qui nexpliquent pas plus de 50 % (48,21) de la variance (voir gure 3.7). Nous liminons les items dont les communalits sont trop faibles (soit 8r et 9 qui ont des communalits respectives de 0,24 et 0,19).

Figure 3.7
Interprtation des rsultats de lAFE : pourcentage de variance explique, nombre de facteurs.

En outre, la matrice des composantes atteste que deux items (5r et 6) ne se trouvent pas sur le mme facteur (voir gure 3.8). Or, ce second facteur nexplique, son tour, quune faible part de la variance. Nous liminons donc ces deux items.

Figure 3.8
Interprtation des rsultats de lAFE : matrice des composantes (coefcients structurels).

ce stade, il faut refaire une AFE en rappelant la bote de dialogue ou en allant dans le menu Analyse > Factorisation > Analyse factorielle. La bote de dialogue de la gure 3.9 apparat. Il faut alors faire passer les items limins (5r, 6, 8r et 9) dans la liste des variables, en les slectionnant, toujours avec la che, mais dans le sens inverse. Les options choisies restent coches (extraction, demande du KMO, etc.) et il nest donc pas ncessaire de recommencer cette procdure. Cliquez sur OK. Les rsultats de cette deuxime AFE apparaissent, toujours dans longlet rsultats, la gure 3.10. La solution est maintenant, comme dans la thorie, unidimensionnelle, mais elle ne parvient toujours pas expliquer plus de 50 % de la variance. Ds lors, litem 3r dont la communalit est insufsante (0,38) est supprim. Nous rappelons donc la bote de dialogue (voir gure 3.11) et nous faisons passer litem ambition3r dans la liste des variables. Puis nous cliquons sur OK.

Simplifier les donnes 63

Figure 3.9
Demande danalyse factorielle (bis).

Figure 3.10
Interprtation des rsultats de lAFE : KMO, test de Bartlett et communalits (bis).

Figure 3.11
Demande dAFE n 3.

Les rsultats de cette troisime AFE apparaissent la suite des autres, dans longlet rsultats, la gure 3.12.

64

Analyse de donnes avec SPSS

Chapitre

Figure 3.12
Interprtation des rsultats de lAFE : KMO, test de Bartlett et communalits n 3.

Cette dernire solution unidimensionnelle permet dexpliquer 53,72 % de la variance ; les communalits et les composantes de chaque item sont respectivement suprieures 0,45 et 0,67. La matrice des composantes (voir gure 3.13) indique que tous les items ont un coefcient structurel ou > 0,65. Les items 1, 2, 4, 7 et 10 sont donc conservs pour la suite de lanalyse.

Figure 3.13
Interprtation des rsultats de lAFE : matrice des composantes (coefcients structurels) n 3.

ce stade nous procdons lexamen de la abilit de lchelle avec le coefcient alpha de Cronbach.

Le calcul du coefcient alpha de Cronbach pour vrier la abilit dune chelle


Nous continuons le processus dpuration des donnes avec le mme exemple dchelle de mesure de lambition du vendeur. Nous avons vu que le coefcient alpha de Cronbach tait un indicateur de la cohrence interne dune chelle de mesure. Allez dans le menu Analyse > Positionnement > Analyse de abilit. La bote de dialogue de la gure 3.14 apparat. Transfrez les items slectionns destins mesurer lambition laide de lanalyse factorielle exploratoire en les slectionnant chacun leur tour puis en cliquant sur la che. Avant de lancer le calcul de lalpha de Cronbach, cliquez sur le bouton Statistiques, la bote de dialogue de la gure 3.15 apparat alors. Nous demandons lalpha pour chaque item, pour lchelle et lchelle sans litem.

Simplifier les donnes 65

Figure 3.14
Test de la abilit de cohrence interne avec le coefcient alpha de Cronbach.

Figure 3.15
Choix des statistiques pour le calcul du coefcient alpha de Cronbach.

Les rsultats apparaissent dans longlet rsultats, la gure 3.16. Le coecient alpha de Cronbach apparat dans le deuxime tableau.

Figure 3.16
Rsultats du calcul du coefcient alpha de Cronbach.

66

Analyse de donnes avec SPSS

Chapitre
Le premier tableau prsente la moyenne et la variance de lchelle en cas de suppression de calcul des items (colonnes 1 et 2), la corrlation de chaque item aux autres (colonne 3) et lalpha de Cronbach en cas de supression dun item.

Figure 3.17
Rsultat du calcul du coefcient alpha de Cronbach.

Cette chelle prsente une abilit de cohrence interne acceptable (alpha = 0,78). Il nest pas possible damliorer lalpha en liminant un ou plusieurs items (cf. colonne droite du tableau alpha en cas de suppression de llment). Nous gardons donc les cinq items (1, 2, 4, 7 et 10) pour mesurer lambition.

Pour aller plus loin


Evrard Y., Pras B., et Roux E., Market. tudes et recherches en marketing, Nathan, Paris, 2003. Gerbing D. W., Anderson J. C., An updated paradigm for scale development incorporating unidimensionality and its assessment , Journal of Marketing Research, 25, 1988, p. 186-192. Hair J. F., Anderson R. E., Tatham R. L., Black W. C., Multivariate Data Analysis, 4e d., Prentice Hall International, New Jersey, 2006.

Simplifier les donnes 67

Exercices
EXERCICE 1
nonc

ANALYSE DUNE AFC


Il existe diffrentes sources de satisfaction au travail, ces valences sont values en posant la question : Quelle importance accordez-vous ces aspects de votre travail ? (collecte des rponses laide dune chelle de Likert en cinq points allant de Pas du tout Trs important ). VAL1 - Une augmentation de votre sentiment russite VAL2 - Le sentiment que vous utilisez bien vos comptences VAL3 - Votre satisfaction personnelle VAL4 - Loccasion de dvelopper des relations avec les autres employs de lentreprise VAL5 - De meilleures relations de travail avec votre manager VAL6 - De meilleures relations avec les autres commerciaux VAL7 - Limplication dans la formation des autres employs VAL8 - Plus dautonomie de la part de votre manager VAL9 - Davantage de respect de la part de vos collgues VAL10 - Une baisse des rclamations de la part de vos clients VAL11 - La reconnaissance de vos clients sur le fait que vous les avez bien conseills VAL12 - Plus dopportunits de dvelopper des contacts clients VAL13 - De meilleures relations avec vos clients VAL14 - Une augmentation de vos revenus VAL15 - Plus dinuence sur les dcisions de votre manager VAL16 - Recevoir la reconnaissance de votre hirarchie VAL17 - Une augmentation de votre prestige personnel VAL18 - La chance dtre mut dans une agence ayant plus de potentiel VAL19 - Lvolution vers un poste de management Nous collectons aussi la valence par rapport la victoire au challenge : VALVI1 - La victoire ce challenge VALVI2 - tre parmi les gagnants du challenge en question Suite une premire AFE, seuls les items apparaissant en gras ont t conservs. Question : dcrivez les rsultats de lAFC (voir gures 3.18, 3.19, 3.20 et 3.21).

68

Analyse de donnes avec SPSS

Chapitre

Figure 3.18
Rsultats de lAFC (1).

Figure 3.19
Rsultats de lAFC (2).

Figure 3.20
Rsultats de lAFC (3).

Simplifier les donnes 69

Exercices

Figure 3.21
Rsultats de lAFC (4).

* Solution

Les rsultats de lAFC sont comparables ceux qui peuvent tre obtenus laide dune ACP. Le premier facteur reprsente 32,97 % de la variance, le second compte pour 23,67 %. Sur laxe horizontal, nous trouvons les relations que le vendeur entretient avec ses clients, ses pairs. Sur laxe vertical (deuxime composante), nous trouvons la valence pour la victoire au challenge. Nous observons que les items 18 et 9, qui portent sur les promotions, sont proches de cet axe. Le challenge serait donc associ aux opportunits de carrire, au respect des pairs. Sur cet axe, nous retrouvons les aspects relationnels du travail, en interne (avec les collgues) ou en externe (avec les clients).

EXERCICE 2
nonc

ANALYSE

DE LA VALIDIT ET DE LA FIABILIT

Il nexiste pas dchelle dans la littrature pour mesurer lattitude gnrale lgard des challenges de vente. Lchelle de mesure de cette attitude a t cre grce une tude qualitative : 7 items ont t crs puis utiliss dans un questionnaire. Les rponses sont recueillies auprs de 747 commerciaux sur une chelle de Likert cinq grades. Une analyse factorielle exploratoire (ACP), puis un test de la abilit de cette chelle sont raliss (voir gures 3.22, 3.23 et 3.24). partir de ces analyses, rpondez aux questions suivantes : 1. Cette chelle est-elle multidimensionnelle ? 2. Faut-il conserver tous les items de cette chelle ? Sinon quel(s) item(s) limineriez-vous ? Comment prenez-vous cette dcision ? 3. Cette chelle de mesure est-elle able ?

70

Analyse de donnes avec SPSS

Chapitre

Figure 3.22
Rsultats de lAFE (1).

Figure 3.23
Rsultats de lAFE (2).

Figure 3.24
Rsultats de lAFE (3).

Simplifier les donnes 71

Exercices

* Solution

1. Lanalyse en composantes principales atteste de la nature unidimensionnelle de ce concept. Cette solution factorielle parvient expliquer plus de 53 % de la variance totale. Le test KMO, tout fait satisfaisant (0,88) valide cette solution factorielle. 2. Non, il ne faut pas conserver tous les items. Lexamen des communalits des noncs indique que litem atig5, dont lindice de communalit (0,23) et le poids factoriel (0,48) sont faibles, affaiblit la validit de cette chelle. Cet item doit par consquent, tre limin pour la suite des analyses. 3. Cette chelle est able puisque le coefcient alpha de Cronbach dpasse 0,8 (0,84). Toutefois la abilit peut tre meilleure si litem atig5 est limin (lalpha monte 0,85).

2.1 EXERCICE 3 : GNRER


nonc

UNE CARTE PERCEPTUELLE PAR LAFC

Une enqute portant sur les perceptions de diffrentes marques de voitures a t ralise auprs de consommateurs. Les individus ont valu 10 marques daprs 15 critres, nots sur des chelles de Likert de 1 9. Les variables perceptuelles sont les suivantes : Notorit Finition Qualit Confort Nouveaut Qualit-prix Robustesse Spacieux Les rsultats de lenqute, cest--dire la moyenne des scores obtenus chaque variable, sont reprsents dans le chier Facto.sav . Sur ces donnes, une analyse factorielle exploratoire peut permettre didentier les perceptions de consommateurs, mais aussi de reprsenter les marques en fonction de ces perceptions dans ce que lon nomme une carte perceptuelle, ou mapping perceptuel. 1. Gnrez lanalyse factorielle sur les donnes de ltude. 2. Interprtez lanalyse factorielle. Quelles conclusions tirez-vous de cette analyse ? Ergonomie Prestige Familial conomique Image Innovation Sportif

* Solution 3

1. Pour commander lanalyse factorielle, slectionnez le menu Analyse > Factorisation > Analyse factorielle et faites passer les variables factoriser dans la partie Variables avec la che (voir gure 3.25). Ensuite, dans longlet Descriptives (voir gure 3.26), la case Structure initiale est dj coche (elle donne les communauts, valeurs propres et pourcentage de variance expliqus par chaque dimension). Dans la partie Matrice des corrlations, cochez les cases Coefcients et Reconstitue.

72

Analyse de donnes avec SPSS

Chapitre

Figure 3.25
Commande de lanalyse factorielle.

Figure 3.26
Options dAnalyse factorielle.

Dans longlet Extraction (voir gure 3.27), la case Matrice de corrlation est coche et la mthode en Composantes principales slectionne. Cochez Graphique des valeurs propres et Structure factorielle sans rotation. Slectionnez un nombre de facteurs gal 2, an de gnrer une carte deux dimensions. Figure 3.27
Mthode dextraction de lanalyse factorielle.

Dans longlet Rotation, choisissez Varimax et cliquez sur Carte factorielle comme lindique la gure 3.28. Une fois tous les paramtres dnis, cliquez sur OK pour lancer lanalyse factorielle. 2. Linterprtation de lanalyse factorielle stablit laide des tableaux qui apparaissent dans la partie Rsultats :

Simplifier les donnes 73

Exercices

Figure 3.28
Choix de la mthode de rotation de lanalyse factorielle.

Le tableau de la variance totale explique (voir gure 3.29) prsente les deux dimensions qui rsument linformation. La premire dimension permet dexpliquer 46,32 % de la variance du phnomne, cest--dire que les variables qui composent cette premire dimension synthtisent 51,63 % du phnomne. La seconde dimension explique 23,95 % de la variance. Les deux dimensions expliquent plus de 70 % de la variance totale. On conseille en gnral darrter lextraction de facteurs lorsque 60 % de variance cumule a t extraite (Hair et al., 1998). Cette variance cumule indique que la rduction des variables deux composantes permet de conserver lessentiel du phnomne mesur par les quinze variables perceptuelles initiales. Notre reprsentation du phnomne est donc de qualit. Figure 3.29
Les rsultats de lanalyse factorielle : la variance totale explique.

La qualit de la reprsentation (voir gure 3.30) permet de vrier si les variables initiales sont bien prises en compte par les variables extraites. Ici, la qualit de reprsentation ou communalit de la variable notorit est de 0,989. Ce qui signie que 98,9 % de la variance de la variable est prise en compte par lune des deux dimensions extraites. Dans cet exemple, les variables nouveaut et innovation ne sont pas bien reprsentes. La matrice des composantes (voir gure 3.31) montre les dimensions extraites (deux dimensions) avec les composantes. Chaque colonne correspond une dimension extraite contenant les coefcients ou composantes qui peuvent sinterprter comme des coefcients de corrlation. La qualit et le confort sont ainsi relis la dimension 1, alors que le rapport qualit-prix ou la dimension conomique du modle sont relis la dimension 2. On passe donc en revue les coefcients an didentier les variables relies chacune des dimensions. De cette manire, la matrice des composantes permet de nommer les dimensions extraites par ltude des composantes. La premire composante relve de limage perue (prestige gauche de laxe, et familial droite de laxe ; voir gure 3.32) ; la seconde composante relve du rapport qualit-prix peru. 74
Analyse de donnes avec SPSS

Chapitre

Figure 3.30
Les rsultats de lanalyse factorielle : la qualit de reprsentation.

Figure 3.31
Les rsultats de lanalyse factorielle : la matrice des composantes.

Le diagramme des composantes correspond la reprsentation graphique de la matrice des composantes (voir gure 3.32). Figure 3.32
Les rsultats de lanalyse factorielle : le diagramme des composantes.

Simplifier les donnes 75

Exercices

La matrice des composantes permet galement de calculer les coordonnes pour reprsenter graphiquement les individus par rapport aux dimensions extraites. On peut ainsi comparer la position de chacune des observations, en dautres termes, positionner les marques dans lespace factoriel cr. An de retrouver les marques sur chacun de ces axes, vous devez relancer lanalyse factorielle : Analyse > Analyse factorielle puis, dans longlet Facteurs, cocher Enregistrer dans des variables et la mthode Rgression (voir gure 3.33). Figure 3.33
La commande Analyse factorielle : reprsentation graphique dindividus.

Deux nouvelles variables sont alors cres dans lditeur de donnes (voir gure 3.34). Elles donnent les scores factoriels, cest--dire pour chaque individu (chaque marque) sa moyenne sur chacune des deux dimensions. On peut constater par exemple que la Citron C4 est relie la dimension Image. Cest ce que nous allons maintenant voir laide dun graphique. Figure 3.34
La reprsentation graphique dindividus dans lanalyse factorielle.

Pour commander le graphique, slectionnez le menu Graphes > Botes de dialogue hrites > Dispersion/Points, puis cliquez sur Dnir (voir gure 3.35). Figure 3.35
Commande dune reprsentation graphique dindividus dans lanalyse factorielle.

Ensuite faites passer les facteurs crs dans les axes Y et X et, an dafcher chaque marque, faites glisser la variable modle vers Etiqueter les observations par (voir gure 3.36).

76

Analyse de donnes avec SPSS

Chapitre

Figure 3.36
Commande dune reprsentation graphique dindividus dans lanalyse factorielle (suite).

Vous devez galement cliquer sur longlet Options et cocher Afcher le diagramme avec les tiquettes dobservations pour les faire apparatre (voir gure 3.37). Figure 3.37
Commande dune reprsentation graphique dindividus dans lanalyse factorielle (suite).

Simplifier les donnes 77

Exercices

Ensuite, cliquez sur OK : le graphique nest cependant pas trs lisible car les axes napparaissent pas. Pour y remdier, double-cliquez sur le graphique pour ouvrir lditeur de diagramme (voir chapitre 8), activez le diagramme en cliquant une nouvelle fois dessus et slectionnez dans le menu dition la ligne de rfrence de laxe X ; la position de laxe 0 est prslectionne. Dans le menu Proprits, slectionnez Afcher la ligne lorigine, dans longlet Echelle (voir gure 3.38). Recommencez cette opration pour laxe Y.

Chapitre

Figure 3.38
Commande dune reprsentation graphique dindividus dans lanalyse factorielle (suite).

Le graphique suivant (voir gure 3.39) apparat alors, reprsentant les modles de vhicules en fonction des perceptions dclares des consommateurs interrogs. Ce type de reprsentation peut servir positionner les offres concurrentes sur le march. Figure 3.39
Reprsentation graphique dindividus dans lanalyse factorielle.

Simplifier les donnes 78

Exercices

Chapitre

Segmenter

1. Fondements...............................80 2. Concepts associs......................83 3. Mise en uvre ..........................90

Exercices 1. Habitudes alimentaires...............94 2. Achats On-line ..........................97 3. Segmenter le march automobile..............................102

De nombreuses enqutes en marketing ont pour objet de classer des individus en groupes homognes, an, par exemple, de procder une segmentation du march. Comme lanalyse factorielle (voir chapitre 3), lanalyse typologique permet de rduire le nombre des observations en les regroupant en des classes (ou types) homognes et diffrencies. (Evrard et al., 2003). Cependant, contrairement lanalyse factorielle, les rsultats peuvent fortement diverger en fonction des choix effectus. Nous verrons, dans ce chapitre, les concepts cls lis cette mthode, les mesures statistiques associes, ainsi que les principaux lments de sa mise en uvre.

79

(1)

Fondements
La ralisation dune typologie, ou encore dune taxinomie, a t pendant longtemps le principe fondateur de la science moderne. Il sagissait alors de dcrire le monde an de le comprendre. En franais, les termes pour dcrire ce principe de classication des individus typologie, taxinomie, segmentation, classication, catgorisation , sont relativement ambigus. En anglais, en revanche, le terme clustering rend compte la fois du fait de classer, cest--dire de faire merger des groupes dindividus, mais galement du principe de classication, cest--dire de laffectation des individus aux diffrents groupes. Lanalyse typologique, terme gnrique que nous retiendrons dans ce chapitre, est au cur de la dmarche marketing. Elle peut tre utilise pour simplier la lecture des donnes en regroupant des observations ayant des caractristiques communes, ou encore pour faire merger des groupes dindividus homognes des donnes collectes. Cette approche est frquemment retenue en marketing, o lune des premires dcisions stratgiques consiste agrger des segments de march en fonction des attentes des consommateurs an de dnir les choix de marchs possibles. Le marketing considre, en effet, que les marchs sur lesquels il opre peuvent tre constitus dattentes plus ou moins homognes, quil sagira de rendre intelligibles. On parle de marketing de masse lorsque les attentes sont homognes, de marketing individualis lorsque les attentes sont fortement htrognes, et de marketing segment lorsque les attentes sont groupes (voir gure 4.1).

Figure 4.1
Les attentes en marketing.

Attentes homognes Marketing de masse

Attentes groupes Marketing segment

Attentes htrognes Marketing individualis

Le rle du charg dtude dans cette perspective est de crer ex nihilo des groupes de consommateurs similaires entre eux mais diffrents des autres segments. Le principe de la segmentation, cest--dire le fait de former des groupes de clients homognes , est directement fond sur des caractristiques propres des individus (les consommateurs en loccurrence) qui nous indiquent pourquoi les segments diffrent. Ces critres vont permettre au charg dtude didentier et de rapprocher les membres dun segment. Pour quils soient utiles, ces critres de segmentation doivent permettre de gnrer des segments distincts, en dautres termes qui ne se recoupent pas. Il nexiste pas de segmentation optimale : la segmentation est un moyen par lequel on pourra, par exemple, identier les cibles dune campagne de mailing, orienter une extension de gamme de produits, dnir le message publicitaire adapt un prol de consommateurs, etc. Il existe donc plusieurs rsultats possibles lors dune segmentation, et le charg dtude devra raliser des choix, an de concilier exigence statistique et besoin doprationalit de la dcision.

80

Analyse de donnes avec SPSS

Chapitre

Pour regrouper des consommateurs, on considrera des variables de segmentation : gographiques : rgion, type dhabitat, type dagglomration, etc. ; sociodmographiques : ge, sexe, taille du foyer, revenus, catgorie socioprofessionnelle, niveau dducation, etc. ; psychographiques : style de vie, rapport au temps, personnalit, valeurs, etc. ; comportementales : attitudes, prfrences, comportement dachat (Rcence, Frquence, Montant), etc. Dans un cadre de marketing industriel ou B to B (pour segmenter des entreprises), on pourra utiliser lactivit exerce par lentreprise (le code NAF de lInsee par exemple), la taille de lentreprise (nombre demploys, chiffre daffaires), la localisation, la structure (divisions, magasins propres/franchises), etc.
EXEMPLE

GDF et la segmentation 360

Pour faire face louverture du march de lnergie mise en place en France le 1er juillet 2007, GDF mne depuis quelques annes une rexion approfondie sur ses mthodes de segmentation, an de mieux connatre ses clients et leurs comportements, et surtout limiter leur dpart vers la concurrence. Cette segmentation repose sur une base de donnes recoupant les informations issues de donnes commerciales, marketing (CRM) et dadministration des ventes (niveau de consommation, facturation et paiement). En dfragmentant les donnes clients, GDF a afn sa vision de la valeur conomique de son portefeuille clients. La consquence est une nouvelle approche de la segmentation clients : quinze segments de clientle ont t constitus et agrgs en cinq macrosegments : les clients convaincre, conforter, consolider, observer et tolrer. Une stratgie diffrencie a ensuite t mise en place pour chacun des quinze segments (dlisation, promotions, etc.).

Nous nous intresserons ici aux principales approches, les plus diffuses dans la pratique et les plus aises mettre en uvre en termes danalyse de donnes, que nous regrouperons sous le terme d analyse typologique . Lanalyse typologique peut tre dnie de la faon suivante : tant donn un ensemble dobjets (ou dindividus) dcrits par un certain nombre de caractristiques (ou variables), constituer des groupes (ou types) dobjets tels que les objets soient les plus similaires possibles au sein dun groupe et que les groupes soient aussi dissemblables que possible ; la ressemblance ou la dissemblance tant mesure sur lensemble des variables dcrivant les objets (Evrard et al., 2003). Ces regroupements sont effectus en fonction de variables, dont on peut distinguer deux types : des variables comportementales pour classer les individus dans les segments, et des variables didentication an de pouvoir interprter les groupes ainsi gnrs. Le choix des variables employes est hautement important. En effet, lorsque lon procdera lanalyse typologique, les rsultats devront montrer une forte homognit intragroupe (proximit des mesures au sein dun groupe), et une forte htrognit intergroupe (distance entre les groupes) comme le montre la gure 4.2. La gure 4.2. reprsente un nuage de points issu du croisement de deux variables, soit par exemple lge (V1) et la frquence dachat (V2) dun produit X. Le centre de gravit du nuage de points est reprsent par le point au centre des trois segments. Comme on peut le constater, trois grands groupes mergent lorsque lon croise ces deux variables. Chaque point reprsentant la combinaison des deux variables pour une observation, on remarque
1. Adapt de GDF : Fidliser et conqurir de nouveau marchs grce au data mining , Decisio, 43, juin 2007.

Segmenter 81

Figure 4.2
La segmentation.
Barycentre

V2

V1

que les individus regroups sont relativement homognes, proches, et diffrents cest-dire distants des autres membres des deux autres segments en termes dge et de frquence dachat. Le charg dtude pourra aisment recommander des stratgies pour servir ces trois segments en termes de promotion ou de message publicitaire, par exemple. On peut voir, en effet, que les consommateurs les plus gs, puis les plus jeunes, achtent le plus frquemment, alors que les consommateurs des classes dge intermdiaires achtent le moins frquemment. Malheureusement, il est extrmement rare, pour ne pas dire impossible, que de tels segments mergent dans la pratique ; lobjectif de la segmentation sera donc de crer des groupes distincts les uns des autres, mais dont les caractristiques seront proches au sein mme des groupes. En dautres termes, il sagira de diminuer le plus possible les traits pleins sur le schma, lintrieur des groupes, et daugmenter au maximum les traits en pointills an de bien distinguer les segments les uns des autres. Le charg dtude, an dviter les erreurs lies ce type dexercice, devra, au-del dune matrise des principales mesures associes la typologie, tre en mesure de dcider du nombre de segments satisfaisant les objectifs de lenqute, et interprter correctement le contenu de chacun des segments gnrs. Le problme que pose lanalyse typologique, que nous avons dnie comme une technique danalyse de donnes multivarie utilise pour segmenter des populations, est prcisment quelle repose sur un classement des individus et non une mesure des variables comme cest le cas pour les autres tests statistiques. En dautres termes, il nexiste pas une mais des analyses typologiques. De nombreuses possibilits sont donc offertes au charg dtude. Cet outil prsente une grande exibilit dutilisation, mais galement une importante complexit car le risque dobtenir des rsultats pertinents mais inuencs par les procdures de calcul retenues et non par les donnes est important. Cest ce que lon nomme le risque dartefact.

82

Analyse de donnes avec SPSS

Chapitre

(2)

Concepts associs
Il existe un certain nombre de concepts associs lanalyse typologique. Deux dimensions principales doivent tre abordes : les mesures statistiques de distance entre les individus et le processus de constitution des groupes qui sera slectionn par lanalyste.

2.1 MESURES

DE DISTANCE

Le concept de distance est aisment comprhensible si lon se rfre la reprsentation des donnes sous forme de points dans un espace tel que reprsent par la gure 4.2. On peut faire un parallle ici avec lanalyse factorielle que nous avons tudie au chapitre 3. Lors dune analyse factorielle, la matrice des corrlations est employe pour regrouper des variables deux deux au sein de diffrents facteurs. La corrlation reprsente le lien entre deux variables parmi toutes les observations. Lanalyse factorielle regroupe donc au sein dun mme facteur toutes les variables ayant de fortes corrlations entre elles. La dmarche est un peu similaire lors dune analyse typologique. La mesure de distance est calcule pour chaque paire dobjets sur la base de leurs caractristiques telles que spcies par lanalyste. Ainsi, chaque objet peut tre compar par le biais de cette mesure de distance an de former des groupes homognes. Les mesures de distance, comme leur nom lindique, reprsentent lloignement entre deux observations en fonction de leurs caractristiques, une valeur leve reprsentant une faible proximit. Cette distance peut tre convertie en mesure de proximit en inversant la relation. La principale mesure utilise est la distance euclidienne, qui consiste calculer la racine carre de la somme des carrs des diffrences entre les valeurs de chaque variable. La gure 4.3 illustre cette mesure.1 Figure 4.3
Illustration de la distance euclidienne 1.
Y Observation 2 (X2,Y2) Y2-Y1

Observation 1 (X1,Y1)

X2-X1

Distance =

(X2-X1)2+(Y2-Y1)2

1. Adapt de Hair et al., 2006, p. 575.

Segmenter 83

On peut voir sur la gure 4.3 que la distance euclidienne mesure la distance (ou la proximit) entre deux observations dont les coordonnes dans lespace sont donnes par les valeurs des variables X et Y. Pour lobservation 1, ces coordonnes sont (X1, Y1) et (X2, Y2) pour lobservation 2. La distance euclidienne entre ces deux points est la longueur de lhypothnuse du triangle rectangle. Il est galement possible de prendre le carr de la distance euclidienne en enlevant la racine carre de la formule ci-dessus. Cest une approche qui facilite le calcul et qui peut tre utilise, par exemple, dans la mthode de Ward (voir ci-aprs). Dautres mesures de distance peuvent savrer appropries dans le cadre de donnes mtriques : le coefcient de corrlation de Pearson : cest une mesure dassociation qui permet dtablir si deux variales mesures sur le mme ensemble dobservations varient de faon analogue ou non ; la distance de Tchebycheff : il sagit de la diffrence maximale absolue entre les valeurs relatives aux lments de la classication ; la distance de Minkowski : cest la racine nime de la somme des diffrences absolues entre les valeurs relatives aux lments la puissance n. Dans le cadre dune classication avec des donnes binaires, on privilgiera : lindice de Sokal et Michener : il reprsente le rapport entre les appariements (rapprochements deux deux) et le nombre total de valeurs ; lindice de Rogers et Tanimoto : cet indice attribue un poids deux fois plus important aux non-appariements (non-concidences) ; lindice de Sokal et Sneath : un poids plus important est accord aux appariements qui comptent le double. De nombreuses autres mesures de distance existent ; il est fortement conseill de tester empiriquement ces techniques an de dnir la mesure qui reprsentera de la manire la plus efcace la structure des donnes collectes. Un certain nombre de limites doivent cependant tre prises en compte. Lors danalyses typologiques reposant sur des mesures diffrentes par exemple des chelles de Likert, des pourcentages, des montants en euros, etc. , il est ncessaire de standardiser les mesures et dlimer les observations aberrantes. En ce qui concerne la standardisation, lapproche la plus courante est la mthode de lcart type, mais dautres approches peuvent tre testes. Lutilisation de mesures de distance diffrentes peut conduire des rsultats de classication diffrents. Lanalyse typologique est en ce sens une mthode empirique, o, comme nous lavons signal, de nombreuses combinaisons doivent tre testes avant de dterminer la conguration optimale.

2.2 CONSTITUTION

DES GROUPES

Il existe deux types de mthodes de constitution des groupes (classication) : les mthodes dites hirarchiques et les mthodes non hirarchiques (voir gure 4.4). Les mthodes de classication hirarchique consistent tablir une structure arborescente ascendante ( partir de chaque individu de groupe diffrent en constituant des groupes de plus en plus gros) ou descendante ( partir de tous les individus regroups). Les mthodes de classication non hirarchique visent constituer k groupes (k tant

84

Analyse de donnes avec SPSS

Chapitre

spci en dbut danalyse) partir des n individus de dpart. Nous prsentons dans cette section les mthodes les plus couramment mises en uvre. Figure 4.4
Choisir une mthode de classication.
Classifications

Hirarchique

Non hirarchique

Ascendante

Descendante

Centres mobiles

Nues dynamiques

Classication hirarchique ascendante


La classication hirarchique ascendante est un processus relativement simple et rptitif. Les individus/observations sont regroups en segments aux caractristiques communes. On peut dnir le processus de classication comme suit : chaque observation reprsente un groupe, le nombre de groupes est par consquent gal au nombre dobservations ; les deux groupes aux caractristiques les plus proches sont agrgs au sein dun mme groupe en fonction de la mesure de distance choisie (euclidienne par exemple) et de la mthode dagrgation retenue (voir ci-aprs) ; le processus dagrgation ci-dessus est rpt n 1 fois (n tant le nombre dobservations), cest--dire jusqu ce quil ny ait plus quun seul groupe. Prenons lexemple dune enqute comportant 100 observations : la classication dmarre avec 100 groupes dune observation, ensuite les deux groupes les plus proches sont agrgs, puis lon recherche parmi les 99 groupes les deux groupes les plus proches, jusqu ce que les deux derniers groupes soient agrgs au sein dun mme et dernier groupe. En ce qui concerne la constitution des groupes, l encore plusieurs approches peuvent tre envisages (Malhotra et al., 2007). On retiendra cinq mthodes (ou algorithmes) dagrgation principales : le saut minimum : cette mthode consiste prendre la plus petite distance mesure entre un lment de chaque groupe, puis la plus petite distance suivante, etc. ; la distance du diamtre : la distance entre deux groupes est calcule partir de la distance entre leurs deux points les plus loigns ; la distance moyenne : cette mthode est relativement proche ; la distance entre deux groupes est dnie par la moyenne des distances entre toutes les paires dindividus en prenant en compte, pour chaque paire, un membre de chaque groupe. Cette mthode est couramment employe du fait quelle utilise linformation de toutes les paires de distances ; la mthode des barycentres : il sagit, comme la mthode de Ward, dune mthode fonde sur la variance. Ces mthodes ont pour objet en effet de gnrer des groupes an de minimiser la variance lintrieur de ceux-ci. On mesure la distance entre deux groupes en tablissant la distance entre leurs barycentres (point construit partir des moyennes de toutes les variables) ;

Segmenter 85

la mthode de Ward : on calcule les moyennes pour toutes les variables de chaque groupe, puis, pour chaque individu, le carr de la distance euclidienne au centre de la classe. Figure 4.5
Interprtation des deux grandes mthodes de classication.
1 2 3 4 5 6 7 8 Ascendante

Descendante

La gure 4.5 reprsente ce que lon nomme un dendogramme, autrement dit la reprsentation graphique des rsultats de la classication des individus en groupes. On lit le dendogramme de gauche droite pour une classication hirarchique ascendante, et de droite gauche pour une classication hirarchique descendante. Les traits horizontaux de la partie gauche du dendogramme reprsentent les 8 segments naux raliss lors de la classication hirarchique. La longueur de ces traits horizontaux est galement caractristique de la distance qui spare les groupes. Les lignes verticales reprsentent lagrgation, le rapprochement de deux groupes. Sur le graphique prsent, les segments 1 et 2 peuvent tre agrgs (ils sont proches une distance de 1 peu prs) 1, ce qui est galement le cas des segments 5 et 6 ( une distance de 1,5 environ). Lagrgation suivante se fait une distance de 2 et concerne le nouveau segment (compos des segments initiaux 5 et 6) et du segment 7. Nous dveloppons linterprtation dun dendogramme plus en dtail dans la partie suivante.

Classication hirarchique descendante


La classication hirarchique descendante consiste considrer lensemble des observations rassembles au sein dun mme segment, puis les diviser en deux segments, puis en trois, quatre, etc., jusqu obtenir un nombre maximum de segments (des groupes ne contenant quun seul individu).

1. Les distances ici sont fictives, elles ont pour but dillustrer lcart relatif entre les groupes.

86

Analyse de donnes avec SPSS

Chapitre

SPSS

La procdure suivre dans SPSS est la suivante : Menu Analyse > Classement > Classication hirarchique La bote de dialogue de la gure 4.6 safche.

Figure 4.6
Bote de dialogue du menu Classication Hirarchique.

Si vous classez des observations, vous devez slectionner au moins une variable numrique. Si vous classez des variables, slectionnez au moins trois variables numriques. Il est galement possible de slectionner une variable dinformation pour tiqueter les observations (par exemple classer les observations par pays). Le menu graphique vous permet de gnrer un arbre hirarchique ou dendogramme (voir ci-aprs) souvent utile pour linterprtation. En ce qui concerne la mthode (voir gure 4.7), plusieurs possibilits existent : le saut minimum, la distance du diamtre, la distance moyenne, la mthode des barycentres et la mthode de Ward (la plus couramment utilise).

Figure 4.7
Bote de dialogue du sous-menu Mthode.

Une fois la mthode retenue, la mesure doit tre slectionne : lanalyste peut choisir entre la distance euclidienne ou le carr de la distance euclidienne par exemple, mais encore la corrlation de Pearson, la distance de Tchebycheff, la distance de Minkowski, lindice de Sokal et Michener, lindice de Rogers et Tanimoto, lindice de Sokal et Sneath que nous avons abords dans la section prcdente. Il est prfrable de tester plusieurs mthodes et plusieurs mesures avant de retenir une solution dnitive. En effet, ces approches peuvent produire des rsultats diffrents, plus ou moins lisibles ou utiles pour la dcision. Larbre de dcision ou dendogramme peut faciliter la lecture des rsultats.

Segmenter 87

2.3 CLASSIFICATION

NON HIRARCHIQUE

Les mthodes de classication non hirarchiques visent constituer k groupes (k tant spci en dbut danalyse) partir des n individus de dpart. Ces mthodes sont trs largement utilises car elles permettent de traiter des volumes importants tout en optimisant les critres de classication. La particularit de ces mthodes, la diffrence des mthodes de classication hirarchique, est que le choix du nombre de groupes se fait en dbut de processus. Il sagit dun paramtre que lanalyste doit xer avant de lancer lalgorithme. Cest un lment qui peut poser problme, tant donn que lon ne connat jamais ex ante le nombre idal de groupes existant au sein dune population tudie. Dans la pratique, il est prfrable de ne pas avoir traiter un nombre trop lev de groupes, ce qui rendrait difcile linterprtation. On recommande donc de faire plusieurs essais avec des nombres de groupes diffrents an didentier la meilleure solution au regard de critres statistiques de validit (la variance intergroupe divise par la variance totale par exemple). On utilise en gnral des solutions comprenant entre 5 et 10 groupes. On distingue deux mthodes principales de classication non hirarchique, qui sont en ralit deux niveaux dune mme approche : la mthode des centres mobiles et la mthode des nues dynamiques. la mthode des centres mobiles : mthode dcomposant un ensemble dindividus en un nombre n de classes choisies a priori par un processus itratif convergeant de slection des reprsentants de chaque classe (un centre par classe), qui peut tre initialis au hasard ou par lutilisateur de la mthode. Les individus sont donc regroups autour de ces centres de classe, les groupes tant constitus des individus les plus proches du centre du groupe. Une fois les individus affects, on remplace les centres par les barycentres (cest--dire le point dquilibre de tous les points pris en compte) an de recalculer les classes ; la mthode des nues dynamiques : il sagit dune gnralisation de la mthode des centres mobiles, dans laquelle chaque classe est reprsente par un noyau de plusieurs lments et non plus par un seul. Par ailleurs, le barycentre de chaque groupe est recalcul chaque nouvel individu et non lors de laffectation de tous les individus. La convergence est ainsi plus rapide et parfois mme possible en une seule itration, ce qui peut tre utile sur de gros volumes de donnes (Tuffry, 2006). La mthode des nues dynamiques est une mthode frquemment employe. Elle est particulirement performante en marketing, o le nombre dobservations (questionnaires collects par exemple) est frquemment suprieur 100. Les classications hirarchiques sont en effet lourdes manipuler au-del de ce seuil, le nombre ditrations tant trop important en termes de capacit de calcul. Lapproche des nues dynamiques est intressante galement car elle permet dadopter un raisonnement utile pour linterprtation. Elle suppose, en effet, quil existe pour chaque groupe un individu plus reprsentatif que les autres de la classe laquelle il est affect, celui qui est le plus proche du barycentre. Notons que les variables doivent tre quantitatives et/ou que la mesure de distance employe est la distance euclidienne simple. Si vous souhaitez utiliser une autre mesure de distance, il est prfrable dutiliser la mthode de classication hirarchique.

88

Analyse de donnes avec SPSS

Chapitre

* Focus 4.1

Application aux donnes textuelles


Les mthodes de classication hirarchiques, mais galement les nues dynamiques, ont t depuis les travaux de Benzcri, puis de Reinert, appliques au domaine de la lexicomtrie (ou statistique textuelle), et plus rcemment au Text Mining (extension aux donnes textuelles du Data Mining classique). Le principe sous-jacent au dploiement de ces mthodes est quil est possible de mettre jour dans un discours ou un texte, une structure, des squences qui vont permettre une analyse ne de ce type de donnes complexes traiter. Plus prcisment, la statistique textuelle a pour objet de dcouper un texte en units textuelles (des mots par exemple) puis de regrouper les units qui sont proches de faon obtenir des classes homognes de discours, sufsamment distinctes les unes des autres, que Reinert nomme des mondes lexicaux et qui correspondent aux diffrentes facettes dun corpus textuel. Il est ainsi possible, par exemple, dextraire de grandes classes de mots utiliss par les consommateurs pour parler dune marque ; un premier groupe de mots fait rfrence limage, un deuxime au rapport qualit/ prix, un troisime aux concurrents, etc. De nombreux logiciels permettent de traiter ces donnes textuelles : Alceste (le logiciel dvelopp par Max Reinert du CNRS), Tropes, Sphinx Lexica, mais galement dans une approche de Text Mining : Lexiquest et Clementine de SPSS et Text Miner de SAS.

SPSS

La procdure suivre dans SPSS est la suivante : Analyse > Classication > Nues dynamiques La bote de dialogue de la gure 4.8 apparat.

Figure 4.8
Bote de dialogue du menu Nues dynamiques.

La premire tape consiste slectionner les variables qui paraissent les plus pertinentes. On spcie ensuite le nombre de classes que lon souhaite obtenir (entre 5 et 10). Une indication du nombre de classes souhaitable peut tre fournie par une premire analyse de type ACP (analyse en composantes principales), par exemple pour simplier des donnes collectes (voir le chapitre 3 sur la simplication des donnes). Le menu Options permet de spcier un certain nombre dlments qui seront utiles linterprtation : prciser les centres de classe initiaux ou crer un tableau ANOVA an de dterminer les variables les plus discriminantes dans la constitution des groupes et liminer ainsi les centres de classe initiaux (pour linterprtation de lANOVA, voir le chapitre 5). Il est possible galement dexclure les valeurs manquantes. On clique ensuite sur Itrer pour lancer la procdure.

Segmenter 89

(3)

Mise en uvre
Lanalyse typologique est une mthode qui suppose de tester empiriquement un grand nombre de combinaisons diffrentes. La nature des donnes segmenter mais galement les choix oprs au niveau de la mesure de distance et des mthodes de constitution des groupes rendent extrmement complexe le choix dune combinaison optimale. titre dexemple, le nombre de regroupements possibles de 1 000 personnes en 6 classes est de lordre de 1015 ! (Evrard et al., 1997) Ds lors, un certain nombre de problmes pratiques se posent lanalyste. Les deux premiers sont lis la mise en uvre de la dmarche : le choix du nombre des groupes et linterprtation du prol des groupes constitus. Le troisime problme est li la validit de la classication ; dimportantes prcautions doivent tre prises au cours de cette tape, comme nous le montre lexemple suivant.

EXEMPLE

Pour illustrer la mise en uvre dune dmarche de classication, prenons un exemple concret. Une entreprise du secteur informatique, fabriquant et commercialisant des ordinateurs et des baladeurs numriques, souhaite se diversier en lanant un tlphone portable nouvelle gnration. Elle ralise une tude de march an de lancer une gamme de produits dclinables en fonction de segments de consommateurs ayant des besoins sufsamment diffrencis les uns des autres pour viter toute cannibalisation. Lenqute a t administre 160 consommateurs regroups en 7 segments diffrents et qui ont t interrogs sur leurs prfrences, notes sur une chelle de 1 7, sur un total de 15 attributs : Intrt nouveaut Utilisation SMS Utilisation voix Utilisation agenda Rception donnes mission donnes Bluetooth Wi-Fi Taille cran Fonction E-mail Fonction Internet Appareil photo Design Prix abonnement Prix achat (hors abon.)

3.1 CHOISIR

LE NOMBRE DE GROUPES tant donn le nombre dobservations, le charg dtude dcide de mettre en place une classication hirarchique an de constituer les groupes. Les rsultats sont reprsents dans larbre de dcision de la gure 4.9.

Figure 4.9
Reprsentation graphique des rsultats de la premire classication.

90

Analyse de donnes avec SPSS

Chapitre

Le dendogramme nous fournit la fois une visualisation graphique des rsultats et le niveau en termes de distance des regroupements effectus. On peut voir, par exemple, que les segments 5 et 7 sont les plus proches, une distance de 0,17 seulement. On constate ensuite que les deux segments suivants, les segments 1 et 6, ne sont spars que par une distance de 0,21. Le saut suivant est effectu une distance de 0,32 et regroupe lagrgation des segments 5 et 7 avec le segment 2. On entend par saut les carts de distance entre les regroupements effectus. On peut les identier avec SPSS dans le chier des rsultats, o on les retrouve dans la chane des agrgations, tableau qui reprend les distances auxquelles ont t effectus les regroupements (voir exercice 1). On constate dans cet exemple que le saut suivant se situe une distance de 1,15, qui correspond pratiquement au triple en termes de distance du prcdent regroupement. Il existe donc un cart important entre les trois premiers regroupements et les suivants. Une solution 4 classes semble donc pertinente (les 7 classes sont obtenues par 6 regroupements successifs ; si lon fusionne les trois premiers regroupements noncs, on nobtient plus que 3 regroupements sparant 4 classes diffrentes).

3.2 INTERPRTER

LES GROUPES

Une lecture de la classication 4 groupes donnerait les rsultats prsents la gure 4.10. Figure 4.10
Reprsentation graphique la classication en 4 groupes.

La premire tape dans linterprtation de la classication obtenue consiste revenir sur les centres de groupes. Plus prcisment, on cherche tablir les coordonnes de ces points, que lon pourrait assimiler des centres de gravit des classes constitues, en reprenant les moyennes des scores des variables pour tous les individus appartenant la classe. Il est important dobtenir une classication pertinente du nombre de classes exploiter mais galement une lecture aise de ces groupes dindividus ou de variables (voir tableau 4.1). On dcrit les segments obtenus en observant les scores moyens par variable et par groupe et en les comparant au score moyen de lensemble des rpondants (colonne Total). On constate que le segment 1 est caractris par un intrt fort port la nouveaut propose par lentreprise, par un bloc de variables (de Ut_Tel mission) correspondant aux fonctions classiques du tlphone et aux fonctions avances (E-mail, Internet, Appareil photo). Le segment 2 est plutt caractris par lemploi des SMS, les lments lis la connectivit distance, une taille dcran importante. Le segment 3 peut tre dcrit par une forte mission/rception de donnes, un intrt pour les lments de connectivit distance ainsi que pour la taille de lcran, le design du produit ; il est relativement peu sensible au prix. Le segment 4 regroupe des individus attirs par la nouveaut, utilisant

Segmenter 91

Tableau 4.1 : Centres de groupes


Variable Intrt Ut_SMS Ut_Tel Ut_Agenda Rception mission Bluetooth Wi-Fi cran E-mail Internet Ap_Photo Design Px_Abon Px_Achat Total 3,47 4,21 5,56 4,01 4,45 4,50 3,99 3,71 4,79 4,72 4,47 4,01 4,63 28,8 332 S1 3,71 3,68 5,84 5,89 5,02 5,20 3,86 3,39 4,29 5,96 5,66 5,20 3,95 24,6 290 S2 2,43 5,63 5,43 2,33 3,88 3,90 5,04 3,73 5,55 3,31 3,04 5,45 4,16 25,3 273 S3 2,19 3,19 4,31 3,06 6,12 6,25 5,31 6,12 5,00 2,88 1,44 1,94 5,50 45,3 488 S4 5,11 3,49 5,84 3,86 3,65 3,51 2,16 3,14 4,43 5,59 5,97 5,27 5,95 32,6 411

fortement leur tlphone, apprciant toutes les nouveauts technologiques proposes dans le nouveau produit et insensibles au prix. On peut considrer (on le voit galement dun point de vue graphique) quil existe deux segments principaux composs chacun de deux sous-segments. Les segments 1 et 4 regroupent en effet des individus attirs par la nouveaut. Le segment 4 tant moins sensible au prix, on pourrait les comparer des early adopters ou adoptants prcoces, qui sont les premiers acheter les nouveauts sur le march. Le segment 4 reprsente des individus attirs par la nouveaut mais relativement peu informs et relativement dsargents. Ils pourraient constituer une cible intressante pour une seconde vie du produit, avec abonnement, une fois que linnovation aura t diffuse auprs dune premire couche de population, plus rentable. Le second groupe, constitu des segments 2 et 3, reprsente une population qui diffre lgrement de la premire. Le segment 3, caractris par les variables depuis mission jusqu cran, est sensible au design et trs peu au prix. Il sagit dun segment probablement CSP + ou professionnel, qui lon peut destiner une version haut de gamme, tant dun point de vue technique quen ce qui concerne les services associs (ils tlchargent et mettent un volume important de donnes). Le segment 2 est un segment plus mass market a priori, qui pourrait correspondre une population plus jeune (SMS), connecte (Bluetooth, Wi-Fi) et qui souhaite uti-

92

Analyse de donnes avec SPSS

Chapitre

liser les fonctionnalits multimdias de lappareil (cran, Appareil photo) an de communiquer. Pour sassurer de la validit de la classication obtenue, il est recommand de vrier en premier lieu la cohrence au sein des diffrents groupes (effectuer une analyse de variance par exemple). Lanalyste peut galement raliser des tests statistiques sur chaque variable (frquences, etc.) an de comparer les rsultats au sein dun groupe avec lensemble des observations. Ces dmarches ne sont utiles que si un certain nombre de combinaisons (mthode, distance, ajout/omission de variables, etc.) ont dj t testes.

Rsum
Lanalyse typologique est une mthode frquemment mobilise en analyse de donnes. Elle permet non seulement de classer des individus ou des variables, mais galement de rduire les donnes en les regroupant au sein de classes homognes. Il nexiste pas une mais des mthodes de segmentation. Que lon opte pour une procdure de classication hirarchique ou non hirarchique, lanalyse typologique confre une grande libert lanalyste, mais rend galement plus complexe le choix de la bonne approche. Elle suppose de tester empiriquement un grand nombre de combinaisons avant de trouver la dmarche qui aboutisse des rsultats exploitables (nombre de groupes et interprtation) et valides.

Pour aller plus loin


Evrard Y., Pras B., Roux E., Market. tudes et recherche en marketing, Nathan, Paris, 2003. Hair J. F., Anderson R. E., Tatham R. L., Black W. C., Multivariate Data Analysis, Prentice Hall International, New Jersey, 2007. Malhotra N., Decaudin J. M., Bouguerra A., tudes marketing avec SPSS, 5e d., Pearson Education, Paris, 2007. Tuffry S., Data mining et statistiques dcisionnelles, ditions Technip, Paris, 2007.

Segmenter 93

Exercices
EXERCICE 1
nonc

HABITUDES

ALIMENTAIRES

Une enseigne de grande distribution cherche raliser une enqute sur les habitudes alimentaires en Europe an dadapter sa politique dachat et de rfrencement. Les donnes concernant 25 pays ont t recueillies. Elles portent sur les indices globaux de consommation de 9 catgories de produits alimentaires : viande rouge, viande blanche, uf, lait, poisson, crales, fculents, olagineux, fruits et lgumes. Les donnes issues de lenqute sont disponibles dans le chier alimentaire.sav . Quelle pourrait tre lutilit de lanalyse typologique dans ce cas prcis ? Quelle mthode de classication recommandez-vous ? Ralisez et dcrivez larbre de classication. Dans le cas de la classication hirarchique, on peut galement interprter le nombre de groupes par le biais de la chane dagrgation, qui reprend dans un tableau les distances auxquelles les groupes sont agrgs. Linterprtation de cette chane consiste reprer des sauts de distance dans la constitution des groupes. Commentez le tableau de la chane dagrgation obtenu. 5. Combien de groupes faut-il garder ? 6. tes-vous satisfait des rsultats de lanalyse ? 1. 2. 3. 4.

* Solution

1. Lanalyse typologique permet de rduire le nombre dobservations en les regroupant en des classes homognes et diffrencies . Dans ce cas prcis, lobjectif de lanalyse typologique pourrait tre de faire apparatre des catgories de pays en fonction des habitudes alimentaires. Lutilit pour lenseigne est multiple : en faisant merger ces grands types de consommation, elle sera mme doptimiser sa stratgie de ngociation avec les fournisseurs, sa politique dachat, structurer son dpartement achat par rgions, etc. 2. Lenqute porte sur seulement 25 observations, une classication hirarchique semble pertinente. Dans ce cas prcis, rien ne nous oriente vers une classication hirarchique ascendante ou descendante. Il est prfrable de sorienter vers les pratiques les plus diffuses : nous pourrions essayer dans un premier temps de raliser une classication hirarchique ascendante. Un premier essai en utilisant la mthode de Ward et le carr de la distance euclidienne (prfrable lorsquon utilise la mthode de Ward comme nous lavons vu) pourrait savrer fructueux. 3. La procdure est la suivante : Analyse > Classement > Classication hirarchique Faites glisser les variables de viande rouge fruits et lgumes dans la case Variable(s), et slectionnez Nom du pays an dtiqueter les observations. Dans le menu Graphique slectionnez Arbre hirarchique. En ce qui concerne la mthode, on peut, dans un premier temps, essayer dutiliser la mthode de Ward combine une mesure par le carr de la distance euclidienne. On obtient le dendogramme de la gure 4.11.

94

Analyse de donnes avec SPSS

Chapitre

Figure 4.11
Reprsentation graphique des rsultats de la premire classication.

On peut observer sur larbre de dcision que deux grands blocs de pays se dtachent assez nettement. La premire classe est constitue des pays allant du Danemark au Liechtenstein, la seconde de la Bulgarie lAlbanie. Ces deux blocs sont repris dans le tableau 4.2. Tableau 4.2 : Les deux premiers groupes de pays
Groupe 1 Danemark Sude Norvge Islande France Belgique Royaume-Uni Suisse Irlande Pays-Bas Allemagne Liechtenstein Groupe 2 Bulgarie Yougoslavie Roumanie Espagne Portugal Ukraine Pologne Rpublique tchque Hongrie Grce Italie Russie Albanie

Segmenter 95

Exercices

La classication semble assez cohrente. Le premier groupe correspond a priori des pays plus dvelopps, ou faisant partie du premier cercle de lUnion europenne dun point de vue historique. Le second groupe, lexception de lItalie, fait partie de pays ayant adhr plus tardivement lUE ou hors UE. On peut supposer que, mme si les carts de dveloppement ont t rattraps pour certains dentre eux (Espagne, Grce, etc.), les difcults

passes se notent dans les comportements alimentaires. Les donnes dont nous disposons ne nous permettent pas encore de vritable interprtation. 4. En ce qui concerne la chane dagrgation, on obtient les rsultats de la gure 4.12. Figure 4.12
Chane dagrgation de la typologie pays.

Nous recherchons des sauts de distance dans la chane dagrgation. Le premier saut apparat nettement et conrme la description en deux classes principales : la distance double entre les tapes 23 et 24 (de 2 632,676 et 5 243,414). Le deuxime saut (22-23) est caractris par un cart de 900 environ, le troisime saut (21-22) par un cart de 500 environ, et enn le quatrime saut (20-21) par un cart de 200 seulement. Les troisime et quatrime sauts tant caractriss par des carts trop faibles si on les compare aux deux prcdents, une solution trois classes semble se proler. Cette solution nous amnera distinguer deux sous-groupes au sein du deuxime groupe de pays : un groupe constitu de la Bulgarie, de la Yougoslavie et de la Roumanie, dun ct (ce qui a du sens dun point de vue purement gographique) et le reste des pays, de lautre. 5. Au vu des rsultats prcdents, et des objectifs que pourrait potentiellement mettre en uvre lenseigne de distribution, il semble quune solution deux groupes soit prfrable. En effet, le troisime groupe que nous avons fait apparatre ntant constitu que de trois pays, la porte managriale de cette distinction est faible (mettre en place une cellule ou adapter la stratgie pour ces trois pays). Il faudrait croiser lanalyse avec dautres variables, de type risque pays par exemple, qui sont fournies par les grands organismes internationaux (FMI, Banque mondiale, OMC, Eurostat, etc.) pour savoir sil sagit de pays exclure des dcisions stratgiques dans cette rgion. 6. Ces commentaires sont effectus sur les rsultats dune seule analyse. Ils ne donnent pas entire satisfaction et il est souhaitable de tester dautres approches avant de donner un rsultat dnitif. vous de tester dautres procdures pour mieux dterminer les groupes.

96

Analyse de donnes avec SPSS

Chapitre

EXERCICE 2
nonc

ACHATS ON-LINE
Une enqute portant sur un nombre lev de rpondants (1 400 questionnaires exploitables) vient dtre ralise. Lobjet de cette enqute, commandite par une chane de magasins spcialise dans llectromnager est de mieux comprendre le comportement multicanal du consommateur, cest--dire si son comportement on-line diffre de son comportement off-line (en magasin traditionnel). Une premire approche en termes danalyse des rsultats est de faire merger des types de rpondants. Une extraction des rsultats de cette enqute est disponible dans le chier on-line.sav disponible sur le site : http://www.pearsoneducation.fr. 1. Quelle dmarche peut-on mettre en uvre ? Argumentez. 2. Dcrivez puis interprtez les segments obtenus.

* Solution

1. Le nombre lev dobservations nous oriente assez naturellement vers une mthode de classication non hirarchique. Ces mthodes, rappelons-le, visent constituer k groupes (nombre spci ds le dpart) partir des n individus (1 400 dans cet exemple). Le choix dune mthode non hirarchique sexplique par le recours un nombre moins lev ditrations que dans le cas dune classication hirarchique, ce qui allge lalgorithme en termes de capacit de calcul (si vous lancez SPSS avec une classication hirarchique sur ces donnes vous risquez dattendre trs longtemps vos rsultats !). Enn, les mthodes non hirarchiques que nous avons abordes (centre mobiles et nues dynamiques) sont intressantes en termes dinterprtation car elles supposent quil existe un centre de classe, cest--dire un individu plus reprsentatif de son groupe dappartenance. Il semble donc judicieux de mettre en uvre une analyse par la mthode des nues dynamiques (Kmeans). 2. Pour lancer la mthode des nues dynamiques reprenez la dmarche vue dans la partie cours : Analyse > Classement > Nues dynamiques La procdure afche la bote de dialogue de la gure 4.13.

Figure 4.13
Bote de dialogue de la mthode des nues dynamiques.

Segmenter 97

Exercices

La premire tape consiste choisir les variables les plus adaptes lanalyse. Vous pouvez vous aider des tiquettes des variables (dans lditeur de donnes cliquez sur longlet afchage des variables ). Nous navons pas vraiment dindication, en dehors des questions poses (pas danalyse factorielle par exemple sur la structure des donnes). Nous pouvons inclure, dans un premier temps, lensemble des variables ( lexception du numro de questionnaire, sans objet). Faites glisser les variables dans la cellule variable(s) . Choisissez ensuite le nombre de classes que vous souhaitez obtenir : une AFC peut tre utile ici pour vous orienter. Vous pouvez la raliser en vous reportant au chapitre 3. Nous allons procder de manire plus empirique. Tout dabord, nous choisissons un nombre lgrement plus lev de classes que celui attendu a priori (ou suggr par lAFC/ ACP). Les donnes que nous utilisons sont pour la plupart des chelles en 5 points, sauf la variable dichotomique sur la rcence de la visite dun site de-commerce qui pourrait tre une variable relativement discriminante (de mme que le sexe). Proposons dans un premier temps une classication en 4 classes et observons les rsultats. tant donn que nous allons classer un nombre lev de variables, il faut augmenter le menu Itrer 30 itrations maximum (nous pourrons augmenter/diminuer le nombre ditrations si les rsultats nous indiquent que ce nombre savre insufsant/trop lev). Il est possible, dans ce menu, de sauvegarder les classes en tant que nouvelles variables ; cette opration est utile en n danalyse pour vrier la validit des rsultats. Dans les Options, choisissez dajouter un tableau ANOVA (analyse de variance) qui sert dterminer quelles sont les variables les plus discriminantes dans la constitution des groupes. Lancez la procdure. Nous obtenons les rsultats prsents la gure 4.14. Figure 4.14
Historique des itrations.

Dans la plupart des cas on peut laisser le menu itrer par dfaut ( 10 itrations maximum). Les classes convergent dans notre cas avant la 23e itration, cest--dire que la valeur ,000 est atteinte dans chacune des quatre classes. On observe ensuite le nombre dobservations dans chaque classe. Il faut veiller ce que celles-ci ne soient pas trop dsquilibres. Une bonne pratique consiste ne garder que les classes qui reprsentent 10 % ou plus des observations. Dans notre cas, on obtient la rpartition de la gure 4.15.

98

Analyse de donnes avec SPSS

Chapitre

Figure 4.15
Nombre dobservations dans chaque classe.

La rpartition semble homogne. Si les rsultats avaient t dsquilibrs ce niveau, il aurait fallu liminer une classe. tudions maintenant les variables les plus discriminantes en dcrivant les rsultats du tableau ANOVA (voir gure 4.16). Figure 4.16
Tableau ANOVA.

Le test de signicativit F est utilis dans linterprtation de lanalyse de variance (voir chapitre 4). Ici, le F ne doit tre utilis que dans un but descriptif car il sagit de maximiser les diffrences entre les observations des diffrentes classes. On recherche seulement les valeurs signicatives de F les plus leves. Deux constats peuvent tre faits la lecture du tableau : les variables les plus discriminantes pour la constitution des classes sont : 1) les visites avant achat (F = 2 853,781) ; 2) la frquence dachat sur Internet (F = 1 733,540) ; 3) le sentiment de scurit lors de lachat en ligne (F = 1 495,489). Le second constat provient des variables qui peuvent tre limines de lanalyse : il sagit des variables vendeur ( je naime pas me faire conseiller par un vendeur ), on-line ( jaime acheter on-line ) et multicanal ( je fais mes recherches on-line mais jachte en magasin traditionnel ) qui ne sont pas signicatives (respectivement 0,682/0,251/0,159). On peut relancer lanalyse en liminant ces trois variables : nous obtenons alors une convergence en 20 itrations et les rsultats prsents aux gures 4.17, 4.18 et 4.19.

Segmenter 99

Exercices

On interprte les 4 classes en fonction des centres de classe naux. On saperoit assez rapidement quil sagit dhommes principalement et que les segments sont diviss en deux catgories principales : les pour et les contre (pour linterprtation, on reprend la signication des valeurs en fonction des tiquettes de variables : 1 = absolument pas daccord, etc.). On peut lancer une segmentation deux classes pour faire apparatre plus clairement cette dichotomie. Les gures 4.20, 4.21, 4.22 et 4.23 prsentent les rsultats.

Figure 4.17
Rsultats deuxime analyse par les nues dynamiques (1).

Figure 4.18
Rsultats deuxime analyse par les nues dynamiques (2).

Figure 4.19
Rsultats deuxime analyse par les nues dynamiques (3).

100

Analyse de donnes avec SPSS

Chapitre

Figure 4.20
Rsultats naux (1).

Figure 4.21
Rsultats naux (2).

Figure 4.22
Rsultats naux (3).

Figure 4.23
Rsultats naux (4).

Segmenter 101

Exercices

On note tout dabord que le calcul a t plus rapide (6 itrations seulement) et que les deux classes sont relativement homognes (644 et 756 individus respectivement). Le premier groupe correspond des habitus de lachat en ligne, qui ont visit rcemment un site de-commerce, qui achtent rgulirement sur Internet, et qui ont visit de nombreuses fois le site avant de faire leur achat, que ce soit sur le site ou en point de vente traditionnel. Le second segment correspond des consommateurs qui sont plus rfractaires au commerce en ligne et qui ont visit peu de fois le site avant de faire leur achat. Dans les deux classes il sagit principalement dhommes. Nous navons pas dinformation sur le canal utilis pour raliser lachat : site ou magasin traditionnel. Une piste intressante suggrer votre responsable : mettre en uvre une analyse plus avance pour expliquer lachat on- ou off-line par lensemble des variables que nous venons dtudier.

EXERCICE 3
nonc

SEGMENTER

LE MARCH AUTOMOBILE1

Lexemple 1 que nous allons tudier reprend des informations sur les caractristiques de diffrents modles concurrents sur le march US, ainsi que leur performance en termes de prix et de vente. Lobjet de lapplication est de raliser une typologie des principales marques en prsence sur ce march. Ouvrez le chier ventes_voitures.sav disponible sur le site : http://www.pearsoneducation.fr. 1. Peut-on, sur ces donnes, mettre en uvre une classication hirarchique ascendante ? Dcrivez les tapes ncessaires sa mise en uvre. 2. Dcrivez et interprtez les segments obtenus.

* Solution

1. Nous allons procder une classication hirarchique ascendante. Comme nous lavons signal, cette mthode est peu performante sur de gros volumes de donnes. Le tableau de donnes contenant 157 modles concurrents, il est souhaitable de slectionner les observations pour en retenir un nombre moins lev. Nous pouvons centrer notre analyse sur les modles les plus performants sur le march par le biais de la procdure slectionner les observations (que nous avons aborde au chapitre 2). Dans le menu Donnes choisissez le sous-menu Slectionner les observations Nous nous intressons aux modles ayant vendu plus de 100 000 units sur le march amricain. Slectionnez les observations selon une condition logique : Si (type = 0) & (ventes > 100) comme indiqu sur la gure 4.24. Pour lancer la classication hirarchique ascendante, suivez les procdures que nous avons vues plus haut : Analyse > Classement > Classication hirarchique Nous allons fonder notre analyse sur un certain nombre de variables de classication pertinentes dans le cas dune segmentation de produits. Slectionnez les variables allant de Prix en millier ($) jusqu Consommation en les faisant glisser dans la cellule Variable(s) . Nous allons utiliser une variable an dordonner les rsultats : faites glisser la variable Modle dans la cellule Etiqueter les observations par . Dans le menu graphi-

1. Il sagit ici dune version lgrement modifie dun fichier disponible dans les fichiers exemples de SPSS (car_sales.sav). De nombreux fichiers de ce type peuvent tre utiliss pour manipuler et exprimenter les diffrents tests disponibles sur SPSS.

102

Analyse de donnes avec SPSS

Chapitre

Figure 4.24
Bote de dialogue Slectionner les donnes selon une condition logique.

que, cochez la case Arbre hirarchique et slectionnez la case Aucun dans le sousmenu Stalactites an de produire le dendogramme que nous analyserons dans la section suivante. Poursuivez et cliquez sur Mthode an dafcher la bote de dialogue des mesures de distance de la classication. Nous allons procder par une agrgation suivant le saut minimum, cest--dire en dterminant la plus petite distance mesure entre un lment de chaque groupe, puis la plus petite distance suivante, et ainsi de suite. Les donnes tant mesures sur des chelles diffrentes (dollars, litres, etc.) nous allons les standardiser par lemploi de lcart type, comme indiqu sur la gure 4.25. Figure 4.25
Bote de dialogue Choix de la mthode dagrgation et de la mesure de distance.

Cliquez sur Poursuivre et lancez la classication. La classication hirarchique ascendante nous a permis dobtenir 10 segments de vhicules, comme le montre le dendogramme la gure 4.26. Figure 4.26
Dendogramme des rsultats de la classication hirarchique.

Segmenter 103

Exercices

2. Lorsquon cherche dnir le nombre de groupes idal sur la base dun dendogramme, on souhaite identier de manire empirique des sauts de distance entre les diffrents regroupements effectus. En lisant le dendogramme de la droite vers la gauche, on constate quil y a un saut important entre 25 et 20 qui spare le march automobile en deux segments principaux, comme le montrent les traits en pointills sur la gure 4.27. Figure 4.27
Lecture du premier segment sur le dendogramme.

Rappelons la rgle de lecture du dendogramme nonce plus haut : les axes verticaux reprsentent les regroupements de segments, les axes horizontaux les distances entre les segments. Il sagira donc de ne conserver que les segments les plus distants et dagrger les segments les plus proches (ayant la plus petite distance). On peut constater, si lon poursuit la lecture des rsultats graphiques, quil existe un autre saut, entre 10 et 15, qui suggre 6 segments diffrents si lon compte le nombre de lignes horizontales entre ces deux mesures. On peut encore lire les rsultats diffremment : on constate quil existe un cart visuel entre les 5 premiers axes verticaux (les 5 premiers regroupements suggrant donc 6 segments) et les axes verticaux suivants situs sur la partie gauche du graphique. En effet, le 5e axe se situe une distance de 14 peu prs, tandis que le suivant se situe une distance de 8. Une telle solution 6 segments napporte pas sufsamment de clart notre lecture du march automobile. Il peut tre intressant alors dessayer une autre mthode dagrgation qui pourrait savrer plus pertinente. Rappelez la bote de dialogue et choisissez la mthode dagrgation suivant la distance du diamtre, calcule partir de la distance entre les deux points les plus loigns des groupes compars deux deux. On obtient larbre de classication prsent la gure 4.28. Figure 4.28
Lecture du second dendogramme.

104

Analyse de donnes avec SPSS

Chapitre

On voit apparatre les rsultats plus clairement. Deux segments diffrents peuvent tre identis : les modles du haut (de Accord Corolla) reprsentent les vhicules les plus petits, les modles du bas (de Malibu Mustang) reprsentent les modles les plus grands. On peut remarquer galement que deux sous-segments se distinguent au sein des plus petits vhicules : la Focus, la Civic et la Corolla sont des vhicules moins chers que les trois modles du haut. En ce qui concerne la chane des agrgations de notre second cas, on obtient le tableau de la gure 4.29. Figure 4.29
Chane des agrgations.

Dans ce tableau, le coefcient dagrgation ralise un saut important (plus du double) entre les tapes 9 et 10 : la solution deux groupes est bien approprie.

Segmenter 105

Exercices

Chapitre

Lanalyse de variance
1. Les diffrentes analyses de variance.............................108 2. La mthode du plan dexprience ...........................120

Exercices 1. Questions de recherche et type danalyse de variance ...127 2. tude du point de vente............128 3. Quel rgime est le plus efficace ?......................130

Lanalyse de variance dsigne une famille de mthodes destines examiner et interprter les diffrences de moyennes observes entre plusieurs groupes pour une mme variable (ANOVA pour ANalysis Of VAriance) ou pour plusieurs variables (MANOVA pour Multivariate ANalysis Of VAriance). Ces mthodes sont souvent utilises pour analyser des donnes issues dune exprimentation o des caractristiques dun objet sont manipules an doptimiser lobjet au moindre cot. Nous verrons dans un premier temps les techniques danalyse de variance et de covariance avant de dcouvrir un terrain dapplication privilgi de lANOVA : la mthode du plan dexprience.

107

(1)

Les diffrentes analyses de variance


Diffrents types danalyses de variance existent. La gure 5.1 prsente le type danalyse selon la nature des variables dpendantes et indpendantes. Nous commenons par dtailler les principes de lanalyse univarie de la variance avant de passer lanalyse multivarie puis lanalyse de covariance.

Figure 5.1
Type danalyse de variance selon la nature des variables.

Une seule variable dpendante quantitative

Plusieurs variables dpendantes quantitatives

une seule variable indpendante qualitative

plusieurs variables indpendantes

plusieurs variables indpendantes

test t

qualitative(s)

mixtes

qualitatives

mixtes

ANOVA
Source : adapt de Malhotra (2007).

ANCOVA

MANOVA

MANCOVA

1.1 LES

PRINCIPES DE LANALYSE DE VARIANCE Lanalyse de variance entre dans le cadre gnral du modle linaire, o une variable quantitative (ou plusieurs) est explique par une variable qualitative (ou plusieurs). Lobjectif essentiel est de comparer les moyennes empiriques de la variable quantitative observes pour les variables qualitatives (facteurs) ou quantitatives dcoupes en classes (niveaux). titre dexemple, on tudiera la satisfaction du client lgard dun produit selon les diffrentes caractristiques de ce produit (parfum, texture, etc.). Il sagit de savoir si un facteur, ou une combinaison de facteurs (interaction), a un effet sur la variable quantitative explique. Par exemple, il sagira de dterminer les caractristiques optimales dun paquet de crales pour un petit djeuner destin aux enfants. Des indicateurs statistiques permettent de tester la signicativit de cette combinaison linaire.

1.2 LANALYSE

UNIVARIE DE LA VARIANCE

: ANOVA

UN FACTEUR

Lanalyse de variance sert tester lhypothse dgalit des moyennes. Cette technique est une extension du test t pour deux chantillons indpendants. Elle permet de traiter les diffrences de moyennes dune variable dpendante quantitative Y lorsque la variable indpendante a plus de deux modalits. Ce type dANOVA permet de savoir si au moins une des moyennes diffre des autres. Ainsi, le salaire (variable quantitative) peut-il tre expliqu par le diplme (variable qualitative).

108

Analyse de donnes avec SPSS

Chapitre

Lhypothse nulle est vrie par le test F sous SPSS. An didentier les moyennes qui diffrent, on peut comparer les moyennes avec les contrastes ou avec les tests post hoc. Deux conditions sont ncessaires pour que les conclusions dune ANOVA soient valides : lhomognit de la variance intragroupe et la normalit des donnes. Le test de Levene (> 0,05) est utilis pour accepter lhypothse dhomognit de la variance intragroupe. Il faut, par ailleurs, vrier la prsence ventuelle de mesures aberrantes par le contrle de la distribution des rsidus laide dun graphique, les erreurs de saisie pouvant gnrer des htrognits. Si les donnes ne sont pas appropries une ANOVA (htrognit des variances ou donnes fortement asymtriques), on doit alors utiliser des tests non paramtriques qui ne supposent ni homognit de la variance, ni une distribution normale, par exemple le test de Kruskall-Wallis.

* Focus 5.1

Les tests post hoc et de comparaisons multiples


Lorsquon a dtermin quil existe des diffrences parmi les moyennes, les tests dintervalle post hoc et de comparaisons multiples par paires dterminent les moyennes qui diffrent. Ces tests servent connatre, parmi plusieurs niveaux de modalits, ceux qui sont signicativement diffrents des autres. Ils sont utiliss aprs que lanalyse de variance a t effectue, si un facteur est signicatif, et ils ne concernent que les facteurs ayant plus de deux niveaux. Les tests post hoc les plus courants sont ceux de Duncan, de Tukey, de Scheff et de Bonferroni. Le test de Duncan compare des moyennes deux deux et suit un ordre pas pas. Il utilise la statistique dintervalle studentis. Le test de Bonferroni, fond sur la statistique t de Student, ajuste le niveau de signication observ en fonction du nombre de comparaisons multiples qui sont effectues. Pour comparer un grand nombre de paires de moyennes, le test de Tukey est plus efcace que celui de Bonferroni. Le niveau de signication du test de Scheff permet toutes les combinaisons linaires possibles des moyennes de groupes tester. Ce test est donc souvent plus strict que les autres; une plus grande diffrence de moyenne est ncessaire pour quil soit signicatif.

SPSS

tude du format du challenge avec une ANOVA un facteur


De plus en plus dentreprises organisent des challenges ayant un format de comptition mixte, cest--dire comptant la fois des objectifs individuels et des objectifs collectifs. Nous cherchons connatre lattitude des vendeurs lgard de ce nouveau format de comptition : le prfrent-ils aux deux autres formats ? Ouvrez le chier challenge 1, allez dans le menu Analyse > Comparer les moyennes > Anova 1 facteur. La bote de dialogue apparat (voir gure 5.2), transfrez les variables en les slectionnant une une puis en cliquant sur les ches. La variable dpendante tester est lattitude lgard du challenge (ATTITUDECHALLENGE) et la variable indpendante est place dans le champ Facteur. Avant de lancer lANOVA un facteur, nous vrions lhomognit des moyennes. Cliquez sur Option. Dans la bote de dialogue qui apparat (voir gure 5.3), cliquez sur Test dhomognit. Cliquez sur Poursuivre pour revenir la bote de dialogue MLG Univari puis sur OK.

1. Vous trouverez ce fichier ladresse : http://www.pearsoneducation.fr.

Lanalyse de variance 109

Figure 5.2
Commande dune ANOVA 1 facteur.

Figure 5.3
Test dhomognit pour ANOVA 1 facteur.

Le test de Levene (voir gure 5.4) est signicatif (0,52 > 0,05), lhypothse dhomognit des chantillons est donc accepte. Nous pouvons procder lanalyse des rsultats de lANOVA. Figure 5.4
Interprtation du test dhomognit.

Plus la valeur de p est petite, plus la preuve est forte contre lhypothse nulle. Ici, les moyennes sont trs diffrentes (F = 5,25 ; p = 0,005). Lhypothse nulle est rejete, le format a bien un effet sur lattitude des commerciaux lgard du challenge mais, ce stade, nous ne savons pas quel est leur type de format prfr. Pour cela, il faut raliser un test de comparaisons multiples, aussi appel test post hoc.

110

Analyse de donnes avec SPSS

Chapitre

Cliquez sur Post Hoc. Dans la bote de dialogue qui apparat (voir gure 5.5), cliquez sur le test de votre choix. Nous slectionnons ici le test de Duncan, souvent employ pour des tests de comparaisons de plusieurs moyennes. Dans notre cas, il sagira des formats mixte, individuel ou en quipe. Figure 5.5
Demande de test de comparaisons multiples a posteriori pour ANOVA 1 facteur.

Cliquez sur Poursuivre pour revenir la bote de dialogue ANOVA un facteur (voir gure 5.5) puis sur OK. Le test de Duncan montre (voir gure 1.6) que le format de comptition en quipe est suprieur aux autres. Lattitude moyenne son gard est de 2,97, signicativement plus leve que celle des formats individuel (2,69) ou mixte (2,64). En dautres termes, les vendeurs prfrent un format de comptition en quipe plutt quindividuel ou mixte (avec des objectifs la fois individuels et collectifs). Figure 5.6
Rsultats ANOVA 1 facteur.

Lanalyse de variance 111

1.3 LANALYSE

DE VARIANCE X FACTEURS

LANOVA plusieurs facteurs consiste tester lhypothse dgalit des moyennes dune variable quantitative selon plusieurs variables qualitatives. Par exemple, on pourra tester les variations de salaire selon le diplme et le sexe de lemploy. Le test de signicativit est un test F. Il sappuie sur la dcomposition de la variance qui comprend : les effets principaux, les effets dinteraction et un terme rsiduel. La notion dinteraction correspond au fait que leffet dune variable explicative sur la variable expliquer nest pas identique selon le niveau de lautre variable explicative (Evrard et al., 2003). Linteraction peut tre ordinale, lordre des effets lis au premier facteur respecte alors celui des niveaux du second facteur. Dans le cas dune interaction non ordinale, nous avons en revanche une modication dans lordre des effets. Une interaction non ordinale peut tre non croise ou croise. Cette dernire interaction est la plus forte de toutes. Lexistence dune interaction se dtecte par lobservation des courbes : leur paralllisme indique une absence dinteraction (leffet conjoint des facteurs combins est gal la somme de leurs effets principaux individuels) alors que leur croisement montre que leffet relatif des niveaux du premier facteur varie en fonction des niveaux de lautre.
SPSS

tude de limpact de trois modalits des challenges avec une ANOVA


Lors des challenges, les vendeurs changent souvent leur manire de vendre ; ils seraient plus agressifs an de gagner et moins attentifs aux attentes de leurs clients. Nous cherchons savoir comment ils ragissent, quelle est leur orientation client (OC) selon trois caractristiques des challenges : la frquence de ceux-ci, le nombre de gagnants et le format de comptition du challenge. Ouvrez le chier exemple challenge , disponible sur le site de louvrage 1. Allez dans le menu Analyse > Comparer les moyennes > Anova un facteur. Dans la bote de dialogue qui apparat (voir gure 5.7), transfrez les variables en les slectionnant une une puis en cliquant sur les ches. La variable dpendante est lorientation client lors du challenge (OCCHALLENGE) et les variables indpendantes ou explicatives sont places dans le champ Facteur(s) xe(s). Ici, les modalits des challenges sont : frquence, format de comptition, nombre de gagnants (FREQUENCE, NBGAGNANTS, FORMAT). Quelques remarques sur les boutons de cette bote de dialogue : Modle. Ce bouton permet de prciser le type de modle analyser et le type derreur. Par dfaut, sont coches loption plan complet, o tous les effets sont calculs, et lerreur de type III, qui permet de tester des modles quilibrs ou non (un modle est dsquilibr lorsque les cellules ne contiennent pas le mme nombre dobservations). Il faut cliquer sur le bouton Autre, faire passer les variables dans la partie Modle et choisir les effets (principaux, dinteraction, dordre 2, etc.) pour en analyser seulement certains. Contrastes. Sert tester les diffrences entre les niveaux des facteurs. Diagrammes. Ce bouton permet de comparer avec des graphiques les moyennes de la variable dpendante selon le niveau de chaque facteur. Post Hoc. Permet didentier, parmi plusieurs moyennes, celles qui diffrent (voir focus 5.1). Enregistrer. Permet de sauvegarder les valeurs prdites avec le modle, les rsidus et les autres mesures comme nouvelles variables dans lditeur de donnes.

1. Vous trouverez ce fichier ladresse : http://www.pearsoneducation.fr.

112

Analyse de donnes avec SPSS

Chapitre

Figure 5.7
Commande dune ANOVA 3 facteurs.

Options. Pour obtenir diverses statistiques, par exemple, le test dhomognit des variances. Il permet aussi de spcier le seuil de signicativit (x par dfaut 0,05) pour ltude des comparaisons de moyennes et le calcul dintervalles de conance. Avant de lancer lANOVA, nous devons vrier lhomognit des moyennes. Cliquez sur Option. Dans la bote de dialogue qui apparat (voir gure 5.8), cliquez sur Tests dhomognit.

Figure 5.8
Tests dhomognit pour ANOVA.

Cliquez sur Poursuivre pour revenir la bote de dialogue MLG Univari puis sur OK. Le test de Levene (voir gure 5.9) est signicatif (0,18 > 0,05), lhypothse dhomognit des chantillons est donc accepte. Nous pouvons procder lanalyse des rsultats de lANOVA (voir gure 5.10). Le modle explique 5 % de lorientation client du vendeur pendant un challenge. Le nombre de gagnants (F = 6,70 ; p = 0,01) et linteraction de frquence/format (F = 4,34 ; p = 0 03) ont un impact signicatif sur lorientation client.

Lanalyse de variance 113

Figure 5.9
Interprtation du test dhomognit.

Figure 5.10
Rsultats de lANOVA 3 facteurs.

Cependant, ce stade, nous ne savons pas lequel des deux niveaux affecte le moins lorientation client du vendeur. Les facteurs manipuls ayant chacun deux niveaux, il est possible de visualiser directement leurs effets laide de graphiques. Allez dans le menu Analyse > Modle Linaire Gnral > Univari. Dans la bote de dialogue qui apparat, cliquez sur le bouton Diagrammes. Faites passer les facteurs signicatifs dans Axe horizontal et Courbes distinctes (effets dinteraction) puis cliquez sur Ajouter (voir gure 5.11).

Figure 5.11
Obtention de graphique an de visualiser les effets des facteurs signicatifs.

Cliquez sur Poursuivre pour revenir la bote de dialogue MLG Univari puis sur OK. Le graphique (voir gure 5.12) atteste que lorsque le nombre de gagnants au challenge est faible, lorientation client des commerciaux baisse moins que lorsque le challenge fait un nombre moyen de gagnants. Le challenge qui prserve mieux lorientation client fait donc peu de vainqueurs.

114

Analyse de donnes avec SPSS

Chapitre

Figure 5.12
Graphique dun facteur ayant un effet principal signicatif.

Nous constatons (voir gure 5.13) que le challenge en quipe avec une frquence faible (un seul challenge organise la fois) maximise lorientation client du vendeur.

Figure 5.13
Graphique de facteurs dont leffet dinteraction est signicatif.

1.4 LANALYSE

MULTIVARIE DE LA VARIANCE

: MANOVA

Lanalyse multivarie de la variance est une extension de lANOVA pour mesurer les diffrences de moyenne de deux variables dpendantes quantitatives (ou plus) en fonction de plusieurs variables qualitatives. Ce que la MANOVA apporte en plus de lanalyse de variance simple concerne la corrlation des variables expliquer, dcompose en intra et intergroupe. Ces interactions apparaissent lorsque les effets dun facteur donn sur les variables expliques dpendent des modalits des autres facteurs.

Lanalyse de variance 115

Un des apports majeurs de lanalyse multivarie de la variance est la mise en vidence, parmi un ensemble de variables quantitatives, de celles dont la valeur est la plus affecte par les variations dun ensemble de variables quantitatives ou qualitatives. Cela tient compte des intercorrlations entre variables expliquer ; nous pouvons ainsi dceler les variables qui contribuent le plus la formation de la combinaison linaire pour les soumettre ensuite une analyse de variance univarie (Evrard et al., 2003). En rgle gnrale, les modalits de la variable indpendante sont prsumes xes (modle effet xe). Plusieurs conditions sont valider lors de lutilisation dune MANOVA (Hair et al., 2006) : Seuil dobservations par cellule de 20 ou au minimum suprieur au nombre de variables dpendantes. Indpendance des observations. galit des matrices de variance-covariance entre les groupes. La violation de cette hypothse, vrie par le test de Box, na toutefois quun impact limit si les groupes sont de taille peu prs identique. Il est gnralement recommand davoir un rapport, entre la taille du groupe le plus important et celle du plus grand groupe, infrieur 1,5. Multinormalit des distributions des moyennes pour chaque variable dpendante. La MANOVA est cependant robuste en cas de violation de cette hypothse si la taille des groupes est importante. Linarit des variables dpendantes. La signicativit des diffrences de moyennes sappuie sur le test F, complt dautres statistiques : la trace de Hotelling, la plus grande racine de Roy, le lambda de Wilks et le critre de Pillai-Bartlett pour chaque variable explicative. Si le critre de Pillai est le plus robuste la violation de certaines conditions dutilisation de la MANOVA, il est conseill de comparer cette statistique aux autres indicateurs. Linterprtation dune MANOVA se fait en deux temps. la premire tape, lexamen du critre de Pillai indique la signicativit des variables explicatives. la seconde, il faut dceler, parmi les variables expliques, celles qui sont affectes par la variable indpendante. Les rsultats se lisent alors, comme pour une ANOVA, sur les courbes des diagrammes.

1.5 LANALYSE

DE COVARIANCE

: ANCOVA

ET

MANCOVA

Lanalyse de covariance (ANCOVA) combine les techniques de lanalyse de variance et de la rgression. La MANCOVA est une extension des principes de lANCOVA lanalyse multivarie, cest--dire sur plusieurs variables dpendantes. Ces mthodes sont recommandes pour liminer des erreurs systmatiques hors du contrle du chercheur et pouvant biaiser les rsultats. Lajout dune covariable peut liminer une source potentielle de variance qui aurait appartenu lerreur exprimentale si elle avait t ignore (Nunnally et Bernstein, 1994). Cependant, trop de covariables rduit lefcience statistique des procdures. Une rgle de base est davoir un nombre de covariables infrieur : (0,1 la taille de lchantillon) (nombre de groupes 1) [Hair et al., 2006]. An damliorer lanalyse de covariance, il faut essayer de minimiser le nombre de covariables tout en sassurant que les plus importantes ne sont pas limines. Une covariable est pertinente si elle est corrle la variable dpendante et non corrle la (ou aux)

116

Analyse de donnes avec SPSS

Chapitre

variable(s) indpendante(s). Une autre fonction de lANCOVA rside aussi dans la prise en compte des diffrences de rponses dues aux caractristiques des rpondants. Linterprtation dune ANCOVA et dune MANCOVA se fait en deux tapes. En premier lieu, il faut considrer leffet de la (ou des) covariable(s). Ce rsultat se lit comme celui dune rgression. Ensuite, il faut interprter les rsultats des facteurs explicatifs (variables qualitatives).
SPSS

Ralisation dune ANCOVA


Nous cherchons expliquer lattitude du vendeur lgard du challenge. Pour cela, nous avons ralis une ANOVA ayant pour facteurs la frquence, le format et le nombre de gagnants. Pour amliorer la prcision de ces rsultats, nous ajoutons des variables qui pourraient expliquer les variations dattitude des commerciaux. ce titre, deux nouveaux lments sont pris en compte : lentreprise, cest--dire ltablissement bancaire o travaille chaque vendeur, dont nous pouvons supposer quil inue sur les rsultats et, la fonction du vendeur. En effet, lchantillon tant compos de vendeurs issus dentreprises et de fonctions diffrentes, il est possible que ces variables entreprise et fonction soit lorigine de variations dans les rponses. Lintgration de ces covariables amliore la prcision de lanalyse et permet de redresser les biais dus au fait que les rpondants ont diffrentes responsabilits. En consquence, lentreprise et la fonction du commercial sont ajoutes aux variables explicatives pour toutes les variables expliques an de les contrler. Par ailleurs, deux caractristiques individuelles des vendeurs sont des variables explicatives importantes du processus de motivation : lesprit de comptition et lambition du vendeur. Nous testerons donc les effets de ces covariables sur lattitude du vendeur lgard du challenge. Ouvrez le chier exemple challenge , disponible sur le site de louvrage 1. Allez dans le menu Analyse > Modle Linaire Gnral > Univari. Dans la bote de dialogue qui apparat (voir gure 5.14), transfrez les variables en les slectionnant une une puis en cliquant sur les ches. La variable dpendante est lattitude lgard du challenge (ATTITUDECHALLENGE). Les variables indpendantes sont places dans les champs Facteur(s) xe(s) et Covariable(s). Les facteurs xes sont : les modalits des challenges (FREQUENCE, FORMAT, NBGAGNANTS) ; les covariables sont : lentreprise, la fonction du vendeur (entreprise, fonction), lesprit de comptition et lambition.

Figure 5.14
Commande dune ANCOVA.

1. Vous trouverez ce fichier ladresse : http://www.pearsoneducation.fr.

Lanalyse de variance 117

Le test de Levene (voir gure 5.15) est signicatif (0,22), lhypothse dhomognit des chantillons est donc accepte. Nous pouvons procder lanalyse des rsultats de lANCOVA (voir gure 5.16). Les caractristiques des challenges ainsi que les covariables expliquent 55 % de lattitude du vendeur lgard du challenge (voir gure 5.16).

Figure 5.15
Interprtation du test dhomognit.

Figure 5.16
Rsultats de lANCOVA cinq variables explicatives.

Les rsultats de lANCOVA montrent que les covariables entreprise et esprit de comptition ont un effet signicatif sur lattitude du vendeur lgard du challenge. Comme nous lavions postul, lesprit de comptition du vendeur a un effet signicatif, cependant, ce stade, nous ne savons pas sil est positif. Pour le dcouvrir, retournez dans la bote de dialogue : Analyse > Modle Linaire Gnral > Univari et cliquez sur Options puis sur Estimations des paramtres (voir gure 5.17). Les rsultats apparaissent alors pour lensemble des variables et des covariables. Les rsultats de cette commande se lisent la gure 5.18. Le tableau destimations des paramtres montre que, conformment ce qui apparat la gure 5.18, lentreprise et lesprit de comptition ont un effet signicatif sur lattitude du vendeur lgard du challenge. Lesprit de comptition a un effet positif sur cette attitude ( = 0,77 ; t = 14,19). Comme pour une ANOVA, la lecture des effets des variables qualitatives se fait laide dun graphique. La gure 5.19 atteste que le format a un impact signicatif sur lattitude du vendeur. Pour commander un diagramme pour ce facteur, allez dans le menu Analyse > Modle Linaire Gnral > Univari puis cliquez sur le bouton Diagrammes.

118

Analyse de donnes avec SPSS

Chapitre

Figure 5.17
Commande des rsultats des covariables.

Figure 5.18
Interprtation des covariables.

Dans la bote de dialogue Diagrammes de prols, faites passer le format dans Axe horizontal puis cliquez sur Ajouter. Le graphique visible gure 5.19 apparat.

Figure 5.19
Interprtation des variables explicatives de lANCOVA.

Le graphique montre que le format qui maximise lattitude du vendeur lgard du challenge est le format de comptition en quipe.

Lanalyse de variance 119

Cet exemple dvoile comment une ANCOVA prend en compte des variables explicatives la fois qualitatives et quantitatives dans un mme traitement. La MANCOVA va plus loin puisquelle traite en mme temps plusieurs variables explicatives de diffrentes natures ainsi que plusieurs variables dpendantes quantitatives. Par exemple, elle permet dtudier les effets des caractristiques de challenges et de lesprit de comptition des vendeurs sur leur attitude lgard des challenges ainsi que sur leurs comportements lgard de la clientle (orientation client). De fait, il est possible dtudier le challenge optimal en termes de satisfaction vendeur et de satisfaction client. Concernant les covariables, les rsultats de la MANCOVA et ceux de lANCOVA se lisent de faon similaire. Dautres statistiques, telles que la trace de Hotelling, la plus grande racine de Roy, le lambda de Wilks et le critre de Pillai-Bartlett, servent interprter, pour chaque variable explicative, leurs effets sur les variables dpendantes. La mthode du plan dexprience, que nous allons explorer, est un terrain dapplication privilgi de lanalyse de variance.

(2)

La mthode du plan dexprience


Lexprimentation fait partie de notre quotidien. Nous cherchons souvent connatre leffet de facteurs sur divers rsultats. La plupart du temps, cela se fait de manire informelle, par exemple, en se posant les questions : Est-ce quen partant trente minutes plus tt au travail, jaurai plus de chance de trouver une place de parking ? Quid de vingt minutes ou de dix minutes ? La mthode du plan dexprience a t mise au point dans les annes 1920, par Ronald A. Fisher, dans le cadre dtudes agronomiques. Son utilisation sest dveloppe en sciences sociales et en marketing depuis une trentaine dannes. Aprs avoir prsent lexprimentation, nous aborderons des exemples de plans dexprience permettant den comprendre lutilit.

2.1 LA

MTHODE EXPRIMENTALE EN SCIENCES DE GESTION Lexprimentation est une opration o lon cherche vrier des relations de cause effet par manipulation de facteurs. Il sagit de manipuler une variable indpendante (ou plusieurs) et den mesurer leffet sur une variable dpendante (ou plusieurs), cela en contrlant les variables externes susceptibles dinuer sur les rsultats. Lavantage majeur de cette mthode est donc lisolement de ce qui est d la variable dterminante examine. Son inconvnient principal rside dans la validit externe limite de lexprience. En outre, des variables externes, ou biais, peuvent brouiller les mesures des variables dpendantes et affaiblir la validit des rsultats. Lexprimentation peut sappuyer sur la mthode dite des scnarios ou des vignettes qui est ici dtaille.

120

Analyse de donnes avec SPSS

Chapitre

* Focus 5.2

La mthode des scnarios ou des vignettes


La mthode dite des scnarios ou des vignettes est issue des techniques projectives utilises en psychologie et dont lobjectif est de sintresser aux attitudes et aux comportements des acteurs. Le scnario est une brve histoire qui, si elle est soigneusement labore, simule de vraies expriences de la vie. Les individus, mis dans une situation hypothtique, doivent rpondre comme si ils se trouvaient rellement dans ces situations. La mise en situation prsente lavantage de rendre lexprience plus raliste et, par l, de mieux impliquer les rpondants dans la cration de sens. Une description verbale, un texte descriptif crit, une photo, un dessin ou un prototype peuvent servir prsenter les stimuli. Il faut ici veiller ce que les scnarios soient crdibles et quaucun ne soit manifestement trop attractif ou, au contraire, rpulsif. Les stimuli doivent de fait avoir une apparence similaire an que les prfrences des individus soient bien le fruit des attributs tests.

Les biais de lexprimentation


An de renforcer la validit de lexprience, il faut connatre les principaux biais exprimentaux : Histoire. Un vnement porteur deffets se produit entre deux mesures, par exemple, la crise de la vache folle a chang la perception de la qualit de la viande en France. Maturation. Des changements se produisent chez les individus au l de lexprience (fatigue, dsintrt). Effet de test. La situation dexprience provoque par elle-mme un biais. Par exemple, la rponse une premire question suscite une rexion qui va modier les rponses aux questions suivantes. Effet de linstrument. Lapplication de linstrument de mesure fausse le rsultat. Mortalit. Personnes de lchantillon initial qui ne veulent plus rpondre dans le cas o lexprimentation seffectue en plusieurs tapes (tude longitudinale).

Typologie des plans dexprience


Voici une typologie simplie des plans dexprience : prexprimentaux (tude de cas unique, prtest/post-test sur un seul groupe, groupe statique), exprimentaux (prtest/ post-test ou seulement post-test avec groupe de contrle) et modles statistiques (bloc alatoire, carr latin, plan factoriel) [Malhotra et al., 2007]. tude de cas unique. Un seul groupe dindividus (ou dautres entits) est expos une variable et on ne prend quune seule mesure de la variable dpendante. La slection des individus est ralise de manire arbitraire. Le problme est que cette tude ne permet pas dobtenir le niveau de la variable explique sil ny avait pas eu dexposition. Prtest/post-test et groupe de contrle. Lorsque lexprience inclut un prtest, les individus valuent deux fois la variable dpendante : avant et aprs le test. Leffet dexprimentation est alors calcul (mesure post mesure prtraitement). Groupe statique. Le plan exprimental comprend deux groupes : un expos la variable indpendante et lautre non (groupe de contrle). Leffet de lexprimentation est mesur (mesure du groupe de contrle mesure du groupe exprimental). Modles statistiques. Ils permettent de mesurer les effets de plus dune variable indpendante simultanment et de contrler statistiquement des variables externes prcises. On

Lanalyse de variance 121

distingue le bloc alatoire et le plan factoriel. Le bloc alatoire regroupe les individus en fonction dune seule variable externe majeure (par exemple, le type de client) susceptible dinuer sur la variable dpendante. Les rpondants de chaque bloc sont affects alatoirement aux groupes de traitement. Le plan factoriel autorise ltude de deux variables externes non interactives ou plus et dune ou plusieurs variables indpendantes. Nous allons aborder maintenant le plan factoriel et ses diffrentes versions.

2.2 LE

PLAN FACTORIEL Le plan factoriel sert mesurer les effets de plusieurs variables indpendantes ayant plusieurs niveaux diffrents. Il permet ltude la fois des effets principaux et des effets dinteraction de ces niveaux. Par exemple, on pourra examiner leffet du type de carburant et du type de conduite sur la consommation de carburant. La notion dinteraction correspond au fait que leffet dune variable explicative sur une variable expliquer est changeant selon le niveau de lautre variable explicative. Il y a interaction quand leffet simultan de plusieurs variables diffre de leurs effets spars cumuls. Par exemple, un individu peut prfrer sortir au cinma (plutt que daller au thtre, au concert ou encore chez des amis) et lt peut tre sa saison favorite pour sortir (plutt que les trois autres saisons), mais il peut ne pas prfrer aller au cinma lt. Dun point de vue statistique, un plan factoriel est lagrgation de variables indpendantes : ensemble de niveaux de chaque variable indpendante et combinaisons de ces niveaux slectionns pour lexprimentation. Le dispositif exprimental doit permettre de rpondre aux trois questions suivantes : 1. Quels sont les facteurs fondamentaux slectionns ? 2. Comment les niveaux de ces facteurs varient-ils ? 3. Comment ces niveaux doivent-ils tre combins ? Par exemple, pour une tude de packaging de crales pour petit djeuner, on se demandera : 1. Quels facteurs slectionne-t-on ? La forme du paquet, les codes couleur, le style, le matriau utilis ? Ensuite, si lon choisit dtudier la taille du paquet et le style : 2. Combien de niveaux choisit-on dexaminer ? Pour la taille du paquet : grand, moyen, petit ? Pour le style : sport, sant, rgime ? 3. Croise-t-on tous ces niveaux ou seulement les combinaisons les plus pertinentes ? La slection des facteurs et des niveaux tudis revient au charg dtude qui estime les variables les mieux mme dexpliquer la variable dpendante. Le choix des combinaisons tester dtermine ensuite celui du plan factoriel utilis (complet ou fractionn). Souvent, ltude dun grand nombre de facteurs et de niveaux conduit employer un plan fractionn.

122

Analyse de donnes avec SPSS

Chapitre

2.3 PLAN

FACTORIEL COMPLET OU FRACTIONN ? Le plan factoriel complet permet de tester tous les niveaux de chacun des facteurs sur chacun des niveaux des autres facteurs. Dans notre exemple de packaging de crales pour petit djeuner, si lon slectionne trois niveaux de taille du paquet (grand, moyen et petit), deux niveaux de messages (sport et sant), un plan factoriel complet permettra de tester toutes les combinaisons possibles, cest--dire 6 (3 2). Les inuences de chaque facteur et de ses interactions avec tous les autres facteurs seront tudies. Sil ncessite davantage dexpriences, ce plan est plus riche que le plan factoriel fractionn. Lavantage du plan factoriel fractionn, constitu dun sous-ensemble de combinaisons dun plan complet, rside dans sa capacit examiner un grand nombre de facteurs dont il serait difcile de tester tous les niveaux. Il permet ainsi de raliser des conomies substantielles dexpriences. Toujours avec notre exemple de packaging, un plan factoriel fractionn permettra dexaminer un plus grand nombre de modalits (taille du paquet, message, codes couleurs, style, etc.) et de niveaux (3, 4 niveaux pour chaque facteur examin) tout en ne testant quun nombre restreint de paquets diffrents. Malgr lintrt quil prsente en termes dconomie dexpriences, ce type de plan compte des effets confondus. Ces effets gnent linterprtation de certains effets principaux qui sont mlangs avec des interactions.

* Focus 5.3

Les plans fractionns en carrs latin et grco-latin


Lorsque le charg dtude ne peut pas tester lensemble des attributs et de leurs niveaux parce quils sont trop nombreux, il est frquent davoir recours un plan fractionn. Le carr latin et le grco-latin (second carr latin sur un premier) sont souvent utiliss car ils permettent de faire des conomies importantes dexpriences : 9 au lieu de 27 (3 3 3) combinaisons pour le carr latin ou 81 (3 3 3 3) pour le carr grco-latin. Ces plans ou carrs ne croisent pas tous les facteurs. On peut par exemple tester linuence de la frquence de challenges de vente, du nombre de gagnants et du format de comptition en crant un niveau supplmentaire pour chacun de ces facteurs. Linconvnient principal des carrs latin et grco-latin est donc lobligation davoir, pour chaque facteur manipul, le mme nombre de niveaux. Autre problme important, ces plans ne permettent dexaminer que leffet principal de chacun des facteurs et non leurs interactions.

Les deux exemples dapplication suivants illustrent la ralisation dune exprimentation avec un plan complet puis avec un plan fractionn.
EXEMPLE

tude des caractristiques de challenges de vente avec un plan factoriel complet


la suite dentretiens avec des commerciaux, trois caractristiques des challenges apparaissent trs importantes dans la formation de leur attitude : le format de comptition, la frquence des challenges et le nombre de gagnants. Nous cherchons tester leffet des trois facteurs ayant chacun deux niveaux (voir gure 5.20). Pour chacun des facteurs, les diffrents niveaux examins seront les suivants : le format de comptition : individuel (1) ou en quipe (2) ; la frquence : faible (1) ou leve (2) ; le nombre de gagnants : faible (1) ou moyen (2).

Lanalyse de variance 123

Figure 5.20
Le plan test.

Challenge de vente
- Format - Frquence - Nombre de gagnants Attitude du vendeur lgard du challenge de vente

Ltude de toutes les modalits des challenges et de leurs niveaux requiert lutilisation dun plan complet. Le protocole de lexprimentation est par consquent constitu de 2 2 2, soit 8 combinaisons de caractristiques de challenges. Il faudra donc prsenter aux individus huit challenges de vente diffrents. Le plan factoriel complet orthogonal permet lestimation de la moyenne des effets des facteurs sans craindre que les rsultats subissent une distorsion par leffet des autres facteurs. Toutes les interactions sont testes. Lorthogonalit est vrie en mettant en place ce protocole : (1) on remplace les valeurs 1, 2 dans la matrice plan par les valeurs 1, 1 respectivement ; (2) on additionne ensuite les valeurs correspondantes de chacune des colonnes ; (3), si la somme est gale zro, les colonnes sont orthogonales et les effets reprsents par ces colonnes sont alors dits orthogonaux. Tableau 5.1 : Plan factoriel complet
Scnarios no 1 no 2 no 3 no 4 no 5 no 6 no 7 no 8 Format 1 1 1 1 2 2 2 2 Frquence 1 1 2 2 1 1 2 2 Nb gagnants 1 2 1 2 1 2 1 2 Orthogonalit 3 1 1 1 1 1 1 3

=0
Par exemple, le scnario no 2 correspond ici un challenge individuel, peu frquent et faisant un nombre moyen de gagnants.

124

Analyse de donnes avec SPSS

Chapitre

EXEMPLE

tude des caractristiques de challenges de vente avec un plan factoriel fractionn


Trois caractristiques des challenges de vente sont maintenant tudies avec, pour chacun de ces facteurs ou attributs, non plus deux mais trois niveaux : le format de comptition : individuel (A), en quipe (B) ou mixte (C) (objectifs individuels et collectifs) ; la frquence : leve, moyenne ou faible ; le nombre de gagnants : lev, moyen ou faible. Il faudrait normalement 3 3 3 = 27 combinaisons. Nous avons vu au focus 5.3 que le carr latin permettait de passer de 27 seulement 9 combinaisons ou challenges tests. Voici comment se construit ce plan fractionn. Tableau 5.2 : Carr latin
Nb gagnants lev leve Moyenne Faible A no 1 C no 2 B no 3 ACB Moyen B no 4 A no 5 C no 6 BAC Faible C no 7 B no 8 A no 9 CBA ABC CAB BCA

Frquence

Le format de comptition qui est la troisime variable manipule est soit individuel (A), soit en quipe (B), soit mixte (C). Chacun de ses niveaux doit apparatre dans chaque ligne et chaque colonne. Pour comprendre llaboration de ce plan, nous prenons lexemple du format de comptition. Le format individuel (A) apparat en colonne 1, ligne 1, en colonne 2, ligne 2 et en colonne 3, ligne 3 ; le format en quipe (B) gure en colonne 1, ligne 3, en colonne 2, ligne 1 et en colonne 3, ligne 2 ; le format mixte (C) gure en colonne 1, ligne 2, en colonne 2, ligne 3 et en colonne 3, ligne 1. Chacun des niveaux de la frquence et du nombre de gagnants est test une fois avec tous les autres niveaux des deux autres facteurs. Il en est de mme pour tous les niveaux du facteur nombre de gagnants. Par exemple, le scnario no 7 correspond ici un challenge mixte, peu frquent et faisant un faible nombre de gagnants.

Lanalyse de variance 125

Rsum
Lanalyse de variance et de covariance sert valuer les carts des valeurs moyennes dune variable dpendante sous leffet de variables indpendantes contrles et, cela, en tenant compte de linuence de variables indpendantes non contrles. LANOVA permet deffectuer un test sur les moyennes de deux populations ou plus. Le test F permet de vrier lhypothse nulle qui suppose lgalit des moyennes. Lanalyse multivarie de la variance implique lexamen simultan de plusieurs variables indpendantes qualitatives. Elle permet lvaluation de linteraction de ces variables. Le test F sert vrier la signication de leffet global, des effets principaux et des interactions. Il y a interaction lorsque leffet dune variable indpendante sur une variable dpendante diffre en fonction des modalits ou niveaux dune autre variable indpendante. Lanalyse de covariable fait rfrence, en plus de variable(s) indpendante(s) qualitative(s), au test de variable(s) indpendante(s) quantitative(s). Cette dernire, appele covariable, est souvent utilise pour liminer la variation externe de la variable dpendante.

Pour aller plus loin


Evrard Y., Pras B., et Roux E., Market. tudes et recherches en marketing, Nathan, Paris, 2003. Goupy J., Introduction aux plans dexprience, Dunod, Paris, 2006. Hair J. F., Anderson R. L., Black W. C., Multivariate Data Analysis, 4e d., Prentice Hall International, Londres, 2006. Malhotra et al., tudes marketing avec SPSS, Pearson Education, Paris, 2007.

126

Analyse de donnes avec SPSS

Chapitre

Exercices
EXERCICE 1
nonc

QUESTIONS

DE RECHERCHE ET TYPE DANALYSE DE VARIANCE

Pour chacune des questions de recherche suivantes, trouvez le type danalyse de variance appropri en spciant le nombre de facteurs avec leurs niveaux. 1. Lintention dachat des consommateurs varie-t-elle en fonction de la couleur du packaging (rouge, vert ou bleu) ? 2. La CSP (5 catgories) a-t-elle un effet sur la qualit du service peru ? 3. Lattitude vis--vis de la marque dun produit de luxe varie-t-elle en fonction du pays dorigine de la marque (France, Espagne, Italie, tats-Unis) et de son rseau de distribution (trs slectif ou non slectif) ? 4. Linteraction entre le prix (lev, moyen ou faible), la notorit de la marque (forte ou faible) et la frquence des contacts (forte ou faible) affecte-t-elle lattitude vis--vis de la marque et lintention dachat de cette marque ? 5. Le niveau de prix (lev ou faible), le conditionnement (familial, standard, mini) et lattitude vis--vis des marques de lessive affectent-ils lachat de lessive par les personnes ges ? 6. Le style de la publicit (informative, humoristique, sexy) et lattitude vis--vis de la marque ont-ils un impact sur lintention dachat dun produit solaire de cette mme marque ? 7. Lge des clients (5 catgories) et la qualit du service perue affectent-ils la satisfaction et la dlisation des clients dans le secteur bancaire ?

* Solution

1. ANOVA un facteur, la couleur du packaging ayant trois niveaux (rouge, vert, bleu). 2. ANOVA un facteur, la CSP ayant cinq niveaux. 3. ANOVA deux facteurs, le pays dorigine de la marque et le rseau de distribution, lesquels ayant respectivement quatre niveaux (France, Espagne, Italie, tats-Unis) et deux niveaux (trs slectif, non slectif). 4. MANOVA trois facteurs et deux variables expliques. Les trois facteurs sont le prix, la notorit de la marque et la frquence des contacts, qui ont respectivement trois niveaux (lev, moyen et faible), deux (forte ou faible) et deux (forte ou faible). Les deux variables expliques sont lattitude vis--vis de la marque et lintention dachat de la marque par les consommateurs.

6. ANCOVA deux variables explicatives : le style de la publicit (qui a trois niveaux, informative, humoristique, sexy) et la covariable attitude vis--vis de la marque. 7. MANCOVA deux variables explicatives (lge [qui a 5 niveaux] et la qualit du service perue [covariable]) et deux variables expliques (la satisfaction et la dlisation des clients).

Lanalyse de variance 127

Exercices

5. ANCOVA trois variables explicatives : deux variables qualitatives (prix et conditionnement) et une variable quantitative, covariable (attitude vis--vis des marques de lessive). Le prix et le conditionnement ont respectivement deux niveaux (lev, faible) et trois (familial, standard, mini).

EXERCICE 2
nonc

TUDE

DU POINT DE VENTE1

Vous travaillez sur une enqute destine mieux comprendre les comportements dachat des clients dun magasin de chaussures. Vous cherchez identier ces clients et connatre leur attitude lgard du point de vente. Vous avez collect 400 rponses et vous voulez exploiter ces donnes (chier pointdevente 1). Le grant du magasin souhaite savoir : 1. Si la dcoration du magasin est plus importante pour les femmes que pour les hommes. 2. Si le montant dpens par client est inuenc par lcoute rgulire de mdias (radio et TV).

* Solution

1. An de savoir si la dcoration du magasin a une inuence en fonction du sexe des clients, il faut mener une ANOVA (voir gure 5.21). Allez dans le menu Analyse > Comparer les moyennes > Anova 1 facteur. Indiquez la dcoration de la boutique comme variable dpendante et le sexe comme variable indpendante puis cliquez sur OK.

Figure 5.21
Commande de lANOVA 1 facteur.

Pour effectuer un test dhomognit (voir gure 5.22), cliquez sur Options, Test dhomognit puis sur OK. Figure 5.22
Interprtation de lANOVA 1 facteur.

1. Vous trouverez ce fichier ladresse : http://www.pearsoneducation.fr.

128

Analyse de donnes avec SPSS

Chapitre

Le test de Levene est signicatif (0,78 > 0,05), lhypothse dhomognit des chantillons est donc accepte. Les rsultats de lANOVA attestent que le sexe na pas dinuence sur limportance de la dcoration (0,78). 2. An de savoir si le fait que les clients coutent rgulirement des mdias (radio et TV) a un impact sur le montant quils dpensent, il faut faire une ANOVA. Allez dans le menu Analyse > Modle Linaire Gnral > Univari. Choisissez comme variable dpendante le montant moyen dpens par mois, et comme variable indpendante : la frquence dcoute radio et TV qui correspond aux questions : Vous dcririez-vous comme un auditeur rgulier de radio ? et Regardez-vous rgulirement le journal tlvis ? Figure 5.23
Commande dune ANOVA.

Faites ensuite un test dhomognit des variances (voir gure 5.24) : cliquez sur Options, Test dhomognit puis sur OK. Figure 5.24
Interprtation dune ANOVA.

Ici le test de Levene (0,00) ne permet pas daccepter lhypothse dhomognit des variances intragroupes. Les rsultats de lANOVA ne sont donc pas valables et on ne peut pas dire que le fait de regarder rgulirement la TV ou la radio a un effet sur la consommation des clients dans le mois.

Lanalyse de variance 129

Exercices

EXERCICE 3
nonc

QUEL

RGIME EST LE PLUS EFFICACE ?

Un nutritionniste veut tester leffet de diffrents rgimes sur la perte de poids. Il souhaite valuer leffet de trois rgimes sur des groupes dindividus. Le tableau suivant donne les rsultats de ces rgimes en nombre de kilogrammes perdus aprs un mois pour trois groupes dindividus ayant suivi les rgimes. Les groupes sont composs comme suit : Groupe A : individus ayant suivi un rgime hyperprotin ; Groupe B : individus ayant suivi un rgime dassociation daliments ; Groupe C : individus ayant suivi un rgime hypocalorique. Tableau 5.3 : Exprience sur les rgimes
Groupe A 3 4 6 8 3 3 4 6 3 Groupe B 1 1 5 6 1 2 1 5 Groupe C 11 9 10 5 10 6 9 10

Aprs avoir saisi ces donnes, faites une analyse de variance pour vrier si les moyennes des trois groupes sont diffrentes.

* Solution

Pour saisir les donnes, allez dans Fichier > Nouveau > Donnes (voir gure 5.25). Ensuite, dans Afchage des variables, rentrez le Nom des variables et leur tiquette. Nous avons des donnes qualitatives (rgime) et des donnes quantitatives (kilos perdus) : la colonne Mesure afche Nominales et chelle. Il faut ensuite entrer les donnes dans la partie Afchage des donnes (voir gure 5.26). Il faut ensuite commander une ANOVA un facteur (voir gure 5.27). Allez dans le menu Analyse > Comparer les moyennes > ANOVA un facteur. Choisissez comme variable dpendante le nombre de kilos perdus et comme variable indpendante le type de rgime. Demandez ensuite un test dhomognit des variances (voir gure 5.28). Cliquez sur Options, Test dhomognit puis sur OK.

130

Analyse de donnes avec SPSS

Chapitre

Figure 5.25
Exprience sur les rgimes : lenregistrement des donnes.

Figure 5.26
Exprience sur les rgimes : lenregistrement des donnes (suite).

Figure 5.27
Exprience sur les rgimes : commande de lANOVA.

Figure 5.28
Exprience sur les rgimes : interprtation des rsultats de lANOVA.

Lanalyse de variance 131

Exercices

Le test de Levene est signicatif (0,52), lhypothse dhomognit des chantillons est donc accepte. Nous pouvons procder lanalyse des rsultats de lANOVA. Le type de rgime a un effet signicatif sur la perte de poids. Cependant, ce stade, nous ne connaissons pas le type de rgime le plus efcace. Il faut demander un test de diffrence de moyenne (test post hoc) [voir gure 5.29]. Allez dans le menu Analyse > Comparer les moyennes > ANOVA un facteur, cliquez sur le bouton Post Hoc puis choisissez un test (ici, le test de Duncan). Figure 5.29
Exprience sur les rgimes : interprtation des rsultats de lANOVA (suite).

Les rsultats de lANOVA montrent que le rgime hypocalorique est le plus efcace. En effet, la moyenne des kilos perdus par les personnes qui ont suivi ce rgime est signicativement plus importante que les autres.

132

Analyse de donnes avec SPSS

Chapitre

La rgression linaire
1. La corrlation linaire ..............134 2. La rgression linaire...............136

Exercices 1. tude du point de vente............146 2. Les dterminants de la moyenne des tudiants...........................147 3. tude du point de vente............152

Il est frquent dobserver des phnomnes o lon peut penser quil existe une liaison entre deux variables. Par exemple, lge dune voiture et son kilomtrage varient gnralement dans le mme sens. Ce lien nest cependant pas absolu : comment mesurer lintensit de la relation entre ces deux variables ? Le modle de rgression linaire a pour objectif dexpliquer la variation dun phnomne mesurable (variable dpendante quantitative) par celle dun ou de plusieurs autres (variables quantitatives). La rgression linaire simple ou multiple estime les coefcients de lquation linaire impliquant cette ou ces variables indpendantes, qui valuent le mieux la valeur de la variable dpendante. Cette mthode est largement utilise en marketing, par exemple pour expliquer les variations des ventes, de prfrence de marques, produits ou services. Avant de prsenter lanalyse de rgression, nous abordons le coefcient de corrlation qui constitue la base conceptuelle de la rgression.

133

(1)

La corrlation linaire
La corrlation linaire est une statistique largement utilise car elle synthtise limportance de la relation entre deux variables mtriques. Le tableau 6.1 montre bien que le coefcient de corrlation est le test statistique pour mesurer le lien entre deux variables quantitatives. Tableau 6.1 : Rappel sur la nature des variables et le type danalyse
Nature des variables Qualitatives Qualitatives et quantitatives Quantitatives Type danalyse Tri crois ANOVA Rgression Test statistique Khi-deux Test F Coefcient de corrlation

Aprs avoir prsent les principes de la corrlation, nous procdons une dmonstration avec la ralisation dune corrlation multiple avec le logiciel SPSS.

1.1 LES

PRINCIPES DE LA CORRLATION LINAIRE Le coefcient de corrlation de Pearson est une mesure dassociation qui permet dtablir si deux variables mesures sur le mme ensemble dobservations varient de faon analogue ou non. La corrlation r est gale la covariance divise par le produit des carts types de x et y : r = covXY/Sx Sy Cette corrlation correspond galement au coefcient de rgression (b) divis par lcart type de la variable dpendante : r = b/Sy Une corrlation proche de 1 ou de 1 en valeur absolue signie que deux variables sont lies entre elles et peuvent sexpliquer mutuellement. Lorsque r est proche de 0, il y a une faible corrlation. Si r est proche de +1, cela veut dire que les deux variables varient dans le mme sens. Si r est proche de 1, cela signie que les deux variables varient en sens inverse lune de lautre.

1.2 LA

RALISATION DUNE CORRLATION LINAIRE Avant de raliser une corrlation linaire, il faut sassurer que les variables tester sont bien quantitatives. En effet, comme nous lavons vu au tableau 6.1, le coefcient de corrlation ne fonctionne que pour des variables mtriques.

134

Analyse de donnes avec SPSS

Chapitre

SPSS

tude des liens entre diverses caractristiques des vendeurs et leur attitude lgard des challenges
Nous cherchons savoir sil existe une relation entre des caractristiques du vendeur telles que lge, lanciennet dans lentreprise et dans le poste, lambition et lattitude lgard des challenges de vente. Nous ralisons donc une corrlation linaire sur toutes ces variables quantitatives. Ouvrez le chier challenge 1. Allez dans le menu Analyse > Corrlation > Bivarie. La bote de dialogue de la gure 6.1 apparat.

Figure 6.1
Commande dune corrlation.

Gardez le coefcient de Pearson coch. Transfrez les variables en les slectionnant chacune leur tour et en cliquant sur les ches. Faites OK. Les rsultats apparaissent (voir gure 6.2).

Figure 6.2
Interprtation dune corrlation.

Les rsultats indiquent le coefcient de corrlation et la signication (Sig.). Si Sig. < 0,05, on peut dire quil existe une corrlation entre les deux variables au seuil de 0,05. Le signe ** indique que la corrlation est signicative au seuil de 0,01. Dans cet exemple, nous observons que lesprit de comptition et lattitude lgard des challenges de vente sont fortement lis (0,71 ; p < 0,01). ce stade, nous ne pouvons cependant pas dire si cest lesprit de comptition qui a un impact sur lattitude lgard du challenge ou bien linverse. Cest grce la rgression linaire que nous pouvons expliquer le sens de la relation entre ces deux variables.

1. Vous trouverez ce fichier ladresse : http://www.pearsoneducation.fr.

La rgression linaire 135

(2)

La rgression linaire
La rgression linaire vise expliquer une variable dpendante par une ou un ensemble de variables indpendantes quantitatives. Lorsque le problme implique une seule variable indpendante, la technique statistique est appele rgression simple. Lorsque le problme implique plusieurs variables indpendantes, il sagit dune rgression multiple. La rgression est utilise pour lexplication et la prdiction. Les principes et conditions dapplication de la rgression simple sont exposs avant daborder ceux de la rgression multiple. Ces deux techniques sont chacune illustres par des exemples dapplications.

2.1 LA

RGRESSION LINAIRE SIMPLE La rgression vise estimer ou prdire la valeur dune variable partir dune seule autre. Par exemple, on peut expliquer la consommation de SMS par lge du consommateur. Dans une rgression simple, les valeurs de la variable dpendante (Y) sont estimes partir de la variable indpendante (X) par quation linaire : Yi = aC+ bXi + e O Yi est la valeur estime de Y, b est la pente (coefcient de rgression) et a la constante.

Les conditions dapplication de la rgression


Le modle de la rgression pose un certain nombre dhypothses lors de lestimation des paramtres et des tests dhypothses. Ces conditions dapplication de la rgression sont : la linarit du phnomne mesur ; la variance constante du terme derreur ou homoscdasticit ; lindpendance des termes derreur ; la normalit de la distribution du terme derreur. La linarit est importante car le concept de corrlation est fond sur une relation linaire. La linarit dune relation bivarie est vrie par lexamen des rsidus. Lhomoscdasticit est vrie par lexamen des rsidus ou par un simple test statistique. Le logiciel SPSS fournit le test dhomognit de Levene, qui mesure lgalit des variances pour une seule paire de variables. Son utilisation est souvent recommande. Lindpendance des termes derreur est une autre condition de lanalyse de rgression multiple. Outre lexamen du graphique des rsidus, cette hypothse peut aussi tre valide par le test de Durbin-Watson. La normalit de la distribution du terme derreur (voir chapitre 2).

Linterprtation des rsultats de la rgression


Les rsultats de la rgression se lisent grce aux indices suivants : R : le coefcient de corrlation multiple est un indice standardis variant de 1 +1, indiquant la force de la relation entre lensemble des variables indpendantes et la

136

Analyse de donnes avec SPSS

Chapitre

variable dpendante. Plus la corrlation est leve, plus la relation linaire entre les variables indpendantes et la variable dpendante est leve. R2 : la corrlation multiple au carr, appele coefcient de dtermination, est un indice de la part de variance de la variable dpendante explique par les variables indpendantes qui sont dans lquation. Il donne ainsi la part de variance de la variable explique par la variable indpendante. Le Bta : ce coefcient standardis permet de comparer la contribution de chaque variable puisquil sagit du coefcient de rgression ramen sur une chelle standard (entre 1 et +1). Le test F : sa valeur indique si la variance ou lajout de variance explique est signicative, cest--dire si, quelle que soit la force de la relation entre les variables indpendantes et la variable dpendante, cette relation est susceptible dexister dans la population et nest pas due simplement au hasard de lchantillonnage. Le test t : sa valeur doit tre plus grande que 2 (1,96) pour tre signicative (note** p < 0,05). Elle indique si chacun des coefcients des variables prsentes dans lquation est signicatif.

* Focus 6.1

Concomitance et corrlation
Concomitance et corrlation ne veulent pas dire obligatoirement relation de cause effet. Il faut dabord comprendre le lien de causalit entre la variable explicative et la ou les variables expliques, vrier exprimentalement la solidit du lien (via les mthodes de rgression), et seulement alors sen servir en explicatif ou en prvisionnel. Le risque sinon est de mettre en vidence une relation forte entre deux grandeurs nayant aucune relation de cause effet, mais simplement relies toutes les deux pour des raisons trs diffrentes une mme troisime. Par exemple, on cite frquemment lexemple de la bonne corrlation entre le nombre de meurtres par an en Grande-Bretagne et la consommation de chocolat ; de l en conclure que la consommation de chocolat rend agressif ! (alors que les deux varient en fonction de la population, et si on neutralise cet effet, il ny a aucune corrlation, population xe, entre la criminalit et la consommation de chocolat !). Ce risque est particulirement prsent lorsque lon adopte des mthodes de type pas pas, en introduisant les variables explicatives uniquement en fonction de critres de performance et non pas en analysant sur un plan conceptuel la relation de cause effet.

SPSS

tude de la relation entre lesprit de comptition et lattitude envers le challenge


Nous cherchons savoir si lesprit de comptition du vendeur inuence son attitude lgard du challenge de vente. Pour obtenir une rgression linaire simple, allez dans le menu Analyse > Rgression > Linaire. La bote de dialogue de la gure 6.3 apparat. Transfrez les variables en les slectionnant chacune leur tour et en cliquant sur les ches. Mettez la variable expliquer dans Variable dpendante, la variable explicative dans Variables explicatives. Le premier tableau rcapitule les variables explicatives prises en compte dans le modle. Ici, il ny a quune seule variable puisque nous travaillons sur une rgression simple. Le troisime tableau indique si le modle est signicatif ou non. Dans ce cas-ci, le modle obtenu est signicatif (p < 0,05), le lien entre lesprit de comptition et lattitude du vendeur lgard des challenges de vente est signicatif (t = 26,34 > 2) et positif (R2 ou coefcient standardis de 0,50) [voir le premier tableau de la gure 6.4].

La rgression linaire 137

Figure 6.3
Commande dune rgression simple.

Figure 6.4
Interprtation dune rgression simple.

Figure 6.5
Interprtation dune rgression simple (suite).

138

Analyse de donnes avec SPSS

Chapitre

* Focus 6.2

De la ncessit dobserver les donnes au pralable


Tout travail de type recherche de corrlation et de modlisation commence par une sance approfondie de statistique descriptive. Avant de faire des calculs de rgression, regardons attentivement les donnes. Il faut en particulier se mer des points aberrants, susceptibles de tirer les coefcients de rgression, ou dun nuage de points organis en deux paquets orients suivant deux directions, ou dautres cas de ce type. Ce travail se fait par lexamen des rsidus comme nous allons maintenant le dcouvrir.

2.2 LEXAMEN

DES RSIDUS

Lestimation ralise par lquation de rgression natteint habituellement pas lexactitude complte. Dun point de vue gomtrique, les points des donnes ne se retrouvent pas sur la ligne droite spcie par lquation de rgression. Les rsidus reprsentent les diffrences sur les variables prdites ; ils constituent un indicateur de performance de la droite de rgression. Lexamen de ces rsidus sert estimer lexactitude des estimations. Il est donc recommand de demander une analyse des rsidus avec des graphiques qui fournissent des aperus utiles pour sassurer que les hypothses fondamentales et la qualit du modle de rgression ont bien t respectes. Lhypothse de distribution normale du terme derreur est vrie par lobservation du graphique des rsidus. Lhypothse dune valeur constante de la variance du terme derreur (homoscdasticit) est valide laide du graphique des rsidus en fonction des valeurs estimes de la variable dpendante. Si la conguration nest pas alatoire, la variance du terme derreur nest pas constante. La variation des variances des termes derreur doit tre comprise entre 3 et +3. Ce graphique sert aussi vrier une autre condition importante : labsence de corrlation ou indpendance entre les termes derreur. Lexemple suivant montre comment demander un examen des rsidus avec le logiciel SPSS et comment interprter les rsultats de ce diagnostic.
SPSS
Pour obtenir lexamen des rsidus, retournez la bote de dialogue (Analyse > Rgression > Linaire), cliquez sur Statistiques et, dans lencadr Rsidus, cochez Diagnostic des observations (voir gure 6.6).

Figure 6.6
Demande dun tableau des rsidus.

La rgression linaire 139

Cliquez ensuite sur Poursuivre et, pour avoir un graphique des rsidus, cliquez sur le bouton Diagrammes. La bote de dialogue de la gure 6.7 apparat.

Figure 6.7
Demande dun diagramme des rsidus (suite).

Pour commander un diagramme de rsidus standardiss (*ZRESID) contre les valeurs prdites standardises (ZPRED), il faut transfrer avec les ches *ZRESID dans la case face Y et *ZPRED dans la case face X. Cochez Diagramme P-P gaussien an davoir la droite de rgression. Cliquez ensuite sur Poursuivre pour revenir la bote de dialogue prcdente et enn sur OK.

Figure 6.8
Diagnostic des observations.

Le tableau Diagnostic des observations montre que les observations 61, 202 et 337 sortent de lintervalle [3 ; +3] avec un score moyen de 4,33 pour lattitude lgard du challenge. Le rsidu standardis est suprieur 4 pour lobservation 61 et 3 pour les deux dernires. An dliminer ces observations loignes de la droite de rgression, il faut aller dans le menu Donnes > Slectionnez des observations. Cliquez sur le bouton Selon une condition logique (voir gure 6.9).

Figure 6.9
Diagnostic des rsidus.

140

Analyse de donnes avec SPSS

Chapitre
Le graphique de rpartition des rsidus par rapport une rpartition normale montre que la majorit des rsidus est aligne.

Figure 6.10
Nuage de points des rsidus standardiss.

Le nuage de points dit des rsidus standardiss en rapport avec les valeurs prdites standardises ne fait apparatre aucun modle particulier, ce qui conrme lhypothse de valeur constante de la variance du terme derreur (homoscdasticit) et dindpendance des termes derreur. Dautres diagrammes, comme lhistogramme des rsidus standardiss, sont aussi examiner. Idalement, la distribution doit tre normale.

2.3 LA

RGRESSION LINAIRE MULTIPLE La rgression multiple est une extension de la rgression simple o la variable dpendante est rgresse sur un ensemble de variables. Elle sert analyser la relation entre une variable dpendante qualitative et plusieurs variables indpendantes quantitatives. Chaque variable indpendante est value par la procdure de rgression de faon maximiser la prdiction de la variable explique. Cette technique multivarie est la plus utilise pour prdire et expliquer. Dans le cas de la prdiction, lobjectif est de maximiser le pouvoir prdictif des variables indpendantes. Il est aussi possible de comparer des variables indpendantes dans leur pouvoir explicatif. Dans le cas de lexplication, la rgression sert dterminer limportance relative de chaque variable indpendante par sa magnitude et sa direction. Par exemple, le nombre de SMS peut dpendre de lge du consommateur, de son revenu et de ses consommations tlphoniques. La rgression cherche la combinaison de poids (b) pour les variables indpendantes (Xi) qui amnerait les valeurs de Y prdites par lquation aussi prs que possible des valeurs de Y mesures : Yi = a + b1X1 + b2X2 + + bnXn Cest un indice de la relation entre les valeurs prdites et les valeurs mesures.

La rgression linaire 141

Les mthodes de slection des variables de rgression


La slection dune mthode permet de spcier la manire dont les variables indpendantes sont entres dans lanalyse. Voici ces diffrentes mthodes : entre (par dfaut) : toutes les variables dun bloc sont introduites en une seule opration ; pas pas : les variables indpendantes sont ajoutes lquation une par une et peuvent tre enleves subsquemment si elles ne contribuent plus signicativement la rgression. Le processus sarrte lorsquaucune variable ne peut plus tre introduite ou limine ; liminer bloc : toutes les variables dans un bloc sont supprimes en une seule tape ; descendante : toutes les variables sont entres initialement dans lquation et sont ensuite limines une une. La variable ayant la plus petite corrlation avec la variable dpendante est dabord tudie pour llimination. Si elle est limine par le modle, la prochaine variable avec le plus petit coefcient de corrlation est tudie, jusqu ce quaucune variable ne satisfasse plus au critre dlimination ; ascendante : les variables sont introduites squentiellement une par une. Si la premire variable est introduite dans lquation, la variable explicative ne gurant pas dans lquation et prsentant la plus forte corrlation partielle est considre ensuite. La procdure sarrte lorsquil ne reste plus de variables satisfaisant le critre dintroduction. La mthode pas pas est une combinaison des mthodes descendantes et ascendantes, elle est gnralement recommande comme tant la meilleure mthode. Toutes les variables doivent respecter le critre de tolrance pour tre entres dans lquation, quelle que soit la mthode dentre spcie. Le niveau de tolrance par dfaut est 0,0001. Une variable nest pas entre si elle fait passer la tolrance dune autre variable dj entre dans le modle en dessous du seuil de tolrance.

Les conditions de la rgression multiple


La rgression multiple est complexie par la prsence de multicolinarit. En effet, la majorit des tudes mettent en jeu des variables explicatives qui sont corrles. Une mthode simple pour dtecter une trop grande corrlation entre variables indpendantes consiste demander des tests de colinarit : tolrance et facteur dination de la variance (VIF). La tolrance est dnie comme la part de variabilit de la variable indpendante qui nest pas explique par une ou dautres variables indpendantes. Une tolrance leve correspond un faible degr de colinarit. Le seuil de 0,3 est recommand. linverse, le seuil du facteur dination de la variance (VIF) doit tre faible : < 3.
SPSS

tude de la relation entre lesprit de comptition, lambition, la relation avec le manager et lattitude des vendeurs envers les challenges de vente
Nous cherchons savoir si lesprit de comptition, lambition et la relation du vendeur avec son manager inuencent son attitude lgard des challenges de vente. Nous souhaitons dterminer, parmi ces variables explicatives, celle qui explique le mieux lattitude lgard du challenge de vente. Pour obtenir une rgression linaire multiple, allez dans le menu Analyse > Rgression > Linaire. La bote de dialogue de la gure 6.11 apparat.

142

Analyse de donnes avec SPSS

Chapitre
Transfrez les variables en les slectionnant chacune leur tour et en cliquant sur les ches. La variable expliquer dans Variable dpendante, les variables explicatives dans Variables explicatives. La mthode de slection des variables pas pas est choisie eu gard notre choix de recherche.

Figure 6.11
Commande dune rgression multiple.

Cliquez ensuite sur Statistiques et demandez les Tests de colinarit. Cliquez ensuite sur Poursuivre et OK (voir gure 6.12).

Figure 6.12
Commande de tests de colinarit.

Les rsultats de la rgression multiple apparaissent dans longlet Rsultats (voir gures 6.13 et 6.14). Ce premier tableau prsente les variables introduites : lesprit de comptition et la relation avec le manager. Nous remarquons ici que lambition nest pas prise en compte car cette variable ne contribue pas signicativement la rgression. Les deux variables prises en compte expliquent 51 % de lattitude lgard du challenge (R2 ajust). Le tableau ANOVA atteste que les deux modles sont signicatifs (Signication = 0,00). Nous lisons ensuite les rsultats du test de colinarit (voir gure 6.15).

La rgression linaire 143

Figure 6.13
Interprtation des rsultats dune rgression multiple.

Figure 6.14
Interprtation des rsultats dune rgression multiple (suite).

Figure 6.15
Interprtation des rsultats dune rgression multiple : tests de colinarit.

Tolrances et facteurs dination de la variance (VIF) sont proches de 1, largement dans les limites recommandes (tolrance > 0,3 et VIF < 3,3). Les variables explicatives sont donc peu corrles entre elles, ce qui est un indice de qualit du modle. Comme nous pouvons le voir (voir gure 6.16), la variable ambition a t exclue car elle a de mauvaises statistiques de colinarit.

144

Analyse de donnes avec SPSS

Chapitre

Figure 6.16
Interprtation des rsultats dune rgression multiple : variables exclues.

Nous pouvons conclure que le modle 2 est satisfaisant, car il explique 51 % de lattitude lgard du challenge (R2 ajust). Il est signicatif (voir tableau ANOVA, gure 6.14), les coefcients de la pente de rgression sont signicatifs et il ny a pas de problme de colinarit (voir tableau coefcients, gure 6.15). Lesprit de comptition et la relation du vendeur avec son manager sont deux dterminants de lattitude du vendeur lgard des challenges de vente.

Rsum
La corrlation sert mesurer la force de lassociation de deux variables quantitatives. Le coefcient de corrlation linaire mesure la relation linaire entre les deux variables quantitatives. La rgression utilise la prsence de cette relation pour prdire les valeurs de la variable dpendante partir dune variable indpendante. Lobjectif est donc destimer ou de prdire une variable partir dune autre grce une quation de rgression. La rgression simple sert tester leffet dune seule variable indpendante sur une variable dpendante. La force de la relation est mesure par le coefcient de dtermination R2. La rgression multiple implique au moins deux variables indpendantes et une variable dpendante. La signication de lquation de rgression globale est teste grce au test t. Les graphiques des rsidus servent vrier la pertinence des hypothses sous-jacentes et lajustement du modle de rgression

Pour aller plus loin


Malhotra N., Decaudin J. M., Bouguerra A., tudes marketing avec SPSS, 5e d., Pearson Education, Paris, 2007. Hair J. F., Anderson R. E., Tatham R. L., Black W. C., Multivariate Data Analysis, Prentice Hall International, New Jersey, 2007. Evrard Y., Pras B., Roux E., Market. tudes et recherche en marketing, Nathan, Paris, 2003.
La rgression linaire 145

Exercices
EXERCICE 1
nonc

TUDE

DU POINT DE VENTE

Une tude sur la clientle dun magasin vise mieux comprendre les clients et notamment les variables lies lintention dachat. Voici les rsultats de la corrlation multiple entre le montant moyen dpens par mois, lintention dachat, le niveau dtudes, la taille du foyer et le niveau de revenus du foyer (voir gure 6.17). 1. Quelles variables sont le plus relies au montant moyen dpens par mois ? 2. Ces variables sont-elles diffrentes de celles qui sont relies lintention dachat dans le point de vente ?

Figure 6.17
Interprtation des rsultats dune corrlation multiple.

* Solution

1. Les variables les plus relies au montant moyen dpens par mois sont le niveau dtudes (0,66) et le revenu du foyer (0,83). Lintention dachat est plus faiblement corrle au montant moyen dpens par mois. Le signe ** indique que la corrlation est signicative au seuil de 0,01. La taille du foyer nest pas relie au montant moyen dpens par mois. En effet, la corrlation de 0,03 nest pas signicative, il ny a pas de signe ** lintersection de Taille du foyer et de Montant moyen dpens par mois . 2. Comme pour le montant moyen dpens par mois, lintention dachat est aussi lie au niveau dtudes et nest pas lie la taille du foyer. Toutefois, la diffrence du montant moyen dpens par mois, lintention dachat et le niveau de revenus du foyer ne sont pas fortement corrls (0,28).

146

Analyse de donnes avec SPSS

Chapitre

EXERCICE 2
nonc

LES

DTERMINANTS DE LA MOYENNE DES TUDIANTS

On a demand des tudiants dune classe dvaluer la qualit de lenseignement en utilisant une chelle de notation en 5 points (1 = mdiocre, 5 = excellent). Nous avons aussi relev la moyenne et le jour dabsence du trimestre des tudiants de la classe. 1. Enregistrez les donnes rcoltes dans le tableau sous SPSS au tableau 6.2. 2. Ces variables sont-elles corrles ? 3. Effectuez une analyse par rgression multiple de la qualit perue de lenseignement et de labsentisme durant le trimestre sur la moyenne du trimestre. Interprtez les coefcients de rgression. La rgression est-elle signicative ? Que concluez-vous ? Tableau 6.2 : Donnes rcoltes
tudiant 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Moyenne du trimestre 5 7 15 11 16 12 11 14 10 14 11 9 9 11 10 7 14 15 11 14 Qualit perue de lenseignement 4 4 3 2 3 2 3 4 4 4 3 4 2 4 4 2 4 4 3 4 Absentisme en jours par trimestre 10 2 0 0 0 1 0 0 0 0 0 1 2 0 0 1 0 0 0 0

La rgression linaire 147

Exercices

tudiant 21 22 23 24 25 26 27 28

Moyenne du trimestre 12 11 9 8 11 10 14 12

Qualit perue de lenseignement 3 4 3 2 4 3 4 4

Absentisme en jours par trimestre 0 0 0 2 0 0 0 0

* Solution

1. Pour rentrer ces donnes sous SPSS, allez dans Fichier > Nouveau > Donnes. Ensuite, dans Afchage des variables entrez le Nom des variables et leur Etiquette. Nous avons ici des donnes quantitatives et donc la Mesure slectionne est Echelle (voir gure 6.18).

Figure 6.18
Rappel de la procdure pour rentrer les donnes sous SPSS.

Il faut ensuite entrer les donnes dans la partie Afchage des donnes. Chaque ligne correspond la rponse dun tudiant. Nous avons ainsi un tableau de trois colonnes et 28 lignes pour les 28 tudiants de la classe (voir gure 6.19). 2. An de savoir si les variables sont corrles, il faut demander une corrlation entre les trois variables : qualit de lenseignement perue, absentisme des lves et moyenne du trimestre. Allez dans Analyse > Corrlation > Bivarie. La bote de dialogue de la gure 6.20 apparat. Faites passer les variables de gauche droite laide de la che, puis cliquez sur OK. Les rsultats de la corrlation apparaissent dans le tableau de rsultats la gure 6.21. Le tableau des corrlations obtenu entre la note du trimestre, labsentisme en nombre de jours par trimestre et la qualit perue de lenseignement montre quil existe un lien signicatif entre labsentisme et la note moyenne. Le signe atteste que ces deux variables voluent de manire inversement proportionnelle. Autrement dit, plus un tudiant est absent moins sa note du trimestre est bonne. Il ny a pas de corrlation entre la note moyenne du trimestre et la qualit perue de lenseignement, comme il ny a pas de lien entre le taux dabsentisme des tudiants et la qualit perue de lenseignement.

148

Analyse de donnes avec SPSS

Chapitre

Figure 6.19
Rappel de la procdure pour rentrer les donnes sous SPSS (suite).

Figure 6.20
Demande de corrlation entre la qualit de lenseignement, labsentisme et la moyenne.

Figure 6.21
Rsultats de la corrlation entre la moyenne, labsentisme et la qualit de lenseignement.

La rgression linaire 149

Exercices

3. Pour raliser la rgression multiple (pas pas), allez dans le menu Analyse > Rgression > Linaire. Transfrez la variable note moyenne vers Variable dpendante, puis les variables qualit de lenseignement et absentisme, chacune leur tour, vers Variables explicatives en cliquant sur les ches. La mthode de slection des variables par dfaut est choisie. Cliquez ensuite sur OK (voir gure 6.22). Figure 6.22
Demande dune rgression multiple (Pas pas) sur la moyenne du trimestre.

Avant de lancer la commande de rgression, la non-colinarit entre les variables indpendantes doit tre vrie. Pour ceci, il faut faire des tests de colinarit. Retournez dans la bote de dialogue puis cliquez sur Statistiques, Tests de colinarit. Cliquez ensuite sur Poursuivre et OK (voir gure 6.23). Figure 6.23
Demande de tests de colinarit.

Les rsultats de la rgression multiple gurent dans la bote de rsultats la gure 6.24.

150

Analyse de donnes avec SPSS

Chapitre

Figure 6.24
Interprtation des rsultats de la rgression multiple sur la moyenne du trimestre.

Toutes les variables sont conserves pour la rgression puisque nous navons pas spci de mthode de rgression particulire ; la mthode par dfaut prend toutes les variables explicatives (voir gure 6.25). Figure 6.25
Interprtation des rsultats de la rgression multiple sur la moyenne du trimestre (suite).

Les deux variables prises en compte expliquent 37 % de la moyenne du trimestre (R2 ajust). Le tableau ANOVA atteste que le modle est signicatif (Signication = 0,00). Tolrances et facteurs dination de la variance (VIF) sont gaux 1, ce qui montre que les variables explicatives sont peu corrles entre elles et reprsentent un indice de qualit du modle. Le test t de la rgression de la qualit de lenseignement sur la note moyenne du trimestre nest pas signicatif (p > 0,0 ; t < 2), nous pouvons donc conclure que seul labsentisme a un effet signicatif et ngatif sur la moyenne du trimestre (t = 4,01 ; p < 0,01). Autrement dit, plus les tudiants sont absents, moins leur moyenne est bonne.

La rgression linaire 151

Exercices

EXERCICE 3
nonc

TUDE

DU POINT DE VENTE1

Vous travaillez sur une enqute destine mieux comprendre les comportements dachat de clients dun magasin de chaussures. Vous cherchez identier ces clients et connatre leur attitude lgard du point de vente. Vous avez collect 400 rponses et cherchez exploiter ces donnes (chier pointdevente 1). Le grant du magasin souhaite savoir : 1. sil existe une relation entre la taille du foyer et le montant dpens dans le magasin ; 2. si le niveau dtudes inuence lintention dachat dans le point de vente.

* Solution

1. Une corrlation permet de savoir si la taille du foyer et le montant dpens dans le magasin sont lis. Voici la commande effectuer : Analyse > Corrlation > Bivarie. Faites passer les variables foyer et montant vers Variables, puis OK (voir gure 6.26).

Figure 6.26
Demande de corrlation entre la taille du foyert et le montant dpens.

Les rsultats de la corrlation gurent dans la bote de rsultats la gure 6.27. Figure 6.27
Interprtation des rsultats de la corrlation entre la taille du foyert et le montant dpens.

Labsence de signe ** indique que la corrlation entre la taille du foyer et le montant dpens dans le magasin nest pas signicative. Il ny a pas de lien entre ces deux variables.
1. Vous trouverez ce fichier ladresse : http://www.pearsoneducation.fr.

152

Analyse de donnes avec SPSS

Chapitre

2. Pour savoir si le niveau dtudes inuence lintention dachat au point de vente, il faut faire une rgression du niveau dtudes sur lintention dachat. Voici la commande effectuer : Analyse > Rgression > Linaire. Faites passer lintention dachat vers Variable dpendante et le niveau dtudes (Question : Quel est votre niveau dtudes ?) vers Variables explicatives, puis faites OK (voir gure 6.28). Figure 6.28
Demande de rgression du niveau dtudes sur lintention dachat.

Les rsultats de la rgression apparaissent dans les tableaux de la gure 6.29. Figure 6.29
Interprtation des rsultats de la rgression du niveau dtudes sur lintention dachat.

La rgression linaire 153

Exercices

Le tableau ANOVA atteste que le modle est signicatif. Le test t de la rgression du niveau dtudes sur lintention dachat est suprieur 2. Nous pouvons donc conclure que le niveau dtudes a un effet signicatif et positif sur lintention dachat dans le magasin (t = 11,58 ; p < 0,01). Le niveau dtudes explique 25 % de lintention dachat (R2 ajust). Autrement dit, plus les individus ont des diplmes, plus ils sont prts effectuer des achats dans le magasin.

154

Analyse de donnes avec SPSS

Chapitre

Lanalyse conjointe
1. Les principes de lanalyse conjointe ..............156 2. La prparation de lanalyse conjointe ..............158 3. Linterprtation de lanalyse......164

Exercices 1. tude sur la consommation de th cration de plan dexprience et de scnario......172 2. tude sur la consommation de th Calcul des prfrences des consommateurs .................174

Lanalyse conjointe est une forme danalyse de variance qui permet de mesurer les prfrences des individus relatives aux attributs dun objet. Lobjectif est didentier les prfrences globales et de mesurer leffet conjoint de caractristiques. Par exemple, il sagira de cerner les critres les plus importants dans lachat dun ordinateur (puissance, marque, design, etc.). Cette technique permet dexpliquer les prfrences pour un objet en fonction de ses caractristiques, de dduire limportance de ces diffrentes caractristiques et de leurs modalits dans lvaluation globale porte par les individus. Lanalyse conjointe est surtout utilise dans le contexte des biens de consommation, o elle sert amliorer les produits ou les services selon les rsultats. Nous verrons dans un premier temps les principes de lanalyse conjointe avant de prsenter le droulement, la ralisation et linterprtation de cette mthode.

155

(1)

Les principes de lanalyse conjointe


Les travaux de Green dans les annes 1970 marquent le dbut de la prise en compte de lanalyse conjointe dans la recherche en marketing. La mthode dite de l analyse des mesures conjointes , au dveloppement croissant depuis les annes 1980, vise mieux comprendre le comportement des individus et, en particulier, du consommateur. Le sketch de Coluche illustre la problmatique de lanalyse conjointe sur la prfrence entre tre grand, riche, beau et intelligent et petit, pauvre, moche et bte . Si lon prsente les combinaisons suivantes grand, riche, moche et bte ou petit, pauvre, beau et intelligent , lindividu est alors amen faire des compromis dans lesquels lavantage dune caractristique compense une autre quil doit rejeter. Lanalyse conjointe permet de rpondre aux questions suivantes : Quelle est limportance de tel ou tel attribut (prix, dimensions, etc.) du produit pour le consommateur ? Quelle est limportance de certains niveaux dattributs (niveau de prix, dimensions en cm, etc.) par rapport dautres dans lesprit du consommateur ? Cette mthode dtermine la fois limportance relative de chaque attribut et les niveaux des attributs prfrs des rpondants. Lorsquon dispose dinformations sur les rpondants (donnes dmographiques ou autres), lanalyse conjointe permet didentier les segments de march pour lesquels des produits spciques seront plus adapts. Par exemple, une personne appartenant une CSP+ et un tudiant peuvent avoir des gots diffrents auxquels des offres de produits distincts pourront rpondre. Lanalyse conjointe repose sur la dcomposition de la prfrence en utilits partielles. Pour dterminer lutilit totale dun produit, on suppose que lindividu additionne les utilits partielles des attributs du produit. On parle de modle additif. Au nal, lindividu choisit parmi les produits celui qui lui procure lutilit totale la plus leve. Lestimation permet ainsi dobtenir, pour chaque facteur et ses niveaux, des utilits partielles ainsi que limportance de chaque attribut. Ce qui compte est donc lindividu tel quil ragit dans une situation dtermine. Lanalyse conjointe appartient aux modles de dcomposition (voir focus 7.1 sur le modle compensatoire) o limportance des caractristiques est estime partir des prfrences dclares du consommateur et de ses notations des diffrents produits sur plusieurs caractristiques. Elle permet danalyser limportance des caractristiques du produit dans la formation des prfrences.

* Focus 7.1

Le modle compensatoire
Le modle dattitude implicite de lanalyse conjointe est un modle compensatoire, o lvaluation se fonde sur le principe du compromis, cest--dire quun peu moins dun attribut peut tre compens par un peu plus dun autre. Par exemple, un individu qui cherche un appartement peut avoir plusieurs critres : le montant du loyer, la supercie, le nombre de pices, la luminosit, la proximit des transports publics, etc. Si lun de ces critres nest pas satisfait (supercie insufsante), il peut tre compens par un montant du loyer plus faible dans un modle compensatoire (ce nest pas le cas dans le modle non compensatoire).

156

Analyse de donnes avec SPSS

Chapitre

1.1 LES

UTILISATIONS DE LANALYSE CONJOINTE EN MARKETING Lanalyse conjointe est largement utilise en marketing pour lidentication dun nouveau concept, pour divers tests (prix, produits, publicit, distribution, etc.), pour lanalyse concurrentielle ou la segmentation du march (voir tableau 7.1). Il sagit, par exemple : de dterminer limportance relative dattributs dans le processus de choix des consommateurs ; destimer la part de march des marques qui diffrent au niveau des attributs ; de dterminer la composition dobjets les plus apprcis ; de segmenter le march partir des similarits de prfrences pour des niveaux dattributs. Tableau 7.1 : Les applications de lanalyse conjointe
Pour les biens de consommation courante Nouveaux produits Prix Segmentation Publicit Distribution 72 % 61 % 48 % 39 % 7%

1.2 LES

CONDITIONS DAPPLICATION DE LANALYSE CONJOINTE Lanalyse des mesures conjointes ncessite que les variables explicatives soient qualitatives ou nominales et que les variables expliquer soient quantitatives. Ces dernires peuvent tre values : laide dune chelle de mesure ; laide dun ordre de prfrence (classement) entre diffrentes combinaisons de niveaux de facteurs. Par exemple, dans le cadre dune tude sur la prfrence des clients lgard dune offre de transport arien, on pourra demander aux individus dvaluer diffrentes offres de compagnies avec une note de 1 9, autrement dit de les classer. Ces offres incluront, par exemple, le prix du billet (bas, moyen, lev), la qualit du service bord (excellente, moyenne, mauvaise), le nombre descales, etc. Il sera ainsi possible destimer, parmi ces facteurs et leurs niveaux, celui qui a le plus dimportance pour les clients dans leur choix dune offre de transport arien. Lobjectif est ensuite dlaborer une offre optimale pour la clientle.

Lanalyse conjointe 157

1.3 LES

TAPES DE LANALYSE CONJOINTE La mthodologie de lanalyse conjointe est jalonne par trois grandes tapes (Green et Srinivasan, 1990) : collecte des donnes : choix du plan factoriel complet ou fractionn, de la forme des questions et de la mthode de recueil ; dnition de lchelle de mesure de la variable dpendante : choix de la mesure (classement, notation des combinaisons, comparaison de paires de combinaisons) ; estimation : tape lie la nature de la mesure de la variable dpendante (ANOVA si la variable dpendante est quantitative, analyse monotone de la variance si elle est ordinale). Ces tapes sont dveloppes au cours de la section suivante.

(2)

La prparation de lanalyse conjointe


Lanalyse conjointe demande au pralable la rsolution dun certain nombre de questions. En effet, avant mme de collecter les donnes, le charg dtude doit sinterroger sur les attributs quil cherche valuer et leurs niveaux. Cette premire slection des attributs ou facteurs les plus importants et de leurs niveaux ou modalits dterminera le plan dexprience et le mode de collecte des donnes. Le schma de la gure 7.1 prsente les diffrentes phases de la mthode de lanalyse conjointe et met laccent sur la premire tape de la slection des attributs et des niveaux.

Figure 7.1
Les tapes de lanalyse conjointe.

Source : adapt de Liquet et Benavent.

158

Analyse de donnes avec SPSS

Chapitre

2.1 LA

SLECTION DES ATTRIBUTS OU FACTEURS ET DE LEURS NIVEAUX La slection des variables et des niveaux tester est cruciale. Les facteurs choisis doivent correspondre lensemble des critres intervenant dans le choix des individus. Il est donc primordial que tous les attributs soient importants et indpendants, quils dcrivent compltement le produit et quils soient manipulables. Par exemple, pour identier le packaging de biscuits pour le goter des enfants, le charg dtude slectionnera le format du paquet, le type demballage, le code couleurs, etc., et en termes de niveaux, deux tailles pour le format (moyen, petit), deux pour le type demballage (carton, sachet) et trois pour le code couleurs (bleu-rouge ; bleu-vert ; bleu-jaune). Pour synthtiser, les attributs ou facteurs doivent tre : Exhaustifs. Il ne doit pas manquer de facteurs majeurs dans lvaluation de lobjet. Importants. Les facteurs slectionns doivent tre essentiels dans lvaluation de lobjet par les individus. Indpendants. Les facteurs ne doivent pas tre corrls, sinon cest la redondance qui est mesure au lieu de la prfrence. Si plusieurs attributs sont fortement corrls, il faut alors essayer de les regrouper en un facteur globalisant. titre dexemple, voici quatre attributs employs pour dcrire lambiance dun restaurant : le dcor (rafn ou simple), lagencement (banal ou labor), la lumire (tamise ou non) et le niveau sonore (lev, moyen, faible). Ces attributs pourront tre regroups sous une variable unique, intitule ambiance du restaurant et comptant trois modalits (agrable, neutre ou dsagrable). Les autres facteurs pourront tre le tarif, lemplacement du restaurant, la varit des plats, la qualit du service, etc. Les attributs et leurs niveaux doivent tre importants et proches du rel des individus qui seront interrogs. Ils doivent aussi tre sufsamment contrasts an que les personnes puissent se prononcer. Enn, le panier dattributs doit tre manipulable lors dune simulation. Reprenons lexemple de lemballage de biscuits : le format, le type demballage et le code couleurs sont indpendants. propos de leur importance, le chercheur doit sassurer au pralable, par exemple grce une tude qualitative, que les attributs cls sont slectionns. Des entretiens avec des enfants sur leurs prfrences concernant lemballage de biscuits pour le goter serviront identier les facteurs et leurs modalits cls. Il est gnralement recommand davoir un nombre de niveaux quilibr, cest--dire quivalent pour chaque attribut. Cela permet dviter que les individus accordent plus de poids aux attributs prsentant davantage de niveaux que les autres. Un nombre limit de niveaux (2 ou 3) permet, en outre, de prsenter aux personnes interroges des options plus claires. Dans le cas de notre exemple, le facteur code couleurs a trois niveaux, ce qui peut lui attribuer une plus grande importance. Il faut en tenir compte dans lanalyse.

* Focus 7.2

Comment identier les attributs dterminants ?


An doptimiser la phase cl de slection des attributs et de leurs niveaux, une tude exploratoire est souvent ncessaire. Elle vise reprer quels sont, pour les individus, les attributs les plus importants et leurs niveaux. Elle permet de sassurer que les facteurs auxquels le charg dtude a pens sont pertinents et quil na pas oubli de facteurs ou niveaux importants. Nous prenons ici lexemple dune tude sur les prfrences des consommateurs lgard de crmes glaces. Un questionnaire propos 300 mnages a permis didentier les attributs

Lanalyse conjointe 159

dterminants du processus dachat de crmes glaces. Ils ont d valuer chacun de ces critres selon le degr dimportance (de pas du tout trs important ) : le prix ; le parfum ; la marque ; le conditionnement. Une question ouverte (Autre) a permis didentier dautres critres cls, par exemple : la composition du produit.

La slection du nombre de facteurs a une incidence directe sur le plan dexprience utilis. En effet, lorsquon cherche tester un nombre important dattributs et de niveaux, il est souvent difcile de considrer toutes les congurations possibles (voir focus 7.3, Plan complet et plan fractionn) car cest trop coteux en termes dexprience.

* Focus 7.3

Plan complet et plan fractionn


Lorsquon utilise un plan complet, chaque prol dcrit un objet complet, cest--dire une combinaison diffrente de niveaux de facteurs pour tous les facteurs ou tous les attributs. Cette mthode permet donc davoir une valuation de toutes les combinaisons possibles. Cependant, lorsquon cherche valuer beaucoup dattributs et de niveaux, le nombre total de prols valuer devient trop important pour que les rpondants puissent les classer ou les noter de faon cohrente. Il est alors prfrable dutiliser un plan fractionn qui prsente une fraction approprie de toutes les combinaisons possibles de niveaux de facteurs. Lensemble qui en rsulte, appel tableau orthogonal , est conu pour saisir les effets principaux de chaque niveau de facteur.

2.2 LA

MISE EN UVRE DE LA SIMULATION La construction de scnarios (voir focus sur la mthode des scnarios vue au chapitre 6) dtermine la crdibilit de lexprience. En effet, lanalyse conjointe repose sur des informations collectes auprs dindividus qui lon demande de faire des choix, de dclarer leurs prfrences entre divers objets prsents avec des stimuli. Les stimuli sont des combinaisons dattributs et de leurs niveaux qui sont valus en fonction de leurs attraits. Lanalyse conjointe repose sur la mthode des scnarios.

La mthode des scnarios ou des vignettes


La mthode dite des scnarios ou des vignettes sappuie sur lutilisation de scnarios. Le scnario simule de vraies expriences, comme celle du choix dun paquet de biscuits pour le goter. Les individus, mis dans une situation hypothtique, doivent rpondre comme si ils se trouvaient rellement dans ces situations. En prenant lexemple du choix du paquet de biscuits, on demandera aux enfants de choisir entre les diffrents emballages qui pourront tre dessins. Ils choisiront, non pas selon des questions directement poses sur leurs prfrences en termes de format (petit ou grand), de code couleurs, etc., mais en fonction de combinaisons de niveaux dattributs.

160

Analyse de donnes avec SPSS

Chapitre

La mise en situation possde lavantage de rendre lexprience plus raliste et, par l, de mieux impliquer les rpondants dans la cration de sens. Le but est aussi de sloigner de la rationalisation et deffectuer son choix comme dans une situation relle dachat. Une description verbale, un texte descriptif crit, une photo, un dessin ou un prototype peuvent servir prsenter les stimuli. Il faut ici veiller ce que les scnarios soient crdibles et quaucun ne soit manifestement trop attractif ou, au contraire, rpulsif. Les stimuli doivent, de fait, avoir une apparence similaire an que les prfrences des individus soient bien le fruit des attributs tests. Le tableau 7.2 expose les mthodes de prsentation des scnarios les plus usites. Tableau 7.2 : Les mthodes de prsentation des stimuli les plus utilises de lanalyse conjointe
Description verbale Texte descriptif Descriptif visuel Prototype Autres
Source : Cattin et Wittink, 1982.

50 % 20 % 19 % 7% 4%

Exemple de vignettes
Voici un exemple de vignettes utilises pour dcrire diffrentes offres de chambres dhtel. Les facteurs manipuls sont : la localisation de lhtel (centre-ville, proche dune autoroute, excentr) ; le type de chambre (luxe, standard, simple) ; le prix de la chambre (lev, conomique) ; la marque (chane dhtel connue ou pas). Le tableau 7.3 liste les vignettes qui permettent de dcrire les diverses combinaisons prsentes aux individus. Tableau 7.3 : Vignettes dcrivant les offres de chambres dhtel
valuation Classement ou Note

Description des concepts 1. Chambre standard de la chane dhtels connue Y excentr, conomique 2. Chambre de luxe de la chane dhtels connue Y excentr, conomique 3. Chambre de luxe de la chane dhtels connue Y centre-ville, prix lev

Lanalyse conjointe 161

Tableau 7.3 : Vignettes dcrivant les offres de chambres dhtel (suite)


valuation Classement ou Note

Description des concepts 4. Chambre simple de la chane dhtels connue Y proche dune autoroute, conomique 5. Chambre simple, proche dune autoroute, conomique 6. Chambre de luxe, centre-ville, prix lev

2.3 LA

COLLECTE DES DONNES Lors de la phase de collecte des donnes, le charg dtude sinterroge sur le choix de la mthode de comparaison des vignettes ou des scnarios tester, du mode dadministration et du mode de recueil des donnes. Nous verrons successivement ces trois points cls.

Le choix de la mthode de comparaison des scnarios


Trois mthodes sont le plus souvent utilises pour la collecte des donnes mais cest celle du prol complet qui est la plus courante. Avec la mthode du prol complet, chacun des rpondants est expos toutes les combinaisons de niveaux de facteurs. Elles sont dcrites sparment et lindividu doit valuer chacune delles. Si on reprend lexemple du choix dune chambre dhtel, les individus devraient noter les diffrentes offres dcrites par les vignettes, soit un total de 36. Par consquent, il est recommand de slectionner un nombre de facteurs infrieur 6 et un nombre de niveaux pour chacun de ces facteurs limit 3 ou 4. En effet, mme si lutilisation de plans fractionns (voir chapitre 5) permet de rduire les prols que les individus valuent, il existe des biais de rponses dus un effet dapprentissage. Lordre de prsentation des concepts inuence lapprciation des rpondants, il faut donc veiller prsenter les vignettes de faon alatoire. La mthode de comparaison par paires prsente les diffrentes vignettes ou les diffrents scnarios deux deux. Les personnes interroges estiment les paires de concepts jusqu ce quils soient tous valus. Si on reprend lexemple de lemballage de biscuits pour le goter, on demandera aux individus de choisir parmi les propositions (combinaison x de niveaux de facteurs) : un sachet de petit format et un code couleurs bleu-rouge seront compars un carton de petit format et un code couleurs bleu-jaune Cela jusqu ce quils aient valu toutes les combinaisons. Il est aussi possible de faire noter diffrentes paires des groupes dindividus diffrents, ce qui permet de gagner du temps. La mthode du trade off utilise deux facteurs la fois. On demande aux rpondants de classer par ordre de prfrence toutes les combinaisons des niveaux des deux facteurs. Cette mthode repose sur une matrice qui croise lensemble de combinaisons des niveaux de facteurs deux deux. Elle a pour inconvnient majeur sa lourdeur lorsque le nombre de facteurs est lev.

162

Analyse de donnes avec SPSS

Chapitre

Lavantage des mthodes du trade off et de comparaison par paires est que les individus peroivent clairement les offres et rpondent facilement. Leur principal inconvnient est le nombre important dvaluations ncessaires. La mthode du prol complet en exige moins. Elle est donc intressante lorsquon cherche tester un nombre important dattributs et de niveaux dattributs. Pour les deux mthodes, il nest pas toujours utile de faire valuer toutes les combinaisons possibles mme si lemploi de plans fractionns (voir focus 7.3) peut parfois pallier ce problme.

Le choix du mode dadministration de lenqute


Linformation collecte est dduite des valuations dobjets par les individus interrogs. La taille de lchantillon, issu de la population cible de lobjet test, varie entre 100 et 1 000. Elle doit tre sufsamment importante pour assurer la abilit des rsultats. Une fois lchantillon choisi, le charg dtude propose les scnarios ou prols chaque rpondant. Selon le nombre de scnarios tester, il peut administrer soit la totalit des congurations possibles (plan complet), soit une slection (plan fractionn). Les donnes sont ensuite collectes (voir tableau 7.4), le plus souvent via des entretiens de groupe, des runions, en interrogeant les individus directement ou encore en suivant un protocole. Il est recommand de travailler avec un expert du domaine (chef de produit, par exemple) pour laborer des scnarios ralistes et diffuser ltude. Ces interventions permettent de renforcer la validit de ltude. Tableau 7.4 : Les conditions dadministration de lanalyse conjointe
Interventions dexperts dans ltude (manager, etc.) Entretiens de groupe Questionnements directs dindividus Autres 30 % 26 % 18 % 26 %

Le choix du mode de recueil des donnes


Dans lanalyse conjointe, la variable mesure est gnralement la prfrence ou lintention dachat. Les individus interrogs fournissent donc un score ou un rang en fonction de leurs gots et de leurs intentions dachat. Trois mthodes de recueil des donnes existent. On peut demander aux individus : de donner un score chaque prol, selon leurs prfrences (donne mtrique) ; dassigner un rang chaque prol, de 1 jusquau nombre total de prols ; de trier les prols en termes de prfrences par ordre croissant ou dcroissant (classement). Les donnes sont le plus souvent recueillies partir dun classement des prols ou laide dun score sur chaque prol. Certains chercheurs estiment que le classement ou lattribution dun rang rete plus prcisment le comportement des individus lors de la prise dune dcision. Dautres, tenants des donnes dvaluation, pensent, au contraire, quelles sont plus pratiques pour les rpondants. Dans les deux cas, tant donn que lordre de prsentation des stimuli peut affecter lvaluation des rpondants, il est recommand de varier lordre de prsentation des scnarios.
Lanalyse conjointe 163

(3)

Linterprtation de lanalyse
Cest partir dune application que nous verrons comment raliser et interprter une analyse conjointe. Dans un premier temps, nous voyons la slection des attributs, lenregistrement des rponses, la cration des scnarios et du plan via le logiciel SPSS. Ensuite, nous prsentons les rsultats de lanalyse conjointe ainsi que les procdures de vrication de sa abilit et de validit.

3.1 EXEMPLE

DE RALISATION ET DINTERPRTATION DE LANALYSE CONJOINTE

Le choix des attributs et de leurs niveaux


Notre tude porte sur le challenge de vente prfr des commerciaux. Il ressort dentretiens avec eux que trois caractristiques des challenges sont trs importantes : le type dobjectif, le format de comptition et le budget (ferm, avec un nombre de gagnants et un budget dni lavance, ou ouvert, avec un quota atteindre et un nombre de gagnants et un budget mconnu au dpart). Ces trois caractristiques indpendantes les unes des autres sont donc slectionnes (condition essentielle de lanalyse conjointe). Le nombre de niveaux dattributs est quilibr deux : lobjectif est soit quantitatif (chiffre daffaires), soit qualitatif (valuation de la connaissance des produits), le format est soit individuel (objectif assign individuellement), soit en quipe (objectif collectif) et le budget est soit ouvert (niveau atteindre prcis), soit ferm (classement). Trois caractristiques de base, ayant chacune deux modalits sont slectionnes (voir tableau 7.5). Tableau 7.5 : Les attributs slectionns et leurs niveaux
Individuel Format de comptition En quipe Quantitatif Type dobjectif Qualitatif Ouvert Budget Ferm

Le nombre dattributs et de niveaux tant faible, nous pouvons utiliser la mthode du plan complet. Nous devrions avoir : 2 2 2 = 8 prols. Nous allons voir maintenant la procdure suivre sur SPSS pour gnrer le plan qui servira de base au dveloppement des scnarios de lanalyse conjointe.

164

Analyse de donnes avec SPSS

Chapitre

La cration du plan orthogonal


Pour crer le plan orthogonal, allez dans le menu Donnes > Plan orthogonal > Gnrer. Dans la bote de dialogue qui apparat (voir gure 7.2), saisissez le nom et ltiquette de chacun des attributs ou facteurs. Ici, nous commenons par inscrire objectif dans le champ Nom facteur et objectif du challenge dans le champ Etiquette facteur. Figure 7.2
Cration du plan orthogonal.

Cliquez ensuite sur le bouton Ajouter pour insrer les autres facteurs, toujours dans les champs Nom facteur et Etiquette facteur. Nous saisissons format et format du challenge puis, aprs avoir cliqu sur Ajouter : budget et budget du challenge. Figure 7.3
Enregistrement des attributs.

Ensuite, il faut dnir les niveaux de chacun des facteurs. Pour cela, slectionnez chaque facteur et cliquez sur le bouton Dnir valeurs (voir gure 7.3). Nous choisissons dattribuer la valeur 1 au format individuel et la valeur 2 au format en quipe. Cliquez ensuite sur Poursuivre pour revenir la bote de dialogue et refaites cette action pour chacun des attributs (la valeur 1 pour les objectifs quantitatifs et la valeur 2 pour les objectifs qualitatifs ; idem pour le budget du challenge, la valeur 1 pour le budget ferm et la valeur 2 pour le budget ouvert) [voir gure 7.4].
Lanalyse conjointe 165

Figure 7.4
Enregistrement des niveaux des attributs.

Ensuite, vous devez indiquer o placer ce plan orthogonal. Pour cela, cliquez sur le bouton Fichier de la bote de dialogue visible la gure 7.5 (choisissez un emplacement o il peut tre facilement rcupr et souvenez-vous de son intitul). Attention ! Le nom du chier doit tre en majuscules sinon SPSS ne gnre pas le plan orthogonal. Nous appelons le chier ORTHO7. Figure 7.5
Sauvegarde du chier et demande de copie de la syntaxe.

La procdure de lanalyse des mesures conjointes sous le logiciel SPSS requiert un miniprogramme ou une macrocommande qui indique au logiciel les facteurs tudis ainsi que leurs niveaux. SPSS cre ainsi le plan factoriel qui donne les combinaisons tester (ORTHO). Ensuite, le logiciel croise le plan factoriel avec les rponses enregistres dans le chier (DATA) comme nous allons le dcouvrir. Trs important pour la suite de lanalyse : cliquez sur le bouton Coller de la mme bote de dialogue an davoir la syntaxe de la macrocommande (voir gure 7.6). Cest seulement aprs cette action que vous cliquez sur OK (pour cela, revenez au menu Donnes > Plan orthogonal > Gnrer). Le message suivant (voir gure 7.7) doit alors apparatre dans Rsultats.

166

Analyse de donnes avec SPSS

Chapitre

Figure 7.6
Copie de la syntaxe.

Figure 7.7
Annonce de la cration du plan orthogonal.

Figure 7.8
Afchage du plan orthogonal.

ce stade, le plan gnr, qui se trouve lemplacement choisi, permet de crer les scnarios. Le scnario no 2 prsentera aux individus un challenge individuel (format = 1), un objectif quantitatif (format = 2) et un budget ferm (budget = 2).

La cration des scnarios


An de rendre lexprience plus raliste, nous optons pour une prsentation des prols de challenges travers une simulation destine mettre les commerciaux en situation pour effectuer leur arbitrage. Nous crons, avec laide de managers, des scnarios de challenges ayant dj t utiliss au sein de diffrentes entreprises. Les personnes interroges en connaissent le principe, ce qui renforce le ralisme de la simulation. Aprs une brve introduction sur la situation du vendeur au sein de lentreprise, on annonce que la direction cherche connatre le challenge prfr des commerciaux. Il leur est demand den classer huit par ordre dcroissant de prfrence sur une grille de classement. Voici un exemple du scnario no 8, qui correspond la dernire ligne du plan sous SPSS (voir gure 7.9).

Ladministration de la simulation
Compte tenu du nombre limit de variables, les donnes sont collectes selon la mthode des prols complets. Concernant le recueil des donnes, nous avons choisi un classement des prols par ordre dcroissant de prfrence. Lensemble des huit stimuli a t class (par ordre dcroissant de prfrence) par un chantillon de 86 commerciaux lors dune runion de formation. Ces donnes ont t rcupres sur un questionnaire.

Lanalyse conjointe 167

Figure 7.9
Exemple de scnario.

Scnario 8
Vous gagnez le challenge cette semaine si vous tes le meilleur vendeur du produit X

Lenregistrement des rponses


Une fois les scnarios classs (ou nots), les rponses doivent tre saisies dans une base de donnes spcique (selon le nombre de prols tests). Pour cela, allez dans le menu Fichier > Nouveau > Crer. Nous avons un plan orthogonal huit prols, il faut donc huit colonnes : de V1 V8. Il est recommand de crer une premire colonne supplmentaire qui servira didentiant chacun des questionnaires : cest la colonne id . Il faut ensuite entrer le rang pour chacun des scnarios pour chacun des rpondants. Nous obtenons une grille de 9 colonnes et 86 lignes (voir gure 7.10). Sur la premire ligne, gure le classement des huit challenges du premier vendeur interrog. Nous observons quil a prfr le challenge n 1, puis le 7e. Figure 7.10
Enregistrement des donnes.

168

Analyse de donnes avec SPSS

Chapitre

Vous devez sauvegarder cette base de donnes dans le rpertoire du document contenant les donnes du plan orthogonal : Fichier > Enregistrer sous > C : ce stade, nous avons le plan orthogonal gnr par SPSS et les donnes recueillies et transcrites dans le chier prcdent. Nous utilisons une macrocommande pour raliser lanalyse conjointe.

La commande de lanalyse conjointe


An dexcuter lanalyse conjointe avec SPSS, il faut passer en mode Syntaxe . Pour cela, allez dans le menu Fichier > Ouvrir > Syntaxe. Pour crire la macrocommande, entrez les huit paramtres suivants : CONJOINT. Indique au logiciel le type danalyse raliser. PLAN. Indique lemplacement du document qui contient le design orthogonal. /DATA. Indique lemplacement de la base de donnes. /SUBJECT. Indique le nom de la colonne qui sert identier les questionnaires : id. /RANK. Indique ltendue des colonnes o se trouvent les valeurs accordes aux diffrents prols. On spcie ici le nom de la premire et de la dernire colonne. /PLOT et /PRINT. Servent gnrer les outputs. /UTIL. Indique lemplacement du document contenant lutilit de chacun des prols pour chacun des questionnaires. Respectez bien les signes utiliss dans lcriture de la macrocommande. Loubli dun seul \ , : ou du point . la n de la commande empche le logiciel de raliser lanalyse (voir gure 7.11). Figure 7.11
Macrocommande.

Slectionnez ensuite lensemble des syntaxes et cliquez sur la che noire dans la barre doutils (voir gure 7.12). Figure 7.12
Excution de la macrocommande.

Lanalyse conjointe 169

Lanalyse conjointe est ralise. Un message apparat qui indique que la procdure a bien fonctionn. Dans le cas contraire, vriez lcriture correcte de la macrocommande de syntaxe. Les rsultats de lanalyse conjointe apparaissent dans la bote Rsultats du logiciel SPSS. Nous allons voir comment les interprter.

Linterprtation de lanalyse conjointe


Les rsultats de lanalyse des mesures conjointes se lisent individuellement, pour chaque observation, puis, la n de tous les rsultats individuels, pour les rsultats globaux. Les utilits des modalits de facteurs sont obtenues par dcomposition des scores de prfrence. Pour valider les utilits ainsi obtenues, il faut comparer lordre driv des utilits de chaque combinaison de modalits avec lordre fourni par les prfrences. Cela permet de sassurer que les estimations des utilits fournies par les mesures conjointes permettent bien de prdire les prfrences exprimes par les individus. Le coefcient tau de Kendall ou le rh de Spearman fournissent une mesure du degr dassociation ou de corrlation entre les ordres drivs des utilits et ceux provenant des prfrences. Ils varient entre 0 et 1. Plus le coefcient est proche de 1, plus les ordres associs sont proches. Dans notre exemple (voir gure 7.13), le coefcient de concordance (tau de Kendall) qui teste lhomognit des prfrences des individus lgard des challenges tant de 0,78 (proche de 1), les rsultats globaux peuvent donc tre accepts. Figure 7.13
Rsultats de lanalyse des mesures conjointes.

Les modalits qui ont les utilits moyennes les plus fortes sont respectivement : lobjectif quantitatif, le format en quipe et le budget ferm. La gure 7.14, qui expose les utilits moyennes et limportance de chaque attribut, met en vidence le poids de lobjectif dans les choix du challenge, devant le format et le budget. Si aucun des trois attributs nest ngligeable, le type dobjectif est deux fois plus important que les deux autres. Le choix des commerciaux se porte en premier lieu sur le type dobjectif du challenge, facteur trs important pour eux, qui prfrent les objectifs quantitatifs. Ensuite, apparat le format de comptition, quils apprcient en quipe. Enn, le budget du challenge compte moins, les commerciaux inclinant pour un budget ferm avec un classement plutt que pour un quota atteindre.

170

Analyse de donnes avec SPSS

Chapitre

Figure 7.14
Rsultats de lanalyse des mesures conjointes (bis).

Cette analyse des mesures conjointes permet donc de souligner le type de concours idal pour les commerciaux interviews dans cette exprimentation : un challenge quantitatif, organis en quipe et avec un budget ferm.

Rsum
Le comportement des individus, et en particulier des consommateurs, vis--vis des produits rsulte doprations complexes qui mettent en jeu perceptions et prfrences. Pour russir la conception dun objet, il est donc utile dvaluer ces prfrences et de modliser les jugements des individus. Lanalyse conjointe rsout ce type de problme. Cette mthode repose sur lide que limportance relative accorde un attribut par les consommateurs et les utilits quils attachent aux niveaux des attributs peuvent tre dtermines lorsquils valuent des prols dobjets, construits partir de ces attributs et de leurs niveaux. Il faut donc commencer par identier les attributs et les niveaux cls pour construire les stimuli. Les plans fractionns, gnrs par SPSS, permettent de rduire le nombre de prols tester. La variable dpendante est gnralement une prfrence estime par un score ou un classement. Les rsultats mettent en exergue les attributs les plus importants dans lvaluation dun objet et les niveaux prfrs laide des utilits partielles. Ils permettent ainsi de dgager le produit optimal aux yeux des individus.

Pour aller plus loin


Dussaix et al., LAnalyse conjointe, la statistique et le produit idal, Ceresta, 1992. Liquet J.C, Cas danalyse conjointe, Broch, 2001. Louviere J.J, Analyzing Decision Making: Metric Conjoint Analysis, Sage, New-York, 1998.

Lanalyse conjointe 171

Exercices
EXERCICE 1 TUDE SUR LA CONSOMMATION DE TH CRATION DE PLAN DEXPRIENCE ET DE
SCNARIO

nonc

Vous tes chef de produit chez Lipton, on vous cone le lancement dun nouveau th. Dans ce cadre, vous cherchez connatre les prfrences des consommateurs. Aprs avoir anim une runion de groupe, vous cherchez valuer quatre lments importants : 1. 2. la temprature (chaude, tide, froide) ; le sucre (pas de sucre, un sucre, deux sucres) ; la force (fort, moyen, lger) ; lajout de citron (avec ou sans). Crez le plan orthogonal laide du logiciel SPSS. Crez les stimuli du test de produit.

* Solution

1. La cration du plan orthogonal Allez dans le menu Donnes > Plan orthogonal > Gnrer. Dans la bote de dialogue qui apparat (voir gure 7.15), tapez le nom et ltiquette de chacun des attributs ou facteurs. Inscrivez temprature dans le champ Nom facteur et Etiquette facteur. Cliquez sur le bouton Ajouter pour ajouter les autres facteurs toujours dans la case Nom facteur et Etiquette facteur, inscrire : sucre, Ajoutez, force, Ajoutez, citron et Ajoutez.

Figure 7.15
La cration du plan orthogonal.

Pour dnir les niveaux de chacun des facteurs, slectionnez chaque facteur et cliquez sur le bouton Dnir valeurs.

172

Analyse de donnes avec SPSS

Chapitre

Figure 7.16
Enregistrement des niveaux dattributs.

Attribuez des valeurs tous les niveaux de chacun des attributs. Pour la temprature du th, 1 pour chaud, 2 pour tide, 3 pour froid (voir gure 7.16). Cliquez ensuite sur le bouton Poursuivre pour revenir la bote de dialogue et refaites cette action pour chacun des attributs. Pour le sucre, la valeur 1 pour pas de sucre , 2 pour un sucre , 3 pour 2 sucres . Pour la force du th, la valeur 1 pour fort , 2 pour moyen , 3 pour lger . Enn pour le citron, la valeur 1 pour avec citron , 2 pour sans citron . Cliquez enn sur Poursuivre. Lorsque tous les attributs et leurs niveaux sont saisis, indiquez o vous allez placer le plan orthogonal (voir gure 7.17). Cliquez sur Fichier et choisissez un emplacement o le plan peut tre rcupr. Ensuite, cliquez sur le bouton Coller de la mme bote de dialogue (voir gure 7.18) an davoir la syntaxe de la macrocommande. Figure 7.17
Copie de la syntaxe.

Cliquez enn sur OK (pour cela, revenez au menu Donnes > Plan orthogonal > Gnrer). Le message Un plan est gnr correctement avec 9 cartes doit apparatre dans longlet Rsultats. Rcuprez le plan orthogonal l o vous lavez enregistr. 2. La cration des stimuli pour le test de produit Le plan orthogonal cr est un plan fractionn. En effet, nous aurions d tester 3 3 3 2 = 54 prols. Or, notre plan nous permet une importante conomie dvaluations de 54 9 = 45 expriences. Le prol 1 correspond un th froid, comptant un sucre, lger avec du citron. Le prol 2 correspond un th froid, comptant deux sucres, fort et sans citron. Etc.

Lanalyse conjointe 173

Exercices

Figure 7.18
Sauvegarde du chier et demande de copie de la syntaxe.

Figure 7.19
Afchage du plan orthogonal.

EXERCICE 2

TUDE SUR LA CONSOMMATION DE TH CALCUL DES PRFRENCES DES CONSOMMATEURS


Des donnes ont t rcoltes. 1. Rentrez-les sous SPSS. 2. Commandez lanalyse des mesures conjointes et interprtez les rsultats de cette analyse.
Ths Individus 1 2 3 4 5

nonc

1 6 6 1 1 5

2 5 9 7 5 2

3 9 2 9 4 8

4 9 2 9 4 8

5 3 5 5 6 3

6 4 8 2 2 6

7 7 1 8 3 7

8 2 7 6 9 9

9 1 3 4 8 4

174

Analyse de donnes avec SPSS

Chapitre

Ths Individus 6 7 8

1 2 9 6

2 3 2 2

3 4 3 1

4 4 3 1

5 1 7 5

6 8 1 8

7 7 5 9

8 6 8 7

9 9 4 3

* Solution

1. Lenregistrement des donnes collectes Nous avons les rsultats du classement de ces neuf prols de ths. Pour saisir les donnes, crez un nouveau document. Allez dans Fichier > Nouveau > Crer. Puisque nous avons un plan orthogonal neuf prols, nous devons crer neuf colonnes, de V1 V9, et une colonne didentiant chacun des questionnaires : colonne id . Il faut ensuite entrer le rang pour chacun des prols pour les huit rpondants (voir gure 7.20).

Figure 7.20
Enregistrement des donnes.

Sauvegardez la base de donnes dans le rpertoire du document contenant les donnes du plan orthogonal : Fichier > Enregistrer sous > C: 2. La commande de lanalyse conjointe An dexcuter lanalyse conjointe avec SPSS, allez dans le menu Fichier > Ouvrir > Syntaxe. crivez la commande suivante (attention lemplacement de vos chiers !) [voir gure 7.21]. Slectionnez ensuite lensemble des syntaxes et cliquez sur la che noire dans la barre doutils. Les rsultats de lanalyse conjointe apparaissent dans la partie Rsultats (voir gures 7.22 et 7.23). Le test dhomognit des prfrences (tau de Kendall) est de 0,97, ce qui permet daccepter les rsultats globaux. Il ressort de lanalyse conjointe que la force, la temprature et le sucre sont les trois attributs les plus importants dans les prfrences des consommateurs de th. Les modalits

Lanalyse conjointe 175

Exercices

Figure 7.21
criture de la macrocommande.

Figure 7.22
Interprtation des rsultats de lanalyse conjointe.

Figure 7.23
Interprtation des rsultats de lanalyse conjointe (bis).

ayant les utilits moyennes les plus fortes sont la temprature (les consommateurs prfrent le th froid), le sucre (un sucre), la force (moyen) et le citron (sans).

176

Analyse de donnes avec SPSS

Chapitre

Communiquer les rsultats


1. Rdiger le rapport ...................178 2. Mettre en valeur les rsultats.....181

Exerices 1. tude de limpact dune campagne de publicit ...190 2. tude dun lectorat...................191

La communication des rsultats constitue la dernire tape dun projet dtude. Ce chapitre souligne les lments cls qui font de la communication des rsultats une tape incontournable de toute analyse russie. En effet, communiquer les rsultats dune analyse consiste proposer au lecteur une interprtation adapte ses connaissances. Au-del des lments lis linterprtation des tests, que nous avons abords tout au long des chapitres prcdents, lanalyste doit tre capable de formuler de manire intelligible les rsultats de son tude.

177

(1)

Rdiger le rapport
La rdaction dun rapport dtude nest pas directement lie lanalyse des donnes. Cependant, mme si le projet a t bien men, un rapport ingal peut compromettre le succs et la valorisation dune tude. Cette communication des rsultats de lenqute peut faire lobjet dune ou de plusieurs mises en forme, et se trouve le plus souvent complte dune prsentation orale que nous naborderons pas ici.

1.1 LA

STRUCTURE DUN RAPPORT DANALYSE On retrouve, en gnral, les mmes lments structurants dans un rapport, quil sagisse dun rapport dtude ou de recherche. Ces lments peuvent tre modis la marge en fonction du destinataire. Nous dvelopperons, dans ce chapitre, la dimension professionnelle du rapport et ferons donc rfrence des illustrations provenant du secteur des tudes de marchs. Le rapport danalyse fait cho au brief de ltude (voir focus 1) et se structure en huit parties principales reprsentes la gure 8.1.

* Focus 1

Le brief de ltude
Le brief de ltude (ou projet dtude) peut servir de base la rdaction du rapport. Il sagit du document qui cadre linteraction entre le client et la socit dtude, et dont la Fdration Syntec tudes Marketing et Opinions a dni les grandes lignes : partir des informations fournies par le client ou dfaut dinformations compltes, en prcisant ses hypothses de travail, la socit pourra remettre une proposition : rappelant les objectifs de ltude et les types de rsultats qui seront fournis ; prcisant les modalits techniques : mode dchantillonnage ; modalit de recueil des donnes ; nombre et dispersion des points de sondage ; plan du questionnaire ; analyse et rapport ; indiquant les dlais ; faisant mention du prix et des paramtres permettant de le calculer ; faisant tat dautres dispositions ventuelles.

Objectifs de lanalyse : cette partie est essentielle car elle rsume les lments cls de lanalyse et reprend les lments lis la dnition du problme (tels que nous les avions abords dans le chapitre 1). Le rappel des objectifs permet de communiquer plus prcisment sur des aspects qui sont gnralement matriss par le charg dtude tels que lapproche mthodologique ou les interprtations statistiques. En les faisant apparatre clairement au destinataire, le rdacteur du rapport peut mettre en avant la rsolution progressive de ces objectifs de dpart. Dans le cadre de notre enqute l rouge sur le point de vente, on pourrait formuler notre analyse en la rsumant ainsi : Qui sont les clients du futur point de vente ? .

178

Analyse de donnes avec SPSS

Chapitre

Figure 8.1
Structure dun rapport dtude.
Objectifs de lanalyse

Questions rsoudre

Procdures de collecte des donnes

Mthodes danalyse

Rsultats principaux

Interprtations dtailles

Conclusions

Recommandations et limites

Questions rsoudre : il sagit ici dtablir les questions principales qui permettent davancer dans la satisfaction aux objectifs de lanalyse. Dans notre exemple, il sagissait, dans un premier temps, de dcrire les clients en fonction des variables didentication (ge, sexe, revenus, etc.), de les classer en grands segments homognes, puis enn de comprendre leurs comportements (intention dachat par exemple). Procdures de collecte des donnes : cette rubrique reprend les donnes utilises pour les besoins de ltude. Il faut en prciser la source sil sagit de donnes secondaires, ainsi que les caractristiques principales (nombre dobservations, de variables, etc.). Dans le cas de donnes primaires, le rdacteur du rapport devra apporter un soin particulier la description des procdures de collecte. Quelle mthode dchantillonnage ? Quel instrument de mesure ? Comment les donnes brutes ont-elles t prpares ? Dans notre exemple sur le point de vente, les donnes sont issues dun questionnaire administr en face--face 400 rpondants, clients de lenseigne. Mthodes danalyse : les mthodes employes et les stratgies danalyse sont prsentes ce stade. Dans un premier temps, les tests de nature descriptive (tris croiss, comparaisons de moyenne, etc.), puis les tests lis la reprsentation des donnes (analyse factorielle, typologie), et enn les tests de nature explicative (rgressions, analyses de variance, etc.). Dans notre tude, nous avons tout dabord dcrit les clients par le biais des principales variables didentication, puis mis en place deux analyses des corrlations multiples pour tablir les variables lies au montant moyen dpens et lintention dachat des futurs clients du point de vente. Rsultats principaux : cette partie, la plus importante du rapport, peut tre constitue de plusieurs sous-parties. Pour plus de clart, il est recommand dorganiser ces sousparties en fonction de thmes noncs ds le dpart. Dans le cadre dune tude dimage

Communiquer les rsultats 179

de marque par exemple, le premier niveau de rsultats consiste valuer les scores de notorit obtenus, puis les rapprocher des rsultats par groupes dattributs pour identier les attentes des consommateurs. Les rsultats principaux doivent rpondre point par point aux objectifs de lanalyse et apporter une solution la demande du client de ltude. la question de dpart Qui sont les clients du futur point de vente ? , nous avons rpondu en plusieurs squences : la description des variables cls, la dnition des segments de clients, lidentication de dterminants de lintention dachat, etc. Interprtations dtailles : les interprtations dtailles ont pour objet dapporter un clairage technique aux rsultats et dclairer le lecteur du rapport sur la dmarche mthodologique. On trouve, dans cette rubrique, lexplication des tests mis en uvre, les hypothses respecter, linterprtation des indicateurs de signicativit des tests, entre autres. Ces lments techniques doivent tre prsents de manire intelligible en fonction du prol du lecteur. En effet, ceux-ci nont pas tous la mme expertise en termes dchantillonnage ou de tests statistiques, et le charg dtude doit veiller formuler ces lments de manire tre compris de tous les destinataires du rapport. Conclusions : cette partie est essentielle au client de ltude et a pour objet de lui fournir tous les lments de synthse utiles pour la valorisation et lutilisation de ltude. Une tude rcente sur la situation de la grande distribution en Europe prsentait ses conclusions autour de quatre grands ds relever : les ds de la grande consommation, les ds de la gestion des ressources humaines, les ds de la relation client et les nouveaux chantiers informatiques. Recommandations et limites : les recommandations accompagnent la prsentation des rsultats et reprsentent lengagement de lanalyste dans la rponse au problme pos par lentreprise commanditaire. La recommandation nest pas systmatique et suppose une expertise de la part de lanalyste, ou tout le moins que le problme pos ait t analys sufsamment en profondeur. En principe, le fait de raliser ltude suppose que lon se soit inform au pralable sur le secteur, que lon ait t brief par le client et, en consquence, que lon est en mesure de dpasser la simple description et de simpliquer dans la rsolution du problme managrial. Enn, les limites ayant pes sur ltude doivent tre mentionnes (temps, budget, moyens, etc.). Ce retour sur les conditions de ralisation de lanalyse et sur les prcautions que le commanditaire devra prendre lors de lutilisation des rsultats est un lment important qui doit prvenir toute extrapolation hasardeuse, sans toutefois minimiser les rsultats de ltude.

1.2 LES

POINTS CLS DU RAPPORT La qualit dun rapport danalyse se juge sur deux dimensions principales : la prcision et lintelligibilit. La prcision reprsente la qualit du rapport en termes de crdibilit des rsultats. Le document doit tablir de manire prcise la pertinence des choix effectus en matire de mthode, danalyse et de rsultats, ce qui prsuppose que les donnes collectes soient de qualit, que les analyses soient valides et ables, et que les rsultats soient correctement interprts. Ce tryptique (donnes, analyses, rsultats) est au cur de la dmarche danalyse et doit naturellement tre envisag de manire conjointe, ces trois dimensions tablissant collectivement la crdibilit de ltude. Plus exactement, pour que le rapport soit prcis, les donnes doivent ltre aussi ; le rdacteur devra prendre des prcautions importantes quant la manipulation des donnes, la dnition, lexcution et linterprtation

180

Analyse de donnes avec SPSS

Chapitre

des tests statistiques. Autrement dit, aucune erreur nest tolrable dans un rapport danalyse. Erreurs de calcul ou de syntaxe, fautes dorthographe, maladresses conceptuelles et terminologiques ne sont que quelques exemples de ce manque de prcision qui pnalise la crdibilit dun rapport. La clart de lexpression, la logique du raisonnement, la rigueur de lexpression et de lanalyse sont les fondements naturels du second critre de qualit dun rapport : lintelligibilit. Le lecteur du rapport peut prouver des difcults de comprhension et par suite des doutes quant la qualit du travail effectu lorsque le raisonnement napparat pas clairement (des hypothses de travail insufsamment mises en avant par exemple), ou lorsque la prsentation manque de prcision (une mthode dchantillonnage qui reste confuse). Les croyances des commanditaires jouent galement un rle dans la bonne comprhension des rsultats de lenqute. Dans notre enqute sur le point de vente, si les responsables de lenseigne estiment (via des tudes internes, des reportings de vente, etc.) que 50 % des clients ont lintention dacheter dans le nouveau magasin, et que les rsultats de lenqute sont loigns de cette prvision, le rdacteur devra justier cet cart. Lintelligibilit ce niveau participe de la pdagogie : cet cart peut tre d une mauvaise comprhension de la question ou de lchelle de mesure, un biais dchantillonnage ou une erreur dans la prise en compte des non-rponses. Le rdacteur devra rpondre aux interrogations du client sur ces carts et expliquer ses rsultats.

(2)

Mettre en valeur les rsultats


Lobjet du rapport danalyse est dapporter la rponse attendue par le commanditaire de ltude et de constituer une rfrence. Une fois produit, ce rapport aura une existence propre, passera de mains en mains auprs de nombreuses parties prenantes. La mise en valeur des rsultats permet de prolonger cette dure de vie et autorise une utilisation globale ou partielle du rapport par les diffrents lecteurs. La version de SPSS dont nous nous servons (V15.0) propose quelques outils damlioration de la qualit des tableaux et des graphiques pour mettre en valeur les rsultats de lanalyse.

2.1 MATRISER

LES TABLEAUX

Les tableaux doivent systmatiquement tre numrots, comporter un titre clair mentionn dans le texte (par exemple : le tableau 8.2 illustre les effectifs de la variable marital ), et ne doit retenir que la partie la plus signicative des donnes. La matrise des tableaux est un exercice dlicat, qui suppose de bien matriser la manire dont on souhaite communiquer les rsultats, et qui repose sur la distinction vue plus haut entre rsultats principaux et interprtations dtailles. Il existe, en effet, des niveaux de rsultats simples facilement comprhensibles par le lecteur, et dautres, plus complexes, qui exigent des complments et des clairages. La gure 8.2 illustre un rsultat simple (description du statut marital des rpondants de lenqute sur le point de vente), alors que la gure 8.3 montre le tableau dun rsultat plus complexe (analyse de corrlation sur une srie de variables de la mme enqute). Dans le cas dune prsentation de rsultats complexes, la lecture du tableau suppose un certain nombre dlments facilitant linterprtation. Les astrisques (**) et la mention en

Communiquer les rsultats 181

Figure 8.2
Prsentation dun rsultat simple.

Figure 8.3
Prsentation dun rsultat complexe.

bas du tableau apportent un complment important permettant de ne retenir que linformation pertinente, savoir les variables les plus fortement corrles entre elles (niveau dtudes et intention dachat par exemple). Il est prfrable de prsenter ces tableaux complexes en annexe du rapport et de communiquer directement les rsultats dans une section du rapport : le niveau dtudes, le montant moyen dpens et les revenus sont corrls lintention dachat .
SPSS
SPSS permet de produire un grand nombre de tableaux personnaliss. La matrise sacquiert en manipulant progressivement linterface des tableaux dans lditeur de rsultats, comme nous avons pu le voir tout au long des chapitres. Les tableaux personnaliss de SPSS sobtiennent par la procdure suivante : Analyse > Tableau > Tableaux personnaliss comme le montre la gure 8.4. Il est toutefois utile de connatre certains lments an de gagner en efcacit dans ce type de tche. Les tableaux produits dans lditeur de rsultats de SPSS sont des tableaux pivotants qui autorisent une trs grande exibilit en termes de formatage et de prsentation des rsultats. On obtient un tableau pivotant dans SPSS en double-cliquant sur le tableau dans lditeur de rsultats, opration faisant apparatre un menu supplmentaire (Tableau Pivotant) dans le menu de lditeur de rsultats (voir gure 8.5). Attention toutefois, car les possibilits de prsentation sont directement lies au type de variable utilise (voir ce sujet le chapitre 2). Le gnrateur de tableaux se fondera donc sur ltiquette de la variable (nominale, ordinale, chelle) que vous avez dnie au pralable. Le fait de ne pouvoir gnrer le tableau dsir est souvent d une variable mal tiquete. La premire fonction qui peut tre utile dans la prsentation dun tableau est la fonction Empiler de SPSS. Lempilement (tout comme les autres fonctions tableaux que nous allons voir) sobtient par le menu Tableaux personnaliss, et consiste affecter deux ou plusieurs variables en ligne ou en colonne. Vous pouvez faire glisser les variables simultanment en ligne ou en colonne, ou bien lune aprs lautre. Dans lexemple ci-aprs, nous avons transform un tableau, dans lequel la variable Age tait en ligne et la variable Sexe en colonne, en un tableau o les deux variables sont en ligne, comme le montre la gure 8.6. La fonction Empiler savre trs utile lors denqutes pour prsenter des rsultats dchelles de mesures. Un concept comme la conance accorde la marque, par exemple, est

182

Analyse de donnes avec SPSS

Chapitre

Figure 8.4
Fonction tableaux personnaliss.

Figure 8.5
Fonction tableau pivotant.

Figure 8.6
Prsentation de la fonction Empiler.

Communiquer les rsultats 183

mesur par une srie de variables dont on peut ainsi empiler les rsultats pour en obtenir une vision exhaustive. Plusieurs possibilits sont galement disponibles partir des tableaux croiss que nous avons abords au chapitre 2. Pour rappel, les tableaux croiss sobtiennent par la procdure suivante : Analyse > Statistiques descriptives > Tableaux croiss La procdure de lEmbotement consiste insrer une variable dans la mme dimension dun tableau crois an dapporter un niveau de rsultat supplmentaire. La gure 8.7 montre lembotement de la variable Sexe dans la variable Catgorie dge.

Figure 8.7
Prsentation de la fonction Embotement.

partir du menu tableaux personnaliss, vous pouvez demander des strates an dajouter une dimension de profondeur vos tableaux et crer ainsi des cubes tridimensionnels comme le montre la gure 8.8.

Figure 8.8
Prsentation de la fonction Strates.

La fonction Tableau permet de contrler les totaux et sous-totaux, les pourcentages les frquences, an de choisir la prsentation optimale de vos rsultats. Il est possible de modier volont laspect dun tableau en crant, par exemple, un modle qui reprend lensemble des proprits dnissant laspect du tableau. On accde aux modles de tableaux en double-cliquant sur le tableau dans lditeur de rsultats et en slectionnant dans le menu Format > Modles de tableaux

184

Analyse de donnes avec SPSS

Chapitre

2.2 AMLIORER

LES GRAPHIQUES

Les graphiques jouent eux aussi un rle crucial dans la prsentation des rsultats. Ils enrichissent le contenu du rapport, condition dtre prsents bon escient. Cela implique le bon choix du modle de graphique en fonction du test mis en uvre et un emploi pertinent : complment dun tableau ou dun rsultat prsent dans le texte, amlioration de la lisibilit et de la uidit du rapport, etc. Les graphiques peuvent tre considrablement enrichis grce SPSS. Ils sont gnrs de diverses manires : par le biais des principaux tests statistiques ou par lutilitaire de diagramme que nous prsentons dans cette section. Nous aborderons trois types de graphiques : les diagrammes en btons, les diagrammes en secteurs et les diagrammes de dispersion qui sont les plus utiliss.
SPSS
On obtient le gnrateur de diagramme par la procdure suivante : menu Graphe > Gnrateur de diagramme La procdure fait apparatre la bote de dialogue de la gure 8.9.

Figure 8.9
Bote de dialogue Gnrateur de diagramme.

Le gnrateur de diagramme afche simultanment une seconde fentre (Proprits de llment) qui vous permet notamment dafcher dans un menu droulant des statistiques que vous pouvez insrer dans le diagramme (des effectifs par exemple). Vous ntes donc pas oblig de passer par un tableau pour crer un graphique de statistiques descriptives pour une ou plusieurs variables. On dmarre lutilitaire en faisant glisser licne reprsentant le diagramme envisag dans le canevas, cest--dire la large zone qui safche au-dessus de la galerie (longlet activ sur la gure 8.9). On fait ensuite glisser les variables vers les zones de dplacement de laxe : il existe une variable de type chelle en colonne (Quel montant moyen dpensez-vous par mois dans ce type de point de vente ?), une variable de type nominal en ligne (Quel est votre statut marital ?) et une seconde variable de type nominal (Possdez-vous une carte de dlit de lenseigne ?), an de grouper les rpondants dans ce diagramme en bton group. Nous obtenons le diagramme de la gure 8.10, qui fait apparatre limportance de la possession dune carte de dlit.

Communiquer les rsultats 185

Figure 8.10
Diagramme en btons juxtaposs.

Vous pouvez modier tout moment le diagramme ou choisir un autre type de diagramme pour reprsenter les mmes donnes. Pour modier un lment du diagramme, activez lditeur de diagramme en double-cliquant dessus et utilisez le menu Afchage > Proprits Ce menu vous permettra de modier le texte du diagramme, la couleur et le motif de remplissage des btons, dajouter du texte (par exemple un titre ou une annotation), etc. Il existe de nombreuses autres possibilits de modication. Nous en verrons quelques-unes en prsentant deux autres types de diagrammes : les graphiques en secteur et les graphiques de dispersion. On peut, par exemple, masquer certaines modalits dun graphique en secteur. Pour crer un graphique en secteur, faites glisser un graphique dans le gnrateur de diagramme (dans SPSS, il se nomme diagramme circulaire/polaire). Nous allons reprsenter de cette manire les gots musicaux des rpondants en reprsentant la variable progradio. Aprs avoir fait glisser le graphique en secteur dans le gnrateur de diagramme, cliquez sur le menu Options qui vous permet dinclure ou dexclure des observations. On peut ainsi exclure du graphique les non-rponses au questionnaire. Pour exclure des modalits sous-reprsentes, ou que lon ne souhaite pas faire apparatre, comme ne se prononce pas ou ne sais pas , qui sont frquentes dans des enqutes en marketing, on utilise longlet Modalits. Lorsque le graphique est cr (en secteur par exemple), double-cliquez dessus pour activer lditeur de diagramme. Slectionnez le diagramme en secteur puis dans le menu dition ouvrez le sous-menu Proprits comme nous lavons vu plus haut : la bote de dialogue de la gure 8.11 safche. Activez ensuite longlet Modalits et supprimez la modalit indiffrents qui se trouve dans la fentre Exclus. Pour amliorer la lecture du graphique, il est intressant dinsrer les valeurs des donnes. Une fois que vous avez afch lditeur de diagrammes, slectionnez le diagramme en secteur, puis dans le menu lments slectionnez Afcher les tiquettes de donnes Le diagramme en secteur, prsent la gure 8.12, montre une nette prfrence pour les programmes musicaux de type rock. Il est possible de transformer les valeurs (en pourcentage par exemple) et de modier la position de ltiquette. Nous allons illustrer dautres possibilits par le biais des diagrammes de dispersion. Pour ce faire, nous changeons de jeu de donnes. Ouvrez le chier ventes_voitures.sav que nous avons utilis au chapitre 4. Slectionnez le gnrateur de diagramme en suivant le chemin : Graphe > Gnrateur de diagramme, puis cliquez sur longlet Galerie et choisissez le diagramme de dispersion regroupe (corrlation/points) (voir gure 8.13).

186

Analyse de donnes avec SPSS

Chapitre

Figure 8.11
Exclusion dune modalit de variable.

Figure 8.12
Diagramme en secteur avec valeurs.
: 98 : 63 : 159 : 65

Nous allons raliser un diagramme de dispersion du rendement nergtique par type de vhicule avec trois variables : la consommation en colonne, le poids total charge en ligne et le type de vhicule pour regrouper les observations. Les diagrammes de dispersion ne fonctionnent quavec des variables de type chelle. Nous obtenons le diagramme de la gure 8.14. qui reprsente la consommation du vhicule selon le poids total charge autoris en fonction du type de vhicule (voiture ou utilitaire). Nous pouvons maintenant afcher une courbe dajustement qui permet de faire ressortir la tendance des donnes. La procdure est la suivante : diteur de diagramme > lements > Ajouter une courbe dajustement au total On obtient le graphique de la gure 8.15. La courbe dajustement est une option intressante car elle permet de dcrire la qualit de la reprsentation graphique. En effet, loption fait apparatre le coefcient de

Communiquer les rsultats 187

Figure 8.13
Gnration dun diagramme de dispersion.

Figure 8.14
Diagramme de dispersion du rendement nergtique par type de vhicule.

dtermination R2 qui reprsente la proportion de variabilit de la variable dpendante (axe Y) pouvant tre explique par la variable indpendante (axe X). Dans notre exemple, 67 % de la variabilit du rendement nergtique peuvent tre expliqus par le poids du vhicule.

188

Analyse de donnes avec SPSS

Chapitre

Figure 8.15
Diagramme de dispersion avec courbe dajustement.

Rsum
La prparation du rapport fait cho au brief de ltude et reprend les grandes tapes de lanalyse des donnes. Son principal objectif consiste mettre en lumire les rponses possibles au problme managrial pos. Un rapport de qualit doit tre la fois prcis et intelligible, au sens o il doit prsenter de faon claire pour toutes les parties prenantes de ltude des rsultats justes. La mise en valeur des rsultats dans le rapport passe par la matrise des tableaux et des graphiques. Nous avons pass en revue dans ce chapitre les utilitaires de SPSS pour gnrer des tableaux pivotants et des diagrammes de qualit, mais lutilisateur doit sexercer, exprimenter pour pouvoir en dcouvrir toutes les facettes. En guise de conclusion, et pour paraphraser Stefan Sweig : il ne sert rien dprouver les plus beaux sentiments si lon ne parvient pas les communiquer .

Communiquer les rsultats 189

Exercices
EXERCICE 1
nonc

TUDE

DE LIMPACT DUNE CAMPAGNE DE PUBLICIT

An dobserver limpact des campagnes de publicit de ses annonceurs, un magazine de cinma a mis en place une tude auprs dun chantillon de 200 lecteurs reprsentatifs de la structure sociodmographique du lectorat. Il sagit dun questionnaire auto-administr, trois semaines aprs parution, aux seuls lecteurs ayant achet eux-mmes le magazine, layant lu ou parcouru. Les rpondants sont valus sur des scores de reconnaissance (se souvenir avoir vu lannonce), des notes dagrment (de 1 10) et leur opinion globale (ce qui a plu ou moins plu). Lenqute permet de collecter des renseignements gnraux sur linuence du format, des emplacements, du volume publicitaire, et dtudier plus prcisment la relation entre limpact de lannonce et lagrment du magazine. Les rsultats doivent permettre aux marques de situer leur annonce par rapport aux standards tablis pour les annonces de mme format et de mme secteur produit, aux annonces de la marque dj parues les annes prcdentes dans le magazine, et aux annonces dun univers de marques concurrentielles galement prsentes dans le support. 1. Prsentez succinctement les rsultats du rapport de ltude par le biais des lments cls que vous souhaitez faire apparatre. 2. Proposez quelques ides pour amliorer la prcision et lintelligibilit du rapport. 3. Si lon devait prsenter une extraction des rsultats un annonceur, comment devrait-on procder ?

* Solution

1. Il peut tre pertinent de dmarrer le rapport par un rappel de la mthodologie employe (chantillon de 200 lecteurs reprsentatifs, auto-administration du questionnaire dans un dlai de trois semaines aprs la parution, etc). La rubrique suivante peut par exemple prsenter des rsultats globaux de type volution des annonces, des formats, etc. Des diagrammes en btons ou en lignes enrichiront la prsentation ce niveau. Les rsultats principaux peuvent tre organiss de la manire suivante : mmorisation des annonces par type de format : on peut prsenter ici les performances en termes de mmorisation par type de format par le biais dun tableau empil reprenant les scores par formats en pourcentage ; opinion des lecteurs sur les annonces : si des questions ouvertes ont t utilises lors de lenqute, on pourra utiliser ici des verbatims (des citations de lecteurs) pour mettre en lumire certains rsultats quantitatifs de la premire rubrique ; inuence du produit : un tableau empil ou un tableau par strates peut tre utilis pour ce type de rsultats, faisant apparatre dans une colonne les effectifs dannonces, dans une autre colonne le secteur (banque, automobile, etc.), puis le format, et enn les taux de mmorisation ;

190

Analyse de donnes avec SPSS

Chapitre

inuence de lemplacement de lannonce : plusieurs tableaux ou graphiques peuvent distinguer les rsultats en fonction de la place de lannonce dans le magazine (4e de couverture, premier ou deuxime cahier, etc.) ou des rubriques du magazine ; inuence du volume publicitaire : le nombre dannonces (marques et concurrents) peut tre prsent ici an de resituer les performances dans lunivers concurrentiel. 2. Pour amliorer la prcision du rapport, il est important de noter certains lments mthodologiques en fonction des rsultats prsents : sur combien dannonces ont t effectues les scores de mmorisation, sur quelle priode, pour quels produits, quelles marques en concurrence, etc. ? Les questions poses peuvent parfois tre reprises, dans le texte ou en note de bas de page. En termes dintelligibilit, il est recommand dutiliser la fonctionnalit Modle de tableau ou de diagramme an de dnir un format de prsentation qui vous convienne. On pourra, dans ces modles de tableaux, faire apparatre systmatiquement les rsultats globaux (rponses totales par exemple) dans une couleur et les rsultats les plus importants dans une autre. Lorsquon a recours un tableau empil, ce qui est frquent pour des rsultats de type descriptif une enqute, il peut tre intressant galement de traiter les variables principales avec une typologie et une couleur distinctes an de bien identier les diffrentes rubriques. 3. Le rapport peut prsenter en premier lieu des rsultats gnraux lis la performance de la marque : son taux de mmorisation, la satisfaction exprime au regard de la qualit de lannonce, etc. La prsentation de visuels de la campagne de la marque serait judicieuse ce niveau du rapport. Toujours dans loptique de questions ouvertes, des verbatims indiqueraient lopinion des lecteurs, ce qui leur a plu, dplu, etc. Pour prsenter la relation entre satisfaction lgard de lannonce et la mmorisation de lannonce, on pourrait insrer une carte perceptuelle gnre par une analyse factorielle des correspondances, comme nous lavons vu dans le chapitre 3. Ce type de reprsentation est trs largement utilis dans les rapports danalyse.

EXERCICE 2
nonc

TUDE DUN

LECTORAT

Cet exercice a pour objet de vous familiariser avec les tableaux et les diagrammes. Ouvrez le chier pointdevente.sav . La matrise des tableaux et des diagrammes peut vous faire gagner un temps prcieux lors de la rdaction du rapport. 1. Reprsentez les rponses la variable intention qui estime lintention dachat dans le nouveau point de vente au moyen dun tableau. Effectuez les choix ncessaires pour prsenter le tableau le plus clair possible. 2. Pour faire cho lexercice 1 qui traite de lunivers de la presse, reprsentez sous forme de diagramme la variable rubrikpress qui fait ressortir les rubriques de presse quotidienne le plus souvent lues par les rpondants. Vous devez produire un graphique attractif et prcis.

Communiquer les rsultats 191

Exercices

* Solution
Figure 8.16
Effectifs de la variable intention.

1. Pour crer le tableau, suivre la procdure : Analyse > Statistiques descriptives > Effectifs On obtient le tableau de la gure 8.16.

Laspect du tableau nest pas satisfaisant en ltat. Nous allons le modier en passant par un modle de tableau prexistant. Suivons la procdure indique dans la partie thorique du chapitre : double-cliquez sur le tableau dans lditeur de rsultats, puis le menu Format > Modles de tableaux Nous slectionnons le modle Avant-garde an de distinguer certaines rubriques du tableau qui apparatront en gris. Certaines rubriques du tableau cr (pourcentage valide et pourcentage cumul) ne sont pas directement utiles pour lire les rsultats. Nous allons donc les liminer en slectionnant les colonnes liminer et en les coupant par un click droit. Enn, lorsque votre tableau est conforme au format souhait, vous pouvez le copier-coller dans votre rapport. Nous constatons le rsultat la gure 8.17. Figure 8.17
Tableau modi.

2. Pour obtenir directement le diagramme, allez dans le menu Graphes > Botes de dialogues hrites puis slectionnez le diagramme de votre choix. La variable rubrikpress tant une variable nominale 5 modalits, un graphique en secteurs est appropri. Slectionnez Analyse par catgories dans la bote de dialogue qui safche (nous allons reprsenter les effectifs par modalit de la variable), puis Dnir. Dans la deuxime bote de dialogue (Diagramme en secteurs : Groupes dobservations), faites glisser la variable dans la rubrique Dnir les secteurs par puis validez. Vous avez cr le graphique prsent la gure 8.18. Pour en amliorer laspect, double-cliquez sur le graphique pour ouvrir lditeur de diagramme, puis slectionnez le diagramme en secteur pour lactiver. Dans le menu dition > Proprits vous pouvez retravailler, par exemple, la taille du diagramme, sa profondeur et son angle, et le reprsenter en 3-D pour le rendre plus attractif. Dautres changements peuvent tre oprs, comme nous lavons vu, par menu lments pour afcher les tiquettes de donnes ou encore clater un secteur (le plus frquemment cit par exemple) an de mettre en valeur les rsultats. Le diagramme modi prend laspect de la gure 8.19, qui est lillustration dune combinaison parmi dautres. Nous vous encourageons prolonger lexercice sur plusieurs types de graphiques, pour bien matriser les tableaux et diagrammes dans SPSS : vous de jouer maintenant !

192

Analyse de donnes avec SPSS

Chapitre

Figure 8.18
Graphique en secteur simple.

Quelle rubrique de presse quotidienne lisez-vous le plus souvent ?

Edito Economie Info locale Annonces Loisirs/sant

Figure 8.19
Graphique en secteur modi.

Quelle rubrique de presse quotidienne lisez-vous le plus souvent ?

52 96 56

57

Edito Economie Info locale Annonces

118

Communiquer les rsultats 193

Exercices

Loisirs/sant

Bibliographie gnrale
Churchill G. A. Jr, Marketing Research, 3e dition, The Dryden Press, Harcourt Brace College Publishers, 1998. Churchill G. A., A paradigm for developing better measures of marketing constructs , Journal of Marketing, 16, p. 64-73, 1979. De Vellis R. F., Scale developement: theory and application, vol. 26, Sage, Thousand Oaks, 2003. Dussaix et al., Lanalyse conjointe, la statistique et le produit idal, Ceresta,1992. Evrard Y., Pras B., Roux E., Market. tudes et recherches en marketing, Nathan, Paris, 2003. Gerbing D. W., Anderson J. C., An updated paradigm for scale development incorporating unidimensionality and its assessment , Journal of Marketing Research, 25, p. 186192, 1988. Giannelloni J. C., Vernette E., Les tudes de march, Broch, Paris, 2001. Goupy J., Introduction aux plans dexprience, Dunod, Paris, 2006. Green P. E., Srinivasan V., Conjoint analysis in marketing: new developments with implications for research and practice , Journal of Marketing, 54, 4, p. 3-19, 1990. Hair J. F. Jr., Bush R., Ortinau D., Marketing Research, 3e dition, d. McGraw-Hill-Irwin, New York, 2006. Hair J. F. Jr., Black W. C., Babin B. J., Anderson R. E., Tatham R. L., Multivariate Data Analysis, 5e dition, d. Pearson Prentice Hall, New Jersey, 2006. Kozinets R.V., The eld behind the screen: Using netnography for marketing research in online communities, Journal of Marketing, Research, 39, 1, p. 61-72, 2002. Lilien G. L., Rangaswamy A., De Bruyn A., Principles of Marketing Engineering, ISBM, State College, PA, 2007. Liquet J. C., Cas danalyse conjointe, Broch, Lavoisier, 2001. Liquet J. C., Benavent C., LAnalyse conjointe et ses applications en marketing, IAE Lille, 2000. Louviere J. J., Analyzing Decision Making: Metric Conjoint Analysis, Sage, New York,1988. Malhotra N., Decaudin J. M., Bouguerra A., tudes marketing avec SPSS, Pearson Education, Paris, 2007.

195

Nunnally J. C, Bernstein I. R, Psychometric theory, McGraw-Hill, 3e dition, 1994. Tenenhaus M., Mthodes statistiques en gestion, Dunod, Paris, 2006. Tenenhaus M., Statistiques : mthodes pour dcrire, expliquer, prvoir, 2e dition, Dunod, Paris, 2006. Tenenhaus M., Mthodes statistiques en gestion, Dunod, Paris, 2006. Thitard R. A., Mthodes de recherche en management, Dunod, Paris, 1999. Tuffry S., Data Mining et statistique dcisionnelle, d. Technip, Paris, 2007. Vernette E., Techniques dtude de march, Vuibert, Paris, 2000.

196

Analyse de donnes avec SPSS

Index
A
Abaques 11 Access panels 8 on-line 8 Accord, chelle de mesure 15 Ad hoc, tendue 4 Agrgation chane 91 des donnes 51 mthode 85 Ajustement courge 187 test 42 Alpha de Cronbach 53 seuil dacceptabilit 53 Analyse bivarie 20, 36 bivarie, variable dpendante 36 bivarie, variable indpendante 36 conjointe, tapes 158 de fiabilit 65 de variance 108 factorielle 54, 56 factorielle, mthode 61 multivarie 20 multivarie de la variance 115 rapport d 178 typologique 81, 90 univarie 20 ANCOVA 116 ANOVA un facteur 108 Aplatissement 32 coefficient d (Kurtosis) 32 Arbre de dcision 90 hirarchique 87 Association prdictive, coefficient 39 Asymtrie 32

B
Baromtre 4 Barycentres 85 Biais de lexprimentation 17, 121 effet de linstrument 121 effet de test 121 histoire 121 maturation 121 mortalit 121 Botes moustaches 31 Bonferroni, test de 109 Boule de neige, chantillonnage 11 Brief de ltude 178

C
Carr latin 123 Catgorisation 80 Centiles 32 Centres de groupes 91 mobiles 88 Chane des agrgations 91 Classification 80, 85 ascendante 84 descendante 84 hirarchique 84 hirarchique ascendante 85 hirarchique descendante 86 non hirarchique 84, 88 Clustering 80 Coefficient daplatissement (Kurtosis) 32 dassociation prdictive 39

de contingence 39 de corrlation multiple 136 de dtermination 137 de Pearson 134 de symtrie (Skewness) 32 de variation 32 phi 39 standardis 137 structurels 60 Collecte de donnes 3 Communalits 60 Comparaisons multiples 109 Composantes 60 principales 61 Comprhension, prtest 18 Concomitance 137 Conditions dapplication de la rgression 136 Confiance intervalle 12 seuil 40 Construits 16 multidimensionnels 59 Contamination, effet 18 Contingence, coefficient 39 Corrlation 137 de Pearson, mesure 84 linaire 134 matrice 57 multiple, coefficient 136 Corrlations anti-image, matrice 57 Courbe dajustement 187 Covariable 116 Covariance, matrice 57 Cramer, V de 39 Cronbach, Alpha de 53

Dispersion 31, 32 diagramme 187 Distance 83 de Minkowski, mesure 84 de Tchebycheff, mesure 84 du diamtre, mthode 85 euclidienne 83 mesure 83 moyenne, mthode 85 Distribution 31 normale 33 Donnes collecter 3 crire 20 expliquer 20 non structures 8 normalit 109 primaires 8, 9 saisir 130 secondaires 3, 7, 8 secondaires externes 7 secondaires internes 7 structures 8 textuelles 89 Duncan, test de 109

E
cart type 32 chantillonnage boule de neige 11 de convenance 11 mthode 10 stratifi 10 chantillons 9 alatoires 10 apparis 35, 41 indpendants 35, 41 non probablilistes 10 probabilistes 10 taille 11 uniques 41 chelle 17 dintention 16 dOsgood 15 de Likert 16 de Stapel 16 neutralit 18 chelle de mesure 16, 17 accord 15 diffrentiel smantique 15 intensit 15 intention 15

D
Data mining 7 Data warehouses 3 DDL (degrs de libert) 38 Dcrire les donnes 20 Degrs de libert (DDL) 38 Dmarche dtude 2 Dendogramme 86, 87, 91 Descriptive, mthode 20 Dtermination, coefficient 137 Diagramme de dispersion 187 en btons 31 en secteurs 31 gnrateur de 185 Diffrentiel smantique, chelle de mesure 15

198

Analyse de donnes avec SPSS

Likert 15 mtrique 15 nominale 15 ordinale 15 Stapel 15 traduction 17 diteur de diagramme 186 Effectifs 30 Effets dinteraction 112 de contamination 18 de halo 18 de lassitude 18 principaux 112 galit des moyennes, hypothse 108 Eigenvalue 57 Embotement 184 Empiler 182 Entretien 3 individuel 5 puration des donnes 59 Equamax 58 Erreur 11 alatoire 18, 19 de type 1 40 de type 2 40 indpendance des termes 136 marge d 12 systmatique 18, 19 termes d 18 types 40 tapes de lanalyse conjointe 158 tendue 32 tude ad hoc 4 brief de l 178 daudience 12 de cas unique 121 dmarche 2 descriptive 6 explicative 6 exploratoire 18 omnibus 4 prdictive 6 projet 178 qualitative 5 quantitative 5, 6 Euclidienne, mesure de distance 83 Exprimentation 120 Explicative, mthode 21 Expliquer les donnes 20

F
Facettes 16 Facteurs 54 dinflation de la variance 142 Factorielle, analyse 54, 56 Factorisation 63 Fiabilit 19, 53 analyse 65 Formes alternatives, technique 53 Fractiles 32 Frquences 30

G
Gnrateur de diagramme 185 Graphiques 31, 181 Grco-latin 123 Groupe statique 121

H
Halo, effet 18 Hasard, tirage au 10 Hirarchique, mthode 84 Histogrammes 31 Homognit 109 Homoscdasticit 136 Hypothse alternative 40 dgalit des moyennes 108 nulle 40 statistique 40

I
Indpendance des termes derreur 136 Indice de Rogers et Tanimoto, mesure de 84 de Sokal et Michener, mesure de 84 de Sokal et Sneath, mesure de 84 Infrence, principe 39 Inflation de la variance, facteur 142 Intensit, chelle de mesure 15 Intention chelle 16 chelle de mesure 15 Interaction 112, 122 effet 112 Intervalle 32 de confiance 12 Items 16 Itinraires, mthode 11

Index 199

K
Kaiser-Guttman, rgle de 57 Kaiser-Meyer-Olkin (KMO) 57 Kolmogorov-Smirov, test de 42 Kurtosis (coefficient dapplatissement) 32

L
Lambda 39 Lassitude, effet 18 Libert, degrs de (DDL) 38 Likert, chelle de mesure 15, 16 Linarit 22, 136 Loi normale 33

M
MANCOVA 116 MANOVA 115 March-test 5 Marge derreur 12 Marketing de masse 80 individualis 80 segment 80 Matrice de corrlation 57 de covariance 57 des corrlations anti-image 57 McNemar 43 Measure of Sampling Adequacy (MSA) 57 Mdiane 31 Mesures apparies 41 de la dispersion 32 de proximit 83 indpendantes 41 outils 17 Mesures de distance 83 corrlation de Pearson 84 distance de Minkowski 84 distance de Tchebycheff 84 distance euclidienne 83 indice de Rogers et Tanimoto 84 indice de Sokal et Michener 84 indice de Sokal et Sneath 84 Mthode dagrgation 85 dchantillonnage 10 de lanalyse factorielle 61 de slection des variables de rgression 142 de Ward 86 des barycentres 85

des centres mobiles 88 des itinraires 11 des nues dynamiques 88 des quotas 10 des scnarios 121, 160 des vignettes 160 descriptive 20 distance du diamtre 85 distance moyenne 85 du plan dexprience 120 explicative 21 hirarchique 84 non hirarchique 84 non probabiliste 10 probabiliste 9 saut minimum 85 Mtrique, chelle de mesure 15 Minkowski, mesure de distance 84 Mode 31 Modle additif 156 compensatoire 156 de dcomposition 156 de la vraie valeur 18 statistique 121 Moyenne 31 Multicolinarit 142 Multivarie de la variance, analyse 115 analyse 20

N
Netnographie 5, 6 Neutralit dune chelle 18 Nominale, chelle de mesure 15 Non hirarchique, mthode 84 Non probabiliste, mthode 10 Normalit 136 des donnes 109 Nuage de points 81 Nues dynamiques 88 mthode 88

O
Oblimin direct 58 Observation 9 Ordinale, chelle de mesure 15 Orthogonalit 124 Osgood, chelles de mesure 15 Outils de mesure 17 Outliers 31

200

Analyse de donnes avec SPSS

P
Panels 4, 8 daudience 9 de distributeurs 9 Pearson, coefficient 134 phi, coefficient 39 Plan complet 160 factoriel 122 factoriel complet 123 factoriel fractionn 123 fractionn 160 Plan dexprience, mthode 120 Points cls du rapport 180 Population 9 Prcision des rsultats 11 statistique dun test 12 Prtest de comprhension 18 Prtest/post-test et groupe de contrle 121 Principaux, effets 112 Principe dinfrence 39 Probabiliste, mthode 9 Projet dtude 178 Proximit, mesure de 83 Puissance du test 40

Risque dartefact 82 Rotation 62 des facteurs 58 oblique 58 orthogonale 58

S
Saisir les donnes 130 Saut minimum, mthode 85 Scnarios, mthode 121, 160 Scree Test 57 Segmentation 80 Slection des variables de rgression, mthode 142 Seuil dacceptabilit de lalpha 53 de confiance 40 de signification 40 Signe 43 Signification, seuil 40 Skewness, coefficient de symtrie 32 Sondage, taux 11 units de 9 Split half 53 Standardisation 84 coefficient 137 Stapel, chelle 15, 16 Statistique dun test, prcision 12 Structure dun rapport dtude 179 Structurel, coefficient 60 Symtrie 32 coefficient (Skewness) 32 dune chelle 18

Q
Quartiles 32 Quartimax 58 Questionnaire 3, 16 Quotas, mthode 10

R
R2 137 Rapport danalyse 178 dtude, structure 179 points cls 180 Rgle de Kaiser-Guttman 57 des valeurs propres 57 Rgression conditions dapplication 136 linaire 136 linaire multiple 141 linaire simple 136 multiple 141 Rsultats, prcision 11 Rtro-traduction 18 Runions de consommateurs 3

T
t de Student 42 Tableaux 181 croiss 36 personnaliss 182 pivotants 182 Taille de lchantillon 11 Taux de sondage 11 Taxinomie 80 Tchebycheff, mesure de distance 84 Techniques des formes alternatives 53 qualitatives 4 quantitatives 4, 6 Tendance centrale 31 Termes derreur 18 Test /retest 53 dajustement 42

Index 201

dhypothses 35, 41 dinfrence 41 de Bonferroni 109 de comparaison dchantillons apparis 42 de comparaison dchantillons indpendants 42 de Duncan 109 de Kolmogorov-Smirov 42 de lboulis 57 de la mdiane 43 de Levene 109 de McNemar 44 de Scheff 109 de Sphricit de Bartlett 57 de Tukey 109 de Wilcoxon 43 du coude 57 du khi-deux 37 du signe 43 non paramtrique 35, 41, 42, 109 paramtriques 35, 41 post hoc 109 prcision statistique 12 puissance 40 statistiques 39 t 42 t pour chantillon unique 13 U de Mann-Whitney 43 Z 42 Tirage au hasard 10 Traduction dchelles de mesure 17 Tri plat 31 croiss 36, 37 Type danalyse de variance 108 derreurs 40 Typologie 80 analyse 81, 90

U
U de Mann-Whitney, test de 43 Units de sondage 9 Univarie, analyse 20

V-W
V de Cramer 39 Valeurs extrmes 31 propres, rgle des 57 Validit 19, 90 convergente 52 de contenu 52 discriminante 52 faciale 18, 52 nomologique 52 prdictive 52 Variable 30 de segmentation 81 dpendante 14 dpendante, analyse bivarie 36 explicative 14 explique 14 indpendante 14 indpendante, analyse bivarie 36 mdiatrice 14 modratrice 14 qualitative 14, 30 quantitative 15, 31 Variance 32 analyse de 108 coefficient 32 facteur dinflation 142 intragroupe 109 Varimax 58 Vignettes 121 mthode 160 Vraie valeur 19 Ward, mthode 86

202

Analyse de donnes avec SPSS

Sciences de gestion

Synthse de cours exercices corrigs


Manu Carricano est enseignantchercheur lINSEEC Paris o il est responsable des majeures Marketing. Il enseigne le marketing et les tudes de marchs en licence et master. Fanny Poujol est matre de confrences lIAE de Valenciennes et chercheur associ lINSEEC. Elle enseigne le marketing et la mthodologie.

&

Analyse de donnes
avec SPSS
Ce livre a pour objectif damener dcouvrir tout le potentiel de lanalyse des donnes travers de nombreux exemples et exercices dapplication, situs principalement dans le champ du marketing. Progressif et pdagogique, il sarticule autour des tapes cls dune analyse de donnes : la dfinition de la problmatique, la description des donnes, la validation des instruments de mesure. La suite du livre met laccent sur le choix dune mthode danalyse, quelle soit descriptive (tris croiss, analyse factorielle) ou plus technique (ANOVA, rgression, analyse conjointe). Le dernier chapitre traite de la rdaction du rapport, lment essentiel de la communication des rsultats. Le livre inclut de nombreux exemples illustratifs et applications. La plupart de ces dernires font appel SPSS afin que le lecteur se familiarise avec ce logiciel. Il pourra ainsi appliquer ses connaissances thoriques et mettre en pratique une dmarche danalyse. Ce livre sadresse aux tudiants de premier et de second cycle (IUT, BTS, universits et coles de commerce). Rappel mthodologique sur la ralisation dune analyse de donnes et outil concret dutilisation de SPSS, il sera galement utile aux chargs dtudes en activit.

Direction de collection : Roland Gillet, professeur luniversit Paris 1 Panthon-Sorbonne Dans la mme collection : Analyse financire et valuation dentreprise, S. Parient Performance de portefeuille, P. Grandin et al. Cration de valeur et capitalinvestissement, M. Cherif et S. Dubreuille Contrle de gestion, Y. de Rong et K. Cerrada conomtrie, . Dor Finance, A. Farber et al. Marketing, une approche quantitative, A. Steyer et al. Mathmatiques appliques la gestion, A. Szafarz et al. Probabilits, statistique et processus stochastiques, P. Roger Stratgie, A. Desreumaux et al. Les enqutes par questionnaire avec Sphinx, S. Ganassali

La collection Synthex propose aux gestionnaires et aux conomistes de dcouvrir ou de rviser une discipline et de se familiariser avec ses outils au travers dexercices rsolus.
Chaque ouvrage prsente une synthse pdagogique et rigoureuse des techniques et fondements thoriques, quune slection dexercices aux corrigs dtaills permet dassimiler progressivement. Le lecteur, tudiant ou professionnel, est ainsi conduit au cur de la discipline considre, et, via la rsolution de nombreux problmes, acquiert une comprhension rapide et un raisonnement solide.

ISBN : 978-2-7440-4075-7

Pearson Education France 47 bis, rue des Vinaigriers 75010 Paris Tl. : 01 72 74 90 00 Fax : 01 42 05 22 17 www.pearson.fr