You are on page 1of 237

By

4$
$!
|\/
|
Le [data marketing], cest comme le sexe chez les adolescents : tout le monde en parle, personne ne sait vraiment
comment le faire, tout lemonde pense que tout le monde le fait, donc tout le monde prtend le faire. Et les chiffres
donnent raison Dan Ariely, auteur de cette mtaphore : selon une rcente tude conduite par linstitut Morar, 72 % des
entreprises nexploitent pas les donnes quelles collectent, dboussoles face la complexit technologique, scientifique
et organisationnelle introduite par lafflux massif de donnes sur les consommateurs.

Bible du data marketing, cet ouvrage propose de manire indite une mthode robuste pour exploiter le plein
potentiel de la donne.
Il permettra notamment au marketeur moderne de :
comprendre les mcanismes de collecte, de stockage et de rconciliation des donnes ;
matriser les principaux outils du data marketing (DMP, CRM 360, marketing automation, cosystme
adtech) ;
dmystifier les concepts mathmatiques appliqus au marketing (clustering, scoring, marketing prdictif).

|
|\/
$!

Ingnieur des Ponts et Chausses, Julien Hirth est le co-fondateur de Scibids Technology, solution technologique
4$

intgrant lintelligence artificielle au cur des stratgies dachat publicitaires.


By

Il fut auparavant consultant au sein du cabinet Artefact et a accompagn de nombreuses entreprises dans la dfinition et
la mise en uvre dune stratgie data marketing omnicanale efficace.
Il anime galement un compte Twitter (@JulienHIRTH) commentant les dernires tendances du data marketing : un bon
complment la lecture de cet ouvrage !
Julien Hirth

Le data marketing
La collecte, lanalyse et lexploitation des donnes au cur du
marketing moderne

|
|\/
$!
4$
By
Groupe Eyrolles
61, bd Saint-Germain
75240 Paris Cedex 05
www.editions-eyrolles.com

Chez le mme diteur :


Russir sa transformation digitale, Cindy Dorkenoo, Aurore Crespin, Laura Lombardo, Frdric Klotz et Hamza Moulim
Stratgie digitale, Cindy Dorkenoo
Le guide de la transformation digitale, Vincent Ducrey et Emmanuel Vivier
Le consommateur digital, Nicolas Riou

En application de la loi du 11 mars 1957, il est interdit de reproduire intgralement ou partiellement le prsent ouvrage, sur
quelque support que ce soit, sans autorisation de lditeur ou du Centre franais dexploitation du droit de copie, 20, rue
des Grands-Augustins, 75006 Paris.

Groupe Eyrolles, 2017


ISBN : 978-2-212-56473-0
|
|\/
$!
4$
By
Sommaire

Prface
Avant-propos
La digitalisation de nos vies
couple laugmentation de la puissance de calcul
changent le mtier du marketeur
Objectif de ce livre

PRAMBULE

Concevoir son projet Data


|
|\/
Un vaste champ des possibles
$!

Spcifique : quel est le but prcis poursuivi par le projet ?


4$

Un objectif nest pas un moyen


By

Un objectif nest pas une finalit


Un objectif doit tre prcd dun constat
Un objectif doit tre simple comprendre
Une mthode efficace pour dterminer un objectif spcifique : larbre dquivalence
Mesurable : avec quels indicateurs valuer la russite du projet ?
Mesurer lefficacit du projet : les KPI
Dterminer les actions qui psent le plus : lattribution
Mesurer la pertinence dun modle : la matrice de confusion
Comparer les gains par rapport aux cots : le ROI
Atteignable : par quels cas dusages atteindre son objectif ?
De la thorie
la pratique
Ralisable : quelles contraintes oprationnelles vont se dresser sur votre chemin ?
Les donnes en silo ralentissent les projets
Les outils en place ne permettent pas la ralisation de tous les cas dusages
Lorganisation de lentreprise nest pas centre sur la donne
Temporellement dfini : et maintenant place laction !
Viser des livrables rgulirement
et sinspirer des start-ups !
Sources

PARTIE A

Collecter et stocker

Autodiagnostic
Chapitre 1 Faire connaissance avec ses donnes
Comment classer ses donnes compte tenu de leur variabilit ?
Les critres de classification utiliss par les data scientists
Les critres de classification utiliss par les statisticiens
Les critres de classification utiliss par les responsables informatiques
Les critres de classification utiliss en publicit
Les critres de classification utiliss par le marketing
Les critres de classification utiliss par les juristes
|
|\/
Quelles donnes occupent le plus de volume ?
$!

Vos donnes sont-elles utiles ?


4$

Fiabilit et qualit des donnes : le V de vracit


By

Obsolescence et capacit tre mobilis en temps rel : le V de vlocit


Exploitables travers des cas dusages : le V de valeur
Sources

Chapitre 2 Bote outils pour passer de datas parpilles des donnes


centralises
Rapatrier ses donnes : aperu des principales mthodes de collecte de donnes et de tracking
Le cookie, cl de vote de la collecte de donnes web
Le Tag Management System (TMS), plus quun simple utilitaire
L API , trois lettres et tellement de possibilits
Comment stocker la donne ainsi collecte ?
Structurer la donne avant de la stocker : la faon traditionnelle de procder
Stocker la donne brute : plongeon dans le lac de donnes
SQL vs NoSQL : larbre qui cache la fort
Agrger les donnes autour dun identifiant unique
Un grand nombre didentifiants se rapportent un mme utilisateur
Relier des identifiants entre eux : tat de lart en 2016
Sources

Chapitre 3 CRM et DMP : deux outils cls pour dompter la multitude de


donnes
Le CRM collecte, stocke et active les donnes personnelles dans une optique de fidlisation
Un CRM peut en cacher un autre
Du CRM au CRM 360 : le grand chantier de la connaissance client
La DMP collecte, stocke et active les donnes anonymes dans une optique dacquisition
Six sources de donnes alimentent la DMP en cookies
Chaque minute, la DMP classe des milliers de cookies dans une vaste arborescence : la
taxonomie
La raison dtre dune DMP est de crer des audiences
et de les mettre disposition des outils dactivation
Pas une solution miracle : les limites de la DMP
Petite grille dvaluation pratique pour choisir sa DMP
Sorganiser dans ses donnes pas pas
tape 0 : dresser une cartographie de lexistant
tape 1 : instaurer un rfrentiel client unique
|
|\/
tape 2 : mettre en place une DMP
$!

tape 3 : relier le CRM la DMP


4$

tape 4 : dverser le tout dans un datalake


By

Sources

PARTIE B

Extraire de linformation des donnes

Autodiagnostic
Chapitre 4 Analyse : la dcouverte de tendances et de schmas dominants
tape 1 Dcouvrir et nettoyer le dataset
tape 2 Dcrire les donnes
Analyser les grandes masses
Analyser les volutions
tape 3 Comparer les donnes
Comparaison de deux moyennes (ou deux pourcentages)
Comparaisons multidimensionnelles
tape 4 tablir une ou plusieurs segmentations
Sources

Chapitre 5 Analyse exploratoire : identifier les liens entre les donnes


La matrice de corrlation identifie les variables relies entre elles
Un peu de thorie
Rendre la matrice de corrlation sexy , cest possible !
Application pratique : tude des corrlations entre ventes et mto
Lanalyse en composante principale (ACP) rduit le nombre de variables
tape 1 Cration des nouvelles variables
tape 2 Interprtation des axes factoriels
tape 3 Projection des individus
Le clustering : segmentation en pilotage automatique
Le clustering sappuie sur une notion de distance
La mthode de clustering hirarchique
La mthode de clustering non hirarchique
Sources
|
Chapitre 6 Data visualisation et data storytelling
|\/
$!

Chart chooser : quel type de reprsentation choisir pour visualiser les donnes ?
4$

Anatomie dun bon graphique : quelques astuces de mise en forme


By

Lchelle
Le titre
Les couleurs
La lgende
Autres astuces
Prsentation des rsultats sur PowerPoint : se concentrer sur lessentiel
Mobiliser et impliquer positivement son audience
Structurer sa prsentation comme une histoire
Vos slides passent-elles le test des cinq secondes ?
Le tableau de bord ne prsente pas des rsultats, il aide la dcision
Sources

Chapitre 7 Le marketing prdictif


Principes gnraux du marketing prdictif
Certaines variables sont plus prdictives que dautres
De nouvelles variables peuvent tre cres
Lefficacit dun modle se mesure et les modles peuvent tre compars
Apprendre, prdire, valider
Prdiction explicite partir des variables : les modles de rgression
Prdire le gazouillis des criquets
Prdire le CA dun nouveau magasin pour choisir le meilleur emplacement
Prdiction dun tat : algorithmes de classification
Le client va-t-il renouveler son abonnement ?
Indications des conversations tchat ayant une faible probabilit de satisfaire le client
Sources

PARTIE C

Activer les donnes

Autodiagnostic
Chapitre 8 Data et publicit
Quappelle-t-on programmatique ?
Il tait une fois la publicit digitale
|
|\/
Le programmatique simpose comme le prochain standard publicitaire
$!

Le Real Time Bidding (RTB) change le paradigme de la publicit digitale


4$

Avec le RTB, lcosystme se complexifie


By

La data, au cur des enjeux de la publicit digitale moderne


La data pour crer une audience
La data pour optimiser une campagne
La data pour personnaliser le message publicitaire
La publicit digitale en pratique : mesurer la performance en quatre questions cls
O la publicit est-elle diffuse ?
Auprs de qui la publicit est-elle diffuse ?
Objectif performance ou objectif branding ?
Comment se dcomposent les cots ?
Sources

Chapitre 9 Marketing direct : du mass marketing au marketing one to one


Le concept de marketing automation bouleverse le mediaplanning traditionnel
Cinq typologies de trigger dans votre bote outils pour automatiser le marketing
Le profil client est au cur du processus de personnalisation
Individualiser aussi la pression commerciale
Borner le nombre de contacts : lapproche droit au but
Modliser la pression marketing : lapproche attributive
Jouer la transparence : lapproche win-win
Le marketing direct one to one en pratique : cinq exemples de campagnes e-mail
incontournables
La relance de panier abandonn
La campagne post-navigation
La campagne de bienvenue
La campagne post-sell
La relance des clients inactifs
Sources

Chapitre 10 Data et commerce physique : la rvolution apporte par le


mobile et les objets connects
Comprendre la golocalisation : grille danalyse
Golocalisation indoor ou outdoor ?
Golocalisation en mode pull ou mode push ?
Golocalisation continue ou discrte ?
Golocalisation statique ou bien golocalisation temps rel ?
|
|\/
Comment tirer parti de la donne de golocalisation ?
$!

Le Drive-to-store pour attirer du trafic en point de vente


4$

Le Mobile-in-store pour guider le consommateur


By

La cration de nouveaux services valeur ajoute


Des oprations de communication 3.0
Lanalyse des parcours pour amliorer la productivit
Les limites de la golocalisation : les questions cls se poser
La couverture daudience est souvent faible
Laccord du consommateur est indispensable
Les contraintes techniques
La donne de golocalisation en pratique : cibler les amateurs de tennis de quatre faons
diffrentes
Sources

Conclusion
Rponses aux autodiagnostics
Questions partie A Collecter et stocker
Questions partie B Extraire de linformation des donnes
Questions partie C Activer les donnes
Glossaire
Les socits et solutions spcialises dans la data
Cabinets/agences conseils
Agences marketing/publicitaires
Adtech
Martech
Autres

Remerciements
Index
Table des figures
Table des encadrs

|
|\/
$!
4$
By
Prface

Le digital nous a changs. En nous simplifiant la vie, il a compltement modifi notre


rapport aux marques. Alors que nous ftons seulement cette anne le 25e anniversaire du
World Wide Web, nous avons en lespace de trs peu de temps radicalement transform
des sicles de rapports marchands.
Fini lattente et la patience. Amazon prime nous livre aujourdhui en moins de 24 heures.
Fini les mauvaises affaires et autres manipulations : les comparateurs et les
commentaires clients nous rassurent et nous inspirent. Fini langoisse du voyage et de la
lecture de la carte routire : smartphone en poche, nous sommes invincibles. Le digital a
exacerb les traits de caractres de notre gnration Y. Ultra connects et multi-
identitaires, nous sommes impatients, infidles, voire mchants et rancuniers sur les
rseaux sociaux sil le faut.
Le marketing a d sadapter en retour. Le clbre spot de 30 secondes sur TF1 a fait
place des campagnes digitales ultra segmentes, scnarises et cibles. Les
|
|\/
annonceurs les plus matures produisent des milliers de contenus diffrents chaque
$!

campagne pour coller aux plus proches dsirs de leurs clients. Ces contenus sont
4$

pousss par des algorithmes en fonction de multiples paramtres individuels. Netflix le fait
notamment avec ses propres sries. En cas de campagne mal cible, la rponse du
By

diginaute est sans appel : toute publicit intrusive ou non pertinente est immdiatement
sanctionne par linstallation dAd-block. Les taux dinstallation flirtent aujourdhui avec les
30 % en France.
Le fil directeur de cette volution est la donne. Cest cette ressource que certains
chercheurs qualifient d or noir du XXIe sicle, et qui permet aux marques de faire le lien
entre toutes nos identits, physique et digitales. Cest elle qui leur permet de savoir
proposer intelligemment un matelas confortable qui vient dacheter une poussette, ou
encore permet de dtecter trs en avance les signaux faibles , avant-coureurs dune
rsiliation de contrat.
Professionnels et passionns du marketing, pourtant aguerris aux toutes dernires
techniques, nous sommes sans cesse impressionns et devons constamment nous
remettre en question pour suivre au mieux les innovations toujours plus ambitieuses mises
au point par le milieu du data driven-marketing.
Google, dont la mission ultime est dorganiser et de rendre accessible toute linformation
au monde, se donne les moyens de ses ambitions. En achetant, en 2014, la start-up
britannique Deepmind, le gant mise sur les techniques les plus pointues dintelligence
artificielle, sans nul doute pour les appliquer au domaine qui constitue sa premire source
de revenus : la publicit. Deepmind na pas attendu longtemps avant de faire ses preuves
en battant cette anne le champion du monde du jeu, considr comme lun des derniers
bastions o lhumain domine la machine : le jeu de go, longtemps considr comme
impossible matriser par un algorithme (le nombre de combinaisons jouables est plus de
1 050 fois plus grande que les checs : mme une machine surpuissante est loin de
pouvoir calculer tous les coups gagnants). AlphaGO a pourtant russi limpossible et a
vaincu au cours dun match suspense le champion Lee Sedol 4 1.
Microsoft nest pas en reste et a t rcompens par le prix de la data et de la crativit
cette anne Cannes. Lalgorithme de la socit a pass au crible 346 tableaux de
Rembrandt (paisseur des couches de peinture successives, espacement des yeux,
position du nez, forme des visages, etc). Lensemble des caractristiques a ensuite t
reproduit sur une toile indite, imprime en 3D, crant le fascinant Next Rembrandt
sur une toile constitue de plus de 148 millions de pixels. Lillusion est parfaite : les plus
grands experts en histoire de lart ont reconnu quil tait impossible de diffrencier le
nouveau portrait dun portrait de Rembrandt.
Jusquo ira-t-on dans lutilisation de la donne applique au marketing ? Le monde de
demain sera sans aucun doute un monde de marketing individuel ou people based . Le
contenu autognr et absolument unique qui nous sera propos sera probablement
compltement diffrent du contenu de notre voisin. limage de Facebook qui nous
propose autant de versions de son newsfeed quil y a dutilisateurs sur le rseau social,
|
|\/
les contenus pousss par les marques seront compltement adapts et pertinents grce
$!

la masse de donnes dont elles disposent sur nous.


4$

Nous sommes des fervents dfenseurs de la donne et de son utilisation dans le


By

marketing, persuads quelle nous simplifiera la vie, poussant transformer le marketing


en un service, plutt quen une contrainte. Il est vident que tout cela a un prix. Sans
pouvoir ici dtailler tous les enjeux, deux risques majeurs me viennent lesprit.
La perte du jardin secret. Mme si la juridiction sur les donnes personnelles a
intelligemment volu en ce sens en France (loi Lemaire) ou en Europe (rglement
Europen sur la protection des donnes personnelles), il ne faut pas se tromper de
combat. Les GAFA connaissent dj TOUT sur nous. Pour prendre lexemple de Google :
nos recherches sont sur Chrome, nos changes sur Gmail, nos passions sur YouTube,
nos dplacements sur Maps ainsi que chez tous les possesseurs dun tlphone Android.
Toutes ces donnes sont disponibles sous un mme identifiant commun : le GoogleID. Le
gant a techniquement la possibilit de croiser, recouper loisir ces donnes pour tablir
une connaissance individuelle laquelle mme nos plus proches nont pas accs. Il va tre
quasiment impossible de protger nos donnes face ces gants technologiques sans
restreindre les services auxquels nous sommes devenus accros, et nous transformer en
ermites.
Le syndrome de panurge. On pourrait croire que la personnalisation exacerbe les gots
et les individualits, mais cest en fait tout loppos qui se produit ! Les chercheurs ont
montr quau lieu de favoriser un effet long tail qui aurait pour effet de pousser des
contenus de niche, les moteurs de recommandations propulsent les blockbusters.
Paradoxalement, le choix diminue alors quil devrait tre dmultipli. Nous devenons
passifs. Plus de curiosit ou dveil dans la mesure o cest maintenant lalgorithme qui
choisit notre place. Un sursaut dorgueil est attendu : notre crativit et notre
individualit se doivent de prendre le pas sur la machine et non linverse.
Jai connu Julien en tant que jeune et brillant consultant au sein de la socit Artefact qui
est devenue la rfrence dans le domaine de linnovation marketing data driven. En plus
de ses activits quotidiennes, Julien mettait toute son nergie construire et mettre en
forme les savoir-faire que nous avions constitus pour former nos jeunes recrues. une
comptence trs forte dans nos mtiers sassociait trs naturellement un talent pour
simplifier les concepts les plus complexes.
ce titre, ce livre claircit et dtaille bien des aspects que tout consultant en marketing
ou directeur marketing moderne doit matriser. Cest un must-have pour tout
professionnel, tudiant ou curieux sintressant au monde de la donne dans son
ensemble. Sans tre dogmatique, il est pragmatique, pdagogique et apporte de la clart
sur les solutions data driven en vigueur actuellement. Le lecteur intress par lensemble
des problmatiques de la donne dans le marketing pourra (devra !) nanmoins complter
cette lecture par des ouvrages traitant des impacts de la data sur lentreprise et les
transformations organisationnelles ncessaires.
|
|\/
$!

Vincent LUCIANI
4$

Fondateur du cabinet Artefact


By
Avant-propos

Or noir , ptrole brut , nouvelle rvolution industrielle les superlatifs ne


manquent pas pour dcrire la data . Lanalyse et lexploitation de la donne ne sont
pourtant pas nouvelles. Si les calculatrices boules de lAntiquit ou lhorloge Aurorex
enregistrant le temps de conduite des flottes de vhicules dans les annes 1920 font
figure danecdotes, le datamining1 et le scoring2 client existent dans les banques et les
assurances depuis les annes 1970 afin de prdire les mauvais payeurs , tandis que la
business intelligence (BI) a fait les beaux jours des diteurs dans les annes 1980 et le
Customer Relationship Management (CRM) ceux des annes 2000. Cest galement la
fin du xxe sicle que se dmocratisent les data centers3. Alors pourquoi soudainement le
terme data est-il dans toutes les conversations et que plus de cinquante contenus sont
publis chaque heure sur le sujet en France ? Quest-ce qui a tant chang et justifie un tel
engouement frisant parfois la folie collective ?

LA DIGITALISATION DE NOS VIES


|
|\/
$!

La premire nouveaut, cest la digitalisation de notre quotidien. Depuis que vous


4$

lisez cette introduction, plus de 250 000 tweets ont t changs, plus de deux millions de
By

requtes ont t analyses par Google, plus de trois millions de likes Facebook ont
t attribus, plus de cent heures de nouvelles vidos YouTube ont t charges et plus
de 150 000 vidos Netflix lances ! Au total en moins dune minute de lanne 2015 ont
t cres autant de donnes que toutes celles depuis le dbut de lhumanit jusqu
2003 et 90 % des donnes disponibles dans le monde ont moins de deux ans4 ! Un afflux
massif de donnes qui change compltement le paradigme qui prvalait dans les annes
1980 : avec un volume de donnes traiter par une entreprise qui double tous les dix-huit
mois5, le facteur diffrenciant dune socit aujourdhui ne rside plus tant dans le fait
davoir des donnes que dtre capable de les analyser et de les transformer en
information ! La data est abondante, donc ce qui est utile et rare, cest la capacit
lexploiter et la rendre oprable , assure ainsi Samir Amellal6, Chief Digital Officer de
Publicis.

COUPLE LAUGMENTATION DE LA PUISSANCE DE CALCUL

Justement, tre capable de traiter rapidement et moindre cot les gros volumes
de donnes est le deuxime changement majeur la source de lessor du data
marketing. Alors que les algorithmes statistiques des annes 1970 ntaient pas souvent
applicables ou rentables mettre en place faute de puissance de calcul disposition, leur
mise en production est dsormais possible et profitable. Cette volution tient
principalement quatre phnomnes : la loi de Moore, le calcul distribu, lopen source et
le cloud.
La loi de Moore est une faon savante de dire que la puissance des processeurs double
tous les dix-huit mois depuis linvention de lordinateur !
Le calcul distribu signifie quau lieu de recourir un norme serveur trs onreux pour
raliser un calcul complexe, celui-ci est dcoup en plusieurs sous-calculs plus simples,
raliss par des serveurs plus conventionnels. Comme pour les comptes dentreprise, ces
micro-calculs sont ensuite consolids pour trouver le rsultat du calcul initial.
Lopen source dsigne la gratuit des logiciels construits par des communauts non
lucratives . La plupart des architectures Big Data sont composes de tels logiciels en
libre accs, le plus clbre dentre eux tant Hadoop.
Enfin, le cloud a fait diminuer drastiquement le cot ncessaire au traitement des
donnes7. Sur le modle de lconomie collaborative, il devient possible nimporte quelle
start-up dans un garage de louer en temps rel autant de machines que ncessaire
Google ou Amazon !
|
CHANGENT LE MTIER DU MARKETEUR
|\/
$!

Fini les 4 P 8 si chers aux professeurs et aux livres du XXe sicle ! Au placard les
4$

tudes et panels annuels ! 76 % des marketeurs considrent que le marketing a


By

davantage chang en deux ans que lors des cinquante dernires annes9.
Le digital et les progrs informatiques ont en effet boulevers le parcours dachat du
client. Dun tre passif sduire grand renfort de messages commerciaux, le
consommateur est devenu inform et critique (comparaison des prix et avis
consommateurs en temps rel), mobile et connect (multitudes de points de contact avec
la marque), mfiant et lass (inond de messages commerciaux plus de 300 par jour10).
Une vraie diva insaisissable et exigeante, au parcours dachat de plus en plus complexe et
de moins en moins linaire !
Pour rester comptitif, il devient ds lors ncessaire de centrer le marketing sur le client
et non plus sur le produit11, ce qui signifie concrtement reconnatre le client chaque
point de contact et personnaliser linteraction, la fois par rapport lindividu et son
parcours.
Et pour relever ce dfi, le marketeur moderne a besoin de donnes : des donnes sur
lindividu en tant que tel ( une adolescente de 14 ans ), sur son comportement ( cet
individu est venu trois fois sur le site cette semaine, cest un prospect chaud ), sur ses
centres dintrt La planification mdia et lanalyse stratgique laissent ds lors place
dautres questions au sein des runions entre professionnels du marketing : quelles
donnes peuvent aider augmenter la conversion de ltape une deux dans le parcours
dachat du client ? Comment les collecter ? Que signifie vraiment cette analyse remise par
le statisticien ? La solution imagine est-elle concrtement ralisable ? Comment prouver
lefficacit de son ide ?
Plus scientifique, plus technologique, le marketing moderne se fait aussi plus
cratif : auparavant dpendant du systme dinformation (SI), lapparition doutils en
mode Software as a Service (SAAS)12 libre le potentiel oprationnel du marketing.
Une libert qui a toutefois un prix : le changement dhabitudes de travail et lacquisition de
nouvelles comptences et de nouveaux savoir-faire.

OBJECTIF DE CE LIVRE

La data, cest comme le sexe chez les adolescents : tout le monde en parle, personne
ne sait vraiment comment le faire, tout le monde pense que tout le monde le fait, donc
tout le monde prtend le faire. Cette mtaphore culotte de Dan Ariely, professeur de
psychologie et dconomie comportementale, exprime le flou qui entoure aujourdhui le
phnomne data . Le data marketing reste en effet encore trs obscur pour beaucoup
de directions dentreprises, quasiment magique . Les attentes sont souvent leves, au
niveau du degr de magie mis dans cette nouvelle approche et ces nouvelles
technologies miracles . Bercs la nuit par les promesses de la data ( le bon message
|
|\/
au bon moment la bonne personne ) et heurts le jour par les difficults oprationnelles
$!

(aussi bien techniques quorganisationnelles), les dirigeants dentreprises ont aujourdhui le


4$

tournis. 20 % seulement dentre eux, interrogs lors dune rcente tude de la socit
By

Bizo13, estiment avoir russi prendre le tournant de la data, tandis que 72 % des
entreprises nexploitent pas les donnes quelles collectent selon une tude conduite en
juillet 2015 par linstitut Morar pour le compte du constructeur Purestorage14.
Face ces constats, ce livre a pour vocation daider les directions marketing :
mettre en uvre une stratgie data robuste et industrialiser un ensemble de cas
dusages marketing data driven ;
avoir une vision holistique des donnes disposition et un descriptif des manires de
les collecter, de les stocker et de les rconcilier entre elles ;
approfondir leurs connaissances sur les principaux outils du data marketing (DMP, CRM
360, marketing automation, cosystme adtech) ;
comprendre les bases de la data science applique au marketing (clustering, scoring,
marketing prdictif).
Dans un esprit rsolument pratique et orient projet , de nombreux exemples viennent
illustrer la thorie, dmystifier les buzzwords qui envahissent les confrences et les
discours de certains fournisseurs de solutions en plein data washing et amneront,
nous lesprons, le lecteur de la confusion la clart !
1. Littralement fouille de donnes , le datamining est un processus faisant appel aux techniques statistiques et
mathmatiques permettant dextraire des informations commercialement pertinentes et de modliser des schmas
dinformations cachs au sein de grandes bases de donnes.
2. Traitement mathmatique consistant attribuer un individu une probabilit de comportement futur. Les premiers
modles de scoring ont t mis en place dans les banques dans les annes 1970 afin destimer le risque associ aux
crdits.
3. Lieu physique dans lequel sont regroups les lments concrets (ordinateurs, serveurs, etc.) constituant le systme
dinformation de lentreprise.
4. Les donnes numriques : un enjeu dducation de citoyennet, Journal officiel de la Rpublique franaise, sance du
13 janvier 2015.
5. Bruno Teboul et Jean-Marie Boucher, Le Marketing absolu, ditions Kawa, 2013.
6. Guillaume Serries, Comptences, gouvernance, vision : SAS dtaille les freins du Big Data en France , 5 novembre
2015, zdnet.fr.
7. Le prix du mgaoctet tait estim 300 $ en 1980. Il est estim aujourdhui moins de 0,0002 $ (source : Les donnes
numriques : un enjeu dducation de citoyennet).
8. Produit, Prix, Place, Promotion.
9. Digital Marketing Symposium dAdobe, 2014.
10. Arnaud de Baynast et Jacques Lendrevie, Publicitor, 2014 (8e dition).
11. Passage dune logique product centric une logique client centric .
12. Logiciel mis disposition distance par un fournisseur et accessible par le biais dune URL web. Le logiciel est lou,
au mois ou lusage. Les mises jour sont automatiques.
13. Start-up rachete 175 millions de $ par LinkedIn en 2014.
14. Big Datas Big Failure : the struggles businesses face in accessing the information they need.
|
|\/
$!
4$
By
Prambule
Concevoir son projet Data

Daprs une tude CapGemini1 mene en 2015, seuls 35 % des projets data denvergure
sont qualifis de russites ou de francs succs. Un constat qui nest pas sans rappeler les
dbuts du CRM, dont les projets connaissaient prs de 70 % dchecs 2 !
La cause profonde des checs dans la plupart des projets data nest pas dans le manque
de crativit des applications possibles, ni dans le manque de donnes, ni dans le
manque doutils technologiques, ni mme dans le manque de savoir-faire pour collecter et
analyser les donnes. La cause rside le plus souvent dans la fragilit de la phase
de conception : attentes irralistes, objectif business non prcisment dfini, oubli de
la composante humaine, feuille de route trop superficielle Il faut dire quavec la data, il
|
|\/
est facile de se perdre dans limmensit des possibles et de sengluer dans des projets
$!

qui impliquent une multitude de personnes dans lentreprise !


4$

Sans apporter une rponse miracle , ce prambule propose un canevas en cinq tapes
By

pour viter la majorit des erreurs de conception et aborder de faon structure un projet
data marketing :
dfinir un objectif business spcifique ;
tablir les critres de succs du projet ;
dcomposer lobjectif en cas dusages ;
tudier la faisabilit, technique et organisationnelle ;
dterminer une feuille de route.
Autrement dit, votre objectif doit tre Spcifique, Mesurable, Atteignable, Ralisable et
Temporellement dfini, ce qui mis bout bout constitue lacronyme SMART, clbre
mthode cre en 1981 par George Duran et toujours massivement utilise en
management, en coaching, en gestion de projet et dans ce prambule dintroduction
la conception dun projet data marketing ! Il sagit dun canevas dcole qui souffre
comme la plupart des frameworks3 de beaucoup dexception, mais qui a le mrite de
poser les bonnes questions trs en amont.

UN VASTE CHAMP DES POSSIBLES


Quel est le cap mon capitaine ? Avant de se lancer tte baisse dans la mise en uvre
dun chantier de data management , il est primordial de dfinir trs prcisment les
objectifs de ses initiatives. chaque but correspondront en effet des mcanismes varis
de collecte, danalyse et dactivation de la donne.
Une des difficults du data marketing est que la discipline interagit avec un trs grand
nombre dactivits historiques du marketing : prospection, acquisition, conversion,
fidlisation dans tous ces grands classiques du marketing conventionnel puis du
marketing digital, de nouvelles perspectives souvrent avec la data ! Par exemple :
en matire de notorit et dacquisition, il devient possible de cibler des profils
jumeaux statistiques de ses meilleurs clients4, dexclure ses clients des campagnes
dacquisition, de piloter algorithmiquement les enchres Adwords, de faire levier sur la
donne de golocalisation pour cibler selon les habitudes de dplacement ;
pour convertir les prospects en leads5 puis les transformer en acheteurs, le marketing
programmatique coupl des algorithmes de personnalisation permet de dlivrer par
e-mail ou par bannires display des centaines de scnarios diffrents selon le profil du
lead ;
la fidlisation nest pas en reste et un des projets de data marketing les plus en vogue
dans les milieux bancaires est le calcul dun score dattrition , prdisant la
|
|\/
propension du client rompre son contrat. Lanalyse smantique des verbatim 6
$!

clients au sein du service client ou sur les rseaux sociaux pour identifier des
4$

ambassadeurs de la marque est galement une des applications phares de


lexploitation de la data des fins marketing.
By

Figure 1 La data peut tre exploite tous les tages du tunnel marketing

Au-del de loptimisation de lentonnoir marketing (en anglais, funnel marketing), le Graal


du data marketing est de comprendre derrire lachat le projet global du consommateur
(exemple : ce consommateur achte une lampe, car il dmnage ; ce consommateur
achte ce th vert, car il suit une cure damaigrissement) pour rinventer la manire de
communiquer avec ce consommateur. Cette ambition est devenue accessible en croisant
ses donnes avec des donnes externes.
Calculer plus finement le ROI de chaque levier marketing ou montiser sa donne sont
galement des projets data marketing forte valeur ajoute rencontrs rgulirement sur
le march.
Afin de rendre davantage concrtes les possibilits offertes par lutilisation de la donne
des fins marketing, nous considrerons dans la suite de ce prambule les exemples dun
assureur et dun site ditorial dactualits.

SPCIFIQUE : QUEL EST LE BUT PRCIS POURSUIVI PAR LE PROJET ?

Face au vaste choix des possibles, dterminer prcisment des objectifs spcifiques est
un des plus grands dfis du professionnel du marketing. Les cinq rgles dor ci-dessous
devraient aider le relever.

Un objectif nest pas un moyen


Mieux comprendre mes clients , segmenter ma base clients , personnaliser mes
e-mails , faire du prdictif sont des mauvais objectifs entendus en permanence dans
la bouche de certains professionnels du marketing. Il sagit en effet ici de moyens. Cest
grce aux analyses des bases de donnes, aux modlisations mathmatiques ou la
personnalisation de la communication que seront atteints les vritables objectifs
daugmentation de la frquence dachat, daugmentation du panier moyen, de baisse de
lattrition7 de la base client, etc. |
|\/
Une assurance souhaite rduire les ruptures de contrats. En analysant les dparts la concurrence, lassurance
constatera peut-tre que dans 40 % des cas ces dparts sont lis un dmnagement. Elle tudiera alors tous les
$!

cas de dmnagement et arrivera la conclusion que lors dun dmnagement, dans 75 % des cas le client rompt
4$

son contrat.
By

Dans la mme veine, mettre en place une Data Management Platform (DMP)8 ou tout
autre outil data marketing nest pas un objectif data. Le vritable objectif business qui
justifie le projet DMP pourra tre, par exemple, rduire mes cots dacquisition digitaux
qui masphyxient .
Exemple de lassurance : une DMP sera un moyen de dtecter les gens qui dmnagent grce des partenariats
data9 avec dautres sites (fournisseurs dnergie, seloger.com).

Un objectif nest pas une finalit


Lautre cueil frquent dans la conception dun projet data est la confusion entre objectif et
finalit. Augmenter le CA , augmenter le taux de conversion du site , acqurir des
clients ou mieux fidliser sont les consquences dun projet data bien men, mais ne
peuvent constituer un objectif spcifique associ un projet data. Il y a en effet des
dizaines de faons daugmenter la conversion ou de fidliser les clients, chacune pouvant
faire lobjet dun projet part entire.
Exemple de lassurance : lobjectif spcifique du projet est de dtecter parmi la base de clients ceux qui ont un fort
risque de dmnager et ainsi de les appeler pour faire le point sur leur situation. Ce passage dun marketing proactif
un marketing ractif aura pour finalit une baisse du taux dattrition.
Exemple dun site ditorial dactualits : un site dactualits souhaite augmenter ses revenus publicitaires. Lobjectif du
projet data est daugmenter le nombre moyen de pages vues par internaute lors dune visite.
Un objectif doit tre prcd dun constat
Il sagit dune best practice dont il faut user et abuser pour asseoir la crdibilit du
projet. Trs souvent des projets data marketing sont lancs alors que rien ne le justifie
vraiment ! Du coup personne ne sait exactement ce quil faut attendre du projet et il y a
toutes les chances que le projet ne dpasse pas le stade du Proof of Concept (POC).
Par exemple dans le cas de lassurance souhaitant lutter contre lattrition :
Mauvaise pratique : En tant quassureur, on na pas le choix : puisque lassurance est obligatoire, grandir signifie
forcment piquer des clients ses concurrents. Le projet vise lutter contre lattrition grce la donne.
Bonne pratique : Quand un client dmnage, dans 30 % des cas il part la concurrence, ce qui reprsente pour
nous une perte de trois millions deuros par an. Nous souhaitons grce la donne :
1. dceler la probabilit de dmnagement chez nos clients afin dagir avant quil ne soit trop tard ;
2. optimiser notre offre dmnagement pour aboutir celle vitant au maximum le dpart du client.

Un objectif doit tre simple comprendre


Enfin, dernire rgle dor en matire dobjectif : tre comprhensible par tous rapidement.
Il est cette fin essentiel de minimiser les termes que tout le monde ne pourrait pas
comprendre.
Exemple de lassurance : le mot anglais churn trs utilis en data marketing pour dsigner lattrition ne sera sans
doute pas compris par tout le monde. |
|\/
Dailleurs mme attrition est un vocabulaire dj trs spcialis et il sera sans doute
$!

plus parlant dutiliser une priphrase dcrivant le phnomne. Afin de ne pas nourrir de
4$

confusion ou souffrir de plusieurs interprtations possibles, il sera mme souhaitable dans


By

cette priphrase de dcrire les diffrents types dattrition pris en compte dans le
primtre : rsiliation dun contrat (mais en laissant dautres en cours), suppression de
lensemble des contrats, radiation contrainte par lassureur lui-mme, etc.

Une mthode efficace pour dterminer un objectif spcifique : larbre dquivalence


Dexprience il nest pas toujours facile de transformer son objectif global en objectif
spcifique. Devant une telle situation, il peut tre utile de recourir un outil trs utilis par
les consultants : larbre dquivalence. Le principe est de diviser chaque objectif en
sous-objectifs jusqu atteindre des briques fondamentales. Appliquons cette mthode
notre exemple de site ditorial dactualits se demandant comment augmenter ses
revenus publicitaires grce la donne.
tape 1 : dcomposition des revenus publicitaires en nombre dimpressions10
publicitaires multiplies par le prix de vente moyen dune impression11 . Pour
augmenter les revenus publicitaires, le site ditorial peut donc soit augmenter le nombre
dimpressions, soit augmenter le gain moyen chaque impression.
tape 2 : augmenter le nombre dimpressions revient soit augmenter le trafic sur le
site , soit augmenter le nombre dimpressions moyen par visiteur . Le gain moyen
dpend de son ct de lemplacement (premium ou non) et du mode de vente (aux
enchres, en gr gr, etc.).

Figure 2 Larbre dquivalence, un moyen puissant de rendre un objectif spcifique

tape 3 : au final, le site ditorial ne va pas se lancer dans un projet pharaonique


consistant augmenter ses revenus publicitaires, mais va initier trois projets diffrents :
un pour augmenter le trafic ;
un autre pour augmenter le nombre de pages vues lors dune session ;
|
un troisime pour augmenter le prix de vente dun emplacement publicitaire.
|\/
$!

Chaque objectif mettra en jeu des leviers trs diffrents et aboutira, par exemple, la
4$

cration de scnarios e-mails pour driver du trafic, la mise en place dun moteur de
recommandations darticles pour augmenter le nombre de pages vues et au recours un
By

moteur de yield engine optimisant le prix plancher lors de la vente despaces


publicitaires aux enchres.

MESURABLE : AVEC QUELS INDICATEURS VALUER LA RUSSITE DU


PROJET ?

Il est impossible de mener bien un projet et de runir les financements ncessaires sans
tre capable de dcrire quoi ressemblera sa russite et de pouvoir mesurer au fil de
leau les progrs effectus. Dans le cas de lexemple de lassurance visant rduire les
ruptures de contrat en cas de dmnagement, il faudra ainsi tre prpar rpondre
ces quatre questions :
Quand un client dmnage, arrive-t-on finalement mieux le retenir quauparavant ?
Si oui, quelles actions peut-on attribuer cette russite ?
Le modle qui prdit les dmnagements est-il fiable ?
Le cot du projet justifie-t-il les gains ?

Mesurer lefficacit du projet : les KPI


Les KPI (pour Key Performance Indicators) sont la cl de vote du programme de
mesure. Combins des seuils, ce sont eux qui diront si oui ou non les initiatives mises en
place sont efficaces.
Dans notre exemple, le KPI indispensable mettre en place et suivre serait
naturellement le pourcentage de ruptures de contrat parmi les clients qui dmnagent,
ratio qui devrait diminuer grce aux actions entreprises.

Donnes Indicateurs Avant projet Aprs projet

Nombre de contrats (A) 100 000 100 000

Nombre de clients qui


7 000 6 400
rompent le contrat (B)

Nombre de clients qui


4 000 4 000
dmnagent (C)

Nombre de clients qui


dmnagent et rompent le 3 000 2 400
contrat (D)

% de ruptures de contrat chez les


75 % 60 %
clients qui dmnagent (D/C)

% total de ruptures de contrat (B/A) 7% 6,4 %


|
|\/
$!

% de ruptures de contrat dues un


43 % 38 %
dmnagement (D/B)
4$

Figure 3 Dterminer les indicateurs de performance : une tape cl dun projet data marketing
By

Des indicateurs complmentaires utiles pourraient tre le suivi du pourcentage total de


ruptures de contrat et le pourcentage de dparts lis un dmnagement. Ces deux
indicateurs devraient aussi en toute logique diminuer12.
Il est ncessaire dimaginer ces KPI trs en amont du projet afin dtre certain de
possder les donnes ncessaires pour suivre ces indicateurs et tre capable de les
restituer facilement.

Dterminer les actions qui psent le plus : lattribution


Une fois le risque de dmnagement identifi, il sagira de mettre en place plusieurs
actions pour obtenir une souscription loffre spciale dmnagement : appels du service
client, campagne courrier, campagne display Chaque campagne a un cot et il est
naturel dvaluer la contribution de chacune dans latteinte de lobjectif. Cette mthode
danalyse de performance de chaque canal, base sur son niveau de contribution
lobjectif, est appel l attribution .
Historiquement, dans le digital, la conversion est attribue 100 % au dernier canal ayant
gnr cette conversion : cest la logique du last click. Bien que pratique, car simple
comprendre et mettre en uvre, lattribution de la conversion au dernier clic a tendance
sous-estimer limportance de certains canaux (exemple : le premier appel du service
client) et en surestimer dautres (exemple : le retargeting13 la suite de labandon du
formulaire de souscription), entranant de fait des choix dinvestissements errons. Ces
limites apparaissent clairement dans le parcours client ci-dessous :
1. un internaute lit sur son blog de mode prfr un article sur la tenue star de lt. Il
clique sur les sandales et arrive sur le site de Sarenza. Il parcourt le site et le quitte,
se promettant dacheter les sandales en question pendant les soldes ;
2. quarante-huit heures plus tard, linternaute navigue sur Facebook. Il dcouvre dans
son fil dactualits une publicit pour les sandales dsires. Il clique et retourne sur
le site de Sarenza les admirer. Patience, plus que quelques jours avant les soldes !
3. a y est, les soldes ont dbut ! Linternaute tape dans Google Sarenza . Sans
en avoir conscience14, il clique sur le lien sponsoris adwords. Il arrive sur le site et
achte comme prvu les sandales.
Avec la logique du dernier clic, la conversion sera ici attribue la campagne adwords
alors mme que limpact rel de ce lien payant sur le chiffre daffaires gnr est nul !
Effet collatral, le blog ayant suscit lintrt pour les sandales et la publicit Facebook
ayant raviv le dsir ne sont crdits daucun rle dans la conversion. Pour faire un
parallle souvent utilis quand on parle dattribution, le last click, cest attribuer le but
uniquement au buteur en oubliant le milieu rcuprateur et le passeur de gnie !
|
|\/
$!

Afin de rquilibrer limportance de chaque canal, il sera souvent plus judicieux de rpartir
4$

le poids dune conversion sur les diffrents points de contact ayant particip in fine cette
conversion. Par exemple, surpondrer le canal qui gnre la premire visite sur le
By

formulaire de souscription est une faon de faire, connue sous le nom de modle en
U . Il existe en ralit un grand nombre de modles, descriptifs ou algorithmiques, et
nous invitons le lecteur se rendre dans la bibliographie de ce prambule pour assouvir
sa soif de connaissance sur ce sujet passionnant.

Figure 4 Modle en U : la premire visite a un poids aussi fort que le dernier clic
ATTRIBUTION OU DDUPLICATION ?

Il existe souvent une confusion entre lattribution marketing et la dduplication des ventes. Il sagit de deux concepts
proches, mais avec des objectifs diffrents :
lattribution marketing tente dvaluer de manire juste le rle de chaque levier marketing dans la conversion afin de
mieux rpartir les budgets marketing ;
la dduplication sappuie sur lanalyse dattribution pour mieux rpartir la rmunration des diffrents apporteurs
daffaires (et viter de payer la commission plusieurs fois !). Par exemple un modle en U permettra de diviser parts
gales la commission entre le blog affinitaire ayant fait dcouvrir le site linternaute et entre le site de couponing
utilis par linternaute avant son achat.

Mesurer la pertinence dun modle : la matrice de confusion


Continuons sur lexemple de lassurance. La russite du projet repose en grande partie
sur la qualit du modle dtectant les dmnagements. Il est donc essentiel de pouvoir
restituer simplement lefficacit de celui-ci. Une manire intuitive est de reprsenter les
rsultats du modle dans une matrice dite de confusion, mettant en regard les rsultats
prdits avec les rsultats observs15.

Rsultats observs
|
Na pas dmnag
|\/
A dmnag (+) Total
()
$!
4$

Client prdit comme


35 000 (VP) 5 000 (FP) 40 000
allant dmnager (+)
By

Prdictions
Client prdit comme
nallant pas 1 500 (FN) 450 000 (VN) 451 500
dmnager ()

Total 36 500 455 000 491 500

Figure 5 La matrice de confusion : une faon intuitive de mesurer lefficacit dun algorithme

Remarque : VP, FP, FN et VN sont les terminologies souvent attribues aux valeurs de la
matrice, abrviations de vrais positifs, faux positifs, faux ngatifs et vrais ngatifs.
Cette matrice, invente pendant la Seconde Guerre mondiale pour valuer la pertinence
du modle de prdiction dun bombardier allemand (par rapport la taille de la tache sur
le radar), permet de calculer un grand nombre dindicateurs defficacit.
Parmi les indicateurs les plus frquents16 :
le taux derreur = (FN + FP)/Total = 6 500 /491 500 = 1,3 % ;
la sensibilit = VP /(VP + FN) = 35 000/36 500 = 95,8 % ;
la prcision = VP/(VP+FP) = 35 000/40 000 = 87,5 %.
Un modle parfait aura une sensibilit de 100 % (prdit tous les clients qui vont
dmnager) et une prcision de 100 % (ne fait aucune erreur dans ses prdictions). Dans
la ralit aucun modle natteint ce degr de perfection et il y a souvent une dimension
privilgier selon les impratifs business (ici, au vu des enjeux financiers, il est sans doute
prfrable daugmenter encore la sensibilit quitte perdre en prcision).

Comparer les gains par rapport aux cots : le ROI


Mme si les actions mises en place sur les clients dtects comme allant dmnager
permettent de diminuer effectivement le taux dattrition, le projet ne sera poursuivi que si
les efforts effectus pour conserver les partants potentiels dtects ne reviennent pas
plus cher que les quelques pourcents de clients conservs. Cest le fameux principe du
retour sur investissement ou ROI.
Celui-ci est gnralement dtermin laide dun groupe tmoin sur lequel aucune action
nest ralise, ce qui permet de quantifier limpact incrmental du projet. Dans notre
exemple dattrition, le calcul du ROI pourrait ainsi tre men de la faon suivante17 :
tape 1 : valuer la perte occasionne par un dpart :

A Cot dacquisition dun client 150

B Rentabilit annuelle dun client | 450


|\/
C= A+ B Perte occasionne par un dpart 600
$!
4$

tape 2 : valuer le cot du projet de rtention des clients dtects comme allant
dmnager
By

D Cot de rtention dun dmnageur dtect 15

E Nombre de clients dtects ( tort ou 40 000


raison) comme allant dmnager

F Un client dtect sur deux est affect au 20 000


hasard dans le groupe de test

G = DF Cot total du programme de rtention sur 300 000


groupe test
tape 3 : dterminer les pertes vites

H Nombre de ruptures de contrat groupe 9 000


tmoin

I Nombre de ruptures de contrat groupe test 6 600

J Ruptures de contrat vites 2 400


K = JD Pertes vites 1 440 000

L Gain Total Net 1 140 000


Pour 1 investi dans le programme de rtention, 4,8 est conomis (1 440 000/300
000), soit un ROI de 380 %.

ATTEIGNABLE : PAR QUELS CAS DUSAGES ATTEINDRE SON


OBJECTIF ?

Lobjectif a t exprim de faon spcifique et un plan de mesure du taux de dpart aprs


un dmnagement est en place. Il reste dsormais dmontrer par quels moyens
concrets il sera effectivement possible de rduire le taux dattrition : cest le rle des cas
dusages.

De la thorie
On dsigne communment par cas dusage larticulation des quatre briques suivantes.
Un objectif business : il sagit ici de rappeler lobjectif spcifique auquel doit rpondre le
cas dusage. Cet objectif est soutenu par un constat quantitatif souligne en gnral
|
|\/
galement la cible du cas : les clients qui ont dclar dmnager prochainement, les
$!

clients qui ont un risque lev de dmnager, etc.


4$

Un dclencheur : souvent dnomm trigger par les marketeux anglophones, cette


By

brique correspond au signal dclenchant la suite dvnements.


Dans lexemple de lassurance dvelopp dans ce prambule, il peut sagir par exemple
dune visite sur la rubrique dmnagement du site, dune visite sur seloger.com
Un message : cette brique rpond la question que faites-vous concrtement une fois
que le signal sest dclench ? . Un message est gnralement la combinaison dun
levier (un coupon promotionnel, un entretien avec un conseiller) et dun canal (e-mail,
SMS, tlphone, commercial).
Ici on pourrait par exemple imaginer que, la suite de la visite de la rubrique dmnagement du site, un e-mail se
dclenche, invitant le client un entretien tlphonique avec un conseiller pour faire le point sur sa situation.

Un KPI : chaque cas dusage doit montrer sa pertinence et donc tre suivi par un ou deux
indicateurs.
Le taux de clic dans le-mail et le taux de prise de rendez-vous sont ici des indicateurs pertinents pour le cas dusage
que nous avons construit.

la pratique
cette tape de la conception du projet, une bonne faon de procder est dappliquer le
principe de divergence-convergence cher au design thinking18 et aux innovateurs
de la Silicon Valley.
La phase de divergence consistera en lorganisation dateliers de gnration de cas
dusages, avec les diffrentes parties prenantes au projet. Il est important dans cette
phase de faire fi des contraintes internes (techniques, projets en cours) et de laisser
libre cours son imagination de marketeur. Lobjectif de cette phase est la quantit, pas
la qualit. tablir cette rgle ds le dbut de latelier permettra de librer la crativit,
dencourager les ides audacieuses et dviter des critiques trop prcoces quant la
faisabilit de certains cas dusages. tre concret et visuel aidera galement maintenir
lattention : il est par exemple recommand dutiliser des Post-it de couleur (chaque
couleur reprsentant une brique) qui seront disposs sur un mur blanc. lissue de cette
phase crative, il est ncessaire de prendre le temps de dcrire chaque cas dans une
fiche descriptive au format norm.
La phase de convergence consistera prioriser ces cas dusages. Les critres
dpendent du contexte, mais traditionnellement limpact business estim et le temps de
dploiement sont deux bons filtres. Afin de rendre cette phase de priorisation visuelle, il
est pertinent de reprsenter les cas dusages sur cette matrice deux dimensions :

|
|\/
$!
4$
By

Figure 6 Matrice de priorisation des cas dusages

Les cas 2 et 6 rapides mettre en place et fort impact sont les cas prioritaires qui vont
soutenir votre projet et asseoir sa crdibilit.
Les cas 3 et 7 vont donner une vision moyen et long terme votre projet.
Les cas 1 et 4 vont maintenir la dynamique du projet en permettant de faire merger
rgulirement des actions concrtes. Un bon moyen de continuer recevoir des
financements pour les projets plus long terme !
Le cas 5 est tout simplement oublier !

Bon savoir
Cet exercice de gnration de cas dusages est assez technique et il peut tre utile de recourir un cabinet
spcialis ayant lexprience de ce type dateliers. Une liste indicative de cabinets conseils spcialiss en
data marketing figure en annexe.
RALISABLE : QUELLES CONTRAINTES OPRATIONNELLES VONT SE
DRESSER SUR VOTRE CHEMIN ?

Maintenant que le projet est bien dlimit et accompagn dun plan de mesure et de cas
dusages concrets, il va falloir le confronter la ralit du quotidien de lentreprise. Selon
ltude Enjeux data des dcideurs franais19 , 62 % des interrogs affirment ainsi que
les donnes disponibles ne sont pas exploites de manire systmatique et stratgique,
faute de contraintes organisationnelles et oprationnelles. Donnes, outils,
organisation sont tous les trois sources de contraintes anticiper ds la conception du
projet pour en maximiser la faisabilit.

Les donnes en silo ralentissent les projets


y regarder de plus prs, le plan de mesure et les cas dusages qui ont t btis font
appel diffrentes sources de donnes : service client, navigation sur le site, CRM,
donnes mdia Or rares sont les entreprises disposer dune donne centralise avec
un identifiant unique et il y a fort parier que les donnes ncessaires au projet soient
clates aux quatre coins de lentreprise ! Au mieux vous savez o sont physiquement les
donnes et qui vous adresser pour les rcuprer. Au pire personne na une visibilit
claire sur les flux de donnes et pour des raisons dorganisation ou de leadership, les
|
|\/
diffrentes directions mtier ne collaborent ni entre elles ni avec la direction informatique.
$!
4$

Selon le niveau de maturit data de lentreprise, il sera peut-tre ncessaire de rduire


lambition du projet et en parallle duvrer pour une meilleure gouvernance des donnes.
By

dfaut davoir dsilot les donnes, certaines entreprises ont ainsi fait leffort de
cartographier leurs donnes et dassigner chacune dentre elles un responsable mtier
(la donne telle quelle est vue par le business) et un responsable SI (la donne technique
dans les tables). Ds lors, chaque nouveau projet ne se traduit plus par une chasse aux
donnes : il est beaucoup plus simple et rapide didentifier les donnes cls et les parties
prenantes. Collibra, outil ddi au data management et la data gouvernance, a prouv
avec sa leve de fond de 20 M en septembre 2015 que le sujet tait dimportance ! La
complexit des donnes ayant explos ces dernires annes, il est devenu essentiel pour
les entreprises de trouver et didentifier facilement des donnes [] utiles dans leurs
prises de dcision , a prcis lors de cette leve de fonds le Chief Executive Officer
(CEO) de cette solution prometteuse.

Les outils en place ne permettent pas la ralisation de tous les cas dusages
Les cas dusages incluent certainement des notions de personnalisation de contenu, de
temps rel, de dtection dvnements sur le site ou ailleurs sur le Web Lcosystme
doutils disposition dans lentreprise permet-il de rcuprer toutes les donnes et de les
activer comme imagin dans les cas dusages ? Avant de rpondre cette question,
avez-vous seulement une vision prcise des diffrents outils qui existent dans votre
entreprise et de leurs potentialits ? Il nest en effet pas rare dans les grandes
entreprises que chaque division utilise son propre jeu doutils20, aboutissant un
invraisemblable patchwork dinnombrables fournisseurs de solutions e-mail, mobiles,
rseaux sociaux, etc. Souvent loutil est encore malheureusement le point de dpart des
rflexions autour de la data et du marketing digital, avec pour consquence une
inadquation aux vritables cas dusage business mettre en place.
Afin de valider la conception du projet, ce ne sera pas du temps perdu que de raliser une
cartographie de lensemble des outils dans lentreprise et de les mapper avec les cas
dusages imagins. La demande doutils supplmentaires pour raliser certains cas
dusages prioritaires nen sera que plus convaincante.

Bon savoir
Vous trouverez sur le site de linstitut Gartner une cartographie particulirement convaincante de
lensemble des outils du digital et data marketing prsents sur le march.

Lorganisation de lentreprise nest pas centre sur la donne


Souvent la source des deux premiers problmes voqus dans les deux paragraphes
prcdents, la culture et lorganisation de lentreprise jouent un rle primordial dans la
faisabilit dun projet data. Adopter une organisation transversale permettant des
quipes qui nont pas les mmes objectifs, les mmes mthodes, ni le mme
|
|\/
vocabulaire21 de travailler efficacement ensemble est en effet un dfi dune grande
$!

complexit. En particulier, il est frquent dobserver des difficults de comprhension


4$

entre le systme dinformation (SI), le lgal et le mtier : en forant le trait, la SI accuse le


mtier dtre trop versatile et de mal formuler ses besoins tandis que le mtier accuse la
By

SI dtre trop conservatrice et scuritaire. Les discussions entre mtier et juridique sont
galement parfois source de tensions, la prise en compte des contraintes juridiques ayant
naturellement tendance ralentir les projets.
Au-del de lorganisation en tant que telle, un autre frein la transcription de la stratgie
en ralit oprationnelle rside dans le manque de profils mixtes business et
technique qui ont fait le succs des gants du Web. Parmi ces nouveaux mtiers en
plein boom, citons par exemple :
le data scientist : qualifi en 2015 par la Harvard Business Review de mtier le plus
sexy de lanne , le data scientist possde une triple comptence mathmatique
(crer un modle), informatique (monter un cluster, implmenter un modle) et business
(vulgariser et raconter ce que disent les donnes). Mme si sa comptence dans
chacun de ces trois domaines peut tre lgrement infrieure celle dun pur
spcialiste, sa polyvalence en fait un atout trs prcieux pour les entreprises et une
personne rare sur le march ;
le Product Manager a galement un triple savoir-faire, business (vision march et
besoins clients), SI (sait parler des dveloppeurs), User Experience (matrise la
notion de parcours client). Il est le garant du produit et de ses volutions ;
le DevOps : acronyme de dveloppement et oprations , le DevOps est le meilleur
alli du Product Manager. Sensible au produit et la satisfaction client, il rpond au
besoin du mtier de raliser en continu une multitude de petites modifications
techniques pour coller aux exigences du client final, sans entraver la roadmap plus long
terme de la SI ;
le Chief Marketing Technologist (CMT) : dans un cosystme martech de plus
en plus complexe, il est trs difficile pour les entreprises de discerner le vrai du faux et
de choisir les partenaires techniques et diteurs de solution les plus adapts. Capable
la fois de matriser les cas dusages mtiers esprs et de challenger le prestataire
sur le plan technique, le CMT fait le bonheur de plus en plus dentreprises dpasses
par la rapidit du dveloppement des technologies et le camouflage de la ralit sous
les buzzwords du moment ;
le Chief Data Officer (CDO) : de plus en plus rattach lexcutif, le CDO est
traditionnellement en charge de lintgrit de la donne, de lanimation de la
gouvernance de la donne et de lacculturation de lentreprise. Il sagit ici aussi dun
profil rare ayant une bonne connaissance des systmes dinformation, de solides
notions mathmatiques, mais possdant galement une excellente vision business et
des qualits de communication hors pair pour pouvoir mener le changement. Linstitut
dtudes Gartner estime 1 000 le nombre de postes de CDO en 201622,
|
|\/
principalement dans les pays anglo-saxons.
$!

Sans prtendre que la solution tous les problmes de data management se situe dans
4$

le recrutement de ces profils23, identifier et multiplier les profils mixtes dans lentreprise
By

facilitera cependant la ralisation des projets data. Certaines entreprises lont bien
compris et, linstar dAxa, Pernod-Ricard, Engie24 etc., commencent mutualiser leurs
comptences au sein de data lab .

TEMPORELLEMENT DFINI : ET MAINTENANT PLACE LACTION !

Savez-vous comment on mange un lphant ? Une cuillre la fois ! selon un


proverbe africain. Applique lexemple de lassurance, cette maxime signifie que
diminuer le taux de dpart des clients la suite dun dmnagement ne va pas se faire en
quelques jours. Pour faire du projet envisag une ralit oprationnelle, il va tre
ncessaire de procder par phasing et de construire ce quon appelle dans le jargon de la
gestion de projet une feuille de route .

Viser des livrables rgulirement


Comment sorganiser pour atteindre lobjectif et avec quels moyens ? Ce sont les
questions fondamentales auxquelles la feuille de route doit rpondre. Plus prcis quune
trajectoire, moins granulaire quun planning, il sagit dun document de rfrence consistant
dcouper le projet en tapes successives (une tape ne devant pas durer plus de
quelques semaines) auxquelles sont associes des personnes responsables et surtout
des livrables concrets. Par exemple, le premier mois pourra tre consacr la ralisation
dun premier cas dusage simple (exemple : la visite de la FAQ dmnagement entrane le
dclenchement dun pop-up pour faire le point avec un conseiller), le deuxime mois verra
la naissance dune premire fonction de scoring base sur un ensemble limit de sources
de donnes, etc. Il ne sagit pas davoir la base de donnes parfaite pour commencer
exploiter les donnes auxquelles lentreprise a accs.
Parfois frustrante pour les puristes, la construction dune feuille de route vite la
construction dune usine gaz et permet dtre en mesure de fournir rapidement des
rsultats pour le business et de clbrer rgulirement les avances et la fin de chaque
tape ! En matire de data marketing, dmarrer petit, agir vite, mesurer le gain,
itrer25 est le credo des entreprises qui russissent.

et sinspirer des start-ups !


Le propre des start-ups est de concevoir rapidement et efficacement des produits ou
fonctionnalits ambitieuses. Les quelques philosophies qui suivent comptent parmi leurs
secrets de russite.
MVP : abrviation de Produit Minimum Viable, le MVP possde toutes les caractristiques
|
|\/
dun produit fini, mais un stade encore primaire. Chaque MVP est focalis sur un but
$!

unique, dans une optique de test grandeur nature.


4$

Test & learn, littralement apprendre en marchant , est une mthode visant tester
By

une ide petite chelle, en tirer des conclusions et donc des amliorations avant de
gnraliser le test.
Mthode agile : mthode de dveloppement reposant sur des cycles courts de
dveloppements itratifs appels sprints . Elle soppose aux plus traditionnels cycles
en V qui ncessitent beaucoup de documentation et de spcifications techniques.
Scrum est la mthode agile la plus populaire. Signifiant littralement la mle , le
canevas Scrum sappuie notamment sur de courtes runions matinales pendant
lesquelles les participants au projet indiquent tour tour les tches quils ont effectues la
veille, les difficults rencontres et enfin ce sur quoi ils vont poursuivre leur travail le jour
suivant.
Efficaces quand elles sont bien maitrises, ces mthodes ne sont pas appliquer la
lgre. En particulier attention ne pas se cacher derrire ces buzzwords pour rester
ternellement dans lexprimentation ou changer de cap tout-va !

RETENIR DE CE PRAMBULE
Un projet data marketing ncessite une excellente prparation. En particulier, il est indispensable de :
commencer par un constat chiffr justifiant le projet ;
spcifier lobjectif, en ayant recours au besoin un arbre dquivalence ;
tablir un plan de mesure de la russite du projet ;
constituer une banque de cas dusages en lien avec lobjectif spcifique ;
impliquer trs tt les diffrentes parties prenantes dans lentreprise.

vous de jouer
valuez la maturit data de votre entreprise en remplissant le questionnaire labor par le
CIGREF : http://www.cigref.fr/rapport-cigref-enjeux-business-des-donnees
Synthtisez votre projet data en une page grce au lean canvas amplement utilis par les
start-ups du monde entier : http://bit.ly/1SZKSjL
Appropriez-vous le framework SMART grce ce canevas fourni par Hubspot :
http://offers.hubspot.com/how-to-determine-your-smart-marketing-goals

SOURCES
Pour moins culpabiliser face aux difficults rencontres par votre entreprise pour exploiter ses donnes, deux articles
sans langue de bois :
Big Data + mauvaise mthode = big chec , Abed Ajraou, aot 2015, disponible en ligne sur le blog de decideo.fr ;
Big Data : peu de projets, le plus souvent des checs , Christophe Auffray, janvier 2015, zdnet.fr.
|
|\/
Pour approfondir les problmes organisationnels que cristallise la data, deux articles pdagogiques :
$!

Pourquoi ce dialogue de sourd entre SI et mtiers ? , Pierre Fournier, accessible sur le blog du cabinet Artefact ;
4$

Les projets Big Data rveillent les rivalits dans lentreprise , 21 octobre 2013, La Revue du digital.
Concernant les modles dattribution, le cabinet Converteo propose un livre blanc trs pdagogique :
By

Attribution Management : entre technologie, marketing et statistique, comment appliquer et tirer parti de lattribution,
juillet 2015.
Enfin, quelques tudes de cas dentreprises qui ont russi ( petite ou grande chelle) sappuyer sur la data et qui
auraient mrites dtre dveloppes dans ce livre :
Quand Spontex fait de Twitter le meilleur ami de la mnagre (et du mnager) , novembre 2015, lUsine digitale ;
Comment McCain Foods se prpare au Big Data , Rhida Lookil, dcembre 2015, lUsine digitale ;
Figaro Media lance ses offres Data sous le label FigData , janvier 2014, offremedia.com.

1. Cracking the data conundrum : how successful companies make Big Data operationnal .
2. tude Butler Group, 2002. Ce taux tait estim 47 % en 2009 par Forrester Research.
3. Anglicisme pour designer canevas .
4. Procd dit du look alike audience . Nous reviendrons dessus plus en dtail dans le chapitre 4.
5. Terme anglais frquemment utilis pour dsigner un prospect intress par loffre. Typiquement un internaute qui laisse
ses coordonnes pour tre rappel est un lead .
6. Mots et phrases employs par un consommateur lorsquil sadresse directement une entreprise (service client,
rseaux sociaux, etc.).
7. Perte de clientle, la suite, par exemple, de la rsiliation dun abonnement. Le terme anglais churn est galement
trs souvent utilis.
8. Plateforme technologique facilitant la collecte de donnes anonymes depuis plusieurs sources (navigation web,
campagnes mdia, marketing direct, partenaires), la construction daudiences et lactivation de ces audiences,
principalement sur lcosystme publicitaire.
9. Partenariats dits second party .
10. Terme utilis pour dsigner laffichage de la publicit un endroit donn du site.
11. En ralit, on parle plutt de cot pour 1 000 impressions, dsign par labrviation CPM. Un emplacement publicitaire
est ainsi vendu par exemple 3 CPM .
12. Ces KPI ne sont toutefois pas autosuffisants, car ces pourcentages sont aussi dus toutes les autres causes de
dpart non traites par le projet.
13. Stratgie publicitaire consistant cibler un individu dj pass rcemment sur le site web de lannonceur ou sur
certaines pages spcifiques.
14. Un adulte sur deux ne fait pas la diffrence entre un lien naturel et un lien sponsoris selon une rcente tude de
linstitut Ofcom (Adults use media and attitudes, mai 2016).
15. Cette matrice dpend dun seuil de dcision s : partir de quelle probabilit de dmnagement le client est prdit
comme allant dmnager ? Choisir un seuil 80 ou 90 % changera potentiellement fortement le contenu de la matrice.
16. Le score F1 et la courbe ROC sont galement trs frquemment calculs partir dune matrice de confusion, mais
dpassent le cadre de chapitre (ils servent surtout comparer des modles entre eux, cf. chapitre 7).
17. Exemple inspir par la mthodologie expose par le statisticien Stphane Tuffry dans son cours de data mining
(data.mining.free.fr).
18. Mthode de rsolution de problmes et de cration de concepts ne dans les annes 1950 sous linfluence du
publicitaire amricain Alex Osborn.
19. tude mene conjointement par lagence iProspect et Les Echosmdias en septembre 2015 auprs de 600 dcideurs
franais.
20. Vous entendrez souvent le terme anglais stack doutils, srement hrit du poker, le terme dsignant alors le tapis.
21. Faites le test en demandant diffrentes divisions de lentreprise comment est dfini un client, vous serez surpris des
disparits !
22. Selon le Gartner, 9 grandes entreprises sur 10 auront un Chief Data Officer , Virgile Juan, journaldunet.com, 26
|
janvier 2016.
|\/
23. De la mme faon quil ne suffit pas daccumuler des stars dans une quipe de foot pour gagner la Champions
$!

League !
4$

24. tapes cls pour crer son data lab , Julie Le Bolzen, 9 juin 2016, business.lesechos.fr
By

25. Du marketing intuitif manuel au data marketing automatis, maxime extraite du livre blanc Converteo, 2015.
Partie A

Collecter et stocker

|
|\/
$!
4$
By
AUTODIAGNOSTIC

Avant de lire cwette premire partie consacre la collecte et au stockage des donnes, faites le point sur vos
connaissances (avant et aprs la lecture de la partie) en 10 questions cls !

Question 1 : pouvez-vous citer et expliciter les cinq V dfinissant les Big Data ?

Question 2 : que dsigne-t-on par first, second et third party data ?

Question 3 : selon vous quel volume de donnes correspond un mois dimpressions display dun grand
groupe ? |
|\/
$!
4$
By

Question 4 : quel outil du data marketing est rattach la notion de datalayer ?

Question 5 : concrtement, comment expliqueriez-vous ce quest un cookie et comment le tracking par cookie
fonctionne ?

Question 6 : connaissez-vous la diffrence principale entre un datawarehouse et un datalake ?

Question 7 : pouvez-vous citer deux diffrences majeures entre une infrastructure big data et une
infrastructure traditionnelle ?
Question 8 : comment appelle-t-on lidentifiant publicitaire utilis pour le marketing mobile ?

Question 9 : pouvez-vous citer trois faons de lier un cookie un e-mail ?

Question 10 : en une phrase, comment expliqueriez-vous la diffrence entre un CRM 360 et une DMP ?

Rponses p. 256
|
|\/
$!
4$
By
CHAPITRE

1
Faire connaissance avec ses donnes

Digitalisation des activits, volution du parcours client qui est devenu ROPO1 puis
SOLOMO2, mise disposition des donnes des institutions publiques en Open Data
les donnes disponibles dans les entreprises ont bien chang de physionomie en quelques
annes. Cette premire partie de louvrage abordera les principes de collecte, de
stockage et de rconciliation des donnes et sattardera en particulier au chapitre 3 sur
les outils structurants que sont le CRM 360 et la Data Management Platform (DMP) qui
constituent les pierres angulaires de la plupart des projets data. Avant cela, arrtons-nous
lespace dun chapitre pour faire le point sur les diffrentes donnes manipules le plus
frquemment en marketing et leurs caractristiques. Ce grand inventaire sera ralis
|
|\/
laide du clbre canevas des cinq V du Big Data que sont la Variabilit, le Volume, la
$!

Vracit, la Vlocit et la Valeur.


4$
By

Figure 7 Les 5 V du Big Data

COMMENT CLASSER SES DONNES COMPTE TENU DE LEUR


VARIABILIT ?

Tout comme le botaniste identifie et classe les organismes vivants dans diffrents groupes
selon certaines cls de dtermination3, le marketeur moderne doit aussi tre capable de
distinguer les diffrentes typologies de donnes sa disposition. Mais contrairement la
biologie, ici pas de rgles absolues : chaque mtier sa manire prfre didentifier
et de classer les donnes !

Les critres de classification utiliss par les data scientists


Si vous parlez de data marketing un data scientist, il aura une tendance naturelle
segmenter les donnes entre donnes structures et donnes non structures. Mais
que veut-il entendre par l ? Et pourquoi cette classification est-elle importante pour lui ?
On appelle donnes structures les donnes qui sont ranges, organises selon une
logique prdfinie. Il sagit typiquement de donnes dans un tableur dcrit par un
ensemble de variables en colonnes (ge, marque prfre, chiffre daffaires, etc.) ou de
faon plus image, de couverts rangs par type au sein dun tiroir couverts ! La grande
majorit des outils danalyses de donnes ou de gestion de campagnes ne peuvent
manipuler que des donnes structures et ce type de donnes rgnaient en matre jusqu
la fin du XXe sicle.
Larrive dInternet a radicalement chang la donne. Dsormais, les consommateurs
sexpriment directement sur les rseaux sociaux, forums, sites des marques : les avis
|
|\/
clients, les e-mails au service clients, les tweets, les images postes sur Facebook nont
$!

aucune organisation prdfinie et constituent ce quon appelle les donnes non


4$

structures . Pour reprendre la mtaphore prcdente, les donnes non structures sont
plutt une caisse de couverts empils les uns sur les autres sur un march le dimanche
By

matin ! Et comme souvent la brocante quand on fouille un peu, ces donnes constituent
une mine dor : elles servent, par exemple, couter la voix du client, identifier des buzz
venir ou anticiper des volutions de fond. Au-del des mots, la photo par exemple
exprime de la faon la plus spontane, sans mdiation, ce que sont les gens, comment ils
vivent, ce quils pensent, ce qui les touche, quels sont leurs choix. Elle permet de
connecter les dcideurs la vraie vie des gens, pour ne pas en tre distancs , explique
Martine Ghnassia4 la tte de lentit InCapsule dIfop. Limage nest plus uniquement un
vecteur de communication, elle met en plus de son sujet une multitude dinformations quil
faut savoir dnicher. Concrtement une photo Facebook de vous en train de boire un
Coca-Cola en dit beaucoup sur votre attirance pour la marque !
Types de donnes Caractristiques Mtaphore associe
Organisation logique
Formats identiques Couverts rangs dans un tiroir
Donnes structures
Facilit de recherche couvert
Apprhendable par un ordinateur
Entassement sans logique
Formats diffrents Couverts entasss dans une caisse
Donnes non structures
Difficult de recherche une brocante
Ncessite un traitement humain

Figure 8 Diffrence entre donnes structures et non structures

En pratique, pour les entreprises, la grande diffrence entre les deux types est que les
donnes non structures sont difficiles apprhender, requter et analyser. En fait,
traiter des donnes non structures change (presque) tout : les approches
mthodologiques, les outils technologiques, les expertises ncessaires. Manque de
chance avec lexplosion de YouTube, Facebook et autres Pinterest, 80 % des donnes
disponibles sur Terre sont de type non structur5 ! Cette rupture fondamentale dans le
squelette mme des donnes est un des piliers du Big Data et cest souvent cette
distinction que recouvre le terme Variabilit .
|
|\/
Les critres de classification utiliss par les statisticiens
$!

Si vous voquez maintenant le data marketing devant un statisticien, il aura une tendance
4$

naturelle segmenter les donnes en quatre typologies dont il est prfrable de


By

comprendre le sens et les enjeux.


Donnes continues vs donnes discrtes

Les donnes continues sont des donnes qui peuvent prendre nimporte quelle valeur,
tandis que les donnes discrtes ne peuvent prendre que des valeurs prdtermines
(dans un sous-ensemble fini). Les variables discrtes sont gnralement plus faciles
comprendre dun coup dil.
Le CA est une donne continue tandis que lge est une donne discrte.

Donnes quantitatives vs donnes catgorielles

Les donnes quantitatives sont des donnes sur lesquelles on peut effectuer des
oprations arithmtiques (addition, division) et qui sont ordonnes (on peut les
comparer par une relation de type suprieur ou infrieur ). Les donnes
catgorielles appeles aussi donnes qualitatives ne sont pas des quantits, mais
peuvent tout de mme quelquefois tre numriques (exemple : le code postal) ou tre
ordonnes (exemple : faible, moyen, fort ). Dans ce dernier cas, on parle de
donnes ordinales qui sont souvent traites comme des donnes discrtes.
Le nombre de produits achet est une donne quantitative tandis que la profession est une donne catgorielle.
Donnes cibles vs donnes explicatives

La donne cible est la donne que lon cherche expliquer (exemple : lachat). Les
donnes explicatives sont les attributs des individus observs (exemples : le sexe,
lge, la frquence des visites).
Donnes brutes vs donnes calcules

Les donnes brutes constituent les donnes originales telles que collectes (exemples :
date de naissance, chiffre daffaires de la commande). Les donnes calcules sont,
comme leur nom lindique, cres a posteriori (indicateurs, ratios, etc.)
Ces classifications sont trs importantes pour les statisticiens, car les mthodes
mathmatiques danalyses de donnes que nous allons voir dans la partie B ne traitent
pas tous les formats de donnes. De ce fait, il est trs frquent de changer de format,
par exemple en binarisant une variable (exemple : lge est transform en deux
donnes binaires enfant et adulte)6.

Les critres de classification utiliss par les responsables informatiques


La question qui proccupe le plus le dpartement SI (Systme dinformation) concerne
gnralement la provenance et la scurit des donnes. Le responsable informatique aura
|
donc une tendance sparer les donnes endognes des donnes exognes.
|\/
$!

Les donnes endognes sont les donnes produites par lentreprise. Elles sont stockes
4$

dans le systme dinformation de lentreprise ou dans lentreprise, mais hors du SI (fichier


Excel par exemple).
By

Les donnes exognes sont les donnes achetes ou rcupres lextrieur de


lentreprise (fournisseurs de donnes, open data)

Les critres de classification utiliss en publicit


La notion de provenance est galement un discriminant fort pour les acteurs de la
publicit. Une agence mdia aura ainsi tendance classer les donnes en trois
catgories : first party, second party et third party.
Les first party data

Ce sont tout simplement les donnes qui appartiennent lannonceur, collectes partir
de son site web (donnes de navigation), de son CRM (e-mail, numro de tlphone), de
ses campagnes marketing et mdias (ouvertures de-mails, impressions ou clics sur des
publicits en ligne), etc.
Les second party data

Ce sont les donnes first party dune autre entreprise mises disposition de lannonceur
dans le cadre dun partenariat business. Par exemple, un partenariat classique souvent
observ est celui entre une marque (Nutella, Lactalis, Babolat, etc.) qui na pas de lien
direct avec le consommateur (pas de tickets dachat, trafic sur le site gnralement limit)
avec des distributeurs (Carrefour, Decathlon, etc.). Ces accords ncessitent tout de
mme une certaine data-maturit , rappelle Yseulys Costes7, PDG et cofondatrice
de lagence 1000Mercis.
Les third party data

Ce sont des donnes tierces vendues par des fournisseurs de donnes. En gnral, ce
sont des donnes assez gnriques (sexe, catgories socio-dmo, centres dintrt),
permettant denrichir sa base client (exemple : recollement dune adresse avec un type de
CSP) ou plus frquemment dlargir laudience dune campagne publicitaire (exemple :
cibler les seniors) ou, au contraire, dexclure certaines catgories (exemple : exclusion
des mineurs).
cette classification, les agences marketing ajoutent souvent la distinction entre donnes
offline et donnes online. Les donnes offlines dsignent celles issues des mdias
classiques (points de vente, courriers, tlmarketing), tandis que les donnes online
sont issues des mdias numriques (navigation web, clics e-mail, ouvertures application
mobile)

Les critres de classification utiliss par le marketing


|
|\/
Si vous parlez data marketing avec la fonction marketing, il y a de fortes chances
$!

daboutir une classification des donnes selon quatre catgories.


4$

Les donnes sociodmographiques


By

Ce sont les donnes historiquement utilises par le marketing pour construire des
segments daudience et des persona8 marketing. Ces donnes concernent :
les donnes personnelles : date de naissance, ge, genre, adresse e-mail, code
postal, numro de tlphone
la situation familiale : statut marital, nombre denfants et leur ge
la situation professionnelle : salaire, CSP, horaires de travail
la situation patrimoniale : propritaire/locataire, valeur du logement
la situation gographique : code postale, donnes IRIS9, anciennet ladresse, type
dhabitat
le gomarketing : niveau de concurrence, taux de chmage, taux de pntration du
produit dans la zone dhabitation du client.
Les donnes transactionnelles

Issues principalement des achats, mais aussi par extension des micro-conversions
(inscription newsletter, demande de devis, retour produit,), ces donnes se
dcomposent gnralement selon les axes suivants :
Combien ? montant de la transaction, quantit achete, nombre de produits
diffrents achets, utilisation dun bon de rduction ;
Quand ? date dachat, frquence des transactions, anciennet du client, rcence du
dernier achat, date dchance prvue du contrat souscrit ou du produit achet ;
Quoi : marque du produit, style, catgorie, option garantie, etc. ;
O ? lieux des transactions (agence, site e-commerce, tlphone, etc.) ;
Comment ? mode de paiement, dlai de paiement.
Les donnes comportementales

Parfois assimiles aux donnes transactionnelles, les donnes comportementales sont


pourtant moins centres sur le produit et plus sur la relation et linteraction avec le client.
On parle parfois aussi de donnes relationnelles . Sont typiquement inclues dans ces
donnes :
le comportement de navigation telles que visites de pages, clics, partages sur les
rseaux sociaux, commentaires darticles, likes Facebook, etc. ;
les canaux privilgis pour prendre contact (e-mail, appel au standard), communiquer
(courrier, agence), commander (Internet, magasin) ou se faire livrer ( domicile, en
magasin) ; |
|\/
les ractions aux e-mails, aux enqutes de satisfaction, aux appels du service
$!

clientle
4$

Bon savoir
By

Les donnes transactionnelles et comportementales sont souvent retraduites en centres dintrt .

Les donnes contextuelles

Moins utilises que les trois premires catgories, elles sont toutefois de plus en plus
intgres par les marketeurs dans leur rflexion et classification des donnes. Entrent
dans cette catgorie les donnes lies au stock en temps rel, aux objets connects, la
golocalisation, la mto, Nous verrons dans les parties B et C des faons concrtes
dexploiter la donne mto et la donne de golocalisation.
Ce mode de classification est pratique, car ces quatre catgories sont directement
activables pour du marketing relationnel et des relations personnalises par e-mail,
courrier, SMS, en magasin (cf. chapitre 9 consacr au marketing direct).

Les critres de classification utiliss par les juristes


Terminons notre tour dhorizon des mtiers avec un acteur qui prend de plus en plus
dimportance en data marketing : le juriste. Pour lui la distinction entre les donnes
soprera principalement de la manire suivante : donnes nominatives vs donnes
anonymes10. Par exemple le-mail, le tlphone, lidentifiant Facebook sont des donnes
nominatives tandis que le cookie ou le device ID11 sont des donnes anonymes. Les
donnes nominatives ou pouvant ltre appartiennent en effet aux donnes dites
personnelles et relvent de la loi Informatique et Liberts dont nous rappelons ici
les trois principaux principes :
le principe de finalit : cest une notion centrale qui demande au responsable du
traitement des donnes12 de justifier pourquoi il collecte et conserve telle ou telle
donne personnelle. Par exemple, la date de la dernire visite dun client sur son site e-
commerce. Ce principe force lentreprise distinguer les donnes dont elle a
absolument besoin de celles dont elle peut se passer ainsi que la dure de
conservation dont elle aura besoin pour atteindre ses objectifs ;
le principe de transparence exige du responsable de traitement davoir le consentement
spcifique de la personne concerne par le traitement. Par exemple, un commerant
doit informer un client quil conserve son adresse e-mail pour lui envoyer une
newsletter ;
le principe de proportionnalit : cest un corollaire au principe de finalit qui value la
pertinence du dispositif de traitement vis--vis de lobjectif. Par exemple, dans le cas
o le nom, prnom et ladresse e-mail suffisent amplement au traitement envisag, la
collecte pour cette mme finalit de ladresse postale, la situation familiale et la
situation financire serait juge non proportionnelle et coupable dune sanction.
|
|\/
COMBIEN VALENT VOS DONNES PERSONNELLES ?
$!
4$

En parlant de donnes personnelles, connaissez-vous le prix que vaut chacune de vos traces digitales ? Voici
quelques chiffres utiles pour calculer la valeur dun individu extraits de larticle Quelle est votre valeur sur les rseaux
By

sociaux ? paru dans le Huffington Post en fvrier 2014.


Le trio ge-sexe-adresse constitue une base dans ce milieu, valu 0,007 dollar.
Si vous laissez des messages sur Facebook voquant un prochain mariage, votre cte grimpe 0,107 dollar.
Vous prenez la photo dune chographie sur Instagram (sous-entendu vous allez avoir un enfant), votre prix atteint
0,187 dollar
Enfin si vous faites des recherches sur Google en rapport avec une maladie du cur, vous grimpez 0,447 dollar.
Vous voulez savoir votre prix ? Tapez dans votre moteur de recherche prfr How much is your personal data worth?
By Emily Steel , vous aurez accs une simulation !

QUELLES DONNES OCCUPENT LE PLUS DE VOLUME ?

350 milliards de posts Facebook chaque anne, 4 milliards dheures de vidos regardes
chaque mois sur YouTube, 400 millions de tweets envoys chaque jour, 200 000
publications sur Instagram par minute Du fait de la digitalisation massive des outils, les
entreprises sont confrontes lexplosion du volume de donnes produites en interne lors
des interactions avec les consommateurs. En guise dordre de grandeur, voici
approximativement le nombre de lignes gnres en base de donnes pour une
campagne publicitaire digitale (on parle de campagne display ) :
stratgies dune campagne display : 100 ;
domaines dune campagne RTB : 10 000 ;
suivi des impressions dune campagne display : 10 000 000 ;
suivi des impressions de toutes les campagnes display dune agence mdia : 10 000
000 000.
Alors quune base de donnes suffit pour traiter quelques campagnes, une plateforme big
data devient absolument ncessaire quand le nombre de campagnes augmente !
cela viennent sajouter toutes les sources de donnes potentielles de lOpen Data
intgrer galement dans le systme dinformation. Au final la plupart des entreprises
aux tats-Unis stockent ainsi 100 000 gigabytes de donnes13. Une paille face aux
2,5 trillions14 de gigabytes de donnes supplmentaires cres chaque jour ! Nous
verrons aux chapitres suivants comment la caractristique volume change du tout au
tout les mthodes de collecte, de stockage et danalyse.

Bon savoir
Ladjectif big de Big Data nest pas quun simple effet de mode. Chaque jour nous pouvons en effet
remplir de data quatre tours Eiffel de disques Blu-ray (soit environ 10 millions de disques) !

VOS DONNES SONT-ELLES UTILES ? |


|\/
$!

95 % des entreprises jugent indispensable de transformer leurs donnes en


4$

informations15. Mais vos donnes le permettent-elles ? Trois V supplmentaires par


rapport aux deux prcdents (Varit et Volume) caractrisent les donnes et leur utilit.
By

Fiabilit et qualit des donnes : le V de vracit


Plus larbre est grand, plus il y a une chance davoir des fruits pourris , dit ladage
populaire. Cette maxime se vrifie aussi avec les Big Data : les trs gros volumes de
donnes, la multiplicit et lhtrognit des sources et des formats amplifient les
inexactitudes dans les bases de donnes16. Lignes vides, valeurs aberrantes, capteurs
dfectueux, fautes de frappe, htrognit dans les noms des villes ou dans le format
des codes postaux les donnes sont souvent de pitre qualit et daprs une rcente
tude IBM cette problmatique coterait aux tats-Unis 3,1 trillions de dollars par an17 !
Autre consquence releve par ltude : un dcideur sur trois ne ferait pas confiance aux
donnes utilises pour prendre les dcisions. Face cette problmatique capitale, trois
enjeux majeurs doivent tre pris en compte pour dvelopper la qualit des donnes : la
collecte, lorganisation et lhumain.
Tout dabord il est ncessaire de faire preuve dune grande rigueur dans la collecte et le
croisement des donnes. Par exemple, dans le cas de collecte de donnes via un
formulaire, de bonnes pratiques oprationnelles peuvent tre de :
transformer les champs dexpression libre en champs choix restreint ;
mettre en place un systme dautocompltion automatique, notamment pour les
adresses.
En plus de scuriser la donne saisie, ces deux fonctionnalits font galement gagner du
temps linternaute.
Un deuxime levier tient plus de lorganisation : prs de deux tiers des entreprises ont une
approche en silo pour la gestion de la qualit des donnes18, empchant de fait toute
uniformisation des traitements. Afin dobtenir une donne fiable, il faut russir briser les
silos entre marketing, vente et SI. Certaines organisations optent mme pour la mise en
place dune business unit (BU) transverse charge de coordonner les initiatives digitales et
data entre les trois entits classiques , rappelle Clmentine Fournier du cabinet
Artefact19.
Enfin le troisime levier est dordre humain : pour assurer un suivi de la qualit de la
donne, certaines entreprises intgrent leur conseil dadministration un Chief Data
Officer, dont le rle a dj t prcis dans le chapitre prcdent.

DONT WORRY, BE HAPPY

La fiabilit des donnes est un enjeu primordial, cest indiscutable. Jai toutefois rencontr des dcideurs tellement
paralyss par linexactitude des donnes (clics frauduleux, robots, cookies effacs) quils rejetaient toute forme de data
|
|\/
marketing. Si vous tes galement anxieux lide de prendre des dcisions sur des donnes la vracit discutable :
$!

tranquillisez-vous ! Une donne fiable 100 % est une chimre : le digital est un univers trop complexe et trop
4$

mouvant ;
exercez votre esprit critique : il est possible de prendre de bonnes dcisions mme avec des donnes imparfaites,
By

condition de remettre en question certains rsultats qui vous paratraient tranges ;


appliquez le principe de proportionnalit : selon limportance de votre dcision, modulez le degr de confiance
ncessaire dans la qualit des donnes sur lesquelles vous allez appuyer votre jugement ;
segmentez vos donnes et identifiez les zones sres et les zones risque ;
et enfin noubliez pas quil est souvent plus profitable de lancer une campagne data driven imparfaite tout de suite
quune campagne parfaite dans un an !

Obsolescence et capacit tre mobilis en temps rel : le V de vlocit


Parfois, trente secondes, cest trop. De plus en plus dapplications marketing ncessitent
une activation temps rel des donnes. Il suffit de songer la vitesse laquelle le risque
de fraude est valu lors dune transaction, la personnalisation de la page daccueil dun
site e-commerce ou aux millisecondes accordes aux acheteurs mdias pour enchrir sur
un emplacement publicitaire20.
Ladquation entre les projets data driven21 de lentreprise et sa capacit mobiliser en
temps rel ses donnes sont des critres prpondrants dans laudit de donnes et le
choix des outils, connu sous le terme vlocit 22

Exploitables travers des cas dusages : le V de valeur


Une rcente tude mene par linstitut Morar rvle que 72 % des entreprises collectent
des donnes qui ne leur servent pas. Un grand nombre dentreprises ont en effet abord
le Big Data par les aspects techniques et ont accumul un volume considrable de
donnes avant mme davoir identifi une finalit prcise. Au lieu dtre un actif de
lentreprise et une source de revenus, les donnes sont au contraire un poste de cots
importants. Entre cots de stockage et opportunits commerciales rates faute de
disposer temps des bonnes informations, laccumulation inutile de donnes
reprsenterait ainsi une perte value entre 3 et 30 millions deuros par an selon une
enqute du cabinet Pure Storage23.
Pour ne pas faire partie des mauvais lves, il est souvent ncessaire au dmarrage de
construire la donne utile. Parfois sinstalle le sentiment de rater une ppite
indtectable par lhumain ds lors que toutes les donnes disposition ne sont pas
collectes et analyses par un algorithme tout puissant. En ralit, mme les modles
prdictifs qui seront tudis dans la partie suivante sont en grande majorit labors
dabord avec une poigne de donnes cls avant dtre amliors petit petit en prenant
en compte linfluence dautres donnes a priori moins significatives dun point de vue
mtier.
Vous devriez procder de mme et ne penser largir le spectre de donnes que lorsque
les quelques donnes cls de votre mtier sont dj exploites pleinement travers de
|
|\/
multiples cas dusages malins et lefficacit prouve. En guise dexemple, pour un
$!

fentrier, le fait dtre propritaire de son appartement et lanciennet de lhabitation


4$

figurent sans doute parmi les donnes stratgiques. Dans un autre registre, le guide de
By

lElectronic Business Group (EBG) paru en 2015 donne lexemple de ce voyagiste en ligne
qui aprs avoir collect des donnes tort et travers sest recentr avec succs sur
cinq donnes cls : ville de dpart, destination, dure du voyage, date, budget !
Si vous avez le sentiment que vos donnes sont aujourdhui sous-exploites, mettez un
point dhonneur faire des choix pragmatiques et construire la donne utile, marche
aprs marche. Vos donnes nen auront que plus de valeur.

RETENIR DE CE CHAPITRE
Avoir une vue densemble de ses donnes nest pas une tche aise et il nexiste pas une classification qui
fasse rfrence tant les enjeux des diffrents corps de mtiers sont diffrents. Pour viter de se perdre
dans le labyrinthe des donnes, il est ds lors souvent profitable de se concentrer dans un premier temps
sur la donne utile, den assurer la qualit et laccessibilit et de btir partir de cette fondation des
premiers cas dusages marketing data driven.

vous de jouer
Allez discuter avec vos collgues des diffrentes divisions pour vrifier si leur faon de
segmenter les donnes est proche de celle dcrite dans ce livre !
Renseignez-vous sur le cot que reprsente aujourdhui la gestion de vos donnes (stockes
en interne dans un CRM et/ou une DMP ou stockes en externe dans une agence CRM ou une
agence mdia)
Classez vos donnes sur une chelle de valeur mtier, avec si possible des cas dusages
associs. Cest un excellent exercice pour favoriser des projets step by step matriss

SOURCES
Une vaste littrature et un grand nombre dinfographies abordent les cinq V du Big Data :
Le Big Data au quotidien , infographie de vouchercloud https://www.vouchercloud.fr/ressources/big-data-infographie
The four Vs of Big Data , infographie dIBM http://www.ibmbigdatahub.com/infographic/four-vs-big-data
Concernant les diffrentes classifications voques, ces quelques articles pdagogiques vous permettront dapprofondir
certaines notions cls voques dans ce chapitre :
Quappelle-t-on donnes first, second, third party ? , 2015, Pierre Fournier, partner du cabinet Artefact ;
Quels sont les enjeux de la matrise des donnes structures et non structures ? , interview de Christophe Cousin,
fondateur du cabinet Camp de Base ;
Structure: A Better Way of Thinking about Data , mars 2015, Rachel Shadoan, article do est issue la mtaphore
des couverts ;
Pour approfondir la thmatique de la qualit des donnes :
Qualit des donnes en 2015 : vos donnes sont-elles suffisamment fiables pour tre transformes en insights ?, livre
blanc publi par Experian ;
|
|\/
Data Quality Sucks, Lets Just Get Over It , article plein de bon sens sur le blog dAvinash Kaushik, data evangelist
$!

chez Google (en anglais et trs orient web analytics).


4$
By

1. Research Online, Purchase Offline.


2. Social, Local, Mobile.
3. Le nom scientifique tant taxonomie.
4. La picture prospective : quand la photo alimente la data , webzine Influencia, 20 octobre 2014.
5. IDC MarkessInt 2015.
6. Par exemple pour la rgression logistique dans lassurance : sur une variable de type type_contrat_souscrit = 1,2, 3
ou 4 , il sera ncessaire de la transformer en 4 variables binaires type_contrat_souscrit = 1 ? ,
type_contrat_souscrit = 2 ?
7. Data Wars, les 7 tendances data & marketing pour 2016 , interview consacre au webzine Petitweb.fr, 21 dcembre
2015.
8. Personne fictive qui reprsente un segment de client cible. Gnralement une fiche est ddie chaque persona
comportant un certain nombre dattributs caractristiques de la cible et une user story .
9. lots regroups pour lInformation statistique mis en place par lInsee pour faciliter le regroupement, soit un dcoupage
du territoire en mailles de tailles homognes.
10. Certains juristes parlent aussi de donnes directement identifiantes vs indirectement identifiantes .
11. Identifiant unique associ un terminal mobile permettant la reconnaissance anonyme dun utilisateur. Selon le
systme dexploitation du terminal, on parlera dIDFA (IOS) ou dAdvertising Id (Android).
12. Est considre comme le responsable du traitement la personne physique ou morale qui dtermine les finalits et les
moyens de toute opration (collecte, enregistrement, modification...), applique des donnes caractre personnel. Il
sagit gnralement du reprsentant lgal de lorganisme pour lequel le traitement est effectu.
13. Infographie IBM The four Vs of Big Data .
14. Le trillion est un trs grand nombre. Un trillion de secondes = 31 546 annes !
15. Qualit des donnes en 2015 : vos donnes sont-elles suffisamment fiables pour tre transformes en insights ?, livre
blanc Experian, 2015.
16. Les entreprises franaises estiment que 23 % de leurs donnes sont inexactes selon ltude Experian, op. cit.
17. Infographie the four Vs of Big Data , op. cit.
18. Qualit des donnes en 2015 : vos donnes sont-elles suffisamment fiables pour tre transformes en insights ? op.
cit.
19. Clmentine Fournier, Comment bien collecter la donne , Artefact, 3 juillet 2015.
20. Ce cas dusage de la donne fera lobjet du chapitre 8 consacr la publicit programmatique.
21. Anglicisme courant quon pourrait traduire par projets pilots par la donne .
22. Plus globalement, ce terme fait aussi rfrence la vitesse croissante laquelle les donnes sont cres, mises
jour et analyses.
23. Ne pas avoir la bonne info au bon moment cote trs cher aux entreprises , usine-digitale.fr, dcembre 2015.

|
|\/
$!
4$
By
CHAPITRE

2
Bote outils pour passer de datas parpilles
des donnes centralises

lissue de laudit des donnes prsent dans le chapitre prcdent, une des trois
situations suivantes se prsentera ncessairement :
situation 1 : vos donnes sont de mauvaise qualit et vous devez mettre en uvre un
grand plan de nettoyage1. Approfondissez les pistes prsentes au chapitre prcdent
et lisez les quelques techniques de nettoyage de donnes qui seront indiques au
dbut du chapitre 4 ;
situation 2 : vos donnes sont de qualit, relies et accessibles. Bref, vous tes mature
|
|\/
sur le sujet et lenjeu pour vous est dsormais de trouver les bonnes analyses et les
$!

bons cas dusages. Bondissez aux parties B et C ;


4$

situation 3 : vos bases de donnes sont spares et vous devez mettre en uvre un
By

plan dunification. Cest la situation la plus courante et lobjet de ce chapitre qui


prsente les meilleures pratiques pour rapatrier ses donnes dans un Rfrentiel Client
Unique (RCU).
Collecte, stockage, identifiants uniques : le chapitre est assez technique et ardu, mais
ncessaire pour bien comprendre les principales mcaniques sous-jacentes aux outils du
data marketing. Accrochez bien votre ceinture, le grand voyage au cur de la technique
commence !

RAPATRIER SES DONNES : APERU DES PRINCIPALES MTHODES


DE COLLECTE DE DONNES ET DE TRACKING

Une fois les donnes cls identifies, il reste les collecter. Bien quelles soient souvent
entre les mains des dveloppeurs, il est indispensable lheure du data marketing que
chacun comprenne dans les grandes lignes les principales mthodes de collecte de
donnes2.

Le cookie, cl de vote de la collecte de donnes web


Bien que controvers3, le cookie est la star inconteste du tracking comportemental des
internautes. Concrtement, un cookie est un petit fichier texte (4 ko maximum) comportant
jusqu six attributs :
le nom, appel aussi parfois identifiant , valeur ou paire nom/valeur . Il sagit
ici dune valeur alphanumrique qui permet didentifier de manire unique un cookie, par
exemple A1B2C3 ;
le domaine : il sagit du propritaire du cookie (appel aussi parfois metteur ),
par exemple cdiscount.com ;
la date dexpiration : thoriquement limite treize mois aprs la cration du cookie ;
le chemin : il sagit des URL pour lesquels le cookie est valable. Le plus souvent cet
attribut est renseign par / , le cookie sera alors valable sur toutes les URL du
domaine ;
le flag de scurit : cet attribut boolen pouvant prendre les valeurs TRUE ou FALSE
dfinit si le cookie est valable sur une URL non scurise ou bien si lURL doit tre
scurise (https) ;
un commentaire : lmetteur du cookie peut prciser dans ce champ lutilisation qui sera
faite du cookie.
Seuls le nom et le domaine sont des attributs obligatoires, tous les autres sont optionnels.
|
Une fois la structure dun cookie clarifie4, intressons-nous maintenant la cinmatique
|\/
$!

autour du cookie. Comment et o est-il pos ? Comment permet-il la personnalisation dun


4$

site web ou dune publicit ?


By

La mcanique est simple et repose sur le protocole de communication http qui rgit les
changes entre un navigateur web (appel parfois client http ) et un serveur http. Le
cookie nest en effet rien dautre quun paramtre transmis en tte de ces changes.
Considrons le cas banal dun internaute qui se rend sur un site internet, par exemple
lemonde.fr. Le navigateur de linternaute (Chrome, Internet Explorer, Mozilla, Safari, etc.)
appelle le serveur http du site Lemonde pour afficher la page. Le serveur rpond au
navigateur avec le code de la page afficher et lui indique travers la fonction
setcookie() de stocker un cookie pour le domaine lemonde.fr5.

Figure 9 Pose dun cookie par le serveur lors de laffichage dune page

Supposons maintenant que linternaute a dj un cookie ABC appartenant au domaine


lemonde.fr sur son navigateur. Dans ce cas, lorsque le navigateur appelle le serveur via un
protocole http pour afficher la page, le navigateur va indiquer en tte de lappel la
prsence de ce cookie. Le serveur peut alors vrifier dans une base de donnes du
Monde dans laquelle est stock tout lhistorique de navigation du cookie ABC, quels sont
les centres dintrt de ABC et renvoyer au navigateur une page personnalise (exemple :
page ne comportant que des articles relatifs aux centres dintrt dtects, en lieu et
place des articles par dfaut). Cest galement ce procd qui permet un site e-
commerce dafficher le contenu du panier tel quil a t laiss lors de la dernire
connexion.

Figure 10 Personnalisation dune page web grce au cookie


|
Continuons explorer les coulisses du cookie. Lorsque le navigateur web reoit la page
|\/
afficher, son travail ne sarrte pas l. En effet, derrire une page web, se cachent de
$!
4$

nombreux autres serveurs http appeler, car tout le contenu de la page nest pas
hberg par le serveur du site :
By

de nombreux sites font ainsi appel des Content Delivery Network (CDN),
prestataires louant des serveurs locaux sur lesquels sont stockes les images dun site
web, afin de rduire le temps de chargement. Le navigateur doit donc appeler le
serveur du CDN, qui peut alors poser un cookie ;
la page contient des images de taille un pixel (donc invisibles lil nu) appartenant
des prestataires tels que des rgies publicitaires. Ces pixels forcent le navigateur
appeler le serveur dacteurs publicitaires, par exemple Criteo. Grce cet appel http
du navigateur, Criteo peut enrichir la connaissance quil a sur le cookie transmis en tte
ou bien dposer un cookie dans sa rponse si aucun cookie na t transmis dans
lappel.
Il suffit dinstaller un plug-in navigateur comme Ghostery pour se rendre compte de
limportance de ce phnomne ! (et aussi bloquer cette mcanique grce des
possibilits de blacklisting). Par dfaut, un navigateur comme Safari ne stocke pas les
cookies appartenant des domaines autres que celui du site visit.
Et lhistoire ne sarrte pas l ! En effet dans sa rponse, Criteo pour reprendre cet
exemple peut aussi demander au navigateur dappeler un autre serveur ami qui
naurait pas la chance dtre prsent sur le site afin que celui-ci puisse aussi dposer un
cookie. Cette partie de ping-pong informatique porte le doux nom de piggybacking
(signifiant littralement porter quelquun califourchon ). Il sagit dun procd
fondamental dans lindustrie publicitaire qui permet notamment deux acteurs de
construire une table de matching entre leurs cookies et donc par la suite de senvoyer des
audiences de cookies.

|
|\/
$!

Figure 11 Pose dun cookie par un tiers


4$
By

Figure 12 Le piggybacking, cl de vote de lcosystme publicitaire


COOKIE FIRST PARTY ET COOKIE THIRD PARTY

Si lmetteur du cookie est le domaine tel quindiqu dans la barre dadresse du navigateur, on parlera de cookie first party.
Cette typologie de cookie est utilise pour amliorer lexprience utilisateur en se souvenant de son historique, la
manire dun marque-page . La prsence de ces cookies sur le navigateur permet, par exemple, un site de
conserver en mmoire le panier cr par linternaute lors de sa prcdente connexion ou de personnaliser la page
daccueil avec les derniers produits consults. Les supprimer peut donc tre dommageable pour linternaute.
Si lmetteur du cookie est un autre domaine que le site visit, on parle alors de cookie third party. Lobjectif est ici tout
autre : reconstituer le parcours web de linternaute cross sites , offrant ainsi une connaissance approfondie de ses
habitudes de navigation et centres dintrt du moment. Ce type de cookie est notamment utilis des fins publicitaires.

Le Tag Management System (TMS), plus quun simple utilitaire


Nous avons vu dans le paragraphe prcdent ce qutait un pixel et son rle primordial
dans la pose dun cookie. En ralit, le pixel image nest quun cas particulier de ce quon
appelle un tag de tracking , petit bout de code qui force le navigateur appeler un
serveur un moment prcis. Le tag est le moyen technique le plus communment utilis
pour collecter des donnes de navigation, le principe gnral tant de suivre la ralisation
de certains vnements (visite dune page, tlchargement dun livre blanc, conversion).
peu prs tous les outils webmarketing (remarketing Adwords connu sous labrviation
RLSA , chat live, conversion Facebook, solutions de test AB, etc.) vont demander la
pose dun ou de plusieurs tags pour assurer leur service.
|
|\/
$!

Face cette prolifration de balises sont ns il y a quelques annes les TMS6, Tag
4$

Management Systems, dont le principe est de fournir aux marketeurs un outil de gestion
centralis permettant dajouter, modifier, supprimer nimporte quel tag travers une
By

interface web intuitive. Mais surtout les TMS grent dynamiquement la pose des
balises laide dun moteur de rgles (cf. encadr ci-aprs) optimisant ainsi
considrablement la maintenance du parc de tags et le temps de chargement des pages.

GESTION DYNAMIQUE DES TAGS PAR UN TMS EN 5 TAPES

1. Insrez sur toutes les pages du site le bout de code fourni par le TMS. Ce fragment de code va jouer le rle de
container pour tous les autres tags : cest un master tag.
2. Renseignez toutes les balises de tracking dans le TMS.
3. Dfinissez des priorits dans lordre dexcution des balises.
4. tablissez pour chaque balise des rgles pilotant linsertion dynamique dans les containers. Par exemple, vous
pourriez souhaiter dclencher une balise de tracking uniquement sur les pages de remerciement, sur les pages dont
lURL contient lorigine adwords ou bien encore seulement si le formulaire a t rempli au moins moiti. Plus
gnriquement, une rgle sarticule autour dune variable (lie aux pages, aux clics, aux formulaires, lappareil, etc.),
dun oprateur logique (gal, diffrent de, contient) et dune valeur cible.
5. chaque vnement, le TMS va valuer la condition, cest--dire comparer ce qui a t configur la situation en
cours. Cela est effectu de manire asynchrone (i.e chargement en parallle du contenu et des tags).

Aujourdhui, les TMS ont dpass ce rle dutilitaire dans la gestion des tags et simposent
de plus en plus comme la colonne vertbrale de la gestion des donnes qui remontent du
site, en mettant en place ce quon appelle un datalayer. Concrtement le datalayer est un
tableau de variables qui structure la donne autour de chaque vnement, par
exemple en dcrivant la catgorie de la page, le style du produit7, la mthode de
paiement, etc. chaque vnement traqu , ces donnes structures viennent
alimenter le TMS et les applications tierces connectes (outils danalyse, rgies
publicitaires, DMP).

L API , trois lettres et tellement de possibilits


Elles sont mises contribution dans tous les projets data marketing et vous avez sans
doute entendu ces trois lettres de nombreuses reprises. Mais de quoi sagit-il au juste ?
Abrviation de Application Programming Interfaces , les API sont donc des interfaces
de programmation. Ce qui signifie quelles permettent deux logiciels de
communiquer entre eux, de sinterconnecter. Le principe des API existe depuis
longtemps, mais elles taient jusqu il y a quelques annes conues pour une utilisation
bien prcise dtermine lavance. Dornavant, les API souvrent , partageant des
ressources sans connatre lusage qui va en tre fait. Par exemple, travers une API
ddie, Google Maps permet de nombreuses applications dutiliser son service de
cartographie. Ainsi le service de proximit Yelp discute avec Google Maps pour
afficher les restaurants du quartier sur une carte. Parfois, seules des donnes sont
changes : cest par exemple le cas de lAPI SNCF qui donne accs en libre-service aux
|
|\/
horaires des trains en temps rel, autrement dit ouvre au monde extrieur une petite
$!

passerelle vers son systme dinformation.


4$

En data marketing les API sont trs utilises et permettent aux diteurs de solutions de
By

sinterfacer avec les diffrents flux dinformations existants. Par exemple, une application
de couponing va interroger par API lERP (Enterprise Resource Planning)8 du client afin
de rcuprer les achats pour lesquels un coupon a t scann. Cest un procd de
collecte qui prsente en effet de nombreux avantages par rapport au transfert de fichiers
CSV9 traditionnel :
industrialisation et automatisation des changes de donnes ;
normalisation des changes : les changes doivent respecter un certain protocole
(forme des requtes, format des rponses, etc.). Les donnes sont ainsi le plus
souvent transmises sous forme dobjets JSON10, plus rarement XML11;
simplicit des changes : grce des mthodes de type REST, POST ou DELETE, il
est facile daccder et de manipuler la donne, aussi simplement quun site web
saffiche quand vous tapez lURL dans votre navigateur !
rapidit : une API bien faite est gnralement prise en main par un dveloppeur en
moins dun quart dheure !
fiabilit des changes : le fournisseur de donnes garde un contrle sur les acteurs qui y
accdent (qui, quand, comment, combien de fois).

Bon savoir
Derrire chaque interface logicielle se cachent des API qui permettent distance de raliser les mmes
oprations que celles effectues manuellement en se connectant linterface. LAPI peut ainsi tre vue
comme une interface logicielle pour informaticiens !

COMMENT STOCKER LA DONNE AINSI COLLECTE ?

Ces donnes, pour tre exploitables, doivent tre centralises, et donc hberges dans
une base de donnes. ce stade deux philosophies coexistent : la philosophie ETL, qui
structure la donne avant de la stocker ( Extract-Transform-Load , on parle aussi de
modlisation lcriture ), et la philosophie ELT, qui stocke la donne brute avant de la
structurer selon les besoins danalyse ( Extract-Load-Transform , on parle aussi
dinterprtation lecture ). Bien quanecdotique premire vue, cette diffrence de
dmarche permet dintroduire quelques-unes des principales diffrences entre une
architecture SI conventionnelle et une architecture Big Data ! De faon plus pragmatique,
comprendre ces deux philosophies permettra aussi de mieux apprhender certains
buzzwords auxquels une direction marketing ou un comit de direction pourrait tre
confront dans le cadre dun projet data marketing denvergure.

Structurer la donne avant de la stocker : la faon traditionnelle de procder


Cette approche est caractristique des bases de donnes (BDD) relationnelles en
|
|\/
Structured Query Language (SQL12), langage dont le principe sous-jacent est de
$!

structurer la donne collecte dans des tables denregistrements au schma fixe et


4$

explicit, qui peuvent avoir des relations entre elles par le biais dun ou plusieurs
By

identifiant(s) pivot(s). Typiquement pour un annonceur, la base de donnes va par


exemple sarticuler autour :
dune table des profils : profil_id, prnom, nom, date_naissance
dune table des produits : product_id, product_name, product_categorie, prix
dune table de transactions : profil_id, product_id, date, heure
Il est ainsi ais daccder avec une requte lensemble des achats pour un utilisateur
donn ou bien la liste de tous les consommateurs ayant dpens plus de 1 000 depuis
24 mois. De plus, lors des enregistrements en tables, ceux-ci sont soumis aux contraintes
ACID (Atomicit Cohrence Isolation Durabilit), ce qui signifie quun enregistrement
incomplet ou incorrect ne sera pas enregistr en base. Par exemple impossible davoir un
double dbit de sa carte bancaire en SQL si le transaction_id est dfini comme cl
primaire.
Si concrtement toutes ces bases de donnes sont entreposes dans des serveurs
localiss dans un ou plusieurs datacenters, on distingue gnralement trois types de
bases de donnes selon la vitesse dcriture et la puissance de calcul ncessaires pour
rpondre aux requtes des utilisateurs:
les bases de donnes oprationnelles, bases chaudes absorbant un flux continu
et rgulier de donnes ;
les bases de donnes dcisionnelles, bases froides stockant ad vitam ternam
la donne et dlestant les bases de donnes oprationnelles. Ce sont les fameux
entrepts de donnes ou datawarehouses ;
les datamarts, sous ensemble de lentrept de donnes, conues pour rpondre aux
besoins prcis dun groupe particulier dutilisateurs au sein de lentreprise : le
marketing, le RH, etc.

Bon savoir
La cartographie des diffrentes bases de donnes, des donnes qui y sont contenues, des outils qui
dversent dans ces bases et des ponts existants entre chaque base est un livrable classique dun audit de
donnes.

Cette dmarche historique est rde, fiable, parfaite pour des donnes structures qui ne
dpassent pas 100 Go (quelques millions de lignes par BDD), pour des calculs de
complexit moyenne et une rapidit daccs aux donnes qui tolre des longueurs .

|
|\/
$!
4$
By

Figure 13 Schma simplifi dune architecture SI conventionnelle

Stocker la donne brute : plongeon dans le lac de donnes


Toutefois comme tudi au chapitre prcdent, les donnes modernes sont de plus en
plus souvent non structures (images, commentaires), de formats divers, de qualits
variables et exigent frquemment un traitement en temps rel. Cest pourquoi les gants
du Web ont les premiers chang la rigidit des entrepts de donnes pour la flexibilit
des lacs de donnes , en anglais datalake . Par opposition au datawarehouse, le
datalake est une plateforme permettant de stocker la donne sans avoir rflchi en
amont sa structuration (on y rflchira lors des analyses de donnes). Accueil de
donnes extrmement htrognes (capteurs offline, rseaux sociaux), ingestion des
flux en temps rel et possibilit de raliser du datamining pouss sont les principaux
avantages de cette dmarche.
En revanche, dun point de vue technique, quel chamboulement ! La souplesse du datalake
ncessite en effet de sappuyer sur des bases de donnes Not Only SQL (NoSQL)
qui scartent du paradigme classique des bases relationnelles.
Labsence de structuration facilite la collecte et le stockage des donnes, en revanche elle
implique des compromis avec les contraintes ACID et fragilise lintgrit de la base. La
faon dont sont abords ces compromis est une des sources de diffrenciation des
principales solutions du march qui peuvent tre regroupes en quatre familles :
bases cl/valeur : comme son nom lindique, la base stocke des couples {cl/valeur}
et les requtes se font uniquement sur les cls. Forme la plus simple des bases
NoSQL, elles sont idales pour grer des millions dentres (telles que des logs de
campagnes mdia) et assurent de bonnes performances en lecture/criture.
Exemple : Redis.

bases documents : il sagit dune gnralisation des bases cl/valeur puisque ici la
valeur consiste en un document contenant lui mme des paires cl/valeur !
Exemple : MongoDB.

bases orientes colonnes : ces bases stockent les diffrentes colonnes de la table
dans des fichiers distincts, permettant simultanment de rduire le volume de donnes
|
traiter et doptimiser les temps de requtes et la vitesse de calcul (pas de parsing de
|\/
$!

ligne, pas de slection, etc.)


4$

Exemple : HBase (Hadoop), Cassandra.


By

bases de type graphe : ces bases sappuient sur la thorie des graphes et respectent
donc les notions de noeuds et de voisins . Elles sont particulirement adaptes
lorsquil sagit dexploiter les relations entre donnes (rseaux sociaux, moteurs de
recommandation).
Exemple : Neo4j.

SQL vs NoSQL : larbre qui cache la fort


lheure du Big Data, le dbat SQL vs NoSQL est si courant dans la littrature quil est
facile de sen tenir des conclusions htives ringardisant le SQL au profit du NoSQL
mieux adapt aux grosses volumtries . La ralit est plus nuance. Au-del de la
dichotomie bases structures/bases non structures, deux autres paradigmes sont en
effet cls pour rpondre aux dfis du Big Data : la mise en rseau des machines
(clusters) et le morcellement des traitements (calculs distribus).
Il y a encore quelques annes, lorsque les donnes devenaient volumineuses ou
complexes traiter, il suffisait dacheter une machine deux ou trois fois plus puissante.
Aujourdhui, au vu de la volumtrie et de la complexit croissante des donnes, il faudrait
une machine un million de fois plus puissante, changement dchelle bien sr impossible !
La solution ce dfi technologique a donc consist clater les donnes sur plusieurs
machines et synchroniser les machines entre elles : certaines organisent et
rpartissent les tches (les schedulers ou nuds masters ), dautres ralisent les
tches prcises qui leur sont assignes et dont elles doivent sacquitter et rendre compte
(les workers ou nuds esclaves ), dautres enfin rassemblent les sous-rsultats pour
former le rsultat final13. Lensemble forme une architecture beaucoup plus rapide (de la
mme manire quil est plus rapide de ranger son garage plusieurs, chacun tant en
charge dune partie du travail) et scalable (en cas de monte en charge, il suffit dajouter
une machine au cluster), mme si cette dmarche soulve galement de nouveaux
problmes, certains calculs tant intrinsquement peu distribuables.
Travailler sur plusieurs serveurs conjointement et distribuer un calcul forment le socle du
Big Data et sont des mcanismes pouvant sappliquer aussi bien des bases structures
que non structures. Et mme sil est vrai que les bases NoSQL sont de manire gnrale
mieux adaptes ces nouvelles faons de traiter la donne, il ne sagit pas dune
caractristique intrinsque : titre dexemple, la solution Google BigQuery est un systme
de gestion de donnes structures capable de grer des centaines de milliards de lignes
en calcul distribu hyper optimis, rapide et scalable tandis que Neo4j est une base
NoSQL qui noffre pas une bonne scalabilit horizontale car les mcanismes de
synchronisation des critures sur des graphes ncessitent des oprations complexes.
|
|\/
$!

Bon savoir
4$

Les deux types de bases peuvent par ailleurs trs bien cohabiter au sein dun mme logiciel. Par exemple,
des donnes sensibles bien identifies pourront tre stockes dans une base de donnes relationnelle
By

tandis que les donnes dont la structure change avec le temps seront mieux exploites au sein dune base
NoSQL.

AGRGER LES DONNES AUTOUR DUN IDENTIFIANT UNIQUE

Une fois les donnes collectes et stockes, le grand dfi est de pouvoir rconcilier les
donnes entre elles. Comme lgamment racont par Experian14 lors dun colloque sur le
data marketing, le marketeur moderne souffre dune crise didentit non pas une crise
avec sa propre identit, mais une crise avec lidentit dun consommateur multicanal qui
narrte pas de changer de device15 et didentifiant. Le mme individu peut en effet
recevoir un coupon papier son domicile, aller sinformer sur Internet depuis son mobile,
partir tester anonymement le produit en magasin et enfin lacheter sur le site e-commerce
avec sa tablette. Quil sagisse daffiner son modle dattribution, de mieux estimer la
pression marketing ou encore de crer une exprience client unifie sans rupture de
canal, reconnatre un consommateur sur lensemble de ses devices et agrger les
donnes autour dun identifiant unique est aujourdhui au cur du data marketing.

Un grand nombre didentifiants se rapportent un mme utilisateur


Comment identifier un client tout au long de sa relation avec la marque ? La complexit de
cette question provient du fait que chaque point de contact est rgi par un identifiant
diffrent.
Sur Internet, le cookie est roi. Plus rarement linternaute navigue logu , lidentifiant est
alors gnralement un e-mail. Ladresse IP (internet protocol) qui permet de localiser la
zone gographique de rsidence pourrait galement tre utilise, mais est considre
comme une donne personnelle et donc soumis un cadre rglementaire plus
contraignant. De plus, elle nest pas ncessairement statique, certains fournisseurs
daccs internet pouvant attribuer leurs abonns une adresse IP dynamique.
En cas de navigation mobile, deux configurations sont distinguer : navigation sur des
sites web mobiles ou au sein dapplications mobiles. Dans le premier cas, lutilisation dun
cookie mobile est possible. En revanche, le cookie nest pas compatible avec les
applications mobiles. Lors de la navigation au sein dapplications mobiles, lidentifiant
utilis est alors le device Id, plus prcisment lAdvertising Id dans le monde Google et
lIDFA (Identifiers for Advertizer) dans lunivers Apple. Ces deux identifiants sont trs
fiables, dune part car les utilisateurs qui modifient leur device Id sont rares16 et dautre
part car le device Id est indpendant du navigateur utilis contrairement aux cookies.
En marketing direct, un client sera gnralement identifi par son identit, son adresse,
son e-mail et son numro de tlphone. Ces identifiants peuvent tre dclaratifs ou
|
vrifis par lenvoi dun e-mail/SMS de confirmation ou code confidentiel par voie postale.
|\/
$!

Par exemple, les sites de paris sportifs possdent une mine dor de donnes sur leurs
4$

clients dans la mesure o lidentit a t vrifie par lenvoi des papiers officiels et
ladresse vrifie par un code coupon.
By

En magasin enfin, plusieurs mthodes ont t dployes par les retailers pour reconnatre
les visiteurs. La faon historique de procder est didentifier le client lors du passage en
caisse grce sa carte de fidlit. Lidentifiant collect est alors gnralement un e-mail.
Avec lessor du mobile, de nouvelles possibilits de tracking sont apparues : un rseau
Wifi peut par exemple reconnatre de faon anonyme un tlphone identifi de faon
unique par sa Mac address (Media Access Control Address) tandis que des balises
Bluetooth sont galement un moyen dassocier un tlphone un identifiant unique et de
suivre son parcours dans le magasin ainsi que la frquence des visites. Nous reparlerons
plus en dtail au chapitre 10 dun cas particulier de ces capteurs en magasin : le beacon.
Pour une vue densemble, le schma ci-dessous positionne ces diffrents identifiants
selon deux axes : le type didentification (tracking passif ou action utilisateur) et lunicit de
lidentifiant. Exception faite des device id et adresses mac, la relation est linaire : plus
lidentification est forte, plus celle-ci doit tre linitiative de lutilisateur.
|
|\/
Figure 14 De multiples identifiants pour une seule identit
$!
4$

Relier des identifiants entre eux : tat de lart en 2016


By

Deux philosophies de rconciliation sont aujourdhui envisageables pour construire des


profils uniques par individus : lapproche dterministe et lapproche probabiliste.
Lcole dterministe : un sans-faute, mais un volume restreint

La mthode de rapprochement dterministe se fonde sur des cls de rconciliation


appeles aussi parfois donnes pivots . Il sagit gnralement de le-mail, mais un
numro de tlphone ou un numro de dossier peuvent aussi constituer de trs bonnes
cls de matching.
Lexemple typique est celui du log-in : si un individu avec un cookie A se logue sur le site
pour accder son espace personnel, le cookie A peut en effet tre associ ladresse
e-mail. Quand lindividu revient sur le site, il sera alors identifi de manire personnelle
mme en tant non logu (et les donnes CRM relatives son e-mail pourront par
exemple tre utilises pour personnaliser le site web). Si ensuite le mme individu se
logue dans lapplication mobile de la marque, une quivalence sera cre entre son
adresse mail et son device Id, et donc in fine entre son e-mail, son cookie et son IDFA. Et
ainsi de suite sur lensemble des devices.
Figure 15 Rconciliation dterministe des identifiants (mthode du pivot)

Lavantage de cette mthode est quelle est trs fiable. Linconvnient est que le taux de
rconciliation reste gnralement faible17, moins de sappeler Google ou Facebook qui
bnficient eux dune connexion quasi continue de leurs utilisateurs sur tous les devices.
charge donc pour la marque de multiplier les initiatives afin de rcuprer le-mail chaque
point de contact, par exemple dans le monde offline en mettant en place un portail WiFi en
magasin ou en quipant les vendeurs de tablettes. Dans lunivers online il sagira, par
|
|\/
exemple, de demander une identification pour accder un contenu forte valeur ajoute.
$!

Mais attention, cette demande permanente de connexion peut la longue fatiguer le


4$

consommateur, surtout si le processus nest pas vraiment justifi ou souffre dune


By

exprience utilisateur mdiocre.


Lautre grand cas dusage de la rconciliation dterministe est la pose dun cookie lors de
louverture dun e-mail18. Lavantage est dtre compltement indolore dun point de
vue exprience client. Cependant deux freins techniques limitent l encore la capacit de
rconciliation : cette mthode ne fonctionne pas pour les individus qui ouvrent les e-mails
depuis leurs mobiles et ne fonctionne pas avec le fournisseur Gmail
Lcole probabiliste : une approximation, mais un plus gros volume

Pour viter de trop dpendre lavenir des gants du Web19 en matire de rconciliation
de donnes, certains acteurs raisonnent non plus en identifiants, mais en appareils et
tentent de rapprocher les diffrents devices dun individu de manire algorithmique.
Conceptuellement, un mobile et une tablette peuvent ainsi tre coupls avec un fort degr
de confiance si on observe que ces deux appareils se connectent au mme rseau et aux
mmes horaires plusieurs fois par semaine, avec qui plus est un comportement de
navigation proche. Ici pas de donnes personnelles, mais une approche purement
statistique base sur une batterie de signaux faibles tels que le systme dexploitation,
la langue de lappareil, le fuseau horaire, la golocalisation, ladresse IP, le navigateur
utilis, les paramtres de connexion, etc. Ce processus probabiliste porte le nom de
fingerprinting . Bien que moins prcise quune approche dterministe et plus complexe
mettre en uvre, cette mthode atteint des taux de rconciliation plus levs, est moins
intrusive pour le client et offre une alternative au monopole des gants du Web.
En guise dexemple, il est possible dutiliser cette approche pour attribuer le
tlchargement dune application mobile une publicit, comme expliqu sur le schma ci-
dessous. Cette faon de faire permet doutrepasser la zone dombre dans le tracking
que constitue lApple Store (puisque aucun tag de tracking nest accept par Apple).

|
|\/
$!
4$
By

Figure 16 Rconciliation probabiliste par fingerprinting

Un exemple concret de rconciliation : le CRM onboarding

Aprs Big Data en 2014 et Data Management Plateform20 en 2015, CRM


onboarding et data onboarding furent un des buzzwords de 2016. Cette pratique de
plus en plus en vogue chez les annonceurs consiste digitaliser sa base client offline
(gestion classique de la relation client : carte de fidlit, club dabonns, etc.). En
vulgarisant un peu le processus, il sagit de transformer un e-mail ou une adresse postale
en un identifiant digital, gnralement un cookie ou un ID mobile. Cet identifiant sera
ensuite activable et exploitable par les outils marketing online de lannonceur (DMP, outils
dachats publicitaires, moteur de personnalisation du site).
Cet engouement sexplique dune part par des perspectives marketing sduisantes.
Par exemple, pouvoir renouer contact via une bannire publicitaire personnalise avec des
clients dormants qui nouvrent plus leurs e-mails depuis des mois attire la sympathie de
plus dun responsable marketing. Exclure ses clients des campagnes digitales
dacquisition est galement un des cas dusages classiques rendus possibles par le CRM
onboarding.
Dautre part, contrairement dautres projets data, le CRM onboarding bnficie
dun mode opratoire relativement simple et souple. En pratique, trois faons
donboarder leurs donnes soffrent aux annonceurs pour briser les ponts entre monde
offline et monde online :
onboarder au fil de leau, des moments cls tels que le login ou louverture dun e-
mail ;
utiliser les services donboarding proposs par Google ou Facebook ;
transmettre sa base CRM un prestataire donboarding.
Lonboarding au fil de leau correspond en tout point la mthode du pivot
expose prcdemment : un cookie est associ un e-mail lors du login ou lors de
louverture dun e-mail. Bien que trs pratique, linconvnient majeur de cette mthode
rside dans les dlais assez longs pour cookifier une partie significative du CRM
(surtout si le trafic digital de lannonceur est limit ce qui est souvent le cas par exemple
des produits de grande consommation)
Pour les plus presss, les outils publicitaires de Facebook et Google offrent des
solutions faciles daccs. Facebook, par le biais de sa fonction custom audience
permet par exemple trs simplement de toucher ses clients offline sur le rseau social
ainsi que sur Instagram. Il suffit de charger une base e-mail (via par exemple un fichier
csv ou plusieurs fichiers si on souhaite diffrencier des segments de clients), Facebook
|
|\/
associe alors directement lId Facebook correspondant. Depuis peu Google Adwords
$!

offre une fonctionnalit trs similaire avec des taux de rconciliation entre 20 et 25 %.
4$

Enfin pour ceux qui ne souhaitent pas confier leurs donnes ces deux gants et activer
By

tout de mme rapidement leurs donnes offline sur leur rseau de diffusion habituel, ils
peuvent se tourner vers des spcialistes de lonboarding tels que le franais Temelio ou
lamricain LiveRamp21. Adosss un rseau de partenaires comprenant des e-mailers,
des sites ditoriaux ou des e-commerants (et donc aliments rgulirement en
identifiants digitaux), ces acteurs ont constitu dnormes bases de matching et se sont
coupls la plupart des outils de diffusions marketing (DSP, DMP). Il suffit alors pour
lannonceur de raliser un extrait de sa base clients (par exemple, les clients dormants), le
prestataire donboarding se charge de matcher cette base avec la sienne selon les cls
dappariement disponibles (gnralement le-mail, mais aussi le triptyque nom-prnom-
adresse ainsi que le tlphone). En pratique, il est raisonnable de sattendre un taux de
matching entre 20 et 40 %.

Bon savoir
Si le CRM onboarding permet dactiver online des contacts offline, il ne vient pas enrichir la base de
donnes propritaire, car lidentifiant digital est celui du prestataire.
Source : daprs larticle Onboarding : comment relier CRM et DMP de Sarah Lion, paru le 15 mars 2016 sur le blog
du cabinet Artefact.

Figure 17 Principe du CRM onboarding

RETENIR DE CE CHAPITRE
Les mcanismes de tracking utiliss ce jour entranent la situation courante suivante : une mme
personne a un cookie A sur son ordinateur, un IDFA B sur son mobile et un e-mail li son compte client !
Relier ces identifiants entre eux pour construire une vision unifie du consommateur est un des grands
dfis du data marketing.
ce jour deux approches prvalent : lapproche dterministe base sur une mthode du pivot entre les
identifiants et lapproche probabiliste tentant de relier diffrents devices un individu en coutant des
signaux faibles .
Tout un ensemble de prestataires sont apparus autour de cette thmatique, notamment les CRM
onboarders capables de retrouver sur le Web des clients issus de bases de donnes offline.
|
|\/
$!

vous de jouer
4$

Si vous ntes pas dj quip dun Tag Management System (TMS), lancez une
By

consultation tout de suite, il sagit vraiment dun outil structurant qui simplifie la vie du
marketeur digital !
Cartographiez vos donnes et les identifiants utiliss dans chaque base pour dceler des
possibilits de rconciliation dterministes.
Faites un premier Proof of Concept (POC) donboarding en utilisant la fonction custom
audience de Facebook. Il sagit dun quick win (succs rapide) classique.

SOURCES
Pour aller plus loin sur le Tag Management et la datalayer :
Google Tag Manager V2 : le guide francophone le plus complet, Bruno Guyot, mai 2015. Le crateur de lagence
Chablais web dtaille en quatre articles trs accessibles le fonctionnement de Google Tag Manager ;
Unlock the Data Layer: A Non-Developers Guide to Google Tag Manager, Dorcas Alexander, octobre 2013.
Concernant les choix darchitecture et les diffrences entre architecture IT conventionnelle et architecture Big Data, je
recommande la lecture de louvrage Les Bases de donnes NoSQL et le Big Data, Rudy Buchez, Eyrolles, 2015. Il
existe galement sur le web des ressources pertinentes :
Le datalake : outil incontournable dune stratgie data ? , fvrier 2016, Herv Mignot, Chief scientist officer au sein du
cabinet Equancy ;
Classification des systmes de stockage NoSQL , billet prsent sur le blog de la socit Sogilis spcialise en
dveloppement logiciel.
NoSQL : le choix difficile de la bonne base (et comment bien le faire) , Jack Vaughan, lemagit.fr
Comprendre les datalakes, livre blanc du cabinet Converteo, avril 2016.
Enfin pour approfondir vos connaissances sur le CRM onboarding, je ne peux que vous conseiller la lecture de ces deux
articles extrmement pdagogiques :
Onboarding : comment relier CRM et DMP , Sarah Lion, mars 2016, accessible sur le blog du cabinet Artefact et
do est tire la figure 17 ;
CRM Onboarding : enfin la rconciliation des donnes offline/online ? , Caroline Verwaerde, accessible sur le blog
du cabinet Converteo.

1. On parle dans le jargon de DQM pour Data Quality Management.


2. En dehors de la collecte dclarative e-mail en points de vente, formulaires sur un site web, enqutes de satisfaction,
etc. qui ne seront pas dtaills ici.
3. Unicit relative, dure de vie de plus en plus faible, respect de la vie prive
4. En particulier un cookie ne contient aucune information personnelle, ne peut pas lire des informations dans
lordinateur et autres ides reues du mme acabit !
5. Ce stockage par le navigateur se fait soit dans le disque dur, soit dans la mmoire RAM (pour lattribut date dexpiration
renseign 0). Le navigateur ne peut pas stocker plus de 20 cookies par domaine et un total de 300 cookies.
6. Les principaux sont Google Tag Manager, Tag Commander et Tealium.
7. Renseigner dans le datalayer le style des produits permet, par exemple, dassocier simplement un style de prdilection
un visiteur donn.
8. Un ERP, en franais PGI pour Progiciel de Gestion Intgr, est un systme dinformation qui permet de grer et suivre
|
|\/
au quotidien lensemble des informations et des services oprationnels dune entreprise. Les principaux diteurs sont
$!

SAP, Cegid, Cylande, etc.


4$

9. Comma separated value, format informatique trs utilis pour changer des donnes. Concrtement il sagit dun
simple fichier texte ouvrable dans le bloc-notes et dans lequel les champs sont spars par un dlimiteur spcifique
(virgule ou point-virgule, parfois tabulation selon la convention). De la data brute de chez brut !
By

10. Java Script Object Notation, format lger dchanges de donnes.


11. eXtensible Markup Language, langage informatique trs commun mais assez lourd manipuler du fait dun grand
nombre de balises.
12. Langage informatique permettant dexcuter des requtes dans une base de donnes structure. Par extension SQL
dsigne les bases de donnes adaptes au langage SQL (bases de donnes relationnelles).
13. Pour rendre cette dmarche possible, un nouvel cosystme logiciel a t cr, tel que le framework de calcul
distribu Spark ou les langages Hive et Pig (qui rendent le framework utilisable par un humain).
14. Acteur mondial dans le traitement de la donne.
15. Anglicisme dsignant le terminal de connexion : ordinateur, tlphone mobile, tablette
16. 18 % daprs une rcente tude de la socit Adjust spcialise dans le tracking mobile.
17. Empiriquement entre 10 et 30 %.
18. Un pixel est dpos dans une image de le-mail, voir dbut du chapitre sur la cinmatique de cookification.
19. Dsign aussi parfois par labrviation GAFA pour Google, Apple, Facebook, Amazon.
20. Nous tudierons la DMP plus en dtail au chapitre suivant.
21. Rachet par Acxiom en 2014.
CHAPITRE

3
CRM et DMP : deux outils cls pour dompter la
multitude de donnes

Aprs avoir tudi les grands principes de collecte, de stockage et de rconciliation des
donnes, passons dsormais la pratique avec deux outils qui cristallisent lattention des
directions marketing et des budgets martech1 : le CRM (Customer Relationship
Management) et la DMP (Data Management Platform). Deux arbres qui cachent une fort
dappellations et de variantes aussi diffrentes que CRM 360, datamart client, rfrentiel
unique client (RCU), DMP marketing, DMP connecteurs, DMP mdia
Leffervescence saccompagne ds lors dune fantastique confusion, entretenue dessein
|
|\/
ou non2 par les nombreux diteurs du march qui en premire lecture semblent tous
$!

promettre le mme Eden : centraliser les donnes dans une base unique, amliorer la
4$

connaissance client et son ciblage, personnaliser les campagnes marketing et la relation


By

client Le tout conclu dun sentencieux toucher la bonne personne, au bon moment
avec le bon message , phrase vide aujourdhui de toute substance tant elle a t
utilise pour dcrire peu prs toutes les solutions marketing un tant soit peu data
driven !
Jai de nombreuses reprises pu constater combien certains professionnels du marketing
taient dboussols aprs avoir pass une journe entire dans un salon marketing
essuyer le mme discours chaque stand. Beaucoup mont racont revenir de ces
grands-messes du marketing digital avec plus de questions que de rponses, parmi
lesquelles :
Finalement quelle est la diffrence entre un CRM 360 et une data management
plateform ?
Jai dj trop doutils dans tous les sens comment articuler CRM, DMP, analytics,
voix du client ?
Ai-je vraiment besoin dune DMP ?
Selon quels critres au juste choisir ma plateforme de management de donnes ?
Autant de questions essentielles auxquelles nous tcherons de donner une rponse aussi
claire que possible dans ce chapitre !
LE CRM COLLECTE, STOCKE ET ACTIVE LES DONNES
PERSONNELLES DANS UNE OPTIQUE DE FIDLISATION

Comme souvent, pour bien apprhender le prsent, il faut comprendre le pass. Et en


matire de relation client, il est ncessaire de remonter assez loin puisque les premiers
CRM apparaissent vers la fin des annes 1980 ! Il sagit alors de softwares relativement
basiques dont le rle peut se rsumer centraliser les donnes personnelles des clients,
autour de trois grandes thmatiques : son identit (nom, prnom, adresse, numro de
tlphone, date de naissance, lieu de naissance), des lments descriptifs dordre
sociodmographiques (sexe, ge, profession) et enfin la raison pour laquelle cette
personne est cliente (gnralement un numro de contrat). Au final, cette base de
donnes joue plus le rle de mmoire que doutil marketing.
Ce nest quen 1995 quapparaissent le mot CRM et la philosophie associe de relation
client mais dans un contexte non pas de marketing, mais de centre dappels.

Un CRM peut en cacher un autre


L rside en effet toute la complexit du CRM : il en existe une multitude, quasiment un
pour chaque silo de lentreprise li la connaissance client !
|
|\/
Au milieu des annes 1990, le CRM se dploie ainsi vive allure dans les centres
$!

dappels et services clients : le principe est de crer une fiche client (identit-
4$

description-contrat) et dy stocker lhistorique des interactions avec le service client (ou


verbatim clients) afin de faciliter le travail de loprateur et dviter au client de rexprimer
By

sa situation chaque nouvel appel.


Suivant le mme principe de fiche client combin une gestion automatise des flux
dinformation (ou workflow), le dpartement des ventes quipe son tour la force
commerciale dun CRM tandis que le marketing enrichit sa connaissance client dun
historique dinteractions (envoi de catalogues, commandes). Chacun de ces CRM vit en
silo sans relle stratgie de connaissance client et les acteurs historiques tels que Siebel,
Sage, Salesforce ou Coheris rgnent en leaders sur ce march plein de promesses.
Larrive du digital au dbut des annes 2000 bouscule lordre tabli en faisant
exploser les canaux daccs et la volumtrie de contacts entre une marque et son
client. Les CRM historiques deviennent ds lors caduques, car souvent non dimensionns
pour absorber la cration automatique de plusieurs dizaines de milliers de comptes clients
la mme journe ou un flot de-mails ininterrompus vers le service client. Pour remplacer
ces systmes apparaissent ainsi successivement dautres types de CRM :
le-CRM commence associer un client identifi un historique de navigation ou du
moins certains lments saillants (paniers abandonns, remplissage formulaire) et
grer les e-mails sortants (via des solutions comme Eloqua ou Neolane) ;
le social mdia CRM collecte les verbatim clients. Ces derniers ne sont plus en effet
lapanage du service client et sont dsormais galement enregistrs au sein
dagrgateurs davis clients et sur les rseaux sociaux. Les spcialistes de le-mail
entrant (Akio, Eptica) investissent ce march, tandis que de nouveaux acteurs se
crent spcifiquement autour de ce besoin (Dimelo) ;
le mobile CRM centralise les donnes lies lutilisation de lapplication mobile de la
marque et permet dinteragir avec ses clients via des notifications push.
Au final, la plupart des entreprises se retrouvent aujourdhui avec une connaissance client
clate dans plthore de systmes CRM diffrents, captant chacun une partie des
donnes lies un client (donnes personnelles et historiques de commandes, donnes
lies la navigation web, donnes lies le-mail, donnes lies lapplication mobile,
donnes lies au service client, donnes sociales). Une consquence parmi dautres de ce
morcellement : plusieurs outils peuvent envoyer un e-mail au mme client, crant des
incohrences de smantique ( cher monsieur pour le CRM du service client, prnom
du client pour le-CRM), de process (un optout3 un outil non rpercut dans lautre outil
de campagne) ou de charte graphique !
Le constat est criant et chacun se demande comment faire communiquer toutes ces
donnes clients entre elles.
|
Du CRM au CRM 360 : le grand chantier de la connaissance client
|\/
$!

Centraliser toutes les donnes personnelles de ses clients ou prospects dans une base
4$

de donnes unique est prcisment le but dun CRM 360, dsign aussi parfois par le
terme RCU (rfrentiel client unique) ou datamart client, bien que ces dernires
By

appellations soient plus en lien avec le systme dinformation quavec le marketing4. Le


principe du CRM 360 est simple : il sagit de connecter toutes les sources de donnes
mentionnes prcdemment et dagrger de manire dterministe les diffrents attributs
de connaissance, partir des cls de rconciliation que sont gnralement le-mail et le
numro de tlphone.
Concrtement dans un CRM 360 sont ainsi associs chaque client plus dune centaine
dindicateurs, issus des diffrentes sources de donnes, et par facilit dassimilation
gnralement regroups autour des thmatiques suivantes5 :
identit : nom, prnom, adresse, e-mail, tlphone, date et lieu de naissance
description : sexe, ge, CSP, fumeur, nombre enfants
donnes transactionnelles : CA, nombre de commandes, nombre de produits
achets, (par anne et par canal)
comportement et cycle de vie : date premier/dernier achat, date dernire visite du
site, date dernire ouverture e-mail, score RFM6, a dj retourn un produit
prfrences : marque prfre, score dapptence aux catgories de loffre, canal de
contact privilgi, canal de commande privilgi, sensibilit la promo
statut : client VIP, optin et centre de prfrence7, score de satisfaction, score
dattrition
Grosse tuyauterie branche sur peu prs tous les points de contacts client, le CRM 360
est un outil indispensable pour animer sa relation client et fidliser le client, dans une
optique crosscanal. Le cas dusage type du CRM 360 est le-mail personnalis suite un
certain comportement sur le site8.
Dun point de vue architecture fonctionnelle, ce rfrentiel client unique peut soit tre
directement port par loutil de marketing 360 (Marketo, Selligent, Splio, Exact Target,
Eloqua,), soit part dans une base de donnes prestataire (Camp de Base, Publicis
ETO, Probance, Actito,) qui elle-mme viendra alors se connecter aux diffrents outils
de campagne.

Bon savoir
Quand on parle de CRM 360, on parle souvent de donnes structures, dun volume raisonnable (quelques
millions de lignes) et de mise jour de la base en diffre. Rien voir donc avec les caractristiques du Big
Data prsentes au chapitre 2. Data marketing et big data ne sont donc pas ncessairement synonymes !

Le schma ci-dessous rsume dans les grandes lignes le principe de fonctionnement dun
CRM 360. |
|\/
$!
4$
By

Figure 18 Le CRM 360 agrge les donnes personnelles issues de diffrentes sources et alimente les outils
de campagne marketing direct

LA DMP COLLECTE, STOCKE ET ACTIVE LES DONNES ANONYMES


DANS UNE OPTIQUE DACQUISITION

Contrairement au CRM 360 qui centralise les donnes personnelles, la Data Management
Platform gre des donnes anonymes, savoir principalement des cookies et dans une
moindre mesure des identifiants mobiles (pour rappel : IDFA dans lunivers Apple ;
Advertising Id dans lunivers Android).

Six sources de donnes alimentent la DMP en cookies


Les donnes de navigation sur les actifs digitaux de lannonceur (site e-commerce,
sites vnementiels) constituent la premire source dinformation commune
lensemble des DMP. Cette donne permet de crer des segments comportementaux trs
fins (exemple : les visiteurs qui ont abandonn le formulaire la troisime question) qui
seront valoriss de faon diffrencie dans lcosystme publicitaire.
Lautre foyer de donnes privilgi de la DMP correspond aux donnes issues des
campagnes mdia, savoir les impressions publicitaires auxquelles a t expos un
individu et les clics quil a ventuellement effectus sur ces impressions. Source de
nouveaux cookies (si la cration publicitaire comporte le pixel de la DMP, la DMP est en
effet capable de poser un cookie sur chaque individu expos la publicit9), les
campagnes mdia peuvent galement tre source de connaissance supplmentaire en se
basant sur les logs techniques gnrs au moment de laffichage de la publicit : heure et
jour daffichage, url du site, version du navigateur, etc. Bien retraites, ces donnes
mdias permettent trs vite la DMP den apprendre beaucoup sur les habitudes de
|
navigation et les prfrences de consommation (publicits sur lesquelles lindividu a cliqu,
|\/
vidos vues et dure de vision).
$!
4$

Bon savoir
By

La collecte de ces donnes mdia atteint rapidement le milliard de lignes et contrairement au CRM 360, il
est cette fois-ci ncessaire dutiliser une architecture Big Data pour traiter cette volumtrie.

Les campagnes marketing direct (e-mail, SMS) sont galement une source de cookies
privilgie pour la DMP. En effet, en ouvrant un e-mail, le pixel de la DMP se dclenche
lors du chargement des images et un cookie peut alors tre dpos sur le navigateur du
destinataire10. Dans le cadre de campagnes SMS, la cookification seffectue
gnralement lors du clic sur le lien de la campagne et larrive sur une landing page. Le
ciblage de ces campagnes (exemple : campagne adresse aux clients VIP) apporte quant
lui de linformation sur le cookie ainsi dpos.
Lonboarding du CRM via un prestataire type Temelio ou Liveramp (pour rappel,
prestataire qui dispose dune grosse base de matching e-mail-cookie) complte la
panoplie de sourcing en cookies partir des donnes first party.
Outre ces donnes propritaires, il est possible dans la plupart des DMP de complter la
base avec des donnes second party issues de partenaires business (par exemple,
cookifier les visiteurs de seloger.com ou de la rubrique Dmnagement dEDF
constitue un formidable axe dconomie pour un assureur, sachant que le dmnagement
est un facteur fort dans le changement dassureur), ainsi que des donnes third party
achetes des fournisseurs type Exelate ou Acxiom. Nous reviendrons plus prcisment
sur ces deux types de donnes dans le chapitre 8 consacr lachat mdia
programmatique.

Figure 19 Six sources de donnes alimentent la DMP en cookies

En cumulant lensemble de ces sources dans la DMP, il est possible damasser assez
|
|\/
rapidement plusieurs (dizaines de) millions de cookies, chacun dentre eux tant associ
$!

un petit ou trs grand nombre dvnements11 selon le nombre de fois que la DMP a
4$

crois ce cookie sur les diffrentes sources que nous venons dnumrer.
By

Comment organiser toute cette connaissance accumule et comment la transformer en


action constitue la suite des festivits !

Chaque minute, la DMP classe des milliers de cookies dans une vaste
arborescence : la taxonomie
la manire dune machine trier le courrier12, chaque fois quun nouveau cookie entre
dans son escarcelle ou que linformation sur un cookie dj en base est mise jour, la
DMP range ce cookie dans une immense arborescence connue sous le nom de
taxonomie13 . La logique de cette arborescence tout comme les rgles mtiers de
classification14 sont lapprciation de lannonceur, toutefois il est usuel de retrouver
peu de choses prs larborescence du site.

Bon savoir
La taxonomie doit tre maintenue jour et voluer : cest un travail dune grande rigueur, un peu technique
et vite chronophage. Si vous envisagez dinvestir dans une DMP, noubliez pas de prvoir une ressource
pour cette tche primordiale au cur du dispositif !

Pour un site de mobilier contemporain, la taxonomie pourrait par exemple sarticuler


autour des niveaux hirarchiques suivants :
Niveau 1 Sources : site, mdia, e-mail, CRM, second party ;
Niveau 2 Catgories : meuble, luminaire, dco, jardin ;
Niveau 3 Sous-catgories : appliques, lampadaires, lampes de bureaux ;
Niveau 4 Marques et designers : Artemide, Flos, Martinelli Luce ;
Niveau 5 Fiches produits : produit A, produit B ;
Niveau transverse Tunnel de commande : panier, livraison, paiement, page de
confirmation.

|
|\/
$!
4$

Figure 20 La taxonomie est au cur du fonctionnement dune DMP


By

Ainsi si un individu visite la fiche du produit Pipistrello et la page catgorie des appliques,
son cookie viendra peupler les chemins site luminaire lampes de bureaux Martinelli
Luce Pipistrello et Site luminaire appliques.

La raison dtre dune DMP est de crer des audiences


La promesse de la DMP est de pouvoir construire facilement et rapidement des
audiences rpondant des besoins trs spcifiques. Vous souhaitez :
retoucher par une publicit toutes les personnes qui ont abandonn leur panier dans les
quinze derniers jours ?
cibler par une campagne vido uniquement les hommes avec des enfants pour le
lancement dun nouveau produit ?
cibler parmi vos clients ceux qui sont en train de dmnager ?
Rien de plus simple avec une DMP ! Il suffit en effet dassembler comme il faut les
diffrents nuds de la taxonomie, laide des trois oprateurs logiques Ou , Et ,
Exclusion :
loprateur Ou permet dadditionner des audiences : par exemple laudience des
clients pourra tre dfinie partir du CRM onboard OU de la visite de la page de
confirmation de commande ;
loprateur Et construit lintersection de diffrentes audiences. Les clients qui
cherchent dmnager quivaut ainsi laudience croise des clients ET des
visiteurs de la page dmnagement ;
loprateur Exclusion dfinit une audience par ngation : exclure les clients
revient ainsi considrer uniquement une audience de prospects.
La DMP permet ainsi en quelques clics de construire ces segments et den quantifier le
volume (rien ne sert en effet de construire des audiences trop petites i.e. taille infrieure
quelques milliers de cookies).
Lexemple ci-dessous illustre partir de donnes third party la logique gnrale de
cration dun segment de jeunes parents vivant en France et non adeptes de la tendance
bio

Audience composition Total Reach : 900 000 ; Price: 1,2$ / CPM


INCLUDE Total included reach : 3 500 000
Segment 1 Reach : 330 000 000
|
OR New Parents 100 000 000
|\/
Interest > Parenting & Family >
$!

New Parents
4$

OR Babies & Kids 300 000 000


Interest > Shopping > Babies &
By

Kids

AND

Segment 2 Reach : 200 000 000

OR France 200 000 000


Geographic > IP based > Country
> Europe > France
EXCLUDE Total excluded reach : 900 000 000

OR Green Living 400 000 000


Interest > Lifestyles > Green Living

OR Healthy Living 500 000 000


Interest > Lifestyles > Healthy Living

Figure 21 Mcanisme de cration daudience dans une DMP

La figure peut sinterprter de la manire suivante :


Composition de laudience (include)
Laudience se compose :
de laddition des catgories (oprateur OR ) :
New parents : 100 millions de cookies dindividus nouvellement parents,
Babies & Kids : 300 millions de cookies dindividus ayant achet des produits
destins aux jeunes enfants,
soit un total aprs dduplication15 de 330 millions de cookies ;
Ces 330 millions de cookies sont croiss (oprateur AND ) avec les 200 millions de
cookies dindividus rsidant en France16 : 3,5 millions sont en commun et constituent
laudience de jeunes parents vivant en France.
Exclusion daudience (exclude)
Laudience exclue se compose de laddition des deux catgories :
Green living
Healthy living ,
soit 700 millions de cookies adeptes dun mode de vie sain et bio.
Il y a des cookies en commun entre les 3,5 millions cibls et les 700 millions exclues : au
final la taille totale de laudience dsire est de 900 000 cookies.
Une autre manire de crer une audience est de recourir au modle dit de look
alike . Au lieu de configurer la main les segments en assemblant des catgories de la
|
|\/
taxonomie, il sagit ici de chercher algorithmiquement parmi tous les cookies de la DMP
$!

ceux qui ressemblent le plus ses meilleurs clients. Le principe gnral est le suivant :
4$

cookification des clients (soit par un pixel sur la page de remerciement, soit par
By

onboarding) ;
enrichissement de ces cookies avec de la third party data, gnralement des donnes
sociodmographiques (sexe, ge, animal de compagnie), plus rarement un historique
de navigation ;
identification dun profil type dacheteur ;
recherche de profils similaires dans la base de cookies de la DMP et attribution
chaque cookie dun score de proximit et dune probabilit de conversion ;
classement des cookies par probabilit de conversion et cration de n tranches de
cookies (gnralement de 100 000 cookies) : la tranche 1 contient les 100 000
cookies les plus proches de la cible, la tranche n les 100 000 les plus loigns.
LA COURBE DE LIFT (OU DUPLIFT)

Si lintrt du look alike tombe sous le sens (dpenser le budget publicitaire sur les cookies qui ont le plus de probabilit de
convertir), derrire cette ide gnrale se cache une grande varit de mthodologies, allant de lalgorithme le plus
basique aux mthodes mathmatiques les plus perfectionnes !
Une bonne faon de comparer les diffrents modles est dobserver la courbe de (up)lift, qui indique pour les premires
tranches de 100 000 cookies le gain de conversion auquel on peut sattendre par rapport une tranche alatoire de 100
000 cookies. Dans le cadre dune stratgie dacquisition pure (i.e en ne sautorisant pas considrer des cookies ayant
dj visit le site), un modle de look alike offrira en gnral un rapport de conversion entre deux et cinq entre la premire
tranche et une tranche alatoire.

|
|\/
$!
4$
By

Figure 22 La courbe de (up)lift permet de mesurer la qualit dun modle look alike

et de les mettre disposition des outils dactivation


En dehors de faciliter la collecte de cookies (notamment partir des campagnes mdias
et de partenaires second party) et la cration daudiences trs spcifiques (via la
taxonomie ou un modle look alike), la troisime et dernire proposition de valeur dune
DMP consiste pouvoir transmettre ces audiences en un clic aux diffrents outils
marketing et publicitaires.
Si, par exemple, un annonceur souhaite exclure ses clients fidles des campagnes
dacquisition search (= liens sponsoriss la suite dune recherche dans Google) et
display (= bannires publicitaires durant la navigation), il suffit de crer en un clic une
audience de clients et de transmettre en un autre clic la liste des cookies concerns
Adwords, dune part, et loutil dachat mdia, dautre part. Ce simple cas dusage peut
faire conomiser jusqu 5 10 % du budget dacquisition mdia, ce qui suffit parfois
rentabiliser la DMP ! Dans la mme ide, accueillir de faon personnalise sur le site e-
commerce tous les visiteurs qui ont plus de 50 ans devient possible en envoyant cette
audience base sur le critre ge loutil de personnalisation du site web. Transfrer
une audience nest gnralement pas plus compliqu que slectionner laudience et choisir
la destination souhaite, comme indiqu dans la figure ci-dessous :
Campaign Details

Campaign name Audience


Amateur autos 53468: intentionnistes_autos

Vendor Selection

Vendor List

myGoogleAdwordsConfiguration

Figure 23 Principe gnral denvoi dune audience Adwords partir dune DMP

Lenvoi daudience en un clic aux outils dactivation est une fonctionnalit cl de la DMP. Il
existe pour cela deux manires de procder : lintgration pixel to server (P2S) et
lintgration server to server (S2S) .
|
Lintgration P2S signifie qu chaque fois que la DMP revoit un cookie du segment
|\/
transmettre, elle demande au navigateur une redirection vers le serveur du partenaire afin
$!

que celui-ci puisse poser son cookie. Au fil de leau, laudience se reconstruit chez le
4$

partenaire. Trs simple mettre en uvre, ce procd souffre tout de mme de


By

nombreuses limitations comme le besoin de revoir le cookie que lon souhaite envoyer
(pas de rtroactivit) ou le dlai ncessaire de reconstitution de laudience.
Lintgration S2S est plus avance : pas besoin de revoir le cookie, laudience de la
DMP est directement envoye telle quelle au partenaire. Plus souple, plus rapide, plus
fiable il sagit toutefois dune opration technique plus lourde qui demande la cration et
lentretien dune base de matching et seules les DMP majeures ont pu nouer ce type de
partenariats avec les outils dactivation mdia.

Pas une solution miracle : les limites de la DMP


Une grosse base de donnes et pis cest tout : cest sans doute dans ces termes que
sexprimerait la marionnette de Philippe Lucas17 des Guignols si elle devait donner son
avis sur le phnomne DMP ! En effet, malgr les cas dusages data driven qui
peuvent en dcouler, la DMP est avant tout une gigantesque base de donnes dont
lintelligence est limite , explique Paul Colas, un des plus grands spcialistes franais
de la DMP dans son article Enfin comprendre quoi sert une DMP , publi le 14 avril
2015 sur le blog du cabinet Artefact. Comprendre par l que si la DMP est trs
approprie pour automatiser et rationaliser les flux de collecte de donnes anonymes, les
plateformes de data management ne sont pas (encore) trs performantes en matire
danalyse de donnes. En particulier pour ceux qui souhaitent mener des analyses
volues18, il sera ncessaire dextraire les donnes (ou de les dverser dans un
datalake) pour les retraiter dans un logiciel de statistiques.
Lautre limite majeure des DMP ce jour est la gestion du canal mobile et du
crosscanal. Conues historiquement autour du cookie, les DMP sont naturellement moins
bien armes pour apprhender lunivers de la publicit mobile19. Elles peuvent bien sr
collecter lidentifiant mobile du mobinaute (pour rappel le device ID IDFA sur Apple,
Advertising Id sur Android) laide dun Software Development Kit (SDK) install dans
lapplication mobile, mais il reste difficile de rconcilier lidentifiant mobile dun individu avec
les cookies qui lui sont rattachs. Sans aller jusquau Graal de la rconciliation crosscanal,
grer les cookies des diffrents navigateurs sur lesquels surfent un internaute Chrome,
IE, Mozilla reprsente dailleurs dj un dfi part entire ! Bref, on est encore bien loin
du super identifiant unique , mme si cela risque dvoluer dans les annes venir, les
DMP tant de plus en plus nombreuses intgrer nativement ou par le biais de
partenariats des technologies de cross device.
Enfin le volume de cibles rellement actives par la DMP sera certainement plus
petit que ce qui aura t modlis en phase davant-vente. Tout dabord deux
vidences sont souvent oublies : |
|\/
20 % des Franais et 60 % de la population mondiale na pas accs Internet : la
$!

DMP ne pourra donc jamais atteindre ces potentiels clients par cookie ;
4$

un cookie a une dure de vie dpassant rarement 30 jours, souvent de quelques jours
peine : quand la DMP cite 40 millions de cookies en base pour un client, il y a en ralit
By

de grandes chances quune partie significative soit obsolte et inactivable.


Outre ces deux faits, des pertes sont invitables lors de la connexion de la DMP
lcosystme de lannonceur, en particulier :
la cookification du CRM est loin dtre intgrale, en gnral 20 50 %, avec une
cookification plus ou moins rapide selon la mthode employe (cf. chapitre prcdent,
paragraphe consacr au data onboarding). La DMP ne verra donc quune partie des
profils embass dans le CRM ;
il faut faire correspondre les cookies de la DMP avec les cookies des outils dachat
mdia publicitaire20 : cest le principe dit du cookie matching , abord au chapitre
prcdent dans le paragraphe concernant les cookies. Cest un point sur lequel il faut
tre particulirement attentif dans le choix de la DMP, certaines plateformes de data
management tant meilleures que dautres ce petit jeu-l.
Enfin, il est noter que les cookies third party des DMP ne sont pas toujours bien
accepts par tous les navigateurs, en particulier Safari, do une diffrence de volume21
prvoir entre le trafic indiqu par la DMP et celui indiqu par loutil de web-analyse.

Petite grille dvaluation pratique pour choisir sa DMP


Aprs avoir clarifi le rle, mais aussi les limites de la DMP, comment prsent choisir en
pratique sa DMP ? Sans tre un canevas immuable, les six critres dvaluation prsents
ci-dessous sont particulirement utiles pour challenger les diffrents diteurs de solution.
La faisabilit des cas dusages

Ce doit tre le critre de choix numro un. Cela prsuppose davoir imagin et prioris en
amont de lappel doffres un ensemble de cas dusages, ce qui malheureusement est
rarement fait avec la rigueur ncessaire. Pourtant seule la bonne matrise de ses quatre
ou cinq cas dusages cibles permet de poser les bonnes questions aux diffrents diteurs
et de les distinguer, par exemple :
quelle mthode est utilise pour lonboarding CRM et dans combien de temps pouvons-
nous esprer que nos clients dormants seront cookifis ?
pour quels types de clients votre modle de look alike est-il le plus adapt ? Quelle
est la taille minimale de lchantillon fournir pour pouvoir appliquer le modle ?
comment grez-vous les problmatiques de cookie matching avec les diffrents
prestataires avec lesquels vous travaillez ?
Lergonomie

Cest un critre de choix souvent sous-valu. Pourtant, pour tre utilis son plein
|
|\/
potentiel, un outil marketing doit tre user-friendly . Vitesse dexploration de la
$!

taxonomie, affichage temps rel du volume de cookies dans les nuds, logique de
4$

cration des rgles alimentant la taxonomie, simplicit modifier une audience, qualit du
reporting sont, parmi dautres, des lments importants comparer entre les diffrentes
By

plateformes. Cette exploration de lergonomie de la plateforme et notamment de la


fonctionnalit de transfert daudience en un clic peut galement avoir une autre vertu :
vrifier avec quels acteurs est connecte nativement la DMP et plus globalement
comment est intgre la DMP dans lcosystme mdia !
Le respect de la vie prive

La conformit aux principes de la CNIL est un critre de plus en plus important, dans un
contexte de durcissement des lois lchelle europenne. Deux points sont
particulirement examiner :
lopt-out : un internaute peut-il facilement sexclure de laffichage des bannires
publicitaires ? Cette exclusion est-elle automatiquement rpercute sur lensemble des
navigateurs ?
la non-rversibilit du processus danonymisation : il est ncessaire de sassurer qu
partir des cookies de la DMP, il nest pas possible de remonter aux coordonnes de
linternaute.
La qualit du support propos par lditeur

Voici un autre point ne pas ngliger. En effet, mettre en place une DMP engendre une
certaine complexit technique, du fait des nombreux flux normaliser et centraliser. Et
mme une fois en place et utilise au jour le jour, de nombreux soucis techniques ou
oprationnels vont venir gripper la belle mcanique de cration et denvoi daudiences.
Dans ce contexte, un support comptent en France peut, par exemple, apporter un vrai
plus par rapport un support aux USA (dcalage horaire, langue non native).
La roadmap

Bien que non crucial, ce point est important vrifier. Un projet DMP est un projet lourd
sur lequel un annonceur capitalise pendant des annes. Un diteur de solutions instable ou
dont lvolution de son produit DMP ne serait plus au cur de ses priorits est un risque
quil est prfrable de ne pas prendre.
Le cot

Enfin, last but not least , comme disent nos amis anglais, le cot, bien sr ! Mettre en
place une DMP constitue un budget consquent de lordre de quelques centaines de
milliers deuros par an (minimum 50 k de frais dinstallation puis une redevance logicielle
de quelques milliers deuros mensuels minimum, dpendant gnralement du volume de
cookies activs par la DMP et de lachat de donnes tierces), sans compter plusieurs
mois dinvestissement humain. De fait, il est primordial destimer en amont le ROI attendu.
La mthode la plus rigoureuse est de se concentrer sur les quatre ou cinq cas dusages
|
|\/
phares qui seront mis en place grce la DMP et de raliser une analyse de sensibilit
$!

du ROI de ces cas dusages en croisant webanalyse, taux de reach et benchmark


4$

externe. Par exemple, exclure ses clients et ses visiteurs rcurrents dj apptants la
By

marque des campagnes de prospection permet, en gnral, dconomiser entre 5 et


10 % du budget de prospection pour une performance quivalente. Ces conomies
peuvent vite reprsenter une somme importante pour un annonceur ayant lhabitude de
dpenser beaucoup dargent pour acheter un lead ou un client (ce qui est le cas des
secteurs bancaires, de lassurance, du BtoB pour lesquels la valeur dun client est
importante sur son cycle de vie).
Figure 24 Radar dvaluation dune DMP

SORGANISER DANS SES DONNES PAS PAS


|
|\/
$!

Nous voil dj parvenus la fin de la premire partie de cet ouvrage. Avant de continuer
4$

notre voyage vers le datamining et le marketing programmatique, faisons le point sur ces
trois premiers chapitres sous la forme dune feuille de route macroscopique qui
By

sappliquera un grand nombre de situations, sans tre bien entendu une vrit absolue,
chaque annonceur possdant ses propres particularits.

tape 0 : dresser une cartographie de lexistant


Difficile daller de lavant sans une vision claire des innombrables outils marketing au sein
de lentreprise en lien avec la connaissance client (fournisseurs e-mails, mobile, rseaux
sociaux, service client) ainsi quune vision dtaille de lensemble des donnes
parpilles dans lentreprise ou chez des prestataires.

tape 1 : instaurer un rfrentiel client unique


Avoir une vision 360 des diffrents points de contact quont les clients avec la marque est
un stade de maturit encore trop rarement atteint par les annonceurs. Mettre en place
lensemble des cas dusages associs un CRM 360 (personnalisation site web,
personnalisation e-mails, crosscanal) ainsi quune politique doptimisation continue de
ces cas dusages est une ncessit lheure du data marketing.

tape 2 : mettre en place une DMP


Si lentreprise exploite pleinement les donnes personnelles et utilise beaucoup le levier du
display notamment en acquisition, il est temps de se frotter aux donnes anonymes en
squipant dune DMP. Aprs une phase un peu technique de taxonomie, il sagira de
commencer par des cas dusages simples et heuristiques (exemple : retargeting abandon
formulaire) avant de mettre en uvre des cas dusages statistiques et doptimiser.

tape 3 : relier le CRM la DMP


Lonboarding du CRM dans la DMP est un chantier qui apportera beaucoup de valeur
lensemble de lcosystme data de lentreprise, notamment en permettant le ciblage par
bannires des clients dormants qui nouvrent mme plus les e-mails et la constitution de
profils jumeaux aux meilleurs clients (look alike audience)

tape 4 : dverser le tout dans un datalake


Arriv ce stade de maturit, une dernire tape forte valeur ajoute consiste
dverser le CRM 360, la DMP et toutes les autres donnes non structures (verbatim
rseaux sociaux, images Pinterest) dans un gigantesque lac de donnes. Cette
centralisation des donnes rendra notamment possible des analyses pousses
(datamining), dont les rsultats pourront leur tour alimenter le CRM 360 et la DMP.
|
|\/
Le schma ci-dessous, beaucoup relay sur les rseaux sociaux professionnels (LinkedIn,
$!

Twitter), rsume lensemble de ces tapes et lcosystme simplifi quune entreprise


4$

peut cibler afin dorganiser et exploiter au mieux ses donnes.


By

Source : Pierre Fournier, Comment se parlent CRM, DMP et Datalake , Artefact, janvier 2016.

Figure 25 cosystme data cible


RETENIR DE CE CHAPITRE
Le CRM 360 et la DMP sont les deux piliers dun cosystme doutils data driven .
Le CRM 360 centralise les donnes personnelles parpilles dans lentreprise (ventes, service client, app
mobile, etc.) et les active au sein doutils du marketing direct (e-mailing, push notification)
La DMP centralise les donnes anonymes et sert principalement optimiser le mdia. Rien de magique
dans une DMP, mais un trs grand nombre de critres de segmentation et une automatisation des
processus de collecte, dextraction et dactivation en font un outil dune grande praticit et des arguments
suffisants pour les 70 % de dcideurs qui ont le projet dinstaller une DMP en 2017 !

vous de jouer
Accrochez au mur linfographie suivante particulirement didactique :
http://datamanagement-le-blog.com/wp-content/uploads/2015/12/Convergence-DMP
Digital-et-CRM.jpeg
Construisez trois cas dusages rendus possibles par une DMP.
Testez la fonctionnalit look alike audience de Facebook pour effectuer en quelques clics
votre premier look alike !

SOURCES
|
|\/
$!

Concernant la chronologie de lvolution du CRM, elle a t inspire de linfographie ralise par Compare Business
4$

Products : http://www.actionco.fr/Thematique/marketing-outils-de-vente-1022/crm-10100/Breves/L-histoire-du-CRM-en-
image-53877.htm
By

Pour approfondir vos connaissances sur la DMP, le blog du cabinet Artefact (qui a accompagn de nombreux annonceurs
tels que Danone ou Air France dans la mise en place de cet outil) regorge de ressources trs pdagogiques, par
exemple :
Comment se parlent CRM, DMP et Datalake , Pierre Fournier, janvier 2016 do est issu le schma simplifi de ce
quoi peut ressembler un cosystme data cible.
Enfin comprendre ce quest une DMP , Paul Colas, avril 2015.
6 critres avancs pour choisir une DMP , Vincent Luciani, septembre 2015.
Le cabinet Converteo a quant lui publi un livre blanc sur la question, comportant notamment une tentative de
classification des diffrents diteurs de solutions DMP :
Comprendre les Data Management Platforms , Thomas Faivre-Duboz, Pierre-ric Beneteau, Romain Creteur,
Sarah Chenna, juin 2015.
Enfin pour apporter davantage de concret cet examen thorique, vous trouverez des captures dcran de la DMP
Bluekai (un des leaders du march) sur https://docs.oracle.com/cloud/latest/daasmarketing_gs/DSMKT/GUID-901DB32A-
4404-4924-A65D-A178C75C48F5.htm#DSMKT4296

1. Abrviation de marketing technologique trs souvent utilise.


2. linstar du green washing dans le secteur industriel, le data washing est trs prsent dans le marketing et
certains diteurs de solutions abusent ou utilisent mauvais escient largument data .
3. Terme anglais dsignant une dsinscription.
4. Par exemple, un datamart client ne permet pas en thorie lenvoi dun e-mail.
5. Une autre faon assez maligne de classer les donnes clients et prospects est de les classer par cas dusage
(welcome pack, monte en gamme, lutte contre lattrition).
6. Score traditionnellement utilis pour segmenter les clients selon leur Rcence dachat, leur Frquence dachat et leur
Montant dachat.
7. Certaines marques mettent disposition de leurs clients un centre de prfrence leur permettant de slectionner la
frquence des newsletters, la thmatique de celles-ci, etc.
8. Cf. chapitre 9 pour plus de dtails sur ce cas dusage relevant du trigger marketing .
9. En pratique, les rgies publicitaires sont peu disposes poser le pixel de la DMP sur les crations. Cest pourquoi les
DMP appartenant une suite adtech (la DMP de Weborama, la DMP de Google) sont avantages dans cet aspect de la
collecte.
10. Comme voqu lors du paragraphe sur le CRM onboarding, ce procd souffre de nombreuses limites : ne fonctionne
pas sur Gmail, via une app mobile e-mail...
11. En ralit dans linterface dune DMP, lutilisateur ne dispose pas dune vision cookie centric mais dune vision
audience centric .
12. Merci lisabeth Marette du cabinet Artefact pour linvention de cette mtaphore !
13. Terme employ usuellement en biologie pour dcrire le travail de classification des espces animales ou vgtales.
14. Rgles bases par exemple sur lURL visite, laide doprateurs logiques tels que is , is not , etc.
15. Des cookies sont en commun dans les deux catgories, il sagit de ne les dnombrer quune seule fois.
16. Remarquons au passage quun individu a plus de trois cookies qui lui sont associs.
17. Ancien entraneur de natation de la championne Laure Manaudou.
18. Quelques-unes seront prsentes dans la partie suivante consacre au data mining et au machine learning.
19. Les applications mobiles ne tolrent pas les cookies et en ce qui concerne la navigation mobile (hors application), les
cookies third party sont souvent rejets par les navigateurs mobiles tels que Safari.
20. La DSP (Demand Side Platform), qui sera tudie au chapitre 8.
|
21. On parle souvent de discrepancy . 5 10 % de diffrence peut tre considr comme normal .
|\/
$!
4$
By
Partie B

Extraire de linformation des donnes

|
|\/
$!
4$
By
AUTODIAGNOSTIC

Marketing et mathmatiques ont une relation ambivalente, entre ignorance et admiration. Ces deux ractions sont des
comportements dangereux quil convient de remplacer par une connaissance des bases mathmatiques qui pntrent de
plus en plus le marketing. Et vous, o en tes-vous dans votre relation la data science ? Faites le test (avant et aprs la
lecture de cette partie) pour le savoir !

Question 1 : percevez-vous la diffrence entre statistiques, analyses de donnes et datamining ?

Question 2 : comment expliqueriez-vous la diffrence entre segmentation et clustering ?

Question 3 : que reprsente un corrlogramme ?

|
|\/
$!

Question 4 : connaissez-vous et utilisez-vous les sparklines ?


4$
By

Question 5 : en quoi consiste lanalyse dite en composantes principales ?

Question 6 : pouvez-vous expliquer la diffrence entre les algorithmes de rgression et les algorithmes de
classification ?

Question 7 : que dsigne en data science le feature engineering ?

Question 8 : en analyse de donnes, comment appelle-t-on une valeur extrme ? Quelle reprsentation
graphique les met particulirement en vidence ?

Question 9 : pouvez-vous citer trois critres pour comparer deux modles prdictifs entre eux ?
Question 10 : que dsigne vulgairement une rgression linaire simple ?

Rponses p. 258

|
|\/
$!
4$
By
CHAPITRE

4
Analyse : la dcouverte de tendances et de
schmas dominants

tre capable de sorganiser dans ses datas et de stocker au fil de leau des datas
uniformises de qualit est dj un grand pas. Toutefois, le travail ne fait que commencer
et rentabiliser les investissements raliss jusquici passe par une phase dintelligence des
donnes : lanalyse, la visualisation et la modlisation.
La bonne nouvelle si vous tes responsable marketing est que vous avez certainement
une quipe en charge de ces analyses de donnes. Cependant, pour pouvoir challenger
leurs propositions et maximiser limpact dans lentreprise dune telle quipe de data
|
|\/
analysts , il est ncessaire de parler la mme langue . cette fin, cette deuxime
$!

partie introduit les bases et les concepts gnraux de lanalyse de donnes et de la data
4$

science mis en uvre pour dcouvrir des informations valeur ajoute dans un jeu de
By

donnes (appel aussi dataset ).


En particulier ce chapitre aborde un ensemble danalyses standards et de statistiques
descriptives dun jeu de donnes permettant de maximiser les chances de dcouverte de
rsultats pouvant avoir un impact sur le business.
Le cheminement habituel sarticule autour de quatre squences :
1. dcouvrir et nettoyer le dataset ;
2. dcrire les donnes ;
3. comparer les donnes ;
4. tablir une ou plusieurs segmentations.
Toutes les analyses et mthodologies prsentes ici sont facilement excutables avec
Excel si le jeu de donnes nest pas trop volumineux (Excel commence perdre en
maniabilit au-del de 100 000 lignes) ou prfrablement R , SAS ou tout autre
outil statistique puissant et utilis dans le microcosme de lanalyse de donnes.

TAPE 1 DCOUVRIR ET NETTOYER LE DATASET

Quon dispose dun simple Excel ou dun logiciel puissant, le point de dpart de toute
analyse de donnes est toujours le mme : un tableau dobservations1. Comme tout
tableau, lanalyste est donc en prsence de lignes et de colonnes.
En ligne sont reprsents les individus observs. En marketing, il sagira gnralement
dun identifiant client, mais un individu peut aussi dans ce contexte dsigner un point de
vente, une machine, etc.
En colonne sont reprsents les attributs (appels aussi variables ) associs chaque
individu : typiquement lge, le sexe, le nombre de jours couls depuis le dernier achat

Id client Acheteur ge Rgion Sexe Nombre dachats en CA 2015 Variable


en 2016 2015 m

1 Oui 25 75 F 1 93

2 Non 33 67 F 1 51

Non 27 75 M 0 0

Oui 49 75 F 5 678

K Oui 41 55 M 0 0

Non 31 13 M 4 134
|
10 000 Oui 23 75 F 0 0
|\/
$!

Oui 38 63 F 2 29
4$

Figure 26 Exemple de dataset typique en data marketing : en ligne les clients, en colonne les variables
By

Cette matrice est fondamentale, car cest sur elle que seront appliques les analyses
statistiques et les mthodes mathmatiques dcrites dans les chapitres de cette partie B.
Mais avant den arriver l, deux obstacles se dressent sur le chemin de lanalyste !
Le premier cueil est de sassurer de disposer de la meilleure matrice de donnes
possible. En pratique, les donnes clients sont en effet parpilles dans des dizaines de
matrices diffrentes, chacune apportant son lot dinformations. Un premier gros travail
consiste consolider lensemble de ces donnes dans une matrice unique. Il sagit
gnralement de raliser des jointures entre fichiers, sur la base de cls pivots
(exemple : lidentifiant du client qui se retrouve dans plusieurs fichiers).
Le deuxime obstacle est la qualit des donnes. Rares sont les fichiers nickel
chrome comme dans les livres ! Au contraire, travailler sur des donnes relles apporte
son lot derreurs, en particulier des erreurs syntaxiques (exemple : adresse e-mail sans
@, codes postaux 6 chiffres), des valeurs aberrantes2 (un ge renseign 250 ans)
et des valeurs manquantes. Un travail consquent de nettoyage des donnes est
gnralement prvoir, avec des choix parfois cornliens, notamment sur les valeurs
manquantes particulirement problmatiques3 : ne conserver que les lignes qui ne
comportent aucune donne manquante ? Remplacer la valeur manquante par une valeur
plausible (rgle mtier, moyenne, valeur prdite) ? Pour ceux qui sintressent ces
problmatiques, une rfrence en bibliographie traite des diffrentes mthodes
dimputation (i.e. par quoi remplacer une valeur manquante).
Bien entendu, ces deux obstacles sont de plus en plus handicapants mesure que la taille
de la matrice augmente et que les manipulations effectuer deviennent longues. En guise
dordre de grandeur, en data marketing, il nest pas rare que le dataset dpasse le million
de lignes et des centaines de colonnes !

Bon savoir
Le pr-processing des donnes reprsente en gnral prs de 80 % du temps dune prestation de
datamining. Cest dailleurs ce crneau de la data science qua investi la start-up Dataiku, qui a lev, en
octobre 2016, 14 millions de dollars pour continuer dmocratiser son puissant outil consacr aux tches
de nettoyage de donnes faibles valeurs ajoutes.

TAPE 2 DCRIRE LES DONNES

Que signifie dcrire les donnes quand on est en prsence de milliers de lignes et de
colonnes ? Cette phase descriptive peut se rsumer en deux types danalyses : analyse
des grandes masses et analyses des grandes tendances (on emploiera en statistique les
termes distribution et volution ). |
|\/
Analyser les grandes masses
$!
4$

Reprenons un des exemples entrevus dans la premire partie : un site ditorial


dactualits possde un grand nombre de sites web et applications mobiles thmatiques
By

et cherche optimiser ses revenus publicitaires. Le responsable du site a identifi trois


sous-objectifs (augmentation du trafic, augmentation du CPM4 et augmentation du ratio de
publicits vu par internaute) et a cette fin :
lanc un plan de collecte de donnes relatives aux impressions sur chaque site :
en ligne les emplacements publicitaires identifis par un numro demplacement,
en colonne un ensemble de variables dcrivant pour chaque jour depuis un an le
montant gnr par lemplacement, le nombre dimpressions, le nombre
dimpressions par mode dachat, etc. ;
transform les logs5 techniques en une belle matrice de donnes, avec pour
chaque site :
en ligne les individus identifis par un cookie ;
en colonne un ensemble de variables telles que le nombre de visites, le nombre de
pages vues, etc.
Comment faire dsormais pour apporter un peu de clart et rpondre aux objectifs ?
Quatre outils sont particulirement utiles pour dgrossir le terrain et dgager ce qui
pse dans le jeu de donnes :
le diagramme de Pareto ;
le diagramme de Tukey ;
le tableau de frquence ;
le Top/Flop.
Le diagramme de Pareto

Il fait appel au principe de Pareto du nom du clbre conomiste italien pointant du


doigt que dans tous les pays 80 % des richesses taient dtenus par 20 % de la
population. Ce phnomne sapplique en ralit dans un grand nombre de domaines o
20 % des causes sont responsables de 80 % des effets. Cette situation est tellement
frquente que le loi du 80-20 est dailleurs quasiment passe dans le langage
courant ! Dans lexemple qui nous intresse, on pourrait ainsi certainement remarquer
que :
20 % des espaces publicitaires gnrent 80 % du revenu publicitaire ;
20 % des heures de la journe gnrent 80 % du revenu publicitaire ;
20 % des annonceurs gnrent 80 % du revenu publicitaire ;
20 % des lecteurs gnrent 80 % des impressions. |
Si personne ne tombe des nues en dcouvrant ce type danalyse, lanalyse de Pareto a
|\/
limmense mrite de pouvoir resserrer le champ dtude : au lieu de collecter toutes les
$!

donnes de tous les sites peut-tre est-il prfrable dans un premier temps de se
4$

concentrer uniquement sur les principaux. Au lieu de vouloir mettre en place un


By

programme de fidlit personnalis sur toute la base client, peut-tre est-il plus judicieux
de se concentrer sur les 20 % de clients qui gnrent 80 % du chiffre daffaires. Et pour
ceux qui se disent ( juste titre) quil y a peut-tre des ppites dans les 20 % restants que
nous aurions tort dvacuer ainsi, rassurez-vous nous verrons dans ltape 3 de lanalyse
une mthode lgante pour identifier ces ppites .

Figure 27 Loi de Pareto : une minorit demplacements publicitaires gnre la majorit du revenu

Le diagramme de Tukey

Le deuxime outil trs pris de lanalyste pour dcrire comment se comporte une variable
est le diagramme de Tukey, plus connu du grand public sous le nom de bote
moustaches . Ces diagrammes rsument en effet peu prs tout ce quil faut savoir sur
la distribution dune variable6, savoir :
sa moyenne, indicateur quil nest sans doute pas ncessaire dexpliciter ici ;
sa mdiane qui pour rappel est la valeur qui spare la srie en deux : 80 est la
mdiane du panier moyen si 50 % des clients ont dpens moins de 80 et 50 % plus
de 80 ;
les extremums, savoir la valeur minimum et la valeur maximum ;
les quartiles quon peut concevoir comme les points de passage 25 % (premier
quartile) et 75 % (troisime quartile)7. Sur lexemple prcdent, 30 est le premier
quartile si 25 % des clients ont dpens moins de 30 et 75 % ont dpens plus de 30
.
Concernant lexemple du site ditorial dactualits et de ses trois axes de croissance, il
serait par exemple judicieux de raliser la bote moustaches du CPM auquel ont t
vendues les impressions publicitaires dun inventaire dfini8.

|
|\/
$!
4$
By

Figure 28 Analyse de la dispersion des CPM travers une bote moustaches

Sur cet exemple, on comprend instantanment que 50 % des impressions publicitaires ont
t vendues plus de 3,8 CPM, le prix de vente maximal atteint tant de 36 CPM.
Trs pratiques pour les distributions continues (i.e. lobservation peut prendre nimporte
quelle valeur dans un intervalle), les quartiles et la bote moustaches sont moins
pratiques manier dans le cas de distributions discrtes dans lesquelles lobservation ne
peut prendre quun ensemble fini de valeurs. Par exemple si le site ditorial sintresse au
ratio du nombre de pages vues par internaute chaque jour, il sera plus pratique de
travailler avec des seuils et de recourir un tableau de frquence.
Le tableau de frquence

Le tableau de frquence se prsente ainsi :

Nombre de pages vues par internaute chaque jour % du total

1 44,1 %

2 24,2 %
} 81 %

3 12,5 %

4 7,6 %

5 3,8 %

6 2,4 %

7 5,3 %

Figure 29 Tableau de frquence

Un tableau de frquence trs utile et sappliquant de nombreux business est celui


reprsentant le nombre de jours couls entre la premire visite et lachat ou de faon
|
|\/
plus globale le nombre de jours couls entre deux micro-conversions 9.
$!
4$

Le Top/Flop

Enfin dernier canevas danalyse trs simple pour dcrire efficacement une srie de
By

donnes : isoler les valeurs les plus grandes ou les plus petites dans un tableau enrichi
par des lments de contexte. Trs simples raliser ( laide de la fonction rang sur
Excel par exemple), ces Top/Flop plaisent souvent aux directions gnrales, car ils
apportent beaucoup de concret. Pour le PDG du site ditorial, savoir quil a russi
vendre une fois une impression dun inventaire non premium 100 du CPM peut lui faire
prendre davantage conscience du potentiel du Real Time Bidding (RTB mode dachat
despace publicitaire mettant en comptition les annonceurs par le biais dune enchre10)
et de la ncessit dinvestiguer plus en profondeur ce terrain que nimporte quelle
prsentation PowerPoint !
Id Donne golocalisation
Rang Prix vendu (au CPM) Inventaire Mode dachat
Impression fournie

1 1000766 Premium RTB ouvert Oui

2 1861008 Indirect RTB ouvert Oui

3 1434987 63 Premium RTB ouvert Oui

4 1615593 58 Premium privatemarketplace Oui

5 1726735 58 Premium privatemarketplace Oui

6 1953319 58 Premium RTB ouvert Oui

7 1125341 58 Premium privatemarketplace Oui

8 1266588 58 Premium RTB ouvert Oui

9 1561753 58 Premium privatemarketplace Oui

10 1319312 57 Indirect RTB ouvert Oui

MOY MOYENNE 3,6 Oui

Figure 30 Top des impressions vendues du mois

Alors que ces quelques impressions vendues prix dor passeraient inaperues dans une
|
|\/
analyse de Pareto ou mme une bote moustaches (pourtant le maximum y figure, mais
$!

le dcideur y prte moins attention), elles occupent ici une place dterminante. Dans
4$

quelles conditions sest ralise cette vente ? et Pourrions-nous reproduire ces


By

conditions ? seront immanquablement les questions qui suivront et auxquelles il faudra


rpondre. Dans lexemple ci-dessus, la discussion se concentrera vraisemblablement
rapidement autour de la donne de golocalisation : Quelle est la moyenne du CPM
quand la donne de golocalisation est fournie ? , Combien de pourcentage
dimpressions a t achet connaissant la donne de golocalisation du lecteur de
larticle ? , etc.
Lanalyste pourra alors itrer les analyses de Pareto et de Tukey , mais cette fois-
ci avec un primtre dtude beaucoup plus restreint et enrichir la restitution de ces
nouvelles analyses.

Bon savoir
Si vous adoptez lanalyse Top/Flop, vrifiez par deux fois que ces extrmes ne sont pas des valeurs
aberrantes. Vous risqueriez autrement de doucher lenthousiasme de vos suprieurs ainsi que votre
crdibilit danalyste en mme temps que vos espoirs daugmentation !

Analyser les volutions


Analyser lvolution dans le temps dune variable est un grand classique de la description
dun jeu de donnes. Pour le site ditorial qui sinterroge sur la manire daugmenter ses
revenus publicitaires, lanalyse de lvolution de la valeur du CPM moyen dans le temps ou
du volume de trafic est une tape quasi obligatoire pour faire un tat des lieux de la
situation.
Malheureusement, la plupart de ces analyses dvolution se limitent une simple courbe
temporelle (temps sur laxe des X, dimension tudie sur laxe des Y). Ce sont des
analyses assez pauvres, car elles ne permettent de visualiser quune seule dimension en
dehors du temps. De plus, elles permettent difficilement de dtecter des saisonnalits
fines :
un marchand de glace constatera des pics en t dans lanalyse de son chiffre
daffaires sur trois ans, mais une boutique aura du mal avec ce type danalyse mettre
en vidence la diffrence dactivit entre les lundis et les samedis ou entre deux
tranches horaires !
si pour un vendeur darticles de bricolage, les diffrences entre hiver et t ne sont pas
trs marques, il se peut quun simple graphique temporel ne fasse pas ressortir une
saisonnalit pourtant bien relle.
Pour remdier ces limites, attardons-nous sur trois techniques danalyse dvolution
dune variable avec le temps souvent plus riches en matire dinformations :
la matrice temporelle ;
les cycles temporels ;
|
|\/
la moyenne mobile.
$!
4$

La matrice temporelle
By

La matrice temporelle est un outil danalyse trs pratique pour identifier la prsence de
saisonnalit. Son principe est simple : au lieu de reprsenter le temps en ligne sur
laxe des abscisses, il sagit ici de dcomposer le temps sur deux dimensions, par
exemple les mois en abscisse et les annes en ordonne (cette technique fonctionne bien
sr aussi en considrant les jours en abscisse et les semaines en ordonn, cest le
contexte qui va dicter le bon choix). En considrant un historique de plusieurs annes, la
matrice temporelle du chiffre daffaires gnr par la vente des espaces publicitaires
pourrait par exemple ressembler au schma ci-dessous faisant apparatre distinctement
les pics rcurrents en dcembre et les mois traditionnellement faibles en juillet et fvrier.
Figure 31 La matrice temporelle met en vidence les saisonnalits

Les cycles temporels

Le cycle temporel11 est une manire ingnieuse de mettre en perspective simultanment


une courbe dvolution et une analyse de saisonnalit. Le principe sappuie une nouvelle
fois sur la rcursivit du temps et consiste rpartir les donnes dans autant de sries
que de jours (lundi, mardi) ou de mois (janvier, fvrier, etc.). Avec ce type danalyse, il
nest pas rare de mettre en vidence des schmas et des tendances qui autrement
resteraient noys dans la masse dun suivi temporel continu. Pour le site ditorial qui
|
chercherait mieux comprendre le trafic de son site, une telle analyse pourrait par
|\/
$!

exemple conduire au graphique ci-aprs, faisant apparatre des volutions trs diffrentes
4$

selon les jours de la semaine.


By

Source : daprs une ide originale de Bernard Lebelle, Convaincre avec des graphiques efficaces, Eyrolles, 2012.

Figure 32 Les cycles temporels, une technique danalyse puissante


La moyenne mobile

Aprs avoir vu comment mettre en vidence une saisonnalit en dcoupant le temps ,


comment faire pour neutraliser ce facteur danalyse ? Le suivi de la moyenne mobile
ou glissante est une approche souvent efficace. Dans notre exemple danalyse de
lvolution des CPM auxquels sont vendues les publicits, au lieu de considrer mois
aprs mois le CPM moyen du mois, il sagira ici de regrouper les valeurs du mois en cours
et des 11 mois prcdents. Cela revient construire le tableau ci-dessous :

Jan. Fv. Mars Avril Mai Juin Juillet Aot Sept. Oct. Nov. Dc.

CPM Moyen 3,1 3,3 2,6 4,4 2,2 2,4 2,9 2,7 3,9 3,8 5,5 7,3

Moyenne 2,8 2,9 3 3,1 3,1 3,2 3,2 3,3 3,4 3,5 3,6 3,6
mobile

Figure 33 Lusage de la moyenne mobile change la perspective de lanalyse

Par rapport au suivi brut de la variable dans le temps, la moyenne mobile va dgager la
tendance de fond de lvolution de la variable, ici la progression rgulire du CPM moyen
auquel sont vendues les publicits.
|
|\/
$!
4$
By

Figure 34 La moyenne mobile, une approche pour mesurer les tendances de fond

TAPE 3 COMPARER LES DONNES

Nous nous sommes jusqu prsent concentrs sur une seule variable la fois et en avons
tudi sa distribution et son volution dans le temps. Dans cette troisime tape,
intressons-nous simultanment plusieurs variables, travers deux cas dusages
particulirement frquents en data marketing : la comparaison de deux moyennes et la
comparaison multidimensionnelle.
Comparaison de deux moyennes (ou deux pourcentages)
Les femmes gnrent-elles plus de chiffre daffaires que les hommes ? La tranche dge
des 20-30 ans est-elle plus performante que celle des 30-40 ? Ce formulaire dinscription
A convertit-il vraiment mieux que ce formulaire dinscription B ? Ces questions sont
omniprsentes dans une entreprise data driven, que ce soit dans le cadre dune rflexion
de fond sur les cibles marketing ou dans le contexte de lanalyse des rsultats dun test
A/B.
Comment tre certain que la diffrence de performance entre les deux populations
compares est suffisamment importante pour ne pas tre la consquence du hasard ? Il
existe pour rpondre cette question cruciale12 un outil daide la dcision trs pratique
bien que peu connu de la plupart des directions marketing : les tests statistiques dits
du t de Student et du chi-2 . Sans entrer dans la thorie statistique sous-jacente
et notamment les conditions de validit de leur application, le principe de ces tests est
dvaluer la part de hasard qui pourrait expliquer la diffrence constate entre deux
moyennes ou deux pourcentages (cf. encadr ci-dessous).

LA P-VALEUR, NOTION CL DES STATISTIQUES

La probabilit que le hasard puisse expliquer lui tout seul une diffrence au moins aussi importante que celle qui est
|
|\/
observe est appele la p-valeur . Ainsi, une p-valeur de 0,22 signifie quil y a 22 % de chance que la diffrence
$!

observe soit simplement due au hasard. Prendriez-vous une dcision sachant quelle a 22 % de chance de reposer sur
une conclusion alatoire ? Certainement non. Bien que la dcision vous soit toute personnelle, il existe un consensus
4$

autour dune p-valeur de 5 % comme seuil de dcision acceptable.


La p-valeur est une notion cl comprendre. Dune part, elle permet de bien quantifier lincertitude, ce qui est
By

certainement un des buts du data marketing. Dautre part, il sagit tout simplement de loutput affich par les logiciels de
statistiques et il est donc prfrable de comprendre ce quil signifie.

Pour mieux apprhender cette notion, considrons un exemple qui illustre lutilisation dun
test statistique en pratique tout en dmontrant merveilleusement comment instaurer une
culture data driven dans son entreprise.
Deux collgues (que nous appellerons Batrice et Alain) se chamaillaient propos de lobjet de la newsletter de la
semaine. Batrice insistait pour faire figurer dans lobjet de le-mail le terme gratuit, Alain trouvait cela trop racoleur. Le
directeur gnral passant ct sarrta et proposa un petit pari : on allait faire un test en envoyant simultanment le-
mail que proposait Batrice 200 personnes de la base dabonns et le-mail que proposait Alain 200 autres
abonns, ces 400 consommateurs tant tirs au hasard dans la base e-mail. Le perdant offrirait une bire au gagnant.

Quelques heures plus tard, les rsultats du test furent les suivants :
Figure 35 Lobjet de la newsletter de Batrice est-il vraiment meilleur que celui choisi par Alain ?

Hourra ! criait Batrice en commenant narguer gentiment Alain. Pas si vite , sinterposa un data scientist que
lhistoire amusait et qui avait t dsign comme arbitre. Peut-tre nest-ce que le fruit du hasard ? Il sortit alors son
PC portable, ouvrit le logiciel de statistiques R , et tapa les lignes suivantes, incomprhensibles pour les profanes

exemple < read.csv2


( C:/Users/test_statistique.csv )
chisq.test (exemple $ Objet.A,exemple $
Objet.B,correct=FALSE)

et sexclama : p-valeur de 3,6 %. Au seuil de 5 % le hasard peut tre exclu et je dclare donc Batrice
gagnante !

Lhistoire ne dit pas en revanche si Alain offrit Batrice une bire de la mme couleur
que ses cheveux
|
|\/
$!

Comparaisons multidimensionnelles
4$

Parfois, comparer les variables entre elles dpasse la simple comparaison de deux
By

valeurs et il faut croiser plusieurs donnes pour confrer du sens lanalyse. Par
exemple, imaginons que vous souhaitiez comparer les dpartements entre eux pour
identifier ceux pour lesquels il serait judicieux daccentuer vos actions marketing. Comment
sy prendre ? Le premier rflexe serait peut-tre de reprsenter sur une carte de France
les dpartements avec une couleur diffrente selon le chiffre daffaires (CA) qui y est
gnr. Mais savoir que Paris gnre plus de CA que la Creuse a-t-il vraiment un
quelconque intrt oprationnel ? Il pourrait galement tre tentant dappliquer la
mthodologie prcdente en comparant le chiffre daffaires moyen par client selon les
dpartements. Cependant, le nombre de binmes {CA moyen dpartement i /CA
moyen dpartement j } constituer et analyser rendrait cette approche peu
approprie. De plus, la comparaison des chiffres daffaires moyens par individu nest pas
la seule composante intressante tudier : le nombre de clients par dpartement est
galement un axe de comparaison qui fait sens.

Bon savoir
Cette tude comparative pourrait tre enrichie dune dimension danalyse supplmentaire, savoir le
nombre dhabitants par dpartement. Il suffirait pour cela dintroduire un code couleur reprsentant pour
chaque dpartement le ratio nombre de clients dans le dpartement/nombre dhabitants total dans le
dpartement.
Lorsquun grand nombre de binmes sont comparer selon plusieurs axes danalyse, il
existe un canevas danalyse particulirement adapt : la matrice quatre quadrants. Le
principe est trs simple et seffectue en deux tapes :
projeter le nuage de points selon deux axes danalyse : dans notre exemple, chaque
point de la matrice ci-dessous reprsente un dpartement, identifi par son numro ;
repositionner les axes au niveau des mdianes de chaque srie de donnes.

|
|\/
$!

Figure 36 La matrice 4 quadrants permet didentifier rapidement des opportunits


4$

De la sorte les dpartements analyser se situent dans quatre quadrants diffrents


By

facilement interprtables. Lexemple ci-dessus a t ralis avec une projection sur les
axes x=nombre de clients et y = valeur moyenne par client . Il apparait assez
distinctement que le quadrant en haut gauche regroupe des dpartements potentiels
quil serait sans doute bon de cibler davantage sur Adwords ou toute autre campagne13.

TAPE 4 TABLIR UNE OU PLUSIEURS SEGMENTATIONS

Une fois les diffrences significatives entre deux typologies de clients observes, il est
naturel de vouloir sparer la base des clients en groupes distincts. Aussi terminons ce
chapitre consacr la comparaison et au croisement des donnes avec un monument du
(data) marketing : la segmentation.
Segmenter ses clients est fondamental pour la russite de lentreprise, peu prs tout un
chacun saccordera sur ce point. Selon quels critres segmenter sa base clients, voil
en revanche une question qui dchane les passions !
Le tableau ci-aprs recense des critres de segmentations classiquement utiliss dans
les directions marketing et digitale et donne une petite ide de ltendue des possibles en
matire de segmentation14.
En dehors du trs grand nombre de segmentations possibles partir dun nombre limit
de critres, ce tableau met galement le doigt sur dautres aspects importants de la
segmentation :
il nest pas difficile de segmenter ses donnes. La plupart du temps, il suffit de
dfinir un seuil sur lune des variables, ce qui est finalement la porte du premier
venu. Quand un diteur de solution marketing parle dans sa brochure de
segmentation fine des donnes clients , cela ne signifie donc en ralit pas grand-
chose en tant que tel ;
les segmentations sont plus ou moins statiques. Alors que le sexe est stable et
que la tranche dge volue trs lentement, les segments bass sur un cycle de vie ou
un comportement sont des tonneaux qui se vident aussi vite quils se remplissent ;
les volumes des diffrents segments peuvent normment varier.

Sociodmographie Cycle de vie Comportement Objectifs de Centres Canaux


conversion dIntrt

Date de dernire Nombre de jours


A dpens plus Catgories de
Sexe visite/achat > moyens entre deux Social Follower
de 1 000 produits
100 jours achats/conversions

A dj fait une
|
Nombre de Typologies de
|\/
commande 50 %
visites > 5 sur Est rest sur le site produits (bio,
$!

Tranche dge plus leve que E-mail Clicker


les 7 derniers plus de 5 secondes haut de gamme,
la moyenne des
4$

jours etc.)
commandes
By

Processus de
Visiteurs
commande Est entr sur le site A tlcharg la Marques
Revenus & CSP Adwords avec
entam mais par la home page version dessai prfres
longue trane
abandonn

A ajout un
A navigu sur plus A partag un Visite en
Gographie produit sa
de 3 pages article magasin
wish list

Figure 37 Des millions de segmentations sont possibles avec seulement quelques dizaines de critres de
segmentation

la lumire de ces lments, comment faire pour segmenter efficacement sa base de


donnes clients ? En ralit, il nexiste pas de segmentation idale. Dexprience, une
bonne segmentation doit toutefois rpondre aux quatre contraintes suivantes :
coller un objectif ;
avoir un fort pouvoir discriminant ;
avoir un sens mtier ;
pouvoir tre exploit facilement par le marketing.
Coller un objectif est primordial quand on cherche effectuer une segmentation. Que
voulez-vous que les gens fassent sur votre site/dans votre magasin/sur les rseaux
sociaux ? Y a-t-il des personnes qui ont le comportement attendu ? Par exemple, si
lobjectif est daugmenter la frquentation du site web, le critre date de dernire
visite aura certainement un grand intrt. Il sera beaucoup moindre si le but est que les
clients remplissent davantage leurs paniers.

Figure 38 Une bonne segmentation est la combinaison de quatre enjeux majeurs

Le pouvoir discriminant dune variable repose sur lvaluation du gain


dinformations apport par la variable dans lexplication dun phnomne. Par exemple,
|
|\/
si le test statistique a montr une diffrence significative dabandon panier entre les
$!

hommes et les femmes, le sexe de lindividu apporte sans aucun doute un gain
4$

dinformation apprciable pour suivre la diminution de labandon panier15. En revanche,


By

cette distinction sur le sexe napportera peut-tre pas dinformations pour expliquer le
phnomne du manque de ractivit aux campagnes e-mail. Pour chaque critre de
segmentation propos, il est toujours ncessaire de se demander en quoi ce critre est
impactant par rapport la problmatique16.
Avoir un sens mtier repose sur la capacit du mtier sapproprier la segmentation.
Cette capacit dpend naturellement du degr de maturit de lentreprise en matire de
data marketing. Deux signes indiquent en gnral une bonne appropriation par le mtier
de la segmentation propose : lenvie dinvestiguer davantage les diffrents segments
(quelles sont les autres caractristiques des clients du segment ? Quelles campagnes ont
le meilleur impact sur eux ?) et la facult y apposer un petit nom ( potential lovers ,
par exemple, pour les prospects qui ont visit plus de trois pages ces trente derniers
jours)
tre facilement exploitable par le marketing fait rfrence aux nombres de cas
dusages simples mettre en place grce la segmentation. Une segmentation aussi
basique que vrais prospects/faux prospects (base, par exemple, sur un temps de visite
de plus de cinq secondes) peut dj faire conomiser beaucoup dargent en vitant de
relancer les faux prospects. De mme en excluant les clients rguliers des campagnes
(segmentation clients rguliers/clients one shot ), des conomies substantielles
peuvent tre ralises.
titre dexemple, la clbre segmentation RFM (Rcence-Frquence-Montant) est une
bonne illustration dun dosage efficace de ces diffrents lments :
les notions de rcence, de frquence et de montant sont utiles pour la plupart des
objectifs business ;
bien que non optimale dun point de vue mathmatique, dans la plupart des cas au
moins un de ces trois lments aura un pouvoir discriminant significatif ;
le mtier sapproprie assez aisment ces trois notions. Surtout si RFM est prsent
laide dun schma ;
Le marketing y puise de nombreux cas dusages (exemples : relancer les clients qui ne
sont plus venus sur le site/dans le magasin depuis longtemps ou tre aux petits
soins des clients ayant dpens de gros montants).

|
|\/
$!
4$
By

Figure 39 RFM : la plus clbre des segmentations marketing

Selon une logique similaire, une banque pourra ainsi, par exemple, segmenter ses clients
selon les axes {patrimoine ; revenus} :
les clients VIP choyer sont en effet ceux prsentant un patrimoine lev et un revenu
annuel substantiel ;
les jeunes cadres fort potentiel ont gnralement un faible patrimoine mais des
revenus au-dessus de la moyenne.
Figure 40 Segmenter les clients dune banque selon leur pargne et leurs revenus annuels

Cette dmarche atteint toutefois rapidement ses limites et il nest pas toujours simple de
trouver la segmentation optimale quand on traite des centaines de variables ! Patience :
dans quelques pages nous verrons une mthode algorithmique capable de faire un
premier tri automatique.

RETENIR DE CE CHAPITRE
Lanalyse de donnes est un premier niveau de traitement de donnes dont lobjectif principal est de
|
|\/
valider/invalider rapidement des hypothses, laide notamment de canevas trs pratiques que sont la
$!

matrice quatre quadrants, le diagramme de Pareto, la bote moustaches, etc. En particulier, le concept
4$

de p-valeur est fondamental pour dterminer la part de hasard dans la diffrence observe entre deux
moyennes ou deux pourcentages. Toutes ces analyses aboutissent gnralement la proposition
By

argumente dune segmentation de la base clients.

vous de jouer
Affichez dans la pice commune le diagramme de Pareto indiquant le poids en chiffre
daffaires des meilleurs clients (top 20 %, top 10, etc.). Dans une entreprise data driven
toute lquipe doit avoir conscience que le CA tient finalement une petite partie de clients
quil faut chouchouter !
Comparez la diffrence de chiffre daffaires entre les hommes et les femmes et vrifiez si
cette diffrence a vraiment un sens statistique ou bien est le fruit du hasard.
Trouvez deux critres de segmentation pertinents pour votre mtier et dcoupez vos clients
en quadrants (sur le modle RFM ou de la banque).

SOURCES
Concernant les donnes manquantes et le nettoyage des donnes :
M. Berchtold A., Imputation des donnes manquantes : comparaison de diffrentes approches , 42e Journes de
statistiques de Marseille, 2010.
Texte disponible en pdf sur le lien suivant : https://hal.inria.fr/inria-00494698/document
Pour approfondir vos connaissances en statistiques dcisionnelles, je ne peux que vous conseiller le blog de Jean Yves
Baudot http://www.jybaudot.fr/ qui met la porte de tous les principaux concepts statistiques utiliss en entreprise.
Enfin, pour transformer vos tudes statistiques en tableau de bord lgant et actionnable, la lecture de louvrage de
Bernard Lebelle Construire un tableau de bord pertinent sous Excel (Eyrolles, 2013) sera dune aide prcieuse.

1. En pratique il faut parfois dj beaucoup deffort pour atteindre ce stade du tableau dobservations !
2. Souvent dsignes par le terme anglais outlier .
3. La plupart des algorithmes fonctionnent mal dans une matrice trous .
4. Pour rappel cot pour mille impressions, modle conomique frquemment utilis dans la publicit digitale. Un
annonceur paiera ainsi 5 du CPM ou 5 CPM.
5. Abrviation de log file, littralement journal de bord, terme informatique dsignant le fichier contenant les
enregistrements squentiels rsultant de la ralisation dun processus informatique.
6. lexception de lcart type qui mesure lhomognit de la population : plus lcart type est petit, plus la population est
homogne.
7. Bien que cela soit plus indigeste, vous lirez aussi parfois que le premier quartile se dfinit comme la mdiane entre le
minimum et la mdiane, et le troisime quartile comme la mdiane entre la mdiane et le maximum.
8. Nombreux tutoriels disponibles sur Internet pour raliser ce type de diagramme dans Excel ou R .
9. On appelle micro-conversion tout acte de conversion autre quun achat (inscription newsletter, tlchargement de la
liste des prix).
10. Nous tudierons en dtail le RTB au chapitre 8.
11. Dcouvert dans lexcellente trilogie de Bernard Lebelle concernant la ralisation de tableaux de bord ultra-performants
voir Sources la fin de ce chapitre. |
12. La diffrence de performance entre deux segments de clients peut entraner un rebasculement des budgets
|\/
marketing.
$!

13. Avant daugmenter le budget marketing pour ces dpartements, il est judicieux de vrifier laide dun test statistique la
4$

significativit de la valeur moyenne dans le dpartement par rapport la valeur moyenne dun client tous dpartements
confondus.
By

14. La formule C = n ! /([n p] ! x p !) o n ! dsigne la factorielle de n permet de calculer de combien de faons on peut
choisir p lments dans un ensemble n lments, soit ici des millions de segmentations possibles.
15. Le chapitre 7 prsentera une mthode pour quantifier le gain dinformation.
16. La question And so what ? ( et alors ? ) est gnralement un trs bon estimateur du gain dinformation apport
par une variable !
CHAPITRE

5
Analyse exploratoire : identifier les liens entre les
donnes

Avec ce chapitre, on quitte le domaine dit des statistiques descriptives pour aborder
celui du datamining (littralement forage des donnes ) et des statistiques dites
exploratoires (le terme analyse factorielle est galement frquemment employ).
Moins pompeusement, il sagit ici didentifier les liens entre les donnes : quelles sont les
variables les plus discriminantes ? Y a-t-il des variables qui fonctionnent ensemble ?
Bien que lanalyse factorielle soit un domaine trs vaste, nous traiterons seulement ici trois
grands classiques du data marketing dont un directeur marketing data friendly devrait
|
|\/
idalement avoir un minimum de notions : la matrice de corrlation, lanalyse en
$!

composante principale (ACP) et le clustering.


4$

LA MATRICE DE CORRLATION IDENTIFIE LES VARIABLES RELIES


By

ENTRE ELLES

Pour comprendre cet outil, considrons un exemple factice. Imaginez que vous tes
responsable dune place de march e-commerce commercialisant quatre types de
produits : produits de jardinage, produits de dcoration, produits pour la cuisine et
produits pour le bricolage. Vous aimeriez augmenter le cross-sell1 entre ces diffrentes
catgories de produits et dans ce contexte souhaitez savoir si pour les clients
jardinage il est prfrable dlargir la dcouverte du catalogue vers le bricolage, la
cuisine ou la dcoration. Le dbat fait en effet rage dans votre socit : 55 % des clients
du jardinage sont des femmes et les prjugs sexistes vont bon train quant au type de
produit recommander !

Un peu de thorie
Souhaitant dpasser les a priori, vous vous intressez au nombre de produits cliqus par
catgorie et par individu. Votre espoir est de constater que les personnes cliquant sur les
produits de jardinage ont galement tendance cliquer sur les produits dune autre
catgorie. Vous vous retrouvez avec le tableau ci-dessous, indiquant pour chaque
identifiant client le nombre de clics dans chaque catgorie du site :
identifiant Jardinage Bricolage Cuisine Dcoration

1 6 6 5 5

2 8 8 8 8

3 6 7 11 9

4 14 14 15 15

5 14 14 12 12

6 11 10 5 7

7 5 7 14 11

8 13 12 8 9

9 9 9 12 12

Figure 41 Nombre de produits cliqus par individus et par catgories

Consciencieusement, vous avez ralis ltude descriptive des variables avec les
mthodes prsentes au chapitre prcdent et remarqu la grande homognit des
moyennes, des extremums et des carts-types (on laissera le soin au lecteur de calculer
ces valeurs). Bref, pas facile ce stade de conclure ! |
|\/
Comment continuer ltude ? Un lointain souvenir de lyce remonte votre bon souvenir :
$!

le coefficient de corrlation linaire. Pour ceux qui auraient enfoui leurs souvenirs
4$

dadolescence, le coefficient de corrlation linaire (de son nom scientifique coefficient de


By

Pearson) exprime la qualit de la rgression linaire simple entre deux variables. La


rgression linaire simple peut se dfinir comme lapproximation dun nuage de points par
une droite.

Figure 42 La rgression linaire simple est lapproximation dun nuage de points par une droite

Dans notre cas de figure, la reprsentation dans Excel de la variable bricolage en


fonction de la variable jardinage aboutit au graphique ci-dessous :

Figure 43 Relation entre les clics sur la catgorie Bricolage et les clics sur la catgorie Jardinage

La liaison entre les deux catgories peut tre approxime par la droite dquation y =
0,8283x + 1,7522 (obtenue sur Excel en ajoutant une courbe de tendance linaire )
La fonction COEFFICIENT.CORRELATION estime ensuite la qualit de
|
lapproximation, reprsente en mathmatique par la lettre r . Dans notre exemple : r =
|\/
0,973.
$!
4$

Comment interprter cette valeur ?


By

Le signe de r indique le sens de la liaison entre les variables : un signe positif traduit
une corrlation positive (i.e quand une variable augmente, lautre aussi), un signe ngatif
une corrlation ngative (i.e. quand une variable augmente, lautre diminue).
La valeur absolue de r indique lintensit de la liaison : plus r est proche de 1 ou -1 (1
et -1 reprsentant les valeurs extrmes possibles du coefficient de corrlation r), plus les
variables sont corrles entre elles. Petite subtilit toutefois : la significativit statistique
de la corrlation dpend du nombre dobservations, comme indiqu dans le tableau ci-
dessous. Remarquez comment la valeur seuil dcrot trs vite avec le nombre
dobservations, un coefficient aussi faible que 0,14 exprime une corrlation dj
statistiquement significative pour un tableau de 200 observations.
n Valeur limite de n Valeur limite de n Valeur limite de
r r r

10 0,6319 60 0,2542 150 0,1603

20 0,4438 70 0,2352 160 0,1552

30 0,3610 80 0,2199 170 0,1506

40 0,3120 90 0,2072 180 0,1463

50 0,2787 100 0,1966 200 0,1388

Figure 44 La significativit du coefficient de corrlation dpend du nombre dobservations

Ces notions tant tablies, la matrice de corrlation est une table contenant les
coefficients de corrlation entre chaque variable, permettant dvaluer simultanment
la dpendance entre plusieurs variables.
Dans notre exemple, en itrant le processus ralis sur le couple {jardinage-bricolage}
lensemble des couples possibles, la matrice de corrlation prendrait ainsi la forme du
tableau ci-dessous :

Coefficient de
Jardinage Bricolage Cuisine Dcoration
|
corrlation r
|\/
$!

Jardinage 1 0,97 0,14 0,49


4$

Bricolage 0,97 1 0,35 0,64


By

Cuisine 0,14 0,35 1 0,92

Dcoration 0,49 0,64 0,92 1

Figure 45 Matrice de corrlation entre quatre catgories de produits

La catgorie Jardinage est corrle positivement toutes les autres catgories. En


revanche, seule la corrlation avec la catgorie bricolage est statistiquement
significative (pour 10 observations, il faut que le coefficient r soit au moins suprieur
0,63 et on considre ici 9 observations). Par rapport au problme expos en dbut de
chapitre, il est donc prfrable de recommander aux acheteurs de jardinage les produits
bricolage plutt que les produits cuisine ou dcoration.
Et pour ceux qui pensent que le sexe de lacheteur peut influencer cette dcision, le mme
travail peut bien sr tre effectu en sparant dans ltude les hommes et les femmes.

Rendre la matrice de corrlation sexy , cest possible !


Bien entendu, la ralit est un brin diffrente de lexemple fictif que nous venons de
dtailler. En particulier les coefficients de corrlation employs seront ceux de Pearson,
Spearman ou Kendall selon la distribution des variables et certaines conditions de validit
que nous ne dvelopperons pas ici.
Dautres part, les volumes2 importants considrer rendent caduque lutilisation dun
tableur pour calculer le coefficient de corrlation deux deux et remplir ainsi la matrice de
corrlation. Heureusement, la plupart des logiciels de statistiques gnrent la matrice de
corrlation en une seule ligne de commande. Sur le logiciel de statistiques R , il suffit
par exemple dutiliser la fonction cor ().
Enfin quand on travaille sur un grand nombre de variables, la lecture et linterprtation de
la matrice devient laborieuse. Cest pourquoi vous trouverez souvent la matrice de
corrlation reprsente sous une des trois formes suivantes, bien plus agrables lil.
Le treillis matriciel

Le principe consiste reprsenter les nuages de points pour lire le signe (pente
ascendante ou descendante) et lire lintensit grce la couleur affecte
automatiquement selon des valeurs seuils paramtrables : ici, en gris fonc, les
corrlations les plus fortes ; en blanc les corrlations les moins significatives. Ce treillis
sobtient trs facilement sur le logiciel de statistiques R en appelant la fonction pairs.

|
|\/
$!
4$
By

Figure 46 Le treillis matriciel, une faon efficace de reprsenter la matrice de corrlation

Le corrlogramme

Derrire ce nom abscons se cache une reprsentation belle et habile dune matrice de
corrlation.
|
|\/
Figure 47 Le corrlogramme, la faon standard de reprsenter la matrice de corrlation
$!
4$

Les corrlations positives sont affiches en gris et les corrlations ngatives en bleu.
Lintensit de la couleur est proportionnelle aux coefficients de corrlation. Cette
By

reprsentation sobtient trs facilement sur R en chargeant la librairie corrplot et il est bien
sr possible de personnaliser les couleurs sa guise.
Le cercle de corrlations

Cest la mthode la plus approprie pour visualiser un grand nombre de variables. Les
corrlations sinterprtent avec le cosinus de langle entre deux variables3 X1 et X2 :
si les points sont trs proches : cos (angle)=1 donc X1 et X2 sont fortement corrls
positivement. Cest bien le cas des variables jardinage et bricolage et dans une
moindre mesure dcoration et cuisine ;
si angle 90 cos = 0 alors pas de corrlation linaire entre X1 et X2. Cest le cas de
jardinage avec dcoration ou cuisine ;
si les points sont opposs, angle = 180 cos = -1 : X1 et X2 sont trs fortement
corrls ngativement.
Figure 48 Cercle des corrlations
|
|\/
Application pratique : tude des corrlations entre ventes et mto
$!
4$

Il ne fait aucun doute que parmi les variables qui influencent les comportements des
consommateurs, les conditions mto jouent un rle significatif. Plusieurs tudes sur les
By

liens comportement mto ont ainsi t menes par les marques ces dernires annes.
En voici, parmi dautres, trois particulirement instructives et inspirantes relayes par la
presse professionnelle.
Walmart, acteur majeur de la grande distribution qui utilise dj les donnes mto depuis
quelques annes pour anticiper les besoins de merchandising, a franchi un nouveau cap
dans lexploitation des donnes mto en mettant jour des corrlations statistiques pour
le moins inattendues. Nous ne savions pas, par exemple, que les faibles vents avaient
un impact sur la consommation de fruits rouges. Il se trouve quelle est plus leve quand
le vent souffle faiblement et quil fait moins de 25 C4 , raconte le directeur marketing.
Consquence directe de ces tudes, Walmart adapte les affichages physiques et les
publicits digitales dans les rgions o ces conditions existent avec des gains de 18
300 % sur les ventes de ce produit mto-sensible .
PriceMinister, lAmazon franais, sest, lui, intress linfluence de la mto sur ses
ventes croise avec une segmentation par rgion. Ltude indique ainsi que la pluie affecte
assez peu les habitudes dachat sur Internet des Parisiens (+ 2,36 % de CA les jours de
pluie). En revanche, elle affecte nettement plus les Marseillais qui achtent 15 % darticles
supplmentaires et dpensent en moyenne 10 % de plus quand le baromtre est
maussade ! Rsultat : quand de la pluie est prvue dans le sud de la France,
PriceMinister dclenche une campagne e-mail spcifique pour ce segment daudience5.
Easyjet et McDonalds enfin se sont penchs sur linfluence de la chaleur sur les taux
douverture et de clic des e-mails. Le taux douverture des e-mailings Easyjet est ainsi
directement proportionnel laugmentation de la temprature (on peut supposer quen cas
de beau temps, les Franais sont plus inspirs par le voyage) alors que celui de
McDonalds est trs peu influenc6.

LANALYSE EN COMPOSANTE PRINCIPALE (ACP) RDUIT LE NOMBRE


DE VARIABLES

LACP est le prolongement de la matrice de corrlation. Un petit tour de passe-passe


mathmatiques permet en effet de crer partir de celle-ci de nouvelles variables
porteuses de plus dinformation que les variables initiales7. En vulgarisant grandement, on
peut dire que la matrice de corrlation identifie les variables lies qui font doublon et
lACP regroupe ces variables doublon en une seule mta-variable plus discriminante des
individus. Lobjectif du processus est de pouvoir in fine reprsenter les donnes dans un
espace de dimension plus petite et donc de simplifier grandement les analyses (cf.
encadr ci-dessous). |
|\/
Tout cela est un peu abstrait. Reprenons notre exemple prcdent de bricolage pour
$!

illustrer les principales tapes de lACP et livrables que vous pourriez rencontrer si vous
4$

mandatez une socit de data mining ou recrutez des data scientists pour analyser vos
donnes.
By

PROBLMES POSS PAR LES ESPACES DE GRANDE DIMENSION

En data science, il est de trs loin prfrable davoir un fichier de donnes avec beaucoup de lignes (les individus) que
beaucoup de colonnes (les variables, leur nombre constituant la dimension du problme). En fait le nombre
dobservations ncessaires une tude statistique de qualit augmente exponentiellement avec le nombre de colonnes !
Cest ce quon appelle dans le milieu la maldiction de la dimension . Dautres problmes surgissent quand le nombre
de variables est important, notamment sur la stabilit des modles prdictifs que nous verrons au chapitre 7. Enfin, lesprit
humain a du mal interprter plus de trois dimensions et rduire le nombre de dimensions permet donc de donner plus
facilement du sens aux donnes. Au final, lACP, cest votre chef qui voyant votre matrice de donnes vous dit dun ton
premptoire : Il y a trop de colonnes, simplifie-moi tout a !

tape 1 Cration des nouvelles variables


Les nouvelles variables cres, appeles composantes principales ou axes
factoriels sont obtenues en une simple ligne de commande sur le logiciel de statistiques
R via les fonctions princomp et summary.

Importance of components:
Comp.1 Comp.2 Comp.3 Comp.4
Standard deviation 5.1701451 3.5800285 0.442765216 0.1002044695

Proportion of 0.6724107 0.3224053 0.004931467 0.0002525825


Variance

Cumulative 0.6724107 0.9948160 0.999747417 1.0000000000


Proportion

Ce qui peut tre rcrit de faon plus lisible dans un tableau comme celui-ci-dessous :

Axe Valeur propre Inertie Inertie cumule

1 5,17 67,24 % 67,24 %

2 3,58 32,24 % 99,48 %

3 0,44 0,005 % 99,97 %

4 0,1 0,000 % 100 %

Figure 49 Tableau des valeurs propres obtenues suite une analyse en composante principale

Linertie indique la quantit dinformation contenue dans chaque axe. On remarque que les
deux premiers axes restituent eux seuls la quasi-totalit de linformation, ce qui permet
de ngliger les deux autres. Par consquent, lespace initial de dimension quatre peut tre
|
rsum efficacement par un espace de dimension deux : lobjectif de conserver le
|\/
$!

maximum de linformation contenue dans les donnes avec un minimum de variables est
4$

atteint.
Reste dsormais interprter dun point de vue mtier ces deux nouvelles mta-
By

variables qui viennent remplacer les anciennes. Cest le rle de ltape 2.

Bon savoir
Au lieu de se baser sur linertie cumule, dautres mthodes sont frquemment employes pour dterminer
les axes factoriels :
le principe de Kayser consiste choisir les axes dont la valeur propre est suprieure un ;
le principe du coude consiste tracer le graphique des valeurs propres en fonction des axes (graphique
ci-aprs appel scree plot ) et slectionner les axes se situant avant l boulement des valeurs
propres.
Figure 50 Le scree plot permet de dterminer les axes factoriels selon le principe du coude

tape 2 Interprtation des axes factoriels


Un des rsultats fondamentaux de lACP est le tableau des corrlations entre les
anciennes variables et les axes factoriels. Dans notre exemple nous obtenons :
|
|\/
$!

Anciennes variables Axe 1 Axe 2


4$

Jardinage 0,80 0,60


By

Bricolage 0,90 0,43

Cuisine 0,71 0,70

Dcoration 0,91 0,40

Figure 51 Corrlation des anciennes variables avec les axes factoriels

Cest ce tableau qui permet de tracer les axes factoriels puis de les interprter.
Avant de tenter une interprtation des axes, remarquons que la configuration des axes
nest pas sans rappeler le cercle des corrlations introduit un peu plus tt : les axes
factoriels sont ni plus ni moins les axes (x, y) du cercle des corrlations (trac en
pointill).
Laxe 2 est facilement interprtable. Laxe oppose en effet, dune part, la cuisine et la
dcoration (corrlations ngatives) et, dautre part, le jardinage et le bricolage
(corrlations positives). Laxe peut donc tre interprt dun point de vue mtier comme un
axe dopposition entre centres dintrt principalement travaux manuels dextrieur et
dcoration dintrieur.
Laxe 1 (axe des x) est en revanche ce stade encore assez obscur. Certes les quatre
variables contribuent ngativement laxe 1, mais ce point est assez difficilement
interprtable. Il va falloir projeter les individus selon les axes8 afin de dcouvrir ce que
peut bien reprsenter cet axe.

|
|\/
$!

Figure 52 Les axes factoriels se dduisent des 4 axes initiaux


4$
By

tape 3 Projection des individus


La projection des individus dans le plan factoriel aboutit au graphique ci-aprs, chaque
individu tant reprsent par son identifiant.
Il est ds lors possible dinterprter laxe 1 en observant dans le tableau de donnes
initiales les diffrences entre les individus 4 et 5 gauche de laxe et les individus 1, 2, 3
et 6 droite de laxe. gauche de laxe se situent les individus qui ont cliqu plus que la
moyenne, droite les individus qui ont cliqu moins que la moyenne. Laxe 1 peut ds lors
sinterprter comme une reprsentation du nombre de clics moyens de chaque individu.
Figure 53 Reprsentation des individus dans le plan factoriel
|
|\/
La projection des individus permet galement de regrouper les individus en segments, ici :
$!

les individus plutt intresss par le bricolage et le jardinage : 5,8, 6 (coordonnes


4$

positives sur laxe 2) ;


By

les individus plutt intresss par la dcoration et la cuisine : 3,7, 9 (coordonnes


ngatives sur laxe 2) ;
les individus mixtes : 4,29, 1 (coordonnes 0 sur laxe 2).

Bon savoir
Dans le cas de plusieurs milliers dindividus, le nuage de points serait illisible et il serait impossible de
procder ces regroupements10. La bonne dmarche adopter serait alors de recourir au clustering,
algorithme prsent maintenant.

LE CLUSTERING : SEGMENTATION EN PILOTAGE AUTOMATIQUE

Le clustering est un mot souvent employ en data marketing. Il dsigne la segmentation


automatique des individus en groupes distincts, selon la logique suivante :
au sein de chaque groupe, les individus sont trs homognes et prsentent des
comportements similaires ;
deux individus appartenant deux groupes diffrents prsentent des diffrences
notables et significatives.
Le terme automatique est primordial : il distingue les mthodes de clustering des
mthodes de segmentation vues prcdemment dans lesquelles les familles de sorties
sont prdtermines selon des mthodes classiques du marketing (grande frquence
dachat, hauts revenus, etc.). Avec le clustering, impossible de prvoir les diffrents
groupes dindividus qui vont tre crs. Un des talents du data miner sera justement de
confrer un sens mtier ces groupes dtermins mathmatiquement.

|
Figure 54 Segmentation et clustering sappuient sur des approches diffrentes
|\/
$!

Sans rentrer dans les dtails algorithmiques qui sortent du cadre de cet ouvrage, les
4$

paragraphes qui suivent abordent quelques notions cls relatives au clustering, afin dtre
By

laise avec cet incontournable du data marketing.

Le clustering sappuie sur une notion de distance


Pour rassembler les individus qui se ressemblent, il est ncessaire de dfinir la
distance11 entre deux individus et plus gnralement entre deux groupes dindividus.
Ces deux paramtrages sont loin dtre anodins, car ils peuvent modifier grandement la
composition des clusters. titre dexemple, la distance entre deux individus peut tre
dfinie comme la distance euclidienne, la distance de Manhattan, la distance de Jaccard,
la distance de corrlation, etc. Le choix de cette distance va tre dict par les
particularits lies aux donnes12.
De la mme faon, diffrentes possibilits existent pour dfinir la distance entre deux
groupes : distance la plus petite (ou la plus grande) entre deux objets pris dans chaque
groupe, la distance moyenne entre les objets pris dans chaque groupe, la distance entre
les centres de gravit, etc.
Tout lenjeu dans ce paramtrage des distances est de minimiser la distance entre
individus du mme groupe tout en maximisant la distance entre les diffrents
groupes. Cela signifie concrtement que :
les individus dun groupe donn doivent se ressembler ;
les individus de groupes distincts ne doivent pas se ressembler.
Une fois ce paramtrage des distances effectu, deux situations peuvent se prsenter :
soit il y a un nombre faible dindividus classer (quelques milliers), soit il y a un grand
nombre dindividus classer. Chaque situation fera appel une mthode de clustering
diffrente.

La mthode de clustering hirarchique


Quand il y a un nombre faible dindividus classer, il est dusage de recourir une
mthode dite hirarchique : le principe consiste chercher parmi tous les individus
les deux plus proches (avec la fonction de distance dfinie) et de les agglomrer en un
nouvel lment A. Il reste donc N-1 individus et le nouvel lment A. On ritre alors le
processus pour former un groupe B si la plus petite distance entre deux lments
concerne deux individus ou un groupe A1 si la plus petite distance est celle entre A et un
individu. Dans les deux cas, il restera N-2 individus et les lments A1 ou {A et B} selon
les cas. Par itrations successives tous les individus vont tre classs dans des groupes
avec plus ou moins dindividus. Ces regroupements sont illustrs par le dendrogramme ci-
aprs, la mthode de clustering tant applique la micro base de donnes des neuf
individus qui nous sert de support depuis le dbut de ce chapitre.
|
|\/
$!
4$
By

Figure 55 Le dendrogramme, livrable classique dune analyse de clustering

Le dendrogramme est obtenu simplement sur le logiciel de statistiques R avec le


recours aux fonctions dist et hclust. Il sagit souvent du livrable dune analyse de clustering
et la figure sinterprte comme suit :
les extrmits de larbre, appeles feuilles , sont les individus classer (ici
reprsents par leur identifiant) ;
chaque nud indique lagglomration dans un groupe chapeau (sur le graphique
sept nuds au total) ;
lchelle sur le ct indique la distance qui spare chaque nud.
Il est assez ais de dterminer sur cette base les clusters, en veillant respecter le sens
mtier (i.e. privilgier les clusters facilement interprtables) et la facilit dusage (viter un
nombre trop grand de clusters). En tenant compte de ces principes, trois groupes peuvent
tre dtachs : {7,9,3}, {4,5} et {6,8,1,2}.
laide de la figure 42 indiquant pour chacun des identifiants lhistorique de clics, ces
groupes peuvent sinterprter de la manire suivante :
{7,9,3} est le groupe des individus intresss par la cuisine et la dcoration ;
{4,5} le groupe dindividus plus orients bricolage et jardinage, avec une forte activit
de clics ;
{6,8,1,2} un groupe avec une faible activit de clics et des centres dintrt plus diffus.

La mthode de clustering non hirarchique

Bon savoir
|
|\/
$!

En pratique, les deux mthodes dcrites ici sont souvent couples : lapproche non hirarchique fait un
premier tri et la mthode hirarchique aboutit au clustering final.
4$

Souvent le nombre dindividus classer dpasse la dizaine de milliers et il est ncessaire


By

alors de recourir une mthode non hirarchique (souvent appele centres mobiles
ou k-mean ). Le principe est ici de dfinir lavance un nombre k de clusters obtenir
et de choisir au hasard k individus pour centres. Chaque cluster a donc un centre
arbitraire (tape 1). Les individus restants sont classs dans ces k clusters selon leur
distance au centre. On obtient donc un premier clustering de niveau 0 (tape 2).
Les centres ayant t dfinis au hasard, il est ncessaire de corriger ce clustering de
niveau 0. On dfinit donc k nouveaux centres qui correspondent cette fois-ci aux centres
de gravit G (ou barycentres) des clusters de niveau 0 (tape 3). Comme prcdemment,
les individus sont raffects dans les groupes selon leur distance au centre, pour obtenir
un clustering de niveau 1 (tape 4).
De proche en proche les centres de gravit vont de moins en moins bouger et un tat
dquilibre sera atteint, dfinissant les k clusters recherchs13.
Ces tapes sont illustres sur la figure ci-dessous, avec pour objectif la constitution de
deux clusters (attention, les distances sur le dessin ne correspondent pas aux distances
prises en compte dans la dmarche du clustering).
Figure 56 Constitution de deux clusters avec la mthode non hirarchique

RETENIR DE CE CHAPITRE
Lanalyse exploratoire est un niveau avanc de traitement de donnes cherchant mettre en vidence des
liens entre les donnes. Marques corrles entre elles, segmentations des magasins ou regroupement de
clients statistiquement proches sont autant dapplications rendues possibles par la matrice des
corrlations, lanalyse en composante principale (ACP) et le clustering, trois procds danalyse de
donnes trs frquents en data marketing. |
|\/
$!

vous de jouer
4$

Trouvez deux catgories de votre catalogue statistiquement corrles entre elles et imaginez
By

comment vous pouvez mettre profit cette information.


Projetez toutes vos marques sur un cercle de corrlation et observez les regroupements entre
marques.
Ralisez le dendrogramme avec la fonction hclust du logiciel de statistiques R sur votre
top 1000 clients et comprenez davantage les groupes de clients qui gnrent votre chiffre
daffaires

SOURCES
Pour raliser des matrices de corrlations, des analyses en composantes principales et des clustering sur le logiciel
R , le site http://www.sthda.com (Statistical Tools for High Throughput Data Analysis) regorge de tutoriels trs complets
et pdagogiques.
Les cours duniversit sont galement dexcellentes ressources pour matriser les bases du datamining
Analyse en composantes principales , cole des Ponts Paris Tech, Jean-Franois Delmas et Saad Salam, 2009 ;
Introduction la classification hirarchique , Universit de Lyon, D. Chessel, J. Thioulouse, A.-B. Dufour.
Enfin certains ouvrages de rfrence en data mining satisferont la curiosit des lecteurs plus avancs :
Statistique exploratoire multidimensionnelle, Ludovic Lebart, Marie Piron, Alain Morineau, Dunod, 2006.
Datamining et statistique dcisionnelle, Stphane Tuffry, Technip, 2012.
1. Littralement ventes croises , il sagit dune stratgie marketing consistant proposer au client dautres produits
auxquels il pourrait tre apptant la suite de ses derniers achats.
2. La matrice de corrlation est en effet souvent utilise pour identifier des corrlations entre plusieurs dizaines de
marques : Les clients qui ont achet telle marque seront aussi intresss par telle ou telle autre marque.
3. Attention, on ne peut interprter de cette faon que les variables situes au bord du cercle.
4. Benjamin Adler, La mto dsormais incontournable pour le marketing , Influencia.net, 2015.
5. Source : Serge-Henri Saint-Michel, Ecommerce : la pluie fait vendre , Marketing-professionnel.fr, 17 septembre
2013.
6. Plus de dtails sur cette tude mene par Return Path dans larticle Soleil, pluie, temprature : Quels indicateurs
mto influencent le plus les performances e-mailing paru sur journaldunet.com, 21 juillet 2015.
7. Pour les frus de mathmatiques : les composantes principales sont dtermines en calculant les valeurs propres de
la matrice de corrlation.
8. On parle souvent de projection dans le plan principal .
9. Attention le point 2 se situe proche du centre et est donc mal reprsent par lACP.
10. Cest pourquoi le cas dcole de lACP est ltude des magasins. Contrairement aux clients, il y a en effet rarement
plus de quelques centaines de magasins.
11. Le terme exact est dissimilarit .
12. Le plus souvent la distance euclidienne est satisfaisante.
13. Il existe en ralit de trs nombreuses variantes ce principe gnral.

|
|\/
$!
4$
By
CHAPITRE

6
Data visualisation et data storytelling

Les chapitres 4 et 5 ont mis en vidence un grand nombre de techniques danalyse


(descriptives ou exploratoires) permettant lanalyste daccder de prcieuses
informations business : saisonnalit, corrlations, segmentations, etc. Comment ds lors
restituer et partager efficacement cette information ? En visualisant les donnes et en
racontant une histoire partir des donnes. En effet, le cerveau humain est
programm pour traiter visuellement les informations : notre cerveau est tout simplement
capable de traiter une image 60 000 fois plus vite quun texte ! Nous reprons ainsi
beaucoup plus rapidement les tendances, les schmas ou les donnes atypiques lorsque
nous pouvons voir une reprsentation visuelle tangible des donnes, do ladage
|
|\/
populaire : Une image vaut 1 000 mots. Par ailleurs, les histoires sont un vhicule
$!

particulirement efficace pour transmettre un message : il suffit de se souvenir de lusage


4$

du storytelling1 par Barack Obama lors de sa campagne lectorale pour sen persuader.
By

Les pages qui suivent ont pour objectif de donner lanalyste et au manager quelques
bonnes pratiques trs concrtes afin de restituer et partager efficacement le rsultat des
longues journes passes analyser les donnes. Pour ceux qui nauraient pas apprci
les mathmatiques du chapitre prcdent, cest galement loccasion de reprendre un peu
leur souffle !

CHART CHOOSER : QUEL TYPE DE REPRSENTATION CHOISIR POUR


VISUALISER LES DONNES ?

Le but de la data visualisation est dexpliquer des situations complexes simplement, de


comprendre un trs grand nombre dlments en un seul coup dil, en vue dune prise de
dcision. Le choix dun graphique doit donc tre guid par sa capacit reprsenter le
maximum dinformation sur un espace restreint2. Et en la matire le trio camembert/
histogramme/ courbe appris lcole fait assez ple figure et manque cruellement
defficacit3. Heureusement, il existe des classifications prtes lemploi pour vous
orienter vers la meilleure reprsentation possible. Ces mthodes daide au choix ou
chart choosers sarticulent gnralement autour des questions suivantes :
Quel message voulez-vous faire passer ? Lapproche graphique change selon que
vous cherchez expliquer une situation (exemple : Nous sommes dans une mauvaise
passe ) ou un concept (exemple : la transformation digitale), prconiser une
stratgie (exemple : Nous devons opter pour une suite marketing plutt que pour des
outils indpendants ), etc. ;
Que cherchez-vous montrer avec les donnes ? Cette question fondamentale se
traduit le plus souvent en data marketing par des thmatiques du type distribution dune
donne, comparaison de donnes, relation entre donnes, dcomposition dune
donne, volution dune donne, etc. ;
Combien de dimensions sont reprsenter ? Il sagit ici du nombre de variables,
nombre de catgories, avec ou sans volution temporelle, avec ou sans benchmark de
rfrence, etc. ;
Quelle est le degr de complexit souhait pour la restitution ? Des bonnes data
visualisations sont en effet souvent des assemblages et des dtournements de briques
graphiques de base, mais selon la maturit de laudience il vaut parfois mieux
commencer par des graphiques plus traditionnels.
De nombreux brillants thoriciens ont rflchi une classification des reprsentations
visuelles qui puisse servir doutil daide au choix. Je vous invite dcouvrir les plus
connues en parcourant les chart choosers suivants :
|
|\/
http://extremepresentation.typepad.com/files/choosing-a-good-chart-09.pdf du docteur
$!

Abela ainsi que sa version interactive


4$

http://extremepresentation.typepad.com/blog/2015/04/electronic-version-of-the-slide-
chooser-using-prezi-beta-version.html ;
By

le tableau priodique de R. Lengler et M.J. Eppler accessible ladresse


http://www.visual-literacy.org/periodic_table/periodic_table.html ;
La matrice de Stefen Few issue de son ouvrage Show Me the Numbers et rcapitule
dans ce lien pdf
https://www.perceptualedge.com/articles/misc/Graph_Selection_Matrix.pdf
La bibliothque de Bernard Lebelle regroupe, quant elle, 111 reprsentations, des
grands classiques de la data visualisation (Rose de Nightingale, diagramme de Venn,
HeatMap, TreeMap, Cartographies, etc.) comme des approches plus originales
(mosaque de Mekko, diagramme de Sankay, dcomposition en cascade, il du cyclone,
etc.). Il nexiste en revanche pas de lien internet et il faudra vous procurer son excellent
ouvrage Convaincre avec des graphiques efficaces4, pour accder cette bibliothque et
aux explications pour raliser les graphiques prsents.
http://datavizcatalogue.com/search.html propose une slection de graphiques classs en
16 catgories dobjectifs !
Enfin les logiciels spcialiss dans la data visualisation comme Tableau, Qlickview, D3 ou
ManyEyes offrent galement un large panel de choix de graphiques
titre davant-got, en plus des graphiques dj prsents au chapitre 4 (Pareto, matrice
de saisonnalit, etc.), je recommande particulirement les reprsentations de la page
suivante trs riches en informations.

Source : daprs une ide originale de Bernard Lebelle, Convaincre avec des graphiques efficaces, Eyrolles, 2012.

Figure 57 Quatre dimensions reprsentes dans ce graphique (CA, PdM, temps, comparaison)
|
|\/
$!

CA 2015 volution
4$

Prouduit A 1317
By

Prouduit B 1277

Prouduit C 1265

Prouduit D 1249

Prouduit E 1304

Source : Bernard Lebelle, Construire un tableau de bord pertinent sous Excel, Eyrolles, 2013.

Figure 58 Les sparklines, ou comment introduire des mini-graphiques dans vos tableaux

ANATOMIE DUN BON GRAPHIQUE : QUELQUES ASTUCES DE MISE EN


FORME

Une fois le type de reprsentation choisi, comment construire un graphique qui remplit
vraiment son rle de partage et daide la dcision ? Les options par dfaut des logiciels
sont rarement satisfaisantes et la liste ci-aprs de bonnes pratiques (non exhaustives)
vous aidera dores et dj prendre conscience des amliorations que vous pourrez
adopter dans vos futures constructions graphiques. En data visualisation, le diable est
dans le dtail et en particulier dans les dtails suivants.
Lchelle
Il est primordial dtre respectueux de la ralit et de ne pas fausser linterprtation des
donnes par des proportions mal reprsentes, une graduation inapproprie ou un
graphique tir (Edward Tufte, un des pres fondateurs de la data visualisation dj
mentionn plus haut, parle de coefficient de mensonge pour traduire ce phnomne
malheureusement courant). De mauvaises interprtations donneront lieu de mauvaises
dcisions qui peuvent potentiellement mettre lentreprise en pril. Dans le cas de donnes
dordres de grandeur trs diffrents, une solution consiste les reprsenter sur une
chelle logarithmique ou les normaliser en base 100.

Le titre
lment du graphique souvent nglig, car trop descriptif et redondant avec le graphique
en lui-mme ( volution du panier moyen sur les trois dernires annes ), le titre doit au
contraire faciliter dentre de jeu la comprhension en affirmant le message que vous
souhaitez faire passer et quil faut retenir du graphique : Le panier moyen grossit un
rythme rgulier depuis trois ans. En dessous de ce titre conclusif, vous pouvez
complter par un sous-titre descriptif si ncessaire pour prciser lunivers tudi.

Les couleurs
|
|\/
$!

Le choix des couleurs ne doit pas tre fait au hasard et il faut au contraire en exploiter la
4$

puissance communicative. Par exemple rompre un histogramme uniformment gris par


une barre en rouge permet de mettre en exergue un point dattention ou signaler des
By

donnes estimes. La couleur peut galement tre utilise pour transcrire des
informations disjointes ou ordonnes (la couleur entrant alors dans un systme de
classification). Afin de ne pas transformer votre graphique en arc en ciel, il est prfrable
de suivre une palette de couleurs harmonieuse, comme celles proposes par les logiciels
Adobe Kuler ou ColorBrewer.

La lgende
Encore un lment souvent bcl en suivant les options par dfaut ! En effet, une lgende
en bas ou sur le ct entranera des allers-retours visuels inutiles pour le lecteur. Il est
prfrable de la positionner en haut (de la sorte, le lecteur simprgne de la lgende avant
de voir le graphique) ou encore, mieux, directement dans le graphique ct de llment
indexer (comme une tiquette). Ce dernier conseil est particulirement utile pour les
graphiques dvolution superposant plusieurs courbes. Enfin, sous le graphique doit tre
indique la source des donnes afin de crdibiliser le travail danalyse.

Autres astuces
Outre les erreurs dj mentionnes, on veillera liminer au maximum toute fioriture
visuelle ; par exemple, un quadrillage par dfaut qui ne favorise en rien linterprtation des
donnes, mais diminue le ratio quantit dencr/quantit de donnes. Par ailleurs, le
nombre de sries de donnes ne doit pas perturber la lisibilit du graphique : il est
prfrable de ne pas dpasser trois ou quatre sries de donnes. Enfin, lusage de la 3D
est rarement un bon choix, le volume ainsi introduit entrane des erreurs dvaluation des
valeurs, car le cerveau humain interprte moins bien les volumes que les reprsentations
planes.
Au final, toutes ces bonnes pratiques combines entre elles devraient raccourcir le temps
dassimilation du graphique et de la prise de dcision.

LES AVANTAGES DE LA VISUALISATION DES DONNES : LA PAROLE AUX


UTILISATEURS

Voici les principaux avantages cits par les personnes interviewes dans une tude mene par le cabinet IDG Research
et relayes par le logiciel de statistiques SAS dans le livre blanc Quatre raisons pour lesquelles vous ne pouvez plus vous
passer de la visualisation des donnes.
77 % : optimisation du processus de prise de dcision.
43 % : rapidit et fiabilit des analyses ad hoc.
41 % : davantage de collaboration et de partage des informations.
36 % : davantage de fonctionnalits en self-service pour les utilisateurs finaux.
34 % : augmentation du retour sur investissement. |
20 % : gain de temps.
|\/
15 % : moins de pression sur le dpartement informatique.
$!
4$

PRSENTATION DES RSULTATS SUR POWERPOINT : SE


By

CONCENTRER SUR LESSENTIEL

Vous serez souvent amen prsenter vos rsultats sur un PowerPoint. Quelques
conseils simposent afin de ne pas rduire nant les efforts danalyse en communiquant
maladroitement vos rsultats.

Mobiliser et impliquer positivement son audience


La plupart du temps laudience laquelle vous allez prsenter les rsultats danalyse de
donnes naura que peu de temps et dattention vous consacrer, trop occupe par le
quotidien. Les bonnes pratiques ci-dessous trs utilises dans le monde du conseil
devraient rduire le risque de parler devant une assemble de dcideurs plongs dans
leurs smartphones !
Tout dabord en guise de prambule, soyez clair sur le message cl que vous
souhaitez vhiculer, cest--dire la raison principale pour laquelle vous effectuez cette
prsentation. Exprimez cette ide dans une phrase complte et prcise. Ainsi si on vous
demande : Quel est lobjet de votre prsentation , ne rpondez pas Rsultat de mes
analyses de donnes , mais Augmentation de la valeur client grce lutilisation de la
donne .
Ensuite, gardez le focus sur les problmatiques qui intressent votre audience. Ce
conseil parat vident, mais bien souvent les prsentations abordent des thmatiques en
dehors des problmatiques de lauditoire. Vous vous tromperez rarement en mettant
laccent sur les revenus et profits qui peuvent tre gnrs par lanalyse de donnes
effectue ou en expliquant comment vous envisagez de mettre en place concrtement
quelques cas dusages. Une analyse des risques accompagne de mthodes
oprationnelles pour les surmonter est gnralement galement la bienvenue.
Enfin, abordez trs vite la conclusion de vos analyses. Bien souvent les prsentations
exposent dabord tout un ensemble de faits sans unit apparente pour en venir enfin la
rvlation ou, pire, un coup de thtre. Le problme avec cette mthode est li au
risque de vous faire interrompre avant la fin ou de perdre lattention de votre auditoire qui
se demande o vous voulez en venir. Une mthode plus efficace est de dbuter votre
expos par quelques slides rsumant les principales conclusions et recommandations.
Le reste du PowerPoint sera l pour supporter ces conclusions par des faits, des
donnes, des analyses qui ne seront dailleurs pas forcment toutes prsentes selon
la raction de laudience qui souhaitera peut-tre creuser un sujet en particulier. Bien sr,
annoncez ce plan votre audience ( Les cinq premires minutes seront consacres aux
conclusions des analyses de donnes que nous avons menes, le reste de la prsentation
sera guid par vos questions ). Mme les plus impatients des dirigeants ne vous
|
|\/
interrompront pas sils savent quils vont tout savoir dans les cinq minutes venir et
$!

pourront poser ensuite les questions qui leur brlent les lvres.
4$
By

Structurer sa prsentation comme une histoire


Les grands principes tant exposs, comment en pratique articuler votre prsentation ?
Une bonne faon de procder est de sinspirer des techniques des storytellers, savoir
crer des conflits entre des statu quo et des volutions possibles, amenant laudience
se demander comment les rsoudre5. Plus prcisment :
Commencez par ancrer une situation initiale, en dcrivant un constat partag par tous.
Le signe qui ne trompe pas est de constater que les personnes dans lassemble opinent
de la tte en guise dassentiment. Cette faon de dbuter cre un lien entre vous et votre
auditoire et tablit une atmosphre dcoute. Enchanez par votre vision de la situation
telle quelle pourrait tre grce aux solutions que vous allez proposer. Par exemple :
Constat : Nous sommes dans une course permanente lacquisition. Peu defforts sont
mobiliss pour la fidlisation et chaque mois moins de 100 K de CA est gnr par des
anciens clients.
Proposition : Et si nous pouvions tripler ce chiffre en faisant quelques efforts au niveau
de notre e-mailing ? Je pense que ce rsultat est atteignable pour les trois raisons que je
vais vous exposer.
Dveloppez votre argumentaire, en continuant jouer sur des contrastes entre constats
et propositions damlioration et en incluant ds que possible des estimations chiffres
des gains. Vous pourriez par exemple structurer le milieu de votre prsentation de la
faon suivante :
Constats :
37 % des r-achats sont effectus moins de cinq jours aprs le premier achat ;
Tous les acheteurs du week-end (soit 20 % des acheteurs) ne reoivent aucune
sollicitation commerciale ou avantages dans les cinq jours qui suivent leurs achats (car
la newsletter est hebdomadaire le vendredi).
Proposition : inclure des recommandations produits dans les e-mails transactionnels de
confirmation de commande et prvoir un e-mail automatique deux jours aprs la
commande avec un contenu attrayant
Estimation du gain mensuel : nombre dacheteurs par mois x 0,2 x 0,37 x taux de rachat
x panier moyen dune 2e commande.
Slide de rserve en prvision des questions : la matrice des corrlations vue au chapitre
prcdent pour pouvoir rpondre aux questions portant sur les produits recommander.
Terminez en beaut avec des calls to action qui incitent vraiment laction, et non
pas une liste un peu fade de bullet points. Vous tes ici en phase de sduction et non pas
|
|\/
dans la prsentation du planning projet. Insistez plutt sur les apports attendus des
$!

actions menes : Nous avons la chance dasseoir un CA rgulier qui assurera notre
4$

croissance sereinement ; Un client fidle reprsente du CA en moins pour la


By

concurrence , etc.
En suivant ce schma de narration, vous vhiculerez un message simple comprendre,
mmoriser et rsumer aux autres collaborateurs.

Bon savoir
Une prsentation de data marketing na pas vraiment pour objet les donnes en tant que telles ou les
analyses qui ont t effectues. Le sujet principal se situe plutt dans le sens confr ces donnes et aux
actions et dcisions qui peuvent en dcouler.

Vos slides passent-elles le test des cinq secondes ?


La structure de votre prsentation tant dfinie, terminons par des conseils sur le contenu
mme des slides, qui doivent pouvoir tre compris dun regard en quelques secondes
peine.
Le titre doit tre conclusif : comme pour les graphiques, le titre dune slide doit porter le
message principal que vous souhaitez vhiculer dans cette slide. Par exemple Les
personnes qui achtent du jardinage achtent aussi du bricolage est prfrable
tude des corrlations intercatgorielles . En relisant uniquement les titres de vos
slides, vous devriez pouvoir vous faire une ide trs prcise de la prsentation et de sa
logique. Ce procd porte le nom de communication pyramidale .
La simplicit est le matre mot : animations, sons et autres fioritures sont gnralement
bannir. La mme logique sapplique pour le texte : mettez-en peu, faites des phrases
courtes et simples saisir. Enfin, veillez ne pas surcharger les slides par quantit de
chiffres : pendant que laudience tentera de se les approprier, vous ne serez plus cout.
Veillez lunit densemble : assurez-vous dutiliser tout au long de lexpos les mmes
polices de caractres aux mmes endroits pour une signification commune. Cela
instaurera des mcanismes prcognitifs pour les slides suivantes. Dans le mme ordre
dides, veillez lhomognit des images et des couleurs.
Pensez laisser du blanc : la plupart des intervenants ont horreur du blanc quils
remplissent avec des images inutiles. Au contraire une dose adquate de blanc laisse
respirer la slide et permet disoler visuellement certains lments.
Jouez avec les contrastes : pour accentuer ou mettre en avant un lment en
particulier, crez du contraste au niveau des couleurs, de la forme, de la taille ou de la
proximit.
Instaurez une hirarchie visuelle : le regard se dirigeant du haut vers le bas, vous
pouvez crer un entonnoir de lecture en jouant sur les tailles de police.

Le tableau de bord ne prsente pas des rsultats, il aide la dcision


|
|\/
$!

On ne pouvait parler danalyse de donnes et de data visualisation sans aborder le sujet


4$

des tableaux de bord. Bien que de nombreux ouvrages aient dj trait la question, la
plupart des tableaux de bords rencontrs sur le march sont constitus dun assemblage
By

de graphiques et de chiffres qui ne vhiculent au final que peu dinformations facilement


exploitables. Apprhender cet ensemble de donnes exige un effort dabstraction et de
modlisation qui ralentit la prise de dcision et nest plus acceptable lheure du data
marketing. Rappelons-le, le but de la data visualisation et du data storytelling est
daller lessentiel, de prmcher le travail afin de faciliter la prise de dcision.
ce titre, juxtaposer des graphiques sur une feuille A4 en laissant le soin aux dcideurs
dinterprter leur signification et den tirer des conclusions est assez contradictoire avec
cette philosophie, il faut lavouer ! De la mme faon, un tableau de bord interactif au sein
dun logiciel ne remplit pas pleinement son rle daide la dcision, car cest bien souvent
alors au dcideur de tester tous les filtres possibles afin de dcouvrir les bonnes
conclusions6.
Cest pourquoi nous conclurons cette section en prsentant un tableau de bord
particulirement efficace, articul sous forme de fiches mmo et expos sur lexcellent
blog dAvinash Kaushik (kaushik.net) digital marketing evangelist chez Google. Le
principe est simple : pour chaque thmatique importante (ou chaque cas dusage), il sagit
de construire une fiche dcompose en quatre quadrants, gnralement disposs de la
manire suivante :
en haut : le graphique riche en information ;
en bas gauche : quelques commentaires sur le graphique et son interprtation ;
en bas au centre : une estimation business des pertes/gains ;
en bas droite : des recommandations dactions entreprendre pour corriger le tir ou
engranger davantage de croissance.

|
|\/
$!
4$
By

Source : daprs une ide originale Avinash Kaushik, the-action-dashboard-an-alternative-to-crappy-dashboards, 2008,


kaushik.net

Figure 59 Tableau de bord quatre quadrants

Cette forme de visualisation et de narration des donnes permet une comprhension


immdiate des donnes, tout en fournissant galement des conseils et suggestions sur les
actions mettre en uvre. Se suffisant lui-mme, ce tableau de bord est galement
facilement partageable en interne, avec une amlioration immdiate de la prise de
dcision.

RETENIR DE CE CHAPITRE
Le soin apport la restitution des rsultats des analyses est au moins aussi important que la qualit des
analyses menes. La rgle dor est de recourir la communication pyramidale : il ne sagit pas dans la
restitution de relater tous les mandres du raisonnement, mais daller droit la conclusion et de la soutenir
par les faits saillants. Ce principe est appliquer aussi bien pour les graphiques que pour les slides dun
PowerPoint, notamment laide de titres conclusifs.

vous de jouer
Prenez votre dernier rapport de campagne et remplacez linvitable camembert ou
histogramme par un autre graphique plus riche, en vous aidant des chart choosers.
Amliorez un graphique de votre prochaine prsentation avec les bonnes pratiques voques
dans ce chapitre.
Considrez une thmatique importante pour votre activit et synthtisez-en les enjeux dans
une fiche mmo quatre quadrants.

SOURCES
Si vous souhaitez approfondir la thorie sous-jacente aux bonnes pratiques de data visualisation, je vous recommande la
lecture des deux ouvrages ci-dessous :
Convaincre avec des graphiques efficaces, Bernard Lebelle, 2012, Eyrolles, 2012.
The Wall Street Journal. Guide to Information Graphics, Dona Wong, W. W. Norton & Company, 2014.
Pour une approche plus pragmatique, le site http://www.hello-data.co liste un grand nombre doutils fort utiles pour raliser
des visualisations graphiques pertinentes. |
|\/
Pour devenir un maestro des prsentations PowerPoint et autres restitutions, je vous invite dcouvrir :
$!

Lart des prsentations PowerPoint : de la ralisation technique la performance oratoire, Bernard Lebelle, Eyrolles,
4$

2011.
HBR Guide to Persuasive Presentations, Nancy Duarte, octobre 2012
By

1. Mthode de communication base sur une structure narrative du discours, la manire dun rcit.
2. Pour qualifier cette approche, Edward Tufte, dans son ouvrage The Visual Display of Quantitative Information (2001),
sappuie sur le ratio quantit dencre/quantit de donnes !
3. Sans parler des illusions doptique cres par linterprtation daires ou pire lusage de la 3D.
4. Bernard Lebelle, Convaincre avec des graphiques efficaces, Eyrolles, 2012.
5. Structure Your Presentation like a Story , Nancy Duarte, article paru le 31 octobre 2012 sur le site de la Harvard
Business Review (hbr.org).
6. En revanche, le tableau de bord interactif est bien pratique en mobilit ou pour un suivi temps rel.
CHAPITRE

7
Le marketing prdictif

Anticiper le futur est le rve de tous les marketeurs. Historiquement, les marketeurs ont
toujours analys les performances des campagnes passes afin de comprendre a
posteriori certains phnomnes ou bien ont ralis des panels afin de prdire la
raction des consommateurs. lheure du digital, la prdiction comportementale
prend une tout autre ralit : celle des modles mathmatiques capables de
calculer en temps rel la probabilit de ralisation dun vnement.
Si les termes marketing prdictifs et machine learning1 (littralement apprentissage
automatique ) sont devenus courants et trs la mode dans la presse et les vnements
|
spcialiss, les concepts mathmatiques sous-jacents restent pourtant obscurs pour la
|\/
plupart des professionnels du marketing digital, laissant la place au meilleur comme au
$!

pire en matire dimplmentation dalgorithmes prdictifs . Pas de panique toutefois :


4$

ce chapitre qui clt la deuxime partie consacre aux techniques de base de la data
By

science dmystifiera la plupart des grandes applications du marketing prdictif et vous


donnera le socle de connaissance ncessaire pour mieux apprhender ce champ dtudes
peru trs souvent comme une blackbox (bote noire).

PRINCIPES GNRAUX DU MARKETING PRDICTIF

Autrefois rserves aux banques2 et au monde de la finance, les analyses prdictives et


le machine learning se sont introduits depuis quelques annes dans le marketing (cf.
encadr), portes par le courant Big Data et larrive dingnieurs dans les directions
marketing. Ci-dessous sont prsents quelques-uns des grands principes de ces
mthodes prdictives qui connaissent une seconde jeunesse lre o la puissance de
calcul ncessaire nen est plus le facteur limitant.
UN EXEMPLE DE PRDICTION MARKETING QUI A FAIT LE TOUR DU
MONDE

Le cas des hypermarchs Target, dvoil au grand jour en 2012 par le New York Times, illustre souvent la puissance du
marketing prdictif. Un client en colre demande voir le directeur de sa grande surface habituelle : Ma fille na que 16
ans et vous envoyez des pubs pour berceaux. Vous voulez la pousser tomber enceinte ou quoi ? Quelques jours
aprs, le pre apprend que sa fille est effectivement enceinte. Le supermarch, sous limpulsion du data scientist Andrew
Pole avait labor un modle de scoring probabiliste partir de 25 produits que les femmes nouvellement enceintes
avaient tendance commander. Cest ainsi que Target avait dtermin, quelques jours prs, quel stade de grossesse
la jeune fille se trouvait. Avant que son propre pre ne le sache !
Esprons pour cette jeune fille quelle ne devienne pas cliente de Visa et paye ses factures en retard. La clbre carte
bancaire a en effet a remarqu que les couples ayant ce comportement avaient tendance divorcer plus que la
moyenne

Certaines variables sont plus prdictives que dautres


Cest du bon sens mtier et la base du ciblage traditionnel : certaines variables (zone
gographique, nombre de visites sur le site, tlchargement dun livre blanc, etc.) sont de
meilleurs indicateurs que dautres dans la prvision de la ralisation dun vnement. Mais
comment chiffrer le gain dinformation apport par la connaissance dune telle variable et
comparer le pouvoir prdictif de diffrentes variables ? Le mathmaticien Shannon a
rpondu en 1947 en partie cette question en dveloppant la thorie de linformation et la
|
|\/
notion dentropie. En statistique, lentropie est une mesure du dsordre qui rgne dans la
$!

population et se calcule simplement selon la formule suivante :


4$

Entropie du systme = (P+ x log P+ + P x log P)


By

o P+ et P dsignent respectivement la proportion de population qui a ralis lvnement


(exemple : a achet) et celle qui na pas ralis lvnement (na pas achet). Pour faire
simple, plus une variable parvient faire baisser lentropie globale du systme (note E
[S]), plus cette variable est un bon prdicteur. La fonction logarithme est le logarithme en
base 23.
Par exemple, imaginons que vous observez un chantillon de 14 individus, dont neuf ont
achet un produit et cinq nont rien achet. Vous disposez des donnes suivantes : leur
origine gographique (sept de Paris, sept de Province), leur tranche dge (huit ont moins
de 40 ans, six ont plus de 40 ans) et leur sexe (neuf femmes, cinq hommes). Vous vous
demandez laquelle de ces donnes sociodmographiques est la plus pertinente.
Les donnes disposition sont rsumes dans le tableau ci-dessous :
Identifiant A achet Origine gographique Tranche dge Sexe

1 Non Paris Infrieur Femme

2 Non Paris Suprieur Femme

3 Oui Paris Infrieur Homme

4 Oui Paris Infrieur Femme

5 Oui Province Infrieur Femme

6 Non Province Suprieur Femme

7 Oui Province Suprieur Homme

8 Non Paris Infrieur Homme

9 Oui Province Infrieur Femme

10 Oui Province Infrieur Homme

11 Oui Province Suprieur Homme

12 Oui Paris Suprieur Femme

13 Oui Province Infrieur Femme

14 Non Paris Suprieur Femme


|
|\/
$!

Figure 60 Trois variables descriptives du consommateur : laquelle apporte le plus dinformations sur la
probabilit dachat ?
4$
By

Lentropie initiale du systme est par application de la formule prcite :


E(S)= (9/14 x log [9/14] + 5/14 x log [5/14]) = 0,940 puisquil y a eu neuf achats et cinq
non-achats .
Comparons par exemple le surplus dinformation apport par lorigine gographique avec
celui apport par la connaissance de la tranche dge.
E (Origine=Paris) = (3/7 x log [3/7] + 4/7 x log [4/7]) = 0,985 puisque sur la population
parisienne, trois ont achet et quatre nont pas achet.
De manire similaire en comptant les vnements positifs et ngatifs pour les personnes
de Province, E (Origine=Province) = 0,592.
Do un gain dinformation apport par la connaissance de la zone gographique gale
0,940 7/14 x 0,985 7/14 x 0,592 = 0,151 (lunit est le bit)
De la mme manire on calcule E (ge>40) = 1 et E (ge<40) = 0,811, do un gain
dinformation de 0,940 6/14 x 1 8/14 x 0,811 = 0,048
Au final, dans ce cas prcis, il vaut mieux connatre lorigine gographique que lge ! On
pourrait bien entendu engager la mme dmarche en comparant les tranches dge et le
sexe ou encore lorigine gographique et le sexe.
Cette information peut tre utilise ensuite par exemple pour dterminer le prix dachat
dune publicit selon les caractristiques de linternaute, en aidant la construction dun
arbre de dcision4

|
Figure 61 Lentropie est un moyen de dterminer les bons critres de choix dans un arbre de dcision
|\/
$!
4$

De nouvelles variables peuvent tre cres


Afin de maximiser le pouvoir discriminant des variables, de nouvelles variables sont
By

souvent cres. Nous avons dj vu lutilit dun tel procd au chapitre 5 dans le cadre
de lanalyse en composantes principales (pour rappel : cration de variables dites
factorielles permettant de rduire la dimension du problme). Plus simplement, la
cration dindicateurs pertinents (maxima, moyennes), le calcul de ratios (exemple : le prix
au m2 peut tre une variable plus significative que les variables prix et surface prises
sparment), linstauration de seuils (exemple : cration dune variable enfant partir de
la variable ge) ou encore la binarisation dune variable (exemple : transformer des dates
en une variable binaire rcent/ancien) sont des pratiques courantes en analyse prdictive.
Ce procd porte mme un nom : on parle de feature engineering
Parfois, il ny a mme pas de variables initiales du tout et toutes les variables du problme
sont cres par un algorithme ! Cest notamment le cas des problmes de sequence
mining qui consistent identifier des motifs rcurrents avant la ralisation dun
vnement : les squences identifies deviennent les variables du problme. Ce procd
est par exemple trs utilis en e-commerce afin didentifier des chemins de navigation qui
mnent la conversion (ou non).

Lefficacit dun modle se mesure et les modles peuvent tre compars


Tous les prestataires vantent la qualit de leurs prdictions, tablies par les plus grands
chercheurs de ce monde . Mais comment reconnat-on un bon modle prdictif dun
mdiocre ? La comparaison et le choix dun modle se fait principalement suivant trois
critres : la qualit des prdictions, la capacit gnraliser et la simplicit
dimplmentation.
La qualit des prdictions est donne gnralement par un score entre 0 et 1. Il existe
plusieurs mthodes pour valuer ce score, la plus utilise tant la courbe ROC5 . Cette
courbe est tout simplement lextension de la matrice confusion tudie en prambule de
cet ouvrage et sobtient en traant le taux de vrais positifs en fonction du taux de
faux positifs . Les points sont obtenus en faisant varier le seuil de dcision s qui
caractrise la matrice de confusion, faisant apparatre des configurations similaires la
figure ci-aprs.

|
|\/
$!
4$
By

Figure 62 Comparaison de diffrents modles sur une courbe ROC

Le graphique sinterprte de la manire suivante :


la bissectrice dquation y = x reprsente un modle alatoire (en moyenne la
prdiction a autant de chance dtre juste querrone) ;
les deux courbes sont les modles quon souhaite valuer : ils sont bien tous meilleurs
que lalatoire ;
le meilleur modle est le modle se rapprochant le plus du point (0 ;1) et maximisant
laire sous la courbe.
La capacit gnraliser (ou stabilit) dun modle est fondamentale. Un modle peut
en effet expliquer parfaitement le jeu de donnes fourni, mais tre incapable de
gnraliser les prdictions dautres donnes ou tre compltement boulevers par une
petite variation dans les donnes. Ce phnomne est un pige classique connu des data
scientists sous le nom de sur-apprentissage
La simplicit dimplmentation et dusage est essentielle au passage lchelle du
modle. Certains modles sont en effet trs puissants mais trop consommateurs en
ressources ou compltement ininterprtables. Cest pourquoi les modles vainqueurs des
concours Kaggle6 sont trs rarement ceux qui finissent en production ! Il est parfois
prfrable de rester sur un modle simple, mais avec une vitesse de calcul faible et un
sens mtier (exemple : fournissant une pondration des variables les plus importantes).

Apprendre, prdire, valider


Pour prdire, il faut dabord apprendre. Un projet de marketing prdictif suit donc quasi
systmatiquement la mthodologie suivante :
base dapprentissage (ou dentranement) : 60 % du jeu de donnes est utilis pour
lapprentissage, savoir la construction dun ou de plusieurs modles prdisant la
variable cible ;
base de test : 20 % des donnes sont utilises pour tester les diffrents modles, les
optimiser et slectionner un gagnant ;
base de validation : les derniers 20 % servent la validation finale du modle
slectionn.
Ce dcoupage pralable du jeu de donnes est essentiel, car il permet de vrifier que les
|
|\/
prdictions annonces par le modle sont bonnes avant de mettre le modle en
$!

production.
4$
By

Figure 63 Mthodologie derrire la conception dun algorithme prdictif

Ces concepts tant noncs, intressons-nous prsent aux deux grandes catgories de
modles prdictifs que vous serez susceptible de rencontrer sur le march7 :
les modles dits de rgression prdisent les valeurs dune variable cible partir
dune ou de plusieurs variables. Le cas dcole est la prdiction du prix dun
appartement par rapport la surface, le quartier et lanciennet de limmeuble ;
les modles dits de classification prdisent un tat (typiquement sain/malade
dans le domaine de la sant ou clients qui vont renouveler ou non leur abonnement
en ce qui concerne le marketing).

Bon savoir
Ces deux modles appartiennent au monde des algorithmes superviss, par opposition aux algorithmes non
superviss dans lesquels les valeurs de sortie (prix, tat) ne sont pas connues (exemple : les algorithmes
de clustering tudis au chapitre 5).

PRDICTION EXPLICITE PARTIR DES VARIABLES : LES MODLES DE


RGRESSION

Attaquons tout de suite avec deux exemples, le premier pdagogique, le second plus li
aux problmatiques marketing dune entreprise.

Prdire le gazouillis des criquets

|
|\/
$!
4$
By

Figure 64 Prdiction du volume sonore des criquets selon la temprature

Diana Virgo, mathmaticienne de la Loudan Academy of Science de Virginie fit un jour une
drle dexprience pour expliquer le pouvoir des mathmatiques son auditoire. Elle
apporta un seau de criquets, un petit radiateur et posa la question suivante : Les
criquets chanteront-ils plus ou chanteront-ils moins si jaugmente la temprature ? Et
lexprience commena : pour chaque nouvelle temprature, lauditoire estima le volume
sonore des gazouillis . Trs vite un ensemble de donnes (temprature, gazouillis) fut
collect et la courbe da la figure prcdente put tre trace.
Comme on pouvait sy attendre, plus le radiateur est chaud et plus les criquets sagitent,
et il est mme possible grce lquation de la droite8 de prvoir le volume sonore des
criquets pour chaque degr supplmentaire : le point gris de la courbe de coordonnes
(100,78) est une prdiction ! Et lensemble de lexprience est la (formidable) faon dont
cette professeure de mathmatiques a introduit la notion de fonction ses lves de 3e
Morale de cette histoire9 : prdire nimplique pas ncessairement mettre en place un
modle mathmatique complexe. La fonction affine apprise au collge est par dfinition un
modle de prdiction !

Prdire le CA dun nouveau magasin pour choisir le meilleur emplacement


Considrons un exemple un peu plus srieux et proche des problmatiques dun directeur
marketing : imaginez que vous cherchez ouvrir un nouveau magasin et souhaitez
dterminer le meilleur emplacement gographique10. Contrairement au problme
prcdent avec les criquets, la russite de votre futur magasin dpend ici dun grand
nombre de facteurs : la densit de population, le nombre de magasins concurrents
autour de votre future implantation, laccessibilit, etc. Chacun de vos collaborateurs a
dailleurs une thorie sur le critre qui aura le plus dimpact sur les ventes : Crois-moi : il
nous faut un magasin qui fait langle de la rue , tre proche dun parking est vraiment
dterminant daprs moi , Noublie pas que notre cible sont les seniors, il faut en tenir
compte dans laccessibilit , etc.
Comment faire la part des choses ? Modliser mathmatiquement la russite dun
magasin est une approche prcieuse pour rationaliser le choix.
|
|\/
Vous connaissez en effet un grand nombre de donnes sur limplantation de vos magasins
$!

actuels et disposez dun fichier comme celui ci-dessous :


4$
By

Magasin CA/an/superficie ge moyen zone de chalandise Nombre de Distance au


magasins premier
concurrents parking (m)
dans un rayon
de 400 m

Paris 197 39 13 97

Lyon 223 40 9 128

Bordeaux 110 38 7 196

Strasbourg 134 36 7 36

Nice 202 49 8 375

Figure 65 Trois types de variables sont collects sur les magasins pour prdire le chiffre daffaires au m2

Le premier rflexe serait ici de tracer les graphiques liant le chiffre daffaires/an/superficie
chacune des trois autres variables afin dtudier lexistence dune relation linaire.
Laissons cela titre dexercice au lecteur, sans doute impatient dappliquer le thorme
du criquet .
Mais comment modliser en une seule quation linfluence de toutes ces variables ? Cest
prcisment cette question que rpond la rgression linaire multivarie11. Cet
algorithme trs utilis en data marketing12 pondre chacune des variables dans un
modle de la forme :
Y = aX1 + bX2 + cX3 + cste + erreur
Y dsigne la variable prdire, ici le chiffre daffaires annuel au m2 ;
X1, X2 et X3 sont les variables explicatives, ici lge moyen de la population dans la
zone de chalandise, le nombre de magasins concurrents dans un rayon de 400 m et la
distance au premier parking ;
a, b et c sont appels les coefficients de pondration et correspondent linfluence
des variables dans la prdiction ;
le terme derreur qualifie lapproximation du modle.
Tous les outils statistiques volus permettent de modliser en quelques clics un problme
par une rgression linaire multivarie.
Par exemple, avec le logiciel de statistiques R , lutilisation de la fonction lm donne13
pour notre problme dimplmentation de magasin les coefficients de pondration
suivants :

Coefficients: |
|\/
Estimate
$!

(Intercept) 177.4711
4$

Age 15.3152
By

Concurrence 35.5738
Dist.parking 5.1521

Multiple R-squared: 0.9997

Figure 66 Rsultat de la rgression linaire multivarie avec le logiciel R

Soit dans le formalisme de lquation de la rgression linaire prsente plus haut :


a = 15,3 ;
b = 35,6 ;
c = 5,2 ;
cste = 177, 5 ;
terme derreur = 0,0003.
Linterprtation de ces rsultats peut se faire de la manire suivante :
la constante 177,5 correspond plus ou moins la moyenne du CA des magasins
observs. Cest la prdiction dite nave (annulation de linfluence des variables,
savoir a = b = c = 0) ;
le paramtre le plus important est le niveau de concurrence qui influence trs
ngativement le CA (b = 35,6), ce qui est conforme lintuition ;
quand lge moyen de la zone augmente, le CA augmente (a = + 15,3 > 0)
correspondant au positionnement de cette enseigne ;
la distance au parking est un facteur positif, mais non discriminant (c = 5,2).
Multiple R-squared est quant lui le coefficient de dtermination qui value ladquation
entre le modle et les donnes observes. 0,9997 est une modlisation quasi parfaite
de ce point de vue
Enfin lencadr ci-dessous introduit une autre remarque importante quant linterprtation
des rsultats.

PRDICTION NEST PAS CAUSALIT !

Culturellement, le marketing a toujours cherch comprendre par le biais dtudes ou de panels pourquoi un
consommateur adopte tel ou tel comportement et comment le reproduire. Le marketing prdictif induit une transformation
en profondeur de notre rapport linformation. En effet les modles prdictifs tels que la rgression ici prsente peuvent
indiquer le poids de chaque variable dans la prdiction du rsultat, mais ne renseignent en aucun cas sur des relations de
cause effet ! Par exemple, une rgression peut indiquer un lien vident entre le CA dun magasin et la pluviomtrie, mais
ne signifie en rien que la pluie est lorigine des ventes ou inversement ! Dautres exemples comiques, mais instructifs de
cette diffrence entre corrlation et causalit sont disponibles ladresse
suivante :http://www.cndp.fr/entrepot/themadoc/probabilites/reperes/causalite-et-correlation.html

Sous rserve de lextension du modle au cas gnral (i.e. pas de sur-apprentissage), la


|
|\/
rgression linaire multivarie rpond ici bien au besoin de prdire le meilleur
$!

emplacement : il suffit pour chaque emplacement ligible de collecter lge moyen de la


4$

population dans la zone de chalandise, le nombre de magasins concurrents aux alentours


By

et la distance au premier parking pour calculer le chiffre daffaires prvisionnel du magasin


et faire un choix data driven .

Bon savoir
Si vous ntes pas un adepte des rgressions, commencez par slectionner des variables mtiers dans le
but de mesurer leur influence. Cette dmarche vitera des conclusions errones fondes sur des
interprtations biaises des coefficients de pondration.

PRDICTION DUN TAT : ALGORITHMES DE CLASSIFICATION

nouveau prfrons les exemples pratiques lexpos dune thorie fastidieuse.

Le client va-t-il renouveler son abonnement ?


Lune des principales applications du marketing prdictif est lanticipation du taux de churn,
cest--dire la capacit identifier les clients sur le dpart et ragir pour les retenir.
Considrons un exemple pdagogique dans le secteur de lassurance et essayons de
comprendre comment il est possible de prdire une rsiliation.
Un expert mtier a identifi trois variables a priori importantes dans lanticipation dune
rsiliation du contrat dassurance :
le nombre de membres de la famille assurs auprs de lentreprise ;
lge du client ;
le nombre de visites des pages conditions gnrales lors des trois derniers mois.
Ces donnes sont collectes depuis des annes et archives dans le fichier historique ci-
dessous :

Id client Renouvellement du ge Membre(s) de la famille Nombre de visites des


contrat galement assur(s) pages conditions
gnrales lors des 3
derniers mois

1 Non 22 1 7

2 Oui 28 1 1

3 Oui 26 0 0

4 Oui 35 1 1

5 Non 35 0 8

6 Non 29 0 3

7 Non 54 0 4
|
|\/
8 Non 20 3 2
$!
4$

9 Oui 27 0 11

10 Oui 34 1 0
By

Figure 67 Trois types de variables collectes sur les clients pour prdire une ventuelle rsiliation (base
dapprentissage)

La variable prdire est renouvellement du contrat , les autres variables sont les
variables explicatives. Contrairement aux exemples prcdents, la variable prdire est
cette fois-ci non plus une valeur continue, mais une valeur binaire, do le recours un
algorithme de classification.
Comme prcdemment, un premier niveau de prdiction14 peut tre obtenu rapidement
laide cette fois-ci dun algorithme appel rgression logistique multivarie . Le principe
est assez similaire la rgression linaire, savoir modliser le problme par une
quation qui est cette fois-ci du type :
Log (p/[1-p]) = aX1+bX2 +cX3 +cste + erreur
p est la probabilit que renouvellement = oui (soit ici daprs le tableau de donnes p =
50 %) ;
X1, X2, X3 sont les variables explicatives, ici lge du client, le nombre de personnes
assures dans sa famille et le nombre de visites des pages conditions gnrales ;
a, b, c sont appels les coefficients de pondration et correspondent linfluence
des variables dans la prdiction ;
le terme derreur qualifie lapproximation du modle.
Tout comme pour la rgression linaire, tous les outils statistiques volus permettent
deffectuer simplement des rgressions logistiques. Par exemple, avec le logiciel de
statistiques R , lutilisation de la fonction glm donne pour ce problme de churn les
coefficients de pondration suivants :

Coefficients:
Estimate
(Intercept) 1.73441
Age 0.03952
memberF 1.85636
Visites 2.7404

Figure 68 Rsultat de la rgression logistique multivarie avec le logiciel


R

Soit dans le formalisme de lquation de la rgression logistique prsente plus haut :


a = 0,04 ; |
|\/
b = 1,86 ;
$!

c = 2,74 ;
4$

cste = 1, 73.
By

Linterprtation des rsultats peut se faire de la manire suivante :


lge na pas vraiment dinfluence sur le rabonnement (coefficient a = 0,04 trs
faible) ;
la prsence dun autre membre de la famille assur par la mme assurance augmente
les chances de renouvellement (b > 0) ;
lire les conditions gnrales est le signal dun dpart prochain ! (c < 0).
Grce ce modle, il est maintenant possible dvaluer la probabilit de rsiliation dun
client. Par exemple pour un assur de 30 ans, avec un membre de sa famille galement
assur et ayant visit une fois les conditions gnrales ces trois derniers mois, la
probabilit sexprime par :
p/(1-p) = exp (0,04 x 30 + 1,856 x 1 2,74 x 1 1,73) soit p = 19 % do 81 % de
chance de rsilier le contrat.
Sans la visite des pages conditions gnrales , la probabilit de rsilier aurait chut
21 %, ce qui montre limportance trs forte de ce critre dans cet exemple fictif.
En classant les individus selon leurs probabilits de rsiliation, la prdiction se transforme
en un modle de scoring (cf. encadr).
LE SCORING : UNE VALUATION PAR UNE NOTE ENTRE 0 ET 1 DE LA
PROBABILIT DAPPARTENANCE UNE CLASSE

Le scoring reprsente le cur de lactivit data mining dans le monde de lentreprise. Il sagit de classer un individu dans
lun des groupes dfinis a priori (exemple : bon payeurs/mauvais payeurs) et ce au vu de certaines caractristiques de cet
individu. N au milieu du XXe sicle dans les banques pour valuer le risque de dfaillance dun crditeur, le scoring sest
rpandu depuis dans lensemble des secteurs dactivit en rponse trois types de problmatiques :
le score dapptence estime la probabilit pour un client dtre intress par un produit ou un service donn. Il est par
exemple trs utilis en BtoB afin de prioriser des listes dappels des commerciaux et de concentrer le phoning sur les
clients les plus susceptibles de rpondre favorablement (lead scoring) ;
le score de risque estime la probabilit dun client de rencontrer un incident de paiement ou de remboursement. Il est
galement utilis en e-commerce pour identifier les tentatives de fraude dont le montant total reprsenterait tout de mme
en 2015 deux milliards deuros, soit 4 % du march !
le score dattrition (ou churn) est la probabilit pour un client de quitter lentreprise. Il est particulirement utilis dans les
marchs en vase clos tels que la tlphonie, les assurances ou lnergie.

Indications des conversations tchat ayant une faible probabilit de satisfaire le


client
Les algorithmes de classification se prtent trs bien aux analyses smantiques (dtecter
des motions, comprendre les requtes dans un moteur de recherche, etc.). En particulier
lanalyse smantique (ou text mining ) des sessions de tchat peut tre utilise pour
|
|\/
augmenter la satisfaction client et donc la fidlit.
$!

Supposons que vous soyez responsable des ventes en ligne de chaudires. Eu gard
4$

limportance de lachat, la majorit des clients utilisent le tchat en ligne au moins une fois
By

dans le tunnel de conversion. Vous souhaitez pouvoir tre alert en temps rel des
discussions peu prometteuses afin de pouvoir intervenir et sauver la vente. cette fin,
vous aimeriez tre capable de classer les conversations en deux catgories : les
conversations problme et les conversations sans problme. Autrement dit, vous
souhaiteriez pouvoir calculer la probabilit dtre en situation difficile connaissant le
contenu de lchange men jusque-l avec loprateur.
Comme de coutume, vous disposez dune base dhistorique appele base
dapprentissage , remplie par loprateur de tchat aprs chaque change avec un
internaute.
Id internaute A achet ? Linternaute se Linternaute Linternaute se renseigne sur
renseigne sur la mentionne un linstallation de la chaudire
garantie concurrent

1 Oui Oui Non Oui

2 Non Non Oui Non

3 Non Non Oui Oui

4 Non Non Oui Oui

5 Non Oui Non Non

6 Oui Oui Oui Oui

Figure 69 Trois variables collectes dans les tchats (base dapprentissage)

partir de cette base, il est lgitime de se poser la question suivante : faut-il dclencher
une alerte lorsque la conversation contient la fois des expressions cls lies la
garantie et la rfrence des concurrents ? Autrement dit la probabilit dun achat
est-elle haute ou faible ds lors que la conversation tourne autour de la garantie et des
concurrents ?
Le calcul dune probabilit sachant que est le domaine de prdilection de lalgorithme
|
de Naive Bayes selon lequel :
|\/
$!

Probabilit (A sachant B)=P (B sachant A)P (A)/P (B)15


4$

Lapplication de ce thorme notre cas de figure scrit :


By

P (achat | garantie, concurrent)=P (garantie, concurrent | achat)P (achat)/P (garantie,


concurrent)
o le symbole | exprime sachant .
En faisant lhypothse que les variables garantie et concurrent sont indpendantes
entre elles16, lexpression se simplifie en P (achat | garantie, concurrent) = P (garantie |
achat) x P (concurrent|achat) x P (achat)/P (garantie, concurrent)
De la mme faon par symtrie on peut crire P (non achat | garantie, concurrent) = P
(garantie | non-achat) x P (concurrent|non achat) xP (non-achat)/P (garantie, concurrent)
En divisant la premire expression par la seconde, on obtient :
P (achat|garantie, concurrent)/P (non-achat|garantie, concurrent)= P (garantie | achat) x
P (concurrent|achat) x P (achat)/P (garantie | non-achat) x P (concurrent|non achat) x P
(non-achat)
Le membre de droite se calcule directement avec la base de donnes dapprentissage, en
se basant sur les frquences observes. Ainsi :
P (garantie | achat) = 2/2 = 1 ;
P (concurrent | achat) = 1/2 ;
P (achat) = 2/6 = 1/3 ;
P (garantie | non-achat) = 1/4 ;
P (concurrent | non-achat) = 3/4 ;
P (non-achat) = 4/6 = 2/3.
Do P (achat|garantie, concurrent)/P (non-achat|garantie, concurrent) = 4/3
Le rsultat suprieur 1 signifie concrtement quil y a plus dachats que de non-achats
pour les conversations mentionnant la garantie et les concurrents : il sagit ici dun tchat
prometteur qui ne ncessite pas lenvoi dune alerte.
Sans la mention la garantie (donc juste de la concurrence), le rsultat aurait t 0,33.
Lenvoi dune alerte aurait alors t pertinent, conformment lintuition.

Bon savoir
Par souci de simplicit, nous avons prsent ici uniquement des classifications binaires OUI/NON. Mais les
algorithmes de classification sont galement utiliss pour dautres types de prdiction multiclasses , par
exemple prvoir quels produits parmi une slection ont le plus de probabilit dtre achets : ce sont des
algorithmes souvent utiliss dans les nombreux moteurs de recommandation prsents sur le march.

RETENIR DE CE CHAPITRE |
|\/
Le marketing prdictif sappuie sur deux types dalgorithmes : les algorithmes de rgression et les
$!

algorithmes de classification. Les premiers servent prdire une valeur, par exemple le chiffre daffaires
4$

dun nouveau magasin ou la valeur dun client sur son cycle de vie. Les seconds servent prdire un tat
(par exemple acheteur/non acheteur, allant dmnager/nallant pas dmnager, etc.) et sont la base des
By

modles de scoring. Les rgressions linaires, rgressions logistiques et arbres de dcision sont les
algorithmes prdictifs les plus frquemment utiliss en data marketing.

vous de jouer
Prdisez le CA des prochains mois laide dune rgression linaire (astuce : crer une
variable binaire saisonnalit haute/faible).
Crez une base dapprentissage des clics sur la newsletter et pondrez les diffrents critres
dcrivant un abonn laide dune rgression linaire multivarie.
Crez une base dapprentissage sur les mots cls taps dans le moteur de recherche interne
de votre site e-commerce et identifiez grce Naive Bayes des mots cls annonciateurs de
conversions.

SOURCES
Ce chapitre sur le marketing prdictif clt la deuxime partie de cet ouvrage consacr lanalyse des donnes. Pour aller
plus loin, dcouvrir de nouvelles applications et approfondir la thorie du data mining et du machine learning sans pour
autant tre confront trop de technicit, la lecture des deux ouvrages ci-dessous est vivement conseille :
Data science : fondamentaux et tudes de cas, E. Biernat et M. Lutz, Eyrolles, 2015, do est notamment adapt
lexemple de Naive Bayes ;
Big Data et Machine Learning Manuel du data scientist, Pirmin Lemberger, Dunod, 2015.

1. Branche de lintelligence artificielle. Les algorithmes de machine learning donnent lordinateur la capacit dapprendre
par lexprience, sans pour autant avoir t explicitement programm pour cela, par exemple quand un ordinateur apprend
jouer au Go ou reconnatre le contenu dune image.
2. La quasi-totalit des banques utilise lanalyse prdictive depuis les annes 1970 pour prvoir si un emprunteur sera un
bon ou un mauvais payeur et agir en consquence.
3. Pour rappel, le logarithme nprien appris au lyce correspond au logarithme en base e, o e est le nombre dEuler
valant environ 2,718.
4. Algorithme reprsentant un ensemble de dcisions sous la forme graphique dun arbre.
5. Lerreur moyenne absolue (MAE), le coefficient de dtermination R2, le F1 score sont dautres mthodes trs
utilises et non dtailles ici. Leur principe repose sur une estimation de lerreur entre ralit et prdictions et une simple
ligne de commande dans un logiciel de statistiques avances permet en gnral dobtenir ce score. Le choix de la
mthode dpend du type dalgorithme valuer et plusieurs mthodes sont souvent utilises simultanment.
6. Concours de data science rendus clbres il y a quelques annes par la dotation de 1 M$ propos par Netflix dans le
cadre de loptimisation de son moteur de recommandation.
7. La distinction nest pas exclusive : il existe plthore dalgorithmes (Random Forrest, Gradient Boosting, SVM, etc.) qui
peuvent satisfaire aux deux types de problmes. Dun niveau avanc, ils sont rservs aux spcialistes du domaine et ne
sont pas abords dans cet ouvrage.
8. Cf la rgression linaire simple introduite dans le chapitre 5 propos des corrlations entre variables. Pour rappel R2
est le carr du coefficient de corrlation et exprime la qualit de lapproximation (ici excellente).
9. Tire de lexcellent ouvrage de Chip Heath and Dan Heath, Made to stick : why some ideas survive and other die,
Random House, 2007.
|
|\/
10. Cette problmatique porte souvent le nom de gomarketing
$!

11. La rgression linaire est un cas particulier de rgression multivarie. Il en existe plein dautres, en particulier la
rgression polynomiale de la forme Y= cste + aX + bX2 + cX3
4$

12. Pour prdire des valeurs (frais de livraisons dun nouveau produit, part daudience dune nouvelle mission) mais aussi
By

mesurer linfluence de variables (pondration de linfluence de diffrents composants dune publicit, explication de la
chute dappels tlphoniques).
13. Aprs normalisation des variables, technique dhomognisation qui ne sera pas dveloppe ici.
14. partir de ce niveau 0 est ensuite dploy tout un arsenal doptimisations du modle : feature engineering, test de
nouveaux algorithmes, meilleur paramtrage, etc.
15. Thorme trs simple driv de la dfinition des probabilits conditionnelles enseignes au lyce.
16. Deux variables sont dites indpendantes si elles nont aucune influence lune sur lautre. Par exemple, la valeur
dun premier lancer de ds na aucune influence sur la valeur du second lancer de ds. En probabilit, A et B sont
indpendantes quivaut crire P (A|B)=P (A). De plus P (A, B|C) = P (A|C)P (B|C).
Partie C

Activer les donnes

|
|\/
$!
4$
By
AUTODIAGNOSTIC

La data est lun des sujets de proccupation phares des entreprises. Si la donne est perue comme digne dintrt ,
son utilisation dans les stratgies marketing ne semble pas encore une vidence pour la plupart des entreprises. Et vous,
au-del des phrases valises, connaissez-vous les diffrents champs dapplication de la data dans le marketing de tous
les jours ? Faites ce petit test (avant et aprs la lecture de la partie) pour mieux cerner votre maturit sur les possibilits
dexploitation offertes par la data !

Question 1 : quel pourcentage de publicit display est diffus sans tre jamais vu ?

Question 2 : quelle est la part des campagnes display effectues en programmatique ?

Question 3 : quels sont les trois avantages qui ont permis lessor du Real Time Bidding ?
|
|\/
$!

Question 4 : que signifient les abrviations DSP et SSP et quels sont leurs rles respectifs ?
4$
By

Question 5 : comment expliqueriez-vous la diffrence entre marketing one to one et marketing one to
few ?

Question 6 : selon vous, quelle est la premire vertu de lutilisation de la data dans le marketing ?

Question 7 : pouvez-vous citer quatre typologies de personnalisation ?

Question 8 : pouvez-vous citer au moins deux catgories de-mails diffrents ?

Question 9 : quappelle-t-on un trigger marketing ? Pouvez-vous citer trois triggers diffrents ?


Question 10 : quels sont les trois prrequis ncessaires la mise en place dun scnario marketing bas sur le
beacon ?

Rponses p. 260

|
|\/
$!
4$
By
CHAPITRE

8
Data et publicit

Constamment exposs des bannires publicitaires les poussant acheter les derniers
produits quils ont vus sur le net, les consommateurs ont compris que leurs donnes de
navigation taient utilises des fins publicitaires et imaginent de plus en plus les agences
marketing comme des machineries volues permettant de transformer ces data en
messages publicitaires personnaliss.
Il nest dailleurs plus ncessaire de parler un professionnel du marketing pour
rencontrer un interlocuteur comprenant les mots retargeting et publicit cible au
cookie . La data sest en effet impose comme un sujet central en matire de publicit,
avec comme figure de proue des articles de presse ou des confrences qui relayent sans
|
|\/
discontinuer le mme credo : Le bon message la bonne personne au bon moment.
$!
4$

Il faisait donc sens de commencer cette dernire partie lie lexploitation concrte des
donnes par un chapitre sur le rle et les enjeux de la data dans la publicit digitale
By

moderne : bienvenue dans lre de lachat mdia programmatique !

QUAPPELLE-T-ON PROGRAMMATIQUE ?

La rcente tude tat des lieux du programmatique en France, rsultats du baromtre


2015 mene par lEBG1 et le spcialiste mdia Quantcast auprs des directeurs
marketing indique que 27 % des rpondants nont jamais entendu parler du
programmatique, 17 % ne sont pas srs de savoir de quoi il sagit, 37 % comprennent ce
quest le programmatique en thorie sans en avoir lexprience pratique, et seuls 19 % en
sont utilisateurs.
Un petit clairage simpose donc pour ne pas rater le virage de ce qui saffirme de plus en
plus comme un des secteurs les plus gros consommateurs de donnes.

Il tait une fois la publicit digitale


Pour comprendre le prsent, il est souvent ncessaire de connatre le pass. La publicit
digitale fait son apparition en octobre 1994 avec HotWired.com dans le rle du site
ditorial (dsign aussi par les termes diteur ou publisher ) mettant disposition
son inventaire publicitaire et AT&T dans celui de lannonceur. Vritable curiosit, cette
premire bannire publicitaire enregistra un taux de clic de 78 % !

Source : Happy Birthday, Digital Advertising, Frank dAngelo, 26 octobre 2009 sur adage.com.
|
Figure 70 La premire bannire publicitaire rencontra un franc succs !
|\/
$!

Reproduisant les us et coutumes de lachat media offline (tl, radio), les diffusions des
4$

campagnes digitales sont cette poque la rsultante de ngociations en direct entre le


By

site ditorial et lannonceur (ventuellement reprsent par son agence), sur la base dun
CPM (cot pour 1000 impressions). Technologiquement la mcanique est plutt simple et
repose sur ladserver :
Ladserver publisher assure la gestion des espaces publicitaires du site ditorial, et
notamment quel espace est vendu quel annonceur .
Ladserver annonceur affiche la publicit de lannonceur et traque la performance des
campagnes (impressions, clics, conversions).
Figure 71 Fonctionnement de la publicit la fin des annes 1990

Cependant, un problme apparat rapidement ct diteurs : lexplosion du digital les


propulse la tte dinventaires publicitaires gigantesques, dautant plus importants que
|
|\/
chaque article peut tre consult pendant des annes, offrant chaque nouvelle
$!

consultation un nouvel espace publicitaire remplir. Il devient alors extrmement difficile


4$

de trouver suffisamment dannonceurs avec qui conclure des contrats de gr gr pour


By

vendre la totalit de lespace disponible. Et dans le cas contraire, cest la force


commerciale qui fait dfaut ou bien mme le cot de la vente qui dpasse les bnfices
escompts (pour les inventaires publicitaires peu qualitatifs).
Ce problme des invendus donne naissance au dbut des annes 2000 aux
adnetworks, rseaux publicitaires qui agrgent les inventaires invendus de diffrents
diteurs et les revendent aux annonceurs sous forme package bas cot. Le principe
permet en thorie aux diteurs de vendre une proportion beaucoup plus importante de
leurs emplacements, et aux annonceurs dacheter des bannires publicitaires beaucoup
moins chres sur des sites proches de leurs thmatiques de prdilection. Cependant, en
pratique, le procd souffre dun manque global de transparence et de performance (en
particulier la publicit met trop de temps charger, en raison des nombreux appels en
srie aux adnetworks).
En 2005, Criteo apporte le premier une rponse convaincante aux invendus publicitaires
en sintressant non pas uniquement la qualit de lemplacement, mais aussi
lindividu derrire son cran. En particulier Criteo est prt acheter cher un
emplacement pour un internaute qui a dj visit le site de lannonceur : cest la naissance
du retargeting. En contrepartie de cette opportunit, Criteo demande aux publishers de
lappeler avant les adnetworks (procd dit du first look ). Grce ce droit de regard
et un modle conomique astucieux (achat despace prix fixe, facturation lannonceur
au nombre de clics), Criteo simpose rapidement comme un leader sur le march
publicitaire et un prcurseur de lcosystme programmatique actuel2.

|
|\/
Figure 72 Criteo est le premier sintresser lindividu derrire lcran
$!
4$

Le programmatique simpose comme le prochain standard publicitaire


By

Cest dans ce contexte quapparaissent en 2008 les achats programmatiques,


transformation en profondeur du march industrialisant lide dacheter non plus
uniquement un emplacement, mais une audience spcifique. Lachat despace est
dsormais effectu au cas par cas de faon compltement automatise, par opposition
lachat mdia traditionnel ngoci de gr gr entre un annonceur et un diteur et
dtermin par un engagement de volume et de dpenses.
Il convient toutefois de nuancer le terme opposition . Le terme programmatique
regroupe en effet plusieurs modes dachats plus ou moins disruptifs avec le modle
historique : certains achats se font aux enchres en temps rel, dautres restent
prix fixe.
Plusieurs variantes au sein du programmatique

Les achats aux enchres constituent ce quon appelle le RTB, abrviation de Real Time
Bidding (enchre en temps rel). Le RTB reprsentait en 2015 dans le monde 81 % de
lachat mdia programmatique3 et se subdivise en deux types denchres :
les enchres ouvertes (open auction) adresses lensemble des acheteurs du march
(jusqu plusieurs centaines en concurrence) ;
les enchres sur invitation (private auction) adresses uniquement une slection
dacheteurs au sein de places de march prives (private marketplaces), en
contrepartie dun engagement payer un prix premium.
La diffrence entre ces deux modes denchres rside dans linventaire mis en jeu : tandis
que les diteurs ne voient pas dinconvnient mettre aux enchres ouvertes leurs
invendus (inventaire qualifi parfois dindirect ), ils sont plus frileux en ce qui concerne
leurs inventaires premium (qualifi parfois dinventaire direct ). En 2012 se sont ainsi
dvelopps les private marketplaces permettant aux diteurs de tester ce que le RTB
pouvait apporter leur inventaire premium, tout en matrisant les deux sujets importants
leurs yeux : la matrise des prix via linstauration dun floor price (i.e. prix plancher en
de duquel les acheteurs ne peuvent enchrir) et le contrle de la qualit des bannires
diffuses via la slection des acheteurs.
Du ct acheteur, la mise en comptition des espaces peut faire planer le risque de
perdre finalement en visibilit sur les emplacements premium par rapport des accords
exclusifs qui taient auparavant signs avec les diteurs. Surtout, lachat programmatique
pose la question de la brand safety : comment sassurer que la bannire nest pas
diffuse sur un site qui porte atteinte la marque quand linventaire sur lequel on enchrit
est uniquement dtermin par un numro anonyme ? Ces interrogations ont donn
naissance deux nouveaux types dachats taux fixe : le programmatique garanti
(inventaire rserv pour un annonceur) et les preferred deals (inventaire non rserv,
|
|\/
mais une priorit de droit de regard ou first look ). Bien que minoritaires au sein du
$!

programmatique, les deals one-to-one connaissent un pic la priode de


4$

Nol,moment cl pour les annonceurs qui doivent assurer tout prix leur diffusion sur
By

certains inventaires publicitaires cls.


Le tableau ci-dessous rsume les quatre branches de lachat mdia programmatique.
Source : daprs International Advertising Bureau (IAB).

Figure 73 Les quatre segments du programmatique


|
|\/
avec une croissance ininterrompue depuis 2008
$!

Quelle que soit la variante considre, la force du programmatique est de satisfaire


4$

simultanment les enjeux des deux parties grce la prise en compte de lindividu derrire
lordinateur et non plus seulement de lemplacement :
By

du ct diteurs, les invendus prennent de la valeur ;


du ct annonceur, les performances des campagnes augmentent.
En 2016, le programmatique reprsentait ainsi dans le monde 51 % des achats mdias
display, soit un march de 39 milliards de dollars4 (555 millions deuros en France5). Cette
part devrait encore slargir. Aprs avoir t multipli par presque 10 entre 2012 et 2016,
le march devrait ainsi selon ltude Zenith grandir au rythme effrn de 30 % de
croissance annuelle jusquen 2019, tant notamment port par la croissance de la vido
programmatique et du programmatique mobile.
Et la rvolution ne fait que commencer puisquaprs lachat programmatique des
bannires/vidos sur le Web et sur le mobile, des projets exprimentaux sont en cours
pour acheter selon la mme logique des spots radio, des spots tl et mme des
emplacements daffichage physiques ! En janvier 2015, le gant de lagroalimentaire
Mondelez (anciennement Kraft Food) a ainsi achet en programmatique un spot TV de 15
secondes pendant le Super Bowl6 pour promouvoir ses biscuits Oreo7. Selon
emarketer.com8, la TV programmatique devrait ainsi en 2018 reprsenter 6% des
dpenses publicitaires TV aux tats-Unis, soit un march de plus de 4 milliards de dollars.
Mme si pour le moment les diffrents modles continuent de coexister et que certains
marchs restent un peu en retrait dans la courbe dadoption du programmatique, le
phnomne programmatique nen est pas moins aujourdhui global et irrversible.

Le Real Time Bidding (RTB) change le paradigme de la publicit digitale


Comme voqu, le potentiel de croissance du march programmatique est considrable.
Selon ltude Quantcast dj mentionne en introduction, 50 % des dcideurs nont en
effet pas encore franchi le pas du RTB, car ils ne comprennent pas lcosystme et ne
conoivent pas quels avantages ils peuvent tirer de ce nouveau mode dachat. Sans en
faire lapologie, dressons les trois principaux avantages que peroivent les utilisateurs du
RTB.
Avantage 1 : effet dchelle

Largement inspir dAdwords, le RTB repose sur un mcanisme denchre du couple


{visiteur actuellement sur le site de lditeur et exposable une publicit/emplacement
publicitaire remplir}. Lannonceur qui enchrit le plus fort remporte le droit dafficher sa
publicit9. Ce mcanisme permet un annonceur daccder instantanment un
inventaire mondial au prix quil juge bon denchrir. Cet effet dchelle a beaucoup
jou dans ladoption enthousiaste de cette nouvelle technologie par les annonceurs.
|
Avantage 2 : automatisation
|\/
$!

Mais surtout le RTB a permis un autre changement de paradigme important. Alors


4$

quauparavant, les dcisions du prix, de lemplacement exact, et de la dure dans le


temps dune campagne publicitaire se prenaient autour dun repas daffaires, cette tche
By

est dornavant dvolue des plateformes technologiques fonctionnant en temps rel.


chaque mise aux enchres dun emplacement publicitaire par lditeur (bid request) est
ainsi dcid du ct acheteur :
de la pertinence ou non dafficher une publicit ;
si dcision dafficher, du prix maximum que lannonceur est prt investir dans cette
publicit ;
si enchre remporte, du contenu qui sera prsent dans la publicit.
Figure 74 Grands principes de fonctionnement du RTB

Cette automatisation est cratrice de valeur. Plutt que de passer du temps faire du
|
|\/
mdia planning et signer des contrats, les annonceurs peuvent automatiser ces tches et
$!

ainsi passer plus de temps rflchir leur stratgie et la crativit de leurs publicits.
4$

De leur ct, les publishers sont moins sollicits pour administrer leurs ventes despaces.
Ils ont donc plus de temps pour crer du contenu forte valeur ajoute et attirer les
By

audiences qui se montisent au meilleur prix sur le march.


Avantage 3 : acheter une audience et non plus uniquement un contexte

En dcidant en temps rel du prix pay pour laffichage et de la publicit prsente


linternaute, lannonceur dtient avec le RTB un formidable levier doptimisation de son
budget publicitaire, comme lillustrent les deux exemples ci-dessous :
Exemple 1 : dans le cadre de la rforme sant de 2016 obligeant chaque entreprise fournir une mutuelle ses
salaris (et ce quelle que soit la taille de lentreprise), une grande mutuelle du march souhaite exploiter cette situation
avec une campagne display de pure acquisition dirige vers les petites entreprises de moins de 100 personnes. Parce
quil est particulirement difficile de reprer sur le Web le responsable RH dune petite PME, un look alike ( profils
jumeaux , cf. chapitre 3 sur la DMP o le concept a t expos) a t effectu partir des petits clients actuels de la
socit. Une audience de cookies similaires aux clients PME actuels est ainsi constitue, chaque cookie ayant un
score dintrt plus ou moins lev (output du modle de look alike).
Schmatiquement la plateforme denchres va alors dcider pour chaque bid request :
de ne pas afficher de publicit un internaute ne faisant pas partie de cette audience cible. Loutput est labsence
denchre ;
denchrir 1 CPM pour tous les internautes faisant partie de cette audience cible et dont le score dintrt est
compris entre 30 et 50. Lenchre est perdue ;
denchrir 5 CPM pour tous les internautes faisant partie de cette audience cible et dont le score dintrt est
compris entre 70 et 100. Lenchre est gagne : la publicit de rfrence saffiche ;
denchrir 15 CPM pour tous les internautes faisant partie de cette audience cible et qui ont par ailleurs
rcemment commenc remplir le formulaire de devis. Lenchre est gagne : une bannire linvitant poursuivre
le remplissage du formulaire saffiche.

Exemple 2 : un assureur particulirement frapp par le dsabonnement de ses clients souhaite rduire ce
phnomne appel churn . Une tude de datamining a t mene pour identifier dans la base clients les clients les
plus risque, chaque client recevant un score entre 0 et 100 selon son niveau de risque. Ces clients risque ont t
associs des cookies 10 et constituent laudience cibler. Schmatiquement la plateforme denchres va dcider :
de ne pas enchrir pour un cookie qui nest pas dans laudience cible. Aucune publicit de lannonceur nest
affiche ;
de ne pas enchrir pour un cookie dont le score est compris entre 0 et 20. Aucune publicit de lannonceur nest
affiche ;
denchrir 1,5 CPM pour un cookie ayant un score compris entre 30 et 50. Lenchre est perdue ;
denchrir 30 CPM pour un cookie avec un score compris entre 80 et 100. Lenchre est gagne : la publicit
haut risque saffiche.

Attention, ces exemples thoriques nont pas pour objectif de simuler une dcision
denchres telle quelle a rellement lieu, mais simplement ce stade de comprendre la
philosophie. En particulier, remarquons que dans la plupart des agences mdia et
plateformes denchres on raisonne en segment de cookies inclus/exclus et non pas
directement par lindividu. Ainsi, on pourra traiter de la mme manire tous les individus
ayant visit il y a moins dune heure un produit phare (= inclusion) sans pour autant lavoir
achet (= exclusion).
Surtout ces exemples illustrent une des ides fondamentales qui se cache derrire le
|
|\/
RTB : acheter une audience et non plus seulement acheter un inventaire. Le
$!

schma ci-aprs illustre ce changement de paradigme chez un annonceur souhaitant cibler


4$

des amateurs de jeux vido.


By

Figure 75 Lachat mdia programmatique change le paradigme de la publicit digitale

Avec le RTB, lcosystme se complexifie


Il est loin le temps o la seule brique technologique de la publicit digitale tait ladserver.
Aujourdhui le paysage sest grandement complexifi, comme le dmontre le clbre
panorama LumaScape des acteurs de la publicit digitale (voir figure suivante).

|
|\/
$!
4$
By

Source : 2016 LUMA Partners LLC.

Figure 76 Le panorama des acteurs de la publicit digitale donne mal la tte plus dun annonceur !

Lcosystme publicitaire est complexe, mais se comprend aisment en prenant le temps


den dcortiquer la chane de valeur.
Aux extrmits de la chane, les personnages principaux :
des annonceurs (exemple : Darty, Yoplait) veulent promouvoir leurs produits et
financent les campagnes publicitaires ;
des vendeurs (exemple : Lemonde.fr), appels aussi diteurs ou publishers , ont
des espaces publicitaires proposer, la publicit tant souvent leur principale source
de revenu.
Chacun est accompagn de son fidle destrier historique, ladserver :
ladserver publisher gre linventaire publicitaire de lditeur et distingue notamment
linventaire vendu de gr gr de linventaire qui sera propos aux enchres ;
ladserver annonceur slectionne et affiche la publicit. Il fournit galement les
statistiques de trafficking (i.e. nombre dimpressions, nombre de clics, conversions,
etc.).
La plupart des grands adservers du march (Smartadserver, Sizmek, Adgear,
Doubleclick, Campaign Manager) proposent une solution diteur et une solution
annonceur.
Autour dun cur hautement technologique :
les SSP (supply-side platforms) mettent les bid requests et permettent aux
vendeurs de mettre en bourse leur inventaire. La SSP assure galement le flux retour
en notifiant ladserver de lannonceur ayant gagn lenchre. Enfin, elle propose aux
diteurs des moyens doptimiser le prix de la vente laide de plusieurs stratgies, par
exemple linstauration dun prix plancher ou dun facteur de pondration par annonceur.
Rubicon est une des SSP les plus connues ;
les ad exchanges sont les places de march o se rencontrent loffre (i.e. les bid
request) et la demande (loffre dachat), sous la forme denchres. Le rle de lad
exchange est de dclarer le vainqueur et den informer la SSP mettrice de la bid
request. Les ad-exchanges sont souvent spcialiss pour une catgorie dinventaire,
par exemple Double Click Ad Exchange (inventaire display de Google, dont notamment
YouTube), Facebook Exchange (inventaire Facebook), 3 W Adex (inventaire des sites
|
|\/
e-commerces), Orange Ad Market (inventaire trs premium sur le site Orange et
$!

quelques diteurs partenaires), etc.


4$

les DSP (demand-side platforms) sont les plateformes technologiques permettant de


By

passer les ordres dachat sur les ad-exchanges, en rponse une bid request. Il sagit
dune tche trs complexe techniquement qui ncessite une infrastructure colossale
dans la mesure o une grosse DSP traite plus dun million de bid requests par seconde
11 ! Autour dun principe technologique commun, chaque DSP a dvelopp un

positionnement propre, privilgiant par exemple la culture technique en tant trs ouvert
et fortement customisable via API (exemple : Appnexus, Mediamath) ou au
contraire la culture agence en dveloppant la facilit dusage (exemple : The Trade
Desk). Les formats adressables sont galement varis selon les DSP : certaines se
spcialisent dans un format (Netadge DSP purement mobile, Tubemogul DSP purement
vido) tandis que dautres affichent leur exhaustivit en termes de formats publicitaires
(One by AOL, Mediamath) ;
les data providers (exemple : Exelate, Acxiom) et les DMP (exemple : Bluekai, Adobe
Audience Manager), fournissent aux DSP des audiences cibler (exemple : les
seniors pour un data provider, les visiteurs du site ayant parcouru les pages
dmnagement pour une DMP annonceur) ou au contraire des audiences exclure
(exemple : les mineurs pour un data provider, les clients pour une DMP
annonceur). Il est noter quil sagit ici de briques technologiques facultatives,
contrairement aux prcdentes.
Enfin des agences spcialises accompagnent les annonceurs et les diteurs dans cet
cosystme complexe :
les rgies publicitaires aident les diteurs montiser leurs inventaires publicitaires.
Ils essayent de faire la part des choses entre ventes de gr gr et ventes en RTB,
afin de profiter du potentiel de ce dernier sans pour autant cannibaliser les inventaires
premiums ;
les trading desks achtent pour le compte des annonceurs et rendent compte des
performances mesures. Ces trading desks peuvent tre indpendants (exemple :
Tradelab, Gamned) ou intgrs au sein dune agence mdia (exemple : Amnet est le
trading desk de lagence Dentsu Aegis, GroupM est le trading desk de WPP, Affiperf
celui dHavas, etc.). La plupart utilisent les mmes plateformes dachat, quelques-uns
ont toutefois dvelopp des technologies propres, par exemple pour obtenir une
meilleure granularit dans les enchres. On distingue galement dans ce panorama les
trading desks purement mobiles (Adotmob, Yanco, Adnow). Au total, plusieurs
dizaines de trading desks12 se partagent les centaines de millions deuros de budgets
allous annuellement au programmatique par les annonceurs franais.
Notons que ces spcialistes de lachat mdia sont facultatifs et que certains annonceurs
comme eBay, Netflix, Procter&Gamble aux tats-Unis ou Air France dans lHexagone ont
fait le choix dinternaliser les comptences et oprent dsormais directement les
|
campagnes mdias en interne.
|\/
$!

Le schma ci-dessous rsume (de faon un peu simplifie13) cette chane de valeur et les
4$

interactions entre les diffrents acteurs.


By

Figure 77 Chane de valeur simplifie du RTB


LA DATA, AU CUR DES ENJEUX DE LA PUBLICIT DIGITALE
MODERNE

la lumire des pages prcdentes, il est facile de comprendre que plus lacheteur a
dinformations sur linternaute, mieux il peut enchrir en connaissance de cause et
proposer un montant lev. Par consquent plus lditeur peut fournir au march de la
donne sur ses visiteurs, mieux il peut valoriser son inventaire.
Dans son tude Global Trends 2015 , lad exchange mobile Smaatoo indique ainsi
quune bid request (pour rappel : mise aux enchres) comprenant la valeur ge et
genre se vend en moyenne 385 % plus cher que le prix moyen pay pour une bid
request et que celles comprenant la donne de golocalisation se vendent en moyenne
238 % plus cher14.

|
|\/
$!
4$
By
|
|\/
$!
4$
By

Source : github mxmCherry/openrtb

Figure 78 Extrait dune bid request mobile telle que la reoivent les DSP

Lavnement du programmatique et en particulier du RTB a donc plac la data au cur


des enjeux de la publicit moderne. La donne permet doptimiser lachat mdia, en
particulier en jouant sur les trois axes suivants :
la data pour crer laudience la plus qualifie possible (ciblage) ;
la data pour estimer le juste prix auquel acheter la publicit (enchre) ;
la data pour personnaliser le message publicitaire (message).
Chaque axe doptimisation fait appel des leviers diffrents que nous allons brivement
dcrire ici.
Figure 79 La donne aide optimiser le mdia principalement selon trois axes

La data pour crer une audience


Lachat daudience est le fer de lance du RTB. Le march fonctionne aujourdhui en trs
grande majorit partir de segments daudience uploads sur les plateformes DSP
donc bien en de des possibilits thoriques dachat one to one . chaque audience
correspond gnralement une ligne de campagne ou stratgie 15 (cest--dire un
objectif et un message dfinis en amont avec lannonceur). Par exemple laudience
|
compose des abandonnistes paniers de moins de 7 jours sur les produits de la
|\/
catgorie jardinage correspond une campagne de retargeting avec pour objectif la
$!

conversion sur le produit abandonn. Il nest pas rare quun trading desk gre plus dune
4$

centaine de stratgies pour un mme client.


By

En pratique, on distingue pour un annonceur quatre sources de donnes permettant de


crer des audiences pertinentes :
les donnes third party achetes des fournisseurs daudiences ;
les donnes first party appartenant lannonceur ;
les donnes second party issues de partenaires business ;
les donnes issues des campagnes mdias, en possession des DSP et des trading
desks
Les fournisseurs daudience ( data providers )

Ils sappellent Exelate, Weborama ou encore Acxiom et font partie des plus gros
fournisseurs de donnes du march ( data providers ). Concrtement, ces socits
spcialises collectent les traces laisses par les consommateurs au cours de leur
parcours sur un rseau de sites et dapplications partenaires16. Ces datas constituent les
third party data (dj introduites au chapitre 1)
Par exemple si un utilisateur recherche un htel en Italie sur booking.com puis des billets davion pour Florence sur
Opodo, les cookies dposs par ces data providers seront rapidement associs au segment intention dachat
voyage Italie . Ce segment, synchronis rgulirement sur la plupart des DSP du march, pourra ensuite tre
utilis profit par un trading desk oprant pour un client voyagiste.
Concrtement les segments daudience fournis par les data providers et mis disposition
des acheteurs mdia sarticulent gnralement en trois familles :
Segments sociodmographiques :
Niveau de revenu lev
Nouveaux parents
Adolescents ,
etc.
Centres dintrt :
danse
sports-tennis
peinture et dessin
etc.
Intentions dachat :
crdit pour appartement |
intentionniste voiture
|\/
$!

intentionniste voyage
4$

etc.
By

Trs facilement accessibles (il suffit de cocher sur le DSP ou la DMP les catgories
pertinentes pour la stratgie mdia mise en uvre, moyennant quelques euros CPM),
trs sduisantes sur le papier, la third party data a connu un vritable engouement au
dmarrage du RTB, auprs des investisseurs et des annonceurs toujours avides de
nouvelles pistes dacquisition de clients.
Toutefois, en dpit dune thorie sduisante, la pratique a montr quelques limites : en
ralit peu de campagnes arrivent rentabiliser lachat de cette audience par un
gain de performance suffisamment lev. En dehors du cot lev de lachat de ces
donnes third17, la qualit alatoire des donnes est galement frquemment voque
par les acheteurs pour expliquer la frquente absence de rentabilit.
La question de la vracit et de la valeur de la donne a t aborde au dbut de ce
livre18 et prend en effet tout son sens dans le contexte publicitaire. Dans son excellent
article Comment utiliser la Data pour amliorer lefficacit publicitaire ? Guillaume
Pobeda de la 3W Rgie19 dtaille de faon trs pdagogique les principaux cueils
auxquels prter attention :
le mode de collecte : dterministe ? probabiliste ? dclaratif ? Dans le cas de
donnes relatives au sexe homme/femme, les segments peuvent par exemple tre
constitus aussi bien de donnes dclaratives (formulaires dinscription avec case
cocher) que dextrapolations relatives la navigation (vous avez visit le site de la
Redoute rayon lingerie vous tes donc probablement une femme). Avec ces exemples
en tte, on imagine trs bien que la fiabilit de la donne est directement dpendante
de la faon dont elle a t collecte et retraite ;
la rcence : lge de la data est un critre essentiel, car la donne est une denre
prissable. Par exemple, dans le cas dun produit dont le cycle de vente20 est infrieur
30 jours, les donnes datant de plusieurs mois apportent extrmement peu
dinformations sur la relle intention dachat de linternaute vis ;
la fracheur : une des caractristiques de la third party data est quelle est accessible
par tout le monde. Aussi, un segment qui a t sollicit de nombreuses reprises au
cours des derniers jours par diffrents acheteurs noffrira pas un aussi bon niveau de
rendement.
Le vritable problme sous-jacent ces exemples est le reach minimum (i.e. volume) que
doivent assurer les fournisseurs de donnes : un segment qui ne permet de toucher que
quelques milliers dinternautes a en effet peu dintrt pratique pour un annonceur, car
quelle que soit la qualit de ce segment, limpact final sur le chiffre daffaires sera trop
faible pour justifier leffort dune campagne spcifique. Il est donc tentant pour les
fournisseurs de donnes de gonfler le volume apparent des segments en neffaant
|
|\/
pas les informations primes ou en baissant le niveau dexigence sur leur fiabilit. titre
$!

dexemple, en France, le nombre de dmnagements slve trois millions par an, soit
4$

environ 250 000 par mois. Quid dun segment qui regroupe plusieurs millions de
By

dmnags sans connatre lorigine de la collecte, sa rcence ou son mode de


calcul ? sinterroge larticle prcit.
De lautre ct de lchelle, le mauvais usage de cette data par les acheteurs est
galement un point rgulirement soulign : Theres something inconsistent about a
campaign that targets 400 different market segments, but has only four pieces of
creative (traduction : il est inconcevable qu une campagne ciblant prcisment 400
segments diffrents ne soit rattache que quatre crations publicitaires) sinsurge le
fondateur de Prohaska consulting, cabinet conseil spcialis dans lachat
programmatique. Cibler des audiences extrmement fines perd en effet beaucoup
dintrt si cest pour les arroser avec les mmes messages.
Enfin certains analystes remettent fondamentalement le principe de cette third party en
question : Pour une campagne la performance, il nest pas toujours judicieux de crer
la cible ad hoc que lannonceur considre comme le segment idal . En rgle gnrale,
ce dernier ne correspond jamais la population la plus apptente , rappelle Guillaume
Podeba. Dans un marketing pilot par la data et le ROI, tester un segment daudience
qui a lair dtre une bonne cible sapparente en effet plus un marketing du XXe que
du XXIe sicle !
Face ce retour mitig du march, certains fournisseurs de data se sont spcialiss sur
des types de donnes trs prcises (exemples : Datalogix ou Brilig avec les sorties de
caisse et les donnes offline ; Admantex sur les donnes motionnelles issues de
lanalyse smantique, etc.), font certifier leurs segments par des organismes
indpendants (Nielsen OCR, Comscore) ou se tournent vers davantage de
mathmatiques dans llaboration de leurs segments (Dstillery, Mindlytix, )
Les audiences obtenues partir des donnes first party

Pour rappel21, la first-party data est la donne qui appartient lannonceur, collecte
directement par ses soins sur ses actifs : la navigation sur le site web, le remplissage de
formulaires, les donnes issues des campagnes e-mailing ou display (bannires vues ou
cliques) ou encore les donnes CRM (data onboarding). Contrairement aux third party
data tudies prcdemment, il sagit dune donne gratuite et trs qualitative.
Comment ces datas propritaires peuvent-elles tre valorises en pratique dans la
publicit ? Lunivers des possibles est vaste, mais concrtement quatre cas dusages se
distinguent quand on cherche exploiter ses propres donnes en publicit :
lexclusion daudience est un cas dusage majeur qui pourrait se traduire par :
Arrtez de payer des impressions pour rien ! Par exemple dans le cas de figure
dune campagne dacquisition pure dont la performance serait mesure au nombre de
nouveaux clients gnrs, afficher la publicit auprs dinternautes dj client de la
|
|\/
marque est un contresens ! Les campagnes programmatiques ont trs vite prouv
$!

quelles obtenaient les mmes performances quune campagne classique, mais avec un
4$

budget rduit de 10 % simplement en liminant les impressions inutiles ;


By

linclusion daudience consiste cibler une audience prcise, par exemple des
adhrents devenus inactifs ou dormants227, des internautes ayant visit plus de trois
reprises la boutique en ligne en une semaine ou encore des internautes identifis
comme tant des futurs dserteurs 23. Le ROI incrmental des stratgies dinclusion
est plus complexe mesurer que pour les exclusions. Une bonne approche consiste
isoler les 20 % daudiences cibles qui gnrent 80 % des conversions ;
le reciblage plus connu sous le nom de retargeting consiste crer une campagne
programmatique ciblant les visiteurs du site nayant pas encore accompli un objectif
prdfini, par exemple le remplissage dun formulaire ;
le ciblage ou pr-targeting rpond un enjeu crucial des annonceurs : comment
cibler de nouveaux prospects inconnus de la marque ? Les donnes first party peuvent
apporter une rponse par le biais des modles look alike24 ciblant des jumeaux
statistiques de ses meilleurs clients.
En conclusion la donne first est stratgique pour lannonceur : gnralement de
bonne qualit, gratuite, relativement facilement accessible. Cependant tous les
annonceurs ne sont pas forcment gaux devant la first-party data : certains
croulent sous la donne (oprateurs de tlphonie) alors que dautres (Produits de
Grande Consommation) en ont trs peu, car ils nont pas de lien direct avec le
consommateur prcise Pierre Fournier, partner du cabinet Artefact dans son article A
quoi correspondent first party, second party et third party data ? .
La data second party constitue une rponse cette problmatique.
Les audiences obtenues partir des donnes second party

Pour rappel, la second-party data dsigne la data collecte par un partenaire business
(annonceur ou publisher) qui a accept de la partager (gratuitement ou non) avec
lannonceur dans le cadre dun partenariat. Par exemple les partenariats avec les diteurs
dune thmatique (Caradisiac pour les voitures, Marmiton pour la cuisine) sont des
partenariats frquents et un formidable acclrateur pour les annonceurs ayant peu de
donnes first party (Mercedes, Danone).

Bon savoir
Bien que trs pertinente, la donne second party ne constitue pas pour autant la rponse absolue aux
problmatiques dacquisition. Dune part, elle reste en effet une donne a priori ; dautre part, en
labsence de DMP, elle est plus difficilement rcuprable et actionnable que les donnes first party et bien
entendu third party (sans compter la partie contractuelle).

Nouer un partenariat avec un site e-commerce est galement une option considrer. Les
visiteurs de ces sites constituent en effet une audience engage (visiter un site e-
|
commerce traduit une dmarche de consommation) et perptuellement renouvele (rares
|\/
$!

sont les sites e-commerces avec un taux de nouveaux visiteurs quotidien infrieur
4$

50 %).
By

Enfin les partenariats entre acteurs partageant des problmatiques communes sont
galement source de valeur ajoute, par exemple des partenariats entre acteurs affects
par les dmnagements : fournisseurs nergtiques, oprateurs tlphoniques,
assurances, etc.
Ces diffrents partenariats permettent au final de construire des segments daudience
pertinents.
Les audiences issues des campagnes mdia

Pour les annonceurs ne souhaitant pas acheter de la donne third party pour les raisons
voques et ne possdant pas de DMP permettant une activation facile des donnes first
et second party, il est toujours possible de raliser des campagnes partir des
gigantesques volumes de donnes que possdent le trading desk mandat et la DSP
utilise, via le tracking des campagnes et des vnements sur site.
Le trading desk peut ainsi crer et cibler des segments aliments en temps rel
(exemple : visiteur dune page produit < 2 heures) ou en diffr (la plupart des DSP du
march fournissent ainsi aux utilisateurs de leurs plateformes des logs levels data ,
donnes trs granulaires et trs riches gnres chaque impression et chaque
vnement sur site25), tout en bnficiant de la capacit des DSP ddupliquer les
audiences en cross device ( savoir reconnatre le mme individu derrire plusieurs
identifiants26).
De plus certaines DSP proposent galement des audiences exclusives. Ainsi la DSP
Doubleclick bid manager (DBM) met disposition gratuitement les critres de ciblage
Google tandis que la DSP mobile Adotmob propose des audiences bases sur les
habitudes de dplacement (archivage des bid requests comprenant les
longitudes/latitudes du mobinaute)

Bon savoir
Except les donnes CRM et les donnes second party, les DSP possdent donc de base une grande partie
des donnes contenues dans une DMP (navigation sur site et donnes mdia) et cest pourquoi certaines
DSP proposent galement un service DMP performant !

La data pour optimiser une campagne


Si le choix de laudience cible est primordial dans latteinte de bonnes performances, un
grand nombre dautres variables doivent tre prises en compte par lacheteur mdia afin
de piloter efficacement la performance de chaque campagne. titre dexemples non
exhaustifs :
Y a-t-il une diffrence de performance selon les inventaires sur lesquels sont
diffuses les publicits ? Cette question fondamentale entrane la cration de
|
|\/
whitelist (sites sur lesquels lacheteur autorise la diffusion) et de blacklist (sites sur
$!

lesquels lacheteur interdit la diffusion)27. La constitution de ces listes est utilise la


4$

fois dans des buts doptimisation et de brand safety28 ;


By

Y a-t-il des heures de la journe ou des jours de la semaine plus propices que
dautres la diffusion de la campagne ? (ciblage temporel ou en anglais hour/day
parting). Il est par exemple facile de constater quune campagne pour un acteur de la
restauration a de meilleures performances entre 19 et 21 heures ;
Y a-t-il des zones gographiques (pays, rgion, ville, code postal,) dans lesquelles
la campagne performe davantage ?
Combien de fois faut-il rpter un message pour atteindre la performance optimale
des campagnes et viter la lassitude de linternaute ? Ce paramtrage fondamental du
nombre dexpositions maximal est connu sous le terme de capping (littralement
plafonnement )
Y a-t-il une diffrence de performance selon les navigateurs ou systmes
dexploitation utiliss par les internautes ?
Quel est limpact de la rcence/frquence de la publicit sur les performances ? Par
exemple est-il prfrable dattendre cinq minutes, quinze minutes ou une heure avant de
tenter une nouvelle exposition ?
Lajustement de ces paramtres constitue la stratgie dachat (buying strategy). Il nest
pas rare de paramtrer dans la DSP une centaine de stratgies diffrentes afin de couvrir
une large palette de situations et dadapter le montant de lenchre chacune dentre
elles.
Cest ainsi quon pourra enchrir plus haut Paris quen province ou le week-end quen
semaine, aprs avoir observ linfluence de ces diffrentes variables sur la performance.
Il est toutefois difficile en pratique de croiser un grand nombre de dimensions, sous peine
de rapidement se retrouver avec plusieurs dizaines de milliers de stratgies grer et
des problmes la fois oprationnels (staffing, perte de visibilit et de contrle) et
technologiques (des stratgies trop granulaires ne sont pas autorises sur toutes les
plateformes et sont sujettes du bruit statistique).
Toutefois, au vu de lenjeu majeur en matire de performance, de nombreuses innovations
voient le jour dans ce domaine (cf. encadr ci-dessous) et une enchre diffrente pour un
internaute de Paris un mercredi 18 heures utilisant Chrome et ayant dj t expos
trois fois la publicit, et pour un internaute de Marseille un dimanche 11 heures utilisant
Explorer et nayant vu la pub quune seule fois sera peut-tre bientt un standard du
march !

DU MARKETING PROGRAMMATIQUE AU MARKETING PROGRAMMABLE

Pour beaucoup de spcialistes, lautomatisation des achats a atteint le stade de la maturit et une nouvelle rvolution se
prpare : lachat programmable pilot par des algorithmes modifiables loisir. La philosophie gnrale est ici de
|
redonner les moyens aux annonceurs et agences les plus innovants et mrs de se diffrencier de la concurrence en
|\/
sappropriant les fonctionnalits avances des plateformes DSP, au-del de linterface commune tous, via des API
$!

ouvertes.
4$

Un des leaders du mouvement, Appnexus, a ainsi ouvert en juin 2015 lAppnexus Programmable Bidder (APB) permettant
aux data scientists des trading desks et des annonceurs daccder une granularit sans prcdent en intgrant au cur
By

des enchres leur propre modle de dcision (bidder) sous forme dun arbre dcisionnel permettant dagir avec prcision
sur chacune des centaines de millions de configurations denchres possibles. Au vu du potentiel de cette innovation de
rupture, gageons quen 2017 la bataille fera rage pour savoir quel acteur de lcosystme parviendra construire larbre
de dcision augmentant le plus les performances !
|
|\/
$!
4$

Figure 80 Piloter la stratgie dachat par le machine learning : la rvolution permise par les DSP
programmables
By

La data pour personnaliser le message publicitaire


Au-del du ciblage daudience et des efforts combins du trading desk et de la DSP en
matire doptimisation de campagne, le message diffus doit tre juste : un message
confus, une mauvaise cration publicitaire ou une cration non adapte linternaute et
son contexte de navigation impacteront ngativement les performances. Les deux
premiers points sont lis la qualit des cratifs de lagence et cette problmatique
subsiste depuis que la publicit existe. En revanche, la personnalisation en temps rel de
la publicit selon lutilisateur et/ou le contexte de navigation est une possibilit permise par
lachat programmatique, portant le doux nom de DCO (abrviation de Dynamic Creative
Optimization).
La promesse est simple : augmenter lengagement de linternaute grce des
bannires personnalises . Le principe nest pas vraiment plus compliqu : Il sagit
dadapter automatiquement et en temps rel, laspect graphique et la diffusion des
publicits en fonction soit dun contexte de navigation particulier, de critres
gographiques ou dun profil spcifique de linternaute , explique Dominique Blanc,
directeur gnral France de ladserver Mediamind (nouvellement Sizmek).
Par exemple pour un voyagiste, au lieu dafficher la publicit de rfrence concernant les
vacances au soleil cet hiver, le recours au DCO permettra cette publicit :
de se faire plus prcise en affichant uniquement des htels en Guadeloupe moins de
100 la nuit (personnalisation par rapport lhistorique de navigation) ;
dafficher ladresse de lagence de voyages sous la bannire publicitaire chaque fois
que lagence est situe moins de 500 mtres de linternaute (personnalisation pilote
par rapport la donne de golocalisation) ;
de renforcer la promotion pour la dixime et dernire impression autorise par le
capping (personnalisation pilote par rapport au cycle de vie) ;
denlever la promotion quand la diffusion seffectue sur un site de presse29
(personnalisation pilote par rapport au contexte de diffusion).

|
|\/
$!
4$
By

Figure 81 Le DCO permet de personnaliser la bannire pour chaque internaute

Cycle de vie, historique de navigation, contexte de diffusion, golocalisation, horaires, etc.


sont autant de sources de personnalisation de la bannire publicitaire. En fait, de la mme
faon que pour lenchre, on pourrait imaginer tout un arbre de dcision pilotant le contenu
de la bannire en temps rel selon un ensemble de variables dtermines !
Si dans la ralit les cas dusages sont moins labors, les bannires dynamiques se sont
imposes dans la chane de valeur de la publicit data driven grce leur triple effet :
augmentation de la pertinence du message ;
simplification et industrialisation du processus de cration (et donc rationalisation des
cots et des dlais) ;
simplification des tests AB (fini les mises jour manuelles et laborieuses des plans de
rotation des crations et grande granularit des donnes de performance selon les
diffrents aspects graphiques de la publicit).
JOURNEY OPTIMIZER

Un cran plus loin que le DCO, linnovation se tourne aujourdhui vers la personnalisation de lordre daffichage des
bannires. Au lieu de personnaliser dynamiquement le contenu dune bannire, plusieurs bannires sont cres insistant
chacune sur un aspect du produit (prix, service, marque, etc.) et visant des typologies de clients diffrentes. Le
squenage de ces bannires est ensuite adapt chaque internaute selon sa raction aux publicits.

LA PUBLICIT DIGITALE EN PRATIQUE : MESURER LA PERFORMANCE


EN QUATRE QUESTIONS CLS
Le baromtre Quantcast identifie sept freins pour les annonceurs en matire
dinvestissements dans la publicit programmatique. La plupart concernent la complexit
de lcosystme et nous esprons que les pages prcdentes ont clair le jeu sur ces
problmatiques. Reste un aspect fondamental qui na pas t abord : justifier le ROI .
Du fait de la complexit de lcosystme, la mesure de la performance de la publicit
programmatique dpasse en effet le cadre expos dans le prambule, dune part en
introduisant de nouveaux indicateurs cls de performance (KPI) spcifiques cet
cosystme et, dautre part en mlangeant une plthore de cas dusages. Les quatre
questions qui suivent sont fondamentales et vous permettront de structurer plus
|
efficacement votre dmarche de suivi de la performance.
|\/
$!
4$
By

Source : tat des lieux du programmatique en France : rsultats baromtre 2015 , Quantcast/EBG

Figure 82 Problmatiques pratiques des annonceurs

O la publicit est-elle diffuse ?


Lautomatisation des enchres a entran une perte de matrise de lannonceur sur le
primtre de diffusion de ses campagnes, phnomne souvent retraduit par les termes
opacit du RTB ou manque de transparence . Pour ne rien arranger, les URL sur
lesquels sont diffuses les bannires sont gnralement anonymises par les
diteurs. Il est toutefois possible datteindre une meilleure comprhension des
emplacements publicitaires ayant servi aux campagnes grce lindicateur de visibilit.
Ce dernier indique le pourcentage des bannires qui ont t rellement vues ,
savoir : 50 % de lannonce apparat pendant au moins 1 seconde daprs la dfinition
de lInternet Advertising Bureau (IAB). Et aussi paradoxal que cela puisse paratre au
nophyte, tre vu est loin dtre une vidence puisque selon ltude Qualit mdia
de la publicit internet, T4 2015 du spcialiste de la problmatique Integral Ad Science,
prs dune impression publicitaire sur deux serait non visible !
Outre certaines pratiques frauduleuses et les impondrables du mtier (bugs techniques),
les principaux responsables de la non-visibilit sont les publicits se trouvant sous la
ligne de flottaison dune page (below the fold) et celles qui ont un temps de visibilit trop
court , prcise Maxime Cerda de la socit allemande Meetrics spcialise dans la
mesure de lefficacit publicitaire, dans une interview donne en juin 2016 au webzine
ratecard.
Privilgier les impressions au-dessus de la ligne de flottaison, favoriser un inventaire avec
un taux de visibilit lev ou recourir des solutions spcialises de brand safety 30
sont des mcanismes efficaces pour viter de dpenser une trop grande part du budget
|
|\/
pour des impressions non visibles.
$!
4$

Auprs de qui la publicit est-elle diffuse ?


By

Lintrt majeur du programmatique est dacheter une audience et non plus uniquement un
contexte. Il convient donc dans le reporting de segmenter les populations auprs
desquelles les publicits ont t diffuses et surtout dassigner des objectifs diffrents
selon chaque population ! A minima le reporting de performance devrait tre segment
selon quatre populations.
Les parfaits inconnus

Ce sont les individus qui nont jamais visit le site web et qui constituent la cible des
campagnes dites de prospection ou dacquisition. Dans ce type de campagne, le suivi
seffectuera par des indicateurs traduisant le nombre de nouvelles visites (clic direct sur
une bannire ou visite spontane quelques jours aprs31), mais aussi lengagement de ces
visites (taux de rebond, nombre de pages vues, visites dune page importante, etc.) ou
auprs de la publicit (taux de compltion vido, temps dexposition, etc.). De plus le
calcul de la performance intgrera un modle dattribution valorisant le first click au
dtriment du last click. Il faudra toutefois sattendre un cot par acquisition (CPA)
lev32 ;
Les prospects

Ce sont les individus qui ont visit le site dernirement et qui sont spcifiquement recibls
par un message publicitaire adquat (retargeting ou remarketing). Un intrt plus ou
moins fort ayant dj t manifest par linternaute, les bannires de retargeting ont
gnralement pour objectif de clore la vente. Une mesure au post click avec attribution au
last click peut ici tre envisage, mme si traditionnellement 24 heures de post view sont
admis. Lobjectif de CPA devra naturellement tre bien plus faible que celui de la
prospection.
Les clients

Le programmatique a galement un intrt pour les clients, quils soient acheteurs rcents
(favoriser le rachat immdiat dun produit complmentaire) ou clients endormis qui ne
rpondent plus sur les autres canaux (e-mailing, courrier). Le clic est souvent ici une
mesure trompeuse et il convient dadapter les indicateurs lobjectif prcis attendu de ces
campagnes.
Les robots

Payer laffichage dune publicit un robot nest pas nouveau (il y a toujours eu des robots
qui parcourent les sites web), mais le phnomne sest accentu avec le programmatique
et le dveloppement de la fraude33. Les publicits achetes via le programmatique
auraient ainsi 55 % de chances en plus dtre dlivres de faux utilisateurs34. Une partie
non ngligeable des clics sur une bannire est frauduleuse ou non dsire et il est donc
|
|\/
ncessaire de mesurer lengagement des visites pour carter ces clics parasites ,
$!

surtout dans le cadre dun modle conomique au CPC.


4$
By

Objectif performance ou objectif branding ?


Mener des campagnes programmatiques pour faire connatre votre marque ou pour
gnrer de la demande de devis change du tout au tout en matire dindicateurs et de
stratgie. Il est donc essentiel de clarifier avec le trading desk en charge des campagnes
les objectifs poursuivis.
La russite dune campagne de branding sera ainsi dtermine avec des
indicateurs traduisant la rtention du message telles que le nombre de publicits
rellement vues, la dure de visualisation pour une vido, le temps cumul dexposition de
chaque individu, la succession dexposition, etc. Le suivi de lvolution du nombre de
recherche de votre marque dans Google pendant la priode de diffusion est galement un
indicateur pertinent pour une campagne de branding.
linverse la russite dune campagne la performance sera tudie avec des
indicateurs dengagement (clic, micro-conversion, achat) et un modle dattribution
volu pondrant first click, last click et post view.

Comment se dcomposent les cots ?


Outre la dcomposition des cots selon les cas dusages et les types de campagnes, il
est utile dinclure dans le reporting de performance une dcomposition des postes de
cots :
de la data third party a-t-elle t achete ? Combien ? Cet investissement a-t-il t
rentable ?
combien cote au CPM le module garantissant la visibilit ?
sur combien dditeurs est dpens 80 % du budget ?
En conclusion, au-del de la connaissance de quelques indicateurs spcifiques comme la
visibilit, la russite dun plan de mesure tient la cration de KPI ad hoc pour
chaque cas dusage. Le tableau ci-dessous rsume titre dillustration une stratgie de
mesure envisageable.

Parfaits inconnus Prospects Clients

CPC Taux de rebond


Clics Conversion post click
Performance Nombre pages vues/visite Exclu des campagnes
Attribution post click
Attribution first click

Nombre publicits vues/internaute Temps cumul dexposition volutions requte de la


Branding
marque dans Google Conversion post view 30 jours

Figure 83 Stratgie diffrencie de mesure selon les objectifs de campagne


|
|\/
$!

RETENIR DE CE CHAPITRE
4$

Lachat mdia programmatique change le paradigme de la publicit digitale : dsormais lannonceur achte
By

une audience et non plus uniquement un emplacement. Selon la place du curseur entre ces deux
philosophies dachat, on peut parler de campagnes la performance (lapanage du RTB) ou de campagnes
de branding (programmatique one to one).
Dans tous les cas, la donne optimise lachat mdia en agissant sur tous les fronts de la publicit digitale :
le ciblage, le niveau denchre et la personnalisation du message. Chaque levier fait toutefois appel des
procds bien distincts, allant de lachat de donnes pr-packages la mise en place dalgorithmes
volus de machine learning.

vous de jouer
Vous ne savez toujours pas par o commencer ? Rendez-vous sur lexcellente infographie
anime http://www.marketingmag.ca/microsite/programmatic-landscape/ pour vous guider
tape par tape dans le labyrinthe du programmatique.
Dfinissez deux cas dusages simples (par exemple prospection pure et retargeting
formulaire abandonn) et mettez en concurrence diffrents trading desks (indpendant,
agence, techno DSP propritaire). Un budget de 10 25k par trading desk est raisonnable
pour une campagne test.
Pour les agences ou annonceurs novices , un accompagnement expert semble tre le
meilleur moyen daborder avec succs le virage du RTB.
SOURCES
Le programmatique est un sujet tendance qui gnre une vaste littrature sur le Net, apportant souvent plus de
confusion que de clart. Quelques sites font toutefois rfrence et apportent des rponses prcises et complmentaires,
par exemple :
Ad-exchange.fr et programmatique-marketing.fr traitent de toute lactualit autour de la publicit programmatique ;
Adexchanger.com propose de nombreux articles de fonds et dbats dides (en anglais) ;
Adopsinsider.com dcortique le fonctionnement technique du programmatique (en anglais, pour lecteurs avertis).
Par ailleurs, linteractive Advertising Bureau (IAB), le Syndicat des rgies internet (SRI) et lUdecam (Union des entreprises
de conseil et achat mdia) sont des organisations professionnelles regroupant les principaux acteurs de la publicit
digitale et dlivrant rgulirement des contenus de qualit, tels que :
Comment mesurer lefficacit de la publicit sur Internet synthtise les diffrents indicateurs de mesure de la
performance (tude ralise par PriceWaterhouseCoopers) ;
LObservatoire annuel de le-pub dcortique le march et son volution.
Dans le mme mouvement, les acteurs du march publient rgulirement des livres blancs pdagogiques :
Le CTR une mesure trompeuse, Comscore, 2014 ;
Real Time Bidding comprendre sa complexit, connatre ses limites, cabinet Converteo, janvier 2015 ;
Le RTB pour les dbutants, Tradelab ;
Programmatique et RTB, vers un mdia planning individualis, agence ESV digital, mars 2015 ;
Le marketing programmatique : 30 cas pratiques, EBG (Electronic Business Group).
Enfin pour ceux qui souhaitent approfondir leur connaissance sur les plateformes denchres (DSP) et leurs spcificits,
|
|\/
je vous recommande :
$!

les benchmarks raliss par le cabinet Forrester dont un rsum dune quinzaine de pages est accessible en libre-
4$

service (en anglais) :


The Forrester Wave, Demand Side Platforms (DSPs) , Q2, 2015,
The Forrester Wave, Video Advertising Demand Side Platforms , Q4, 2015 ;
By

les enregistrements vido des Summit Optimizer organiss par Appnexus. En particulier lenregistrement vido du
Summit qui sest droul Londres en juin 2016 (https://www.youtube.com/watch?v=CIbVvG-K_aQ&feature=youtube)
expose les possibilits offertes par lAppnexus Programmable Bidder et ltat de lart en matire de stratgie denchre.

1. Electronic Business Group, association dentreprises consacres aux mdias et lInternet.


2. Prsent ct acheteur comme vendeur, Criteo a notamment pos les briques des adexchanges qui ne seront crs
officiellement que cinq ans aprs !
3. tude Magna Global Programmatic intelligence , ralise par IPG Mediabrands, 2015.
4. Programmatic Marketing Forecasts 2016 , Zenith|The ROI agency
5. Two-Thirds of Display Spending in France Is programmatic , emarketer.com, 15 septembre 2016
6. vnement sportif majeur de football amricain runissant classiquement plus de 100 millions de tlspectateurs.
7. http://www.thedrum.com/news/2015/01/30/mondelez-s-oreo-and-ritz-first-buy-super-bowl-tv-ads-programmatically.
8. Programmatic TV Ad Spending to More Than Double This Year, 28 juin 2016, emarketer.com.
9. Et paye le prix correspondant la deuxime meilleure enchre (+ un centime), principe connu sous le nom de 2nd
auction price ou Vickrey auction .
10. Rappel : procd dit du CRM onboarding, vu au chapitre 3.
11. Critre de slection considr par lInstitut Forrester dans son tude comparative des DSP : The Forrester Wave,
Demand Side Platforms (DSPs) Q2 2015.
12. http://www.sri-france.org/2016/05/12/le-sri-publie-son-top-des-acheteurs-en-programmatique-pour-lannee-2015/
13. En particulier les briques technologiques, agences et annonceurs sont choisis au hasard sans tenir compte des
intgrations relles et uniquement des fins illustratives et pdagogiques. Toute ressemblance avec la ralit serait
entirement fortuite !
14. Ce qui explique dailleurs pourquoi prs dune bid request sur quatre contient une information de golocalisation
frauduleuse
15. Chaque DSP a son propre formalisme : par exemple on parlera de line item chez DBM, stratgie chez
Mediamath et campagne chez Appnexus !
16. Les sites et applications partenaires sont gnralement rmunrs au volume de visiteurs cookifis par le biais du tag
du data provider.
17. 1 CPM peut reprsenter un surcot de 200% pour des campagnes dacquisition prsentant un CPM moyen de 50c.
18. Chapitre 1 dans lequel ont t prsents les 5V du Big Data.
19. Rgie publicitaire leader des sites e-commerces. Leur produit phare 3W Adex est le premier ad-exchange 100%
compos dinventaires de sites e-commerce.
20. La dure du tunnel de conversion entre premire recherche et achat effectif dpend beaucoup du produit : de
quelques jours pour un bien de consommation courant, ce dlai peut atteindre plusieurs mois pour une voiture !
21. Chapitre 1, rubrique classification des donnes en publicit .
22. Ce cas dusage de rveil dun dormant fait souvent appel une prestation pralable de CRM onboarding.
23. Le churn , thmatique dj voque plusieurs reprises dans cet ouvrage.
24. Cf. encadr chapitre 3.
25. Ces flux de donnes gnrent ou non un surcot selon les plateformes.
26. La DSP Mediamath, en rachetant la start-up nantaise Tactads en 2014 a marqu sa volont de prendre une position
de leader concernant ce mode de ciblage dit people based
27. Mme principe que sur Adwords o il est possible dinclure ou dexclure des mots cls.
28. Beaucoup de sites aux contenus douteux vendent de lespace publicitaire sur les ad-exchange.
29. Les visiteurs sont dans un processus de prise dinformation et il est donc gnralement plus judicieux de proposer un
|
contenu de branding quun contenu incitant directement lachat.
|\/
30. Par exemple Integral Ad Science, Adloox, Comscore, etc. Ces solutions interviennent pr-bid et empchent la
$!

DSP denchrir sur des inventaires valus comme peu qualitatifs ou frauduleux.
4$

31. On parle alors dvnements post click ou post view.


32. Souvent le CPA en prospection pure sera mme perte sur la premire vente et cest lestimation de la valeur dun
By

client sur son cycle de vie qui justifiera la campagne.


33. La fraude peut prendre plusieurs formes : plusieurs bannires dans le mme espace, bannires de 1 pixel, fermes
clic , infections dordinateurs, etc
34. Source : tude The Bot Baseline: Fraud in Digital Advertising publie par la socit WhiteOps en dcembre 2014.
CHAPITRE

9
Marketing direct : du mass marketing au
marketing one to one

Campagnes e-mails, SMS, courriers, push notifications sur mobiles, prospection


tlphonique on dsigne par marketing direct toute forme de marketing interactif qui
utilise un ou plusieurs mdias en vue dobtenir une rponse directe du consommateur
et/ou une transaction , ou du moins sagit-il de la dfinition officielle donne par
lAssociation du Marketing Direct.
Lavnement du digital et de la data a non seulement largi les possibilits de ciblage
publicitaire comme nous venons de le voir dans le chapitre prcdent, mais il a galement
|
|\/
rvolutionn la nature mme du marketing direct, en plaant linterlocuteur et non plus le
$!

produit vendre au centre de la stratgie : on parle dsormais de marketing customer


4$

centric loppos du product centric Le marketing moderne est un nouveau monde


By

o personnaliser la relation avec le client est devenu la priorit. 76 % des marketeurs


considrent ainsi que le marketing a davantage chang en deux ans, que lors des
cinquante dernires annes. Cette statistique tonnante dj mentionne en introduction
en dit long sur les transformations que connat la gestion de campagnes.
Mais en quoi la data et le digital ont-ils chamboul le marketing direct en si peu
dannes ? Entre nouvelles opportunits ne pas rater pour rester concurrentiel et
revendication identitaire de la part du consommateur qui demande davantage de
personnalisation, lexploitation des donnes en marketing direct se structure
principalement autour de trois cas dusages : personnaliser le moment du contact,
personnaliser le contenu et personnaliser la frquence de contact.

LE CONCEPT DE MARKETING AUTOMATION BOULEVERSE LE


MEDIAPLANNING TRADITIONNEL

Depuis que le marketing existe, le mdia planning traditionnel consiste promouvoir des
messages suivant une notion temporelle, les diffrents leviers et messages tant rpartis
tout au long de lanne croisant une logique de temps fort (Pques, Nol, les
vacances, etc.) avec une logique fil rouge (la newsletter hebdomadaire, le catalogue
trimestriel, etc.). Ce modle organise les leviers de manire complmentaire, mais ne
garantit pas que lindividu cibl un moment dfini a t rellement touch par le mdia
diffus en amont. Les diffrents leviers sont donc isols les uns des autres, en dpit dune
apparente synchronisation globale , rsume Thibault Finas de lagence digitale ESV dans
le livre blanc Programmatique : vers un media planning individualis.
La collecte massive de donnes et lvolution technologique des outils de gestion de
campagnes ont rendu possible la rsolution de ce problme et proposent un tout autre
paradigme : au lieu de prsenter au mme moment le mme message tout le monde
(prospects en phase de rflexion comme clients rguliers), il est dsormais possible
daccompagner le consommateur dans son cycle de vie, avec un message adapt son
avance dans le tunnel de conversion. Ainsi un nouvel inscrit au service pourra recevoir
une srie de contenus informatifs (vidos, tutoriels, etc.) au sein dun Welcome Pack
conu pour lemmener la conversion tandis quun client dormant recevra une superbe
offre promotionnelle pour le rveiller. la manire de vases communicants, le
consommateur volue dun stade un autre, et reoit chaque niveau des contenus
spcifiques prvus en amont par les quipes marketing : cest le marketing
automation . Grce lautomatisation des messages lis certains dclencheurs, la
marque peut instaurer un dialogue volutif avec le consommateur en adoptant une
communication qui passe progressivement du branding la commercialisation.
|
|\/
MEETIC, PAS FLEUR BLEUE !
$!
4$

Quand on parle de marketing automation, Meetic est une des socits les plus rgulirement cites en exemple, avec des
campagnes types imagines pour plus de 30 parcours clients, ce qui reprsente au total en 2015 plus de 40 000 phrases
By

types 1 ! Ds 2009, le leader de la rencontre avait ainsi mis en place la scnarisation marketing suivante :
dans un premier temps, le site offrait aux internautes une priode dvaluation gratuite dun mois ;
une fois linscription ralise par linternaute, celui-ci recevait un mail de bienvenue ;
ensuite, J+6, lentreprise envoyait un e-mail ces abonns les invitant complter leur profil ;
quelques jours de la fin de validit de loffre gratuite, il rexpdiait un dernier courrier davertissement leur signalant
que leur offre arrivait la date dexpiration. Ce dernier courrier incitait donc les abonns souscrire la version payante
du site.
Avec une telle campagne, Meetic prtendait lpoque dans une confrence organise par le-mailer Nolane
(nouvellement Adobe Campaign) avoir augment son taux de transformation de 10 points !

Cinq typologies de trigger dans votre bote outils pour automatiser le marketing
Mais comment ce processus de communication personnalise peut-il tre mis en place ?
Passer dun marketing de temps fort un marketing continu a t rendu possible par ce
quon appelle le trigger2 marketing , savoir le dclenchement automatique dactions
en fonction dvnements prdfinis lavance. Ces vnements sont gnralement de
cinq types, coupls ou non une notion de dure.
Les vnements lis au comportement du consommateur

Ils incluent typiquement les pages vues, les clics, les ouvertures de-mails, etc. Ce sont
les vnements les plus riches en matire de crativit marketing.
Exemples de scnarios possibles
Un internaute visite pour la troisime fois le site en moins de sept jours. Une fentre de dialogue apparat et un
conseiller propose de laide ou des conseils.
Un mobinaute a tlcharg une application mobile, mais cinq jours aprs na toujours pas utilis lune des
fonctionnalits principales. Il reoit une notification mobile pour linciter utiliser cette fonctionnalit.

Les vnements dits transactionnels

Ils regroupent des moments forts tels que linscription un essai gratuit, la cration dun
compte, le contact avec le support clientle, la participation un jeu-concours, la
rinitialisation dun mot de passe et bien sur lachat. Souvent le parent pauvre du
marketing digital, ces messages transactionnels nen restent pas moins dexcellentes
occasions dentamer une conversation de qualit avec le consommateur. En effet, les e-
mails transactionnels sont ouverts deux fois plus (taux douverture de 45 % contre 20 %)
et gnrent un taux de clic trois fois suprieurs (10 % contre 3,2 %) que les e-mails non
transactionnels3 !
Exemples damliorations possibles dans les e-mails transactionnels
Lorsquil sagit dun achat, particulirement dans le cas dun produit cher ou dun achat complexe, ajoutez des liens
vers des vidos de dmonstration, la FAQ ou un forum dutilisateurs.
Suggrer une vente croise ou toute autre micro-conversion. Par exemple capturez de nouveaux inscrits la
newsletter si la personne recevant le mail transactionnel na pas encore donn son opt-in.
|
|\/
Les vnements connus lavance
$!

Ils concernent le cycle de vie du produit achet (obsolescence programme), le cycle de


4$

vie du client (nombre de jours depuis le premier achat) et certains moments forts
By

comme la date danniversaire. Cette typologie de trigger est un bon compromis entre
mediaplanning traditionnel centr sur le moment et mdiaplanning moderne centr sur le
consommateur.
Exemples de scnarios observs sur le march
Un fabricant dordinateurs programme un message automatique dextension de garantie 11 mois aprs lachat, puis
lorsque lordinateur dpasse quatre ans, propose une offre complte de renouvellement.
Une animalerie en ligne alerte le client par e-mail et par SMS quand le stock de croquettes achet arrive thoriquement
son terme et lincite ainsi refaire son stock avant rupture !

Les vnements contextuels

Ils incluent typiquement la golocalisation (dtaill au chapitre suivant) et les conditions


mto. Beaucoup de marques connaissent par exemple parfaitement les effets de la
mto sur leurs ventes, (cf chapitre 5) mais ne savent pas ncessairement comment
transposer le rsultat de ces analyses dans une campagne digitale : considrer les flux
mto comme des triggers contextuels est souvent une bonne solution.
Exemples de cas dusages lis la donne mto
Nestl prvoit, chaque anne, en mai, un e-mailing sur les glaces, dclench en temps rel, grce aux donnes
mtorologiques publiques, lorsque la temprature augmente.
En juin 2015, la rgie publicitaire Prisma Media Solutions a pour la premire fois ralis pour ses clients une
campagne mto-sensible . La campagne display tait active uniquement lorsque la temprature oscillait entre 24
et 32 C.

Les franchissements de seuils

Ce sont galement des dclencheurs privilgis. On pensera notamment au cap des 1000
points sur le compte fidlit, au nombre simultan de clients en magasins et surtout
lvolution dun scoring client signalant par exemple un risque devenu lev dattrition4.
Aux tats-Unis, la start-up Madkuku a combin de manire originale data science et trigger marketing en proposant
aux entreprises ayant un modle conomique freemium 5 un scoring dapptence la version payante et une
valeur prdite des futurs clients. Ces scores sont rinjects dans le systme dinformation de lentreprise et ds quun
seuil de probabilit ou de valeur est franchi pour un individu, une action commerciale se dclenche (e-mailing, appel
tlphonique), augmentant ainsi fortement la conversion dun simple utilisateur de la version gratuite en client factur.

Progressivement, le data marketing permet ainsi de faire vivre de rels concepts de


communication. Il est dsormais plus simple de coordonner divers leviers marketing entre
eux, darticuler les messages en fonction dactions prcises dclenches par le prospect
pour au final envoyer aux consommateurs des informations en cohrence avec la phase
du processus dachat dans laquelle ils se trouvent.
Le schma ci-dessous rcapitule bien cette nouvelle approche et apporte de nouvelles
ides pour chaque moment du cycle de vie. |
|\/
$!
4$
By

Source : Dolist tous droits rservs.

Figure 84 Dun mdiaplanning fig un marketing continu centr sur le client

LE PROFIL CLIENT EST AU CUR DU PROCESSUS DE


PERSONNALISATION

Pour les annonceurs dj matures sur le sujet du trigger marketing (cest--dire qui ont
radiographi finement le parcours client et dfini au moins un scnario par point de
contact), il sagit de dpasser la mcanique base uniquement sur lvnement . En
effet laction dclenche par le trigger peut de plus tre personnalise en fonction du
statut ou du segment dun client. Quelques exemples concrets pour se convaincre de
lintrt du croisement de la logique trigger avec la logique profil .
Personnalisation dynamique du contenu dun e-mail : le principe consiste rendre
certaines parties de le-mail personnalisables selon un ensemble de rgles. Dans le cas
dun constructeur automobile qui souhaite prsenter ses clientes femmes une photo
dune femme en train de conduire, loutil de gestion de campagne va vrifier dans la base
de donnes le critre sexe du destinataire et slectionner automatiquement la photo A
ou la photo B pour remplir le bloc image6. Ce principe de personnalisation dynamique
permet galement de caractriser la slection produits : le moteur de recommandation,
influenc ou non par des rgles business (produits liquider, produits plus fortes
marges, etc.), indique au routeur e-mail le meilleur produit afficher pour ce
destinataire.
Personnalisation des notifications en tenant compte des centres dintrt : par
|
|\/
exemple un magazine sportif pourra notifier ses lecteurs chaque lundi matin les rsultats
$!

du week-end, en variant le contenu selon les disciplines effectivement apprcies par le


4$

lecteur. Dans le mme ordre dide, un magazine de presse peut prvenir le lecteur quand
By

un nouvel article de ses auteurs prfrs est disponible.


Personnalisation du site e-commerce selon le statut du visiteur : par exemple, si un
client dormant (i.e. ne rpond plus aux sollicitations e-mails depuis des mois) visite le site,
une fentre de dialogue apparat et un conseiller propose de laide ou des conseils (il
sagit ici dune adaptation du scnario troisime visite en une semaine pour les
visiteurs identifis comme clients dormants ).
Personnalisation de lapplication mobile selon lhistorique dachat : sur un cran de
tlphone mobile, le peu de place disponible ncessite laffichage des seuls produits
proches des apptences du client.
Personnalisation du moment denvoi en fonction du pays de rsidence : avec le
mobile allum en permanence et ses bips caractristiques, les marques ont tout intrt
adapter lheure denvoi des pushs ou des e-mails au fuseau horaire du destinataire afin de
ne pas rveiller leurs clients au milieu de la nuit. En tmoigne lhistoire vraie arrive une
chane de fastfood amricaine qui offrait le caf en pleine nuit pour la victoire de lquipe
locale oubliant que celle-ci jouait lextrieur dans lOuest amricain avec plusieurs
heures de dcalage !
Comme lillustrent ces exemples, la notion de personnalisation recouvre une multitude
dactions qui sont en gnral traites par des acteurs diffrents. Pour viter de sy perdre,
il est prfrable de se restreindre un nombre limit de dcoupages : combiner le
concept de trigger avec quelques segments clients simples permet dj de produire des
centaines, voire des milliers de communications diffrentes.

Bon savoir
Malgr lintrt vident de la personnalisation et de lunivers des possibles en la matire (moment, contenu,
cible), noubliez pas pour autant de garder quelques campagnes fils rouges adresses tout le monde
afin dviter le syndrome de Panurge dcrit dans la prface.

INDIVIDUALISER AUSSI LA PRESSION COMMERCIALE

mesure que les campagnes automatises se multiplient, grer la pression marketing


devient de plus en plus indispensable, mais aussi de plus en plus complexe en raison des
risques de recouvrements entre scnarios et de la multiplication des canaux de contacts.
Comment faire pour viter le dsabonnement massif de consommateurs lasss par une
avalanche de messages commerciaux reus de toute part ?
Trois stratgies peuvent tre envisages individuellement ou simultanment :
borner le nombre de contacts gnr auprs dun individu ;
modliser la pression marketing ;
|
|\/
jouer la transparence.
$!
4$

Borner le nombre de contacts : lapproche droit au but


By

Les solutions traditionnelles de gestion de campagnes proposent de dfinir un nombre


maximum de messages envoyer pour chaque individu, sur une priode donne (par
exemple, pas plus de trois sollicitations par semaine par e-mail + SMS, en dehors des
messages transactionnels). Le logiciel stoppera les envois une fois le maximum atteint.
Simple sur le papier, cette mthode pose toutefois une question fondamentale : partir
de quand la sollicitation dun internaute devient-elle contre-productive pour lannonceur ?
Autrement dit comment dfinir le bon seuil ? Car si bombarder le consommateur de
messages commerciaux peut tre un irritant, une absence de communication auprs de
sa base clients est une perte dopportunit pour gnrer du business. Il existe certes des
tudes qui tentent dtablir un seuil optimal, mais celui-ci varie trop selon les secteurs
dactivit ou les populations de consommateurs pour en tirer un enseignement unique.
Pour rgler ce paramtre, une tude statistique telle que celle prsente en partie B sera
donc ncessaire. En particulier portez votre attention sur les analyses suivantes :
comment se comporte la distribution du nombre de sollicitations par individu ? Sous
une moyenne acceptable (disons cinq sollicitations par mois) se cache en effet souvent
un cart type important. Autrement dit certains membres reoivent deux messages par
mois et dautres douze !
quand interviennent les dsabonnements ? Ils ont souvent lieu ds les premiers
messages commerciaux, ce qui implique de moduler le rythme denvoi trs vite dans la
relation. Imaginons par exemple que le rythme de sollicitation commerciale dun
annonceur est de deux e-mails par semaine. Pour un nouveau membre qui naurait pas
ragi la premire sollicitation, une bascule automatique de son seuil un e-mail par
semaine est une rgle empirique qui donne gnralement de bons rsultats ;

Source : CONVERTEO, Conseil spcialis en digital et smart data.

Figure 85 Modle simple de gestion personnalise de la pression marketing


|
|\/
$!

peut-on modliser mathmatiquement le lien entre frquence denvoi, taux de clic et


4$

taux de dsabonnement ? Quelle est la pondration de la variable frquence


denvoi dans un modle prdictif rpondant la question va se dsabonner ?
By

Ainsi mene, une telle tude permettra de naviguer entre le trop plein et le trop peu, deux
cueils bien connus en communication.

Modliser la pression marketing : lapproche attributive


Au lieu dinstaurer un nombre maximal de sollicitations, lapproche attributive revient
aux fondamentaux du commerce : toutes les sollicitations ne se valent pas et certaines
participent plus lirritation du consommateur que dautres. Afin de modliser simplement
ce phnomne, trois axes de pondration peuvent tre envisags :
le type dinteraction : on conoit aisment quun appel tlphonique dun commercial
ou lenvoi dun e-mail sont deux vnements trs diffrents qui mritent dtre pondrs
diffremment dans le calcul dune pression commerciale7 ;
lanciennet de linteraction : lespacement des sollicitations est un facteur
dterminant dans la mesure de la pression commerciale ;
le ressenti du consommateur : la pression marketing repose en ralit sur une
perception, un ressenti qui diffre dun individu un autre. Par exemple, un client pourra
tre enchant dtre contact par tlphone alors quun autre trouvera cette dmarche
trs drangeante. Cette problmatique est dautant plus forte dans le secteur du luxe
o dranger son client est une faute grave.
En jouant avec ces pondrations, il devient possible de maintenir une pression
commerciale adquate en liminant au fur et mesure les campagnes qui dclenchent les
moins bons taux de retour, pour la cible vise.

Jouer la transparence : lapproche win-win


La gestion de la pression marketing ne peut tre rduite la frquence des sollicitations.
En effet la problmatique se pose plutt en termes de pression ressentie . Andra
Micheaux, directrice de la socit AID spcialise dans lhbergement de bases de
donnes marketing, a soutenu il y a quelques annes une thse8 sur la modlisation de ce
ressenti dans le-mailing et a dgag trois situations :
soit le destinataire considre demble le-mail comme inintressant et le supprime :
geste machinal qui na pas vraiment dinfluence sur la sensation de pression ;
soit le destinataire, intress par lobjet, ouvre le mail et trouve le contenu pertinent :
sensation positive pouvant se traduire par un clic, un achat
soit le destinataire, intress par lobjet, ouvre le mail et est du par le contenu qui ne
correspond pas ses attentes : le moment vcu est un irritant pouvant se traduire
par un dsabonnement, une mise du courrier en indsirable, etc.
|
|\/
Lauteur en a dduit que ladquation entre lobjet du message et le contenu est
$!
4$

dterminant dans la perception de la pression. Par exemple, un objet non publicitaire,


mais avec un contenu publicitaire obtiendra un taux de dsabonnement significativement
By

suprieur que si lobjet avait t publicitaire. Attention donc aux objets volontairement
ambigus pour faire augmenter le taux douverture, il est prfrable de jouer franc-jeu.
Outre la transparence de lobjet, le contrat win-win avec le consommateur inclut
galement un rappel clair au destinataire de la raison pour laquelle il reoit ce
message.
Enfin, adaptez votre procdure de dsabonnement : au lieu dune option binaire
oui/non, laissez le consommateur choisir sa frquence denvoi et renseigner ses centres
dintrt et son canal de contact de prdilection9. En laissant au client le sentiment de
contrler la situation, vous viterez un grand nombre de dsabonnements !

LE MARKETING DIRECT ONE TO ONE EN PRATIQUE : CINQ EXEMPLES


DE CAMPAGNES E-MAIL INCONTOURNABLES

Si le concept de trigger est trs large et peut impacter lensemble des canaux de
communication (jusquau vendeur en magasin alert par lentre dun client VIP en
magasin !), le-mailing reste le canal historique et privilgi du trigger marketing. Le
spcialiste du marketing one to one Probance recommande ainsi sur son blog cinq
campagnes e-mail trigger-driven incontournables lheure du data marketing.
La relance de panier abandonn
Prs de trois clients sur quatre abandonnent leur panier en cours de route et les relancer
est un mode opratoire logique. Mais attention ne pas jouer le commerant en
manque de clients en agressant le consommateur deux heures aprs avec un coupon
promotionnel ! Cette stratgie peu subtile risque dexasprer la plupart et de ne sduire
que les radins malins abandonnant volontairement leurs paniers afin douvrir la vanne
aux bons de rduction. Afin de maximiser la conversion, il est prfrable de mettre en
place un vritable scnario sattaquant aux origines du problme. Par exemple :
pour les internautes effrays par les frais de livraison, une stratgie adquate
consisterait leur signaler la livraison gratuite au-del dun certain montant de
dpenses supplmentaires ;
pour les internautes encore en phase de rflexion, proposer un comparatif de prix par
rapport la concurrence peut tre une stratgie gagnante.

La campagne post-navigation
La visite engage sur le site web est galement un acte fort sur lequel il est possible de
capitaliser plusieurs semaines, par exemple en :
envoyant un argumentaire de vente sur lun des produits qui a t consult (texte
|
|\/
spcifique, vido, avis clients) ;
$!

proposant des produits associs ;


4$

invitant dcouvrir un article de blog li la marque du produit.


By

La campagne de bienvenue
Elle peut sappliquer aux nouveaux clients qui viennent dacheter ou aux nouveaux
membres qui nont pas encore converti. Il sagit ici principalement denvoyer une srie de
contenus informatifs utiles (extrait de FAQ, avis utilisateurs, conseils dentretien, etc.) pour
renforcer le lien de confiance avec le nouveau client. Chez lopticien GrandVision France,
le Welcome Pack stale ainsi sur douze mois ! La meilleure campagne est celle
invitant le client, six mois aprs lachat, se rendre au point de vente de la marque pour
faire vrifier sa monture10.

La campagne post-sell
Un grand nombre de clients attendent moins dun mois pour faire un rachat. Il est donc
important de pouvoir mettre en place des rgles de relance, qui sarticuleront
principalement autour du programme de fidlit, de promotions spciales et de
recommandations produits.

La relance des clients inactifs


Voil 180 jours quun client na plus visit le site web, achet ou mis au panier ?
Dclenchez automatiquement un scnario de ractivation avant den arriver un
endormissement trop profond. Parmi les stratgies de relance qui ont fait leurs preuves :
proposer les nouveauts, mettre en avant une offre promotionnelle correspondant au profil
de ce client et jouer la carte de lhumour.

RETENIR DE CE CHAPITRE
La personnalisation est au cur du data marketing. Le concept peut toutefois prendre plusieurs formes,
les trois plus rpandues tant le marketing automation, la recommandation produits et ladaptation de la
pression marketing. La premire personnalise le moment de linteraction, en dclenchant des scnarios
suite des stimuli dtermins. La seconde personnalise le contenu du message, en ladaptant selon un
ensemble de donnes sociodmographiques et comportementales connues sur le destinataire. La dernire
personnalise les canaux de contact et la frquence des contacts.

vous de jouer
Dressez le cycle de vie de votre client et imaginez comment tre prsent toutes les tapes
du parcours client (exemple : je rve je compare jachte, etc.) grce des triggers bien
choisis.
Identifiez vos trois campagnes e-mail et SMS qui ont fait le plus de dgts en matire de
dsabonnement. |
|\/
Demandez tous vos collaborateurs et meilleurs clients ce quils aimeraient trouver dans le
$!

Welcome Pack . Btissez partir de ces retours une srie de cinq e-mails avec du
4$

contenu informatif de prfrence.


By

SOURCES
propos du concept du trigger, larticle Le trigger marketing cest quoi ? , Emmanuel Ulman, 2009, publi sur Le Lab
by vente-privee consulting est trs pdagogique. Le site regorge par ailleurs de nombreux articles pertinents.
Pour approfondir lensemble de ce chapitre, le livre blanc Marketing relationnel et personnalisation cocrit par lEBG et par
lditeur de solutions data marketing Actito est une excellente lecture, avec de nombreux conseils pratiques.

1. Source : Marketing relationnel et personnalisation, livre blanc Actito & EBG.


2. Signifie en anglais gchette , dclencheur .
3. e-mails transactionnels : 10 conseils pour gnrer plus de valeur et dengagement client, livre blanc IBM, 2015.
4. Voir chapitre 7 pour plus de dtails sur les mthodologies de scoring.
5. Modle consistant proposer une version gratuite limite en termes de fonctionnalit (par exemple de LinkedIn).
6. Lenjeu est bien sr de produire les diffrents blocs de contenus en amont !
7. Cette approche ncessite dans la phase de collecte davoir unifi autour dun mme id client lensemble de ses points
de contact avec la marque.
8. Thse soutenue la Sorbonne sur le thme de la perception et du comportement du consommateur face la pression
des campagnes de-mailing.
9. Cette stratgie est connue sous le terme centre de prfrences
10. Source : Marketing relationnel et personnalisation, livre blanc Actito & EB G.
CHAPITRE

10
Data et commerce physique : la rvolution
apporte par le mobile et les objets connects

Jusqu prsent louvrage a prsent comment utiliser la donne pour cibler la bonne
personne (segmentation, cration daudience par look alike modeling, mthodes de
scoring), au bon moment (trigger marketing) avec le bon message (moteurs de
recommandation, DCO). Il reste une dimension explorer pour boucler la chane de
valeur de la data et clore cet ouvrage ddi au data marketing : la dimension apporte
par la donne de golocalisation permettant dintervenir au bon endroit .
Encore rserve il y pas peu des usages militaires ou de la surveillance (convois,
|
|\/
entrepts), la golocalisation sest dveloppe depuis quelques annes auprs du grand
$!

public : selon le baromtre du marketing mobile de 2014 (ralis par la MMA avec
4$

Comscore, GfK et Mediametrie) 50 % des mobinautes franais utilisaient ainsi au moins


By

un service de golocalisation sans compter les montres, lunettes et autres objets


connects qui viennent petit petit complter larsenal du consommateur hyper-connect.

LEXPLOSION DU MOBILE EN CHIFFRES

De nombreuses tudes font tat de limportance grandissante du mobile dans nos vies.
En 1982 il y avait 4,6 milliards de personnes dans le monde et pas un seul tlphone cellulaire. En 2013, il y a 7 milliards
de personnes sur la plante et 6 milliards dabonnements mobiles.
25 % de la population mondiale utilise un smartphone, 60 % en France.
80 minutes est le temps moyen pass sur un mobile par jour pour un individu.
Pour de nombreux annonceurs, la part du mobile dans les visites, les conversions, et le chiffre daffaires a ainsi cr
drastiquement au cours des dernires annes et par voie de consquence le budget marketing digital consacr au mobile
ne cesse de grimper.

Consquence : la donne de golocalisation et les services associs (souvent dsigns


par LBS pour location based systems) font dsormais partie intgrante des rflexions
marketing et stratgies data menes par les marques, avec la cl notamment la
rconciliation du monde physique et digital ainsi que le butin de la publicit locale, chiffre
dix milliards deuros en France1. Entre dfis technologiques et dfis dusage, que ce
chapitre serve de boussole vos rflexions !
COMPRENDRE LA GOLOCALISATION : GRILLE DANALYSE

La notion de golocalisation est un terme qui se banalise aujourdhui, avec une perte de
repres : dun ct la moindre application mobile dveloppe dans son garage inclut cette
fameuse golocalisation , et de lautre ct les plus grandes marques engagent des
projets coteux grand renfort de consultants afin dinclure la golocalisation dans leur
arsenal marketing. La ralit est que derrire le terme golocalisation se cache un
vaste ensemble de technologies et dusages. En particulier voici quelques questions cls
se poser avant daborder un projet de golocalisation.

Golocalisation indoor ou outdoor ?


Les procds de golocalisation diffrent grandement selon que lon souhaite golocaliser
un individu en extrieur (outdoor) ou en intrieur (indoor) et rares sont les prestataires
capables dassurer les deux types dusage !
La technologie outdoor sappuie principalement sur la position GPS fournie par le
smartphone2 ou par une balise GPS, et apporte une prcision de lordre dune dizaine de
mtres.
Moins prcise, mais applicable aux utilisateurs non quips de smartphone, la
|
|\/
golocalisation par GSM, dite aussi cell id , se base quant elle sur le rattachement
$!

dun tlphone une antenne relai.


4$

Enfin la golocalisation outdoor pourra peut-tre bientt sappuyer sur le rseau LoRa,
By

dvelopp par Bouygues Telecom, Orange et Archos et principalement ddi lInternet


des Objets (IoT).
Le problme de ces technologies est quelles perdent fortement en prcision ds que
lindividu se situe dans un espace clos tels que centres commerciaux, magasins ou
aroports. Cest ce moment-l quinterviennent les technologies indoor, dites aussi
de micro-localisation. Parmi elles, citons en particulier :
les balises Bluetooth3 ;
la technologie LIFI ;
le Wifi ;
les ultrasons.
Les balises Bluetooth de type beacon
Source : The Hitchhikers Guide to Ibeacon Hardware, A Comprehensive Report by Aislelabs, 4 mai 2015.

Figure 86 Plus de 40 fabricants de beacons disponibles sur le march !

Trs en vogue de par leur simplicit dusage, elles font depuis 2014 lobjet de nombreux
projets exprimentaux : Darty aurait ainsi dploy dj plus de 200 beacons et Monoprix
quip 22 magasins. Le cabinet dtudes Business Insider prdit ainsi plus de trois
millions de beacons en activit en 2018 rien que dans le secteur du retail. En 2015, dj
plus de 40 fabricants de botiers et 50 fournisseurs de plateformes techniques et
|
|\/
marketing ddies avaient investi ce tout jeune march ! Malgr cette effervescence, leur
$!

fonctionnement nest cependant pas toujours bien assimil (cf. encadr ci-dessous).
4$

LE BEACON, CE NEST PAS SORCIER !


By

Il existe beaucoup de confusion et de mythes autour des possibilits du beacon. En ralit la cinmatique est assez
simple :
1. Le beacon signale sa prsence un rythme rgulier. En ralit un beacon ne fait qumettre son nom, plus
prcisment un UUID et deux numros didentification (Major, Minor) ! En particulier un beacon nenvoie pas de
notifications et un beacon nest pas un Big Brother qui enregistre le passage des clients, deux ides reues
frquentes.
2. Le signal est capt par une application mobile associe. Parasite dune application pralablement installe et
de lactivation du Bluetooth, un beacon ne permet donc pas de toucher nimporte qui nimporte quand.
3. Le signal est traduit en action par un logiciel. Le beacon nest rien sans lintelligence logicielle ajoute
lapplication mobile ! La rencontre de lapplication mobile avec le signal du beacon agit comme un trigger et dclenche
un scnario pralablement enregistr dans la plateforme logicielle destination des marketeurs. Il sagit gnralement
de notifications, mais les possibilits sont en ralit plus nombreuses : rveil de lapplication en veille, affichage dune
URL, rcompense au bout du dixime passage

La technologie LIFI

Elle repose sur la transmission dinformations par la lumire : les clairages LED utilisent
en effet des ampoules qui sallument et steignent plusieurs millions de fois par seconde
et ces variations (trop rapides pour tre visibles lil nu) sont utilises pour coder des
informations, comme avec le morse, ou le langage binaire utilis en informatique. Cher,
mais trs prcis, cest le choix fait par Carrefour en 2015 pour son hypermarch de Lille,
la lumire ainsi route par le systme tant capte par la camra du smartphone et
dcrypte par une application dun nouveau genre. Les fournisseurs Lucibel et Philips,
mais aussi la start-up Oledcomm ont investi ce march prometteur.
Le Wifi

Il fonctionne de manire similaire aux antennes GSM : le rattachement une borne dont la
position est connue coupl la force du signal permet de situer lindividu dans lespace.
En France, Insiteo et Pole Star sont les deux socits principalement positionnes sur ce
crneau.
Les ultrasons

Capts par le microphone du smartphone, ils compltent le panorama. Ce dispositif est


une technologie prcise et fiable, car elle implique que la personne soit stationne
quelques secondes en face de lmetteur. Elle a notamment t dploye par la start-up
Fidzup.

Golocalisation en mode pull ou mode push ?


Comment faire la diffrence entre deux applications de bons plans golocaliss qui
ont plus ou moins le mme discours marketing ? Un des axes de diffrenciation concerne
|
lapproche pull (tirer) ou push (pousser), dsigne parfois par les termes
|\/
$!

outbound (sortant) ou inbound (entrant).


4$

En mode pull , la donne de golocalisation est transmise au moment o


By

lutilisateur excute une action spcifique sur lapplication. Souvent cette


transmission de donnes seffectue lors de louverture de lapplication. Le serveur
applicatif calcule alors la distance de tous les points dintrts (POI) renseigns en base
de donnes par rapport la localisation du mobinaute. Sont restitus sur une carte les
POI les plus proches. Cest ainsi que le mobinaute constatera la prsence dune
promotion intressante chez Sephora moins de 400 mtres. Le mode pull est le
principe utilis par une grande majorit des applications, car cette mcanique est trs
simple techniquement. De plus, le principe est logique sur le plan exprience
utilisateur : lutilisateur est en mode recherche et tre golocalis lui procure un service.
En revanche, les possibilits dinteraction avec le mobinaute sont limites, lapplication
sapparente davantage un annuaire digitalis et retranscrit sur une carte.
Le mode push rsout cette contrainte. Le service est en veille et se dclenche
automatiquement en fonction de la position de la personne. Par exemple, le
mobinaute recevra un message parce quil vient dapprocher moins de 100 mtres dun
magasin Sephora. Cest le principe du geofencing qui consiste difier une clture
virtuelle autour dun magasin ou dun point dintrt. Lentre ou les sorties de ce primtre
active les sollicitations commerciales selon le principe du trigger tudi au chapitre
prcdent. Ds 2010, la socit spcialiste du marketing mobile Placecast avait ainsi
nou des partenariats avec les oprateurs Telefonica et O2 en vue de proposer aux
abonns des bons plans exclusifs par SMS selon leur localisation. Par exemple, la
marque de cidre Bulmers cible les hommes de 18 34 ans passant proximit dun des 1
074 pubs slectionns une certaine heure, pour leur proposer dy prendre un verre
tandis que la marque de vtements The North Face communique quand le mobinaute se
trouve dans une station de ski ou des parcs nationaux. La plupart des cas dusages
marketing exploitant la donne de golocalisation reposent sur le principe du geofencing.

Golocalisation continue ou discrte ?


Consquence des deux premiers points, il est bon de garder lesprit les deux grands
modes de golocalisation : continue ou discrte.
La golocalisation continue est une tche de fond qui envoie intervalle rgulier la
position du terminal. Cest par exemple le cas pour une balise GPS ou un botier OBD4
install dans une voiture. Pour un smartphone, il sagit dune tche beaucoup plus
complique : dune part, cette tche de fond ne doit pas vider la batterie de lutilisateur et,
dautre part, elle ne doit pas mobiliser trop de ressources du tlphone au risque dtre
mise en quarantaine par lOS (Operating System). Ds lors la technologie mettre en
uvre devient trs complexe. En France, la start-up Databerries, grce une technologie
innovante, sest ainsi positionne en leader sur ce secteur, avec la cl une double
proposition de valeur difficilement accessible autrement : connatre toutes les habitudes
|
|\/
de dplacement de plusieurs millions dindividus5 et mesurer la performance des publicits
$!

en comptabilisant les visites incrmentales6 dans les points de vente.


4$

La golocalisation discrte repose gnralement sur le maillage dun espace


By

gographique et de la collecte de points de passage. Cest le principe par exemple des


antennes GSM, des bornes Wifi ou des botiers de type Bluetooth. Pour tre pleinement
efficaces, ces systmes doivent avoir un maillage trs fin afin de capter un maximum de
signaux. Autre exemple de golocalisation discrte dj voque au chapitre 8 : les DSP
mobiles (Adotmob, Netadge,TabMo) sont informes chaque bid request de la donne
de golocalisation du tlphone (transmise par lditeur). En archivant les bid requests
(quelques positions par jour et par individu), ils se constituent au fil des enchres un
historique de position pour chaque mobinaute (identifi par son IDFA, pour rappel
identifiant anonyme compos de plusieurs caractres). Au bout de quelques jours, il
devient ds lors par exemple possible didentifier le lieu dhabitation ou le lieu de travail du
mobinaute ainsi anonymis.

Golocalisation statique ou bien golocalisation temps rel ?


Il y a souvent une confusion entre les diffrents lments de la chane de valeur de la
golocalisation applique au marketing. Le gocodage dadresses7 et le gomarketing
sont des procds qui existent depuis les annes 1960 pour reprsenter des magasins
sur une carte et faire ltude de potentiel dune zone de chalandise. Ce sont des outils
statiques danalyse dcisionnelle toujours utiliss aujourdhui. Des enseignes telles que
Maisons du monde ou La Franaise des Jeux y ont eu par exemple rcemment recours
pour mieux qualifier les zones gographiques autour de leurs magasins ou points de
vente8 tandis que la start-up Mytraffic, rcente laurate du concours dinnovation
numrique (juin 2016), ambitionne de moderniser et de dmocratiser le march des
tudes gomarketing.
Ces tudes donnent souvent lieu par la suite la mise en place dun geotargeting,
savoir la dfinition des zones de distribution de prospectus et de ciblage clients pour des
campagnes display. Par exemple JC Decaux a dfini avec le spcialiste du traitement de
la donne Experian une segmentation go-comportementale de son parc de mobiliers
daffichage.
Larrive des smartphones et autres objets connects quips dune puce GPS
rvolutionne les cas dusages : dsormais le marketeur peut avoir connaissance tout
moment de la position gographique dun objet en mobilit. La rvolution du marketing
au bon moment, au bon endroit est videmment troitement lie cette donne
mobile. Le geofencing dj voqu prcdemment est lautomatisation temps rel
du principe ancien de geotargeting.

COMMENT TIRER PARTI DE LA DONNE DE GOLOCALISATION ?


|
|\/
$!

De nombreuses entreprises testent des oprations autour de la donne de golocalisation


4$

et des modles commencent merger sur les diffrentes faons dintgrer la


golocalisation son arsenal marketing sans en faire un gadget ou au contraire une
By

usine gaz . Daprs mon exprience du domaine et les annonces rcentes, dtaillons
ci-dessous cinq scnarios de dploiement les plus prometteurs.

Le Drive-to-store pour attirer du trafic en point de vente


Premire application de la golocalisation pour le marketing : augmenter le trafic en point
de vente, laide de publicits golocalises. Le taux de clic dune bannire
geofence serait jusqu 70 % suprieur une pub traditionnelle, tandis que le taux de
clics dune notification golocalise pourrait atteindre les 15 % selon louvrage de
rfrence La Golocalisation : nouvelle arme des marketeurs9.
Dans la pratique, quatre approches complmentaires sont disponibles sur le march.
Ajouter un module de golocalisation10 son application dj existante est une
approche pragmatique pour capitaliser sur le volume de clients ayant dj install
lapplication, en vue doffrir de nouvelles possibilits dinteractions, par exemple le
geofencing autour de ses points de vente.
Acheter des espaces publicitaires temps rel en prenant en compte la
localisation du mobinaute est la perspective offerte par le programmatique mobile.
Concrtement, grce la donne de golocalisation vhicule dans la bid request, il est
en effet possible pour la DSP denchrir uniquement en rponse aux bid requests
caractrisant un mobinaute moins de 300 mtres dun point dintrt prdtermin.
Des programmes multi-marques peuvent faire dune pierre deux coups en apportant,
technologie et audience. On citera par exemple Step-in qui attribue des points au
mobinaute chaque visite en magasin, Shopadvisor et RetailMeNot utiliss par le
magazine Elle pour envoyer ses lectrices dans les points de vente des annonceurs
partenaires ou encore Notico Shopping, qui rinvente le concept de marketplace grce
la golocalisation.
Enfin transformer les mannequins des vitrines en rabatteur est le pari fou propos
par le service VMbeacon de la start-up anglaise Iconeme. Ainsi quips, les mannequins
interpellent les passants quips dune application compatible et leur proposent des
informations relatives aux articles quils portent !

Le Mobile-in-store pour guider le consommateur


Aprs le mobile-to-store , voici le mobile-in-store . Ce dernier correspond aux
diffrents dispositifs marketing mis en place au sein du point de vente pour guider le
consommateur ou lui offrir des promotions contextualises par rapport au rayon o il se
trouve. Cest ainsi que le leader du couponing Catalina intgre des bornes beacon dans
|
|\/
diffrents rayons de lenseigne Monoprix coupl lapplication C-wallet tandis que
$!

Carrefour permet ses clients de golocaliser prcisment les promotions en cours


4$

grce lapplication Promo C-o et au systme de golocalisation par LED dj voqu


(Lifi).
By

Dans un autre registre, de plus en plus de muses comme celui de la Tulipe aux Pays-
Bas, la galerie Sakura Paris ou la maison de Rubens Anvers guident le visiteur et
apportent des explications sur les uvres par le biais du couple {beacon + application du
muse}. Il est dsormais probable dans un avenir proche de voir fleurir ce type
dapplications verticales pour tous les lieux ferms drainant du public (salons
professionnels, concerts, stades, etc.).

La cration de nouveaux services valeur ajoute


Jusqu prsent nous avons beaucoup voqu le retail et le point de vente connect.
Cependant le dbouch principal de la golocalisation sera sans doute la cration de
nouveaux services ex nihilo o linnovation de modle conomique prime mme
souvent sur linnovation technologique. titre dexemple, en octobre 2015 AXA Direct
Assurance confirma que la voiture est le terminal mobile ultime (Jeff Williams VP
Operations chez Apple) en lanant YouDrive, sa nouvelle offre dassurance
autoconnecte, en disruption totale avec le modle conomique historique : Cest une
petite rvolution dans notre mtier : individualiser lapprciation des risques en fonction du
comportement de conduite , expliquait ainsi la directrice gnrale adjointe au micro des
Echos. Le service inclut en effet la mise en place dans la voiture de lassur dun botier
collectant les informations de conduite via le GPS : freinage, acclration, vitesse
Flicage pour les uns, conomie de plus de 50 % pour les conducteurs srieux
habituellement pnaliss par leurs caractristiques sociodmographiques (lge, par
exemple).
Moins en rupture, mais tout aussi gnrateur de chiffre daffaires, le leader franais de la
mise en relation de parents et de baby-sitters a promu en 2016 un nouveau service
destin aux parents anxieux : golocaliser la nounou pendant ses heures de mission et
tre alert automatiquement lors de la prise en charge de lenfant lcole ou de
dviances par rapport au parcours prvu.
Dans le mme registre dvolution de son service historique, on pourrait tout fait
imaginer une application de pari sportif qui solliciterait le parieur quand il est au stade ou
une application de rencontres qui dans le cadre dune option visibilit premium push-
notifierait le profil de linscrit aux clibataires moins de 100 mtres rpondant aux
critres choisis.

Des oprations de communication 3.0


loppos total du paragraphe prcdent, la golocalisation est aussi souvent utilise
uniquement des fins de communication. |
|\/
En avril 2014 Nivea sest ainsi fait remarquer en offrant aux lecteurs de plusieurs
$!

magazines brsiliens un bracelet connect (grce un nearable, cf. encadr), reli une
4$

application Nivea protge . En accrochant le bracelet au poignet de leur enfant, les


lecteurs taient alerts en temps rel ds que leur progniture sloignait plus de
By

quelques dizaines de mtres deux !

LES NEARABLES : RENDRE NIMPORTE QUEL OBJET CONNECT11

Il est dsormais trs facile de rendre nimporte quel objet connect grce aux nearables , ces petits autocollants
invents par la socit Estimote, un des tous premiers fabricants de beacon. Il suffit de placer lautocollant sur lobjet de
votre choix pour quil puisse communiquer avec une application ddie, y compris sur le temps quil fait grce son
capteur de temprature. Et alors comme par magie un livre dans un magasin pourra automatiquement vous donner les
avis laisss sur celui-ci tandis quune bouteille de vin rouge vous enverra une notification lorsquelle sera bonne
temprature
Les possibilits quoffre un nearable sont vraiment trs vastes et devraient ravir les agences de communication !

Autre campagne de communication notable, le bijoutier Faberg en collaboration avec


lagence Saatchi & Saatchi NY a organis pour Pques la premire chasse au trsor
connecte : ce sont trs prcisment 265 ufs abritant chacun un beacon qui ont t
cachs dans les rues de New York. Pour participer les habitants devaient tlcharger
lapplication Big Egg Hunt. Ceux qui trouvaient le plus rapidement les ufs pouvaient
participer un tirage au sort avec la cl un pendentif en pierres prcieuses dune valeur
de 30 000 $... Bilan de la chasse pour la marque de luxe : plus de 17 000
tlchargements, pour environ 124 000 check-ins golocaliss.
Dernier exemple dune longue liste, en Angleterre, loccasion de la journe internationale
des personnes handicapes, la banque Barclays a promu une application mobile pour
personne en situation de mobilit rduite. Ainsi repr par un beacon lentre de
lagence, le banquier tait alert et sortait accueillir la personne handicape.

Lanalyse des parcours pour amliorer la productivit


Les scnarios dcrits jusquici impliquent une interaction avec les clients, via les
notifications ou un usage actif des applications. Il serait dommage de rduire la
golocalisation ce seul usage : il ne faut pas en effet oublier que la collecte seule des
donnes de golocalisation est dj une source de valeur part entire. Parmi les
principaux usages de lanalyse des donnes de golocalisation citons :
la mesure passive du comportement client en point de vente, linstar dun outil
analytics sur un site marchand : carte de chaleurs12 des rayons visits, dure des
visites, taux de rebond13 La socit Euclid Analytics est un pionnier de ce type
danalyses statistiques en magasins ;
dtecter des vnements dans la vie du client, par exemple un dmnagement, ou
plus prosaquement des centres dintrt (salle de gym deux soirs par semaine) ;
rconcilier les multiples crans utiliss avec leur utilisateur unique, en analysant
|
|\/
des patterns14 dans leurs parcours de golocalisation . Un mobile et un
$!

ordinateur peuvent en effet tre coupls si lon observe par exemple quils se
4$

connectent aux mmes rseaux Wifi et aux mmes heures plusieurs fois par semaine.
By

LES LIMITES DE LA GOLOCALISATION : LES QUESTIONS CLS SE


POSER

Au-del de la connaissance des technologies et des principaux cas dusage, il est


essentiel davoir conscience de certaines limites de la golocalisation. Ces limites
sarticulent autour de trois thmatiques principales : la couverture daudience, loptin du
consommateur et le fonctionnement technique.

La couverture daudience est souvent faible


Quel est le pourcentage de visiteurs dun magasin qui pourront bnficier du programme
marketing imagin daprs leur emplacement dans les rayons ? Quel est le volume de
personnes qui sera rellement touch par la stratgie de geofencing autour du point de
vente ? Voil des questions de dimensionnement qui ont refroidi plus dun donneur dordre.
En effet, la plupart des programmes de golocalisation ncessitent au pralable une ou
plusieurs actions de la part du consommateur. En particulier la ncessit davoir une
application mobile diffuse grande chelle demande au donneur dordre la mise en
uvre dun plan marketing solide pour faire tlcharger lapplication (par exemple remises
de flyers lentre du magasin). Cette contrainte rend galement caduque la proposition
de valeur de certains agrgateurs de bons plans golocaliss dont le taux de pntration
est trop faible.
Possder une application largement diffuse ne suffit toutefois pas sassurer dune large
couverture daudience. Dans le cas de la golocalisation par beacon, un des freins
majeurs est en effet li lactivation du Bluetooth par les mobinautes. Les premiers
retours dexprience indiquent en effet que seuls 30 50% des mobinautes ont le
Bluetooth activ. Et mme avec le Bluetooth activ, les raisons de manquer sa cible
sont nombreuses :
le tlphone met un certain temps recevoir et interprter le signal Bluetooth du
beacon, de quelques secondes prs dune minute. Si le mobinaute ne stationne
pas devant le beacon, il est possible quil ne reoive jamais le message commercial ;
ce temps de rception est considrablement allong pour un tlphone dans la poche ;
quand le tlphone est en veille, lantenne Bluetooth sallume moins frquemment que
lorsque le tlphone est allum ;
pour conomiser la batterie, les tlphones peuvent couper automatiquement lantenne
Bluetooth.
Pour toutes ces raisons, les start-ups de lcosystme cherchent toutes combiner dans
un mme botier diffrentes technologies (Bluetooth, Wifi, ultrason) afin de maximiser la
|
|\/
couverture daudience (ou taux de reach)
$!
4$

Bon savoir
By

Exploitant cette problmatique, Facebook investit beaucoup le march de la golocalisation puisque


presque tous les consommateurs possdent lapplication Facebook sur leur tlphone ! Le service
Facebook Place tips permet ainsi dores et dj aux commerants dinteragir avec une grande partie des
clients du magasin en se procurant un beacon Facebook.

Laccord du consommateur est indispensable


Ds lors que la golocalisation porte sur des individus mobiles et non plus des objets
statiques, invitablement des questions thiques et juridiques sont souleves et sont au
cur des enjeux : tous les consommateurs ne souhaitent pas tre pists dans
leurs dplacements et avoir leurs habitudes de vie dcortiques. Selon une tude
mene par lditeur de logiciels Skyhook15, 50 % des sonds se sentent ainsi inquiets
pour leurs donnes personnelles quand il sagit de golocalisation.
Par ailleurs les consommateurs, dj chauds par la pression publicitaire subie online et
dans les botes mails, ne souhaitent pas que leur prcieux mobile ne soit leur tour
inond de messages promotionnels. Une tude Ifop mene en 2013 indiquait ainsi que
seuls 35 % des mobinautes accepteraient dtre contacts par une enseigne, grce la
golocalisation, en passant proximit de lun de ses magasins .

Bon savoir
Lapplication Unibail permettant de trouver ses amis dans un centre commercial est un modle du genre.

En dautres termes, encore plus que pour le tracking par cookies, les consommateurs
ont besoin dtre convaincus de la valeur ajoute dont ils vont bnficier en
change de leur acceptation dtre localiss. Cette proposition de valeur peut tre
intrinsque au produit (65 % acceptent la golocalisation issue dune application de mto
tandis que seuls 16 % acceptent la golocalisation en provenance dune application de
news ) ou provenir de coupons promotionnels, de contenus exclusifs Dans tous les
cas, tout projet de golocalisation veillera inclure une composante crative forte quant
la dfinition des scnarios dusage ainsi quun plan de communication bien pens.

Les contraintes techniques


Enfin, attention aux contraintes techniques lies la golocalisation, dautant plus que les
consommateurs ne sont pas trs tolrants avec les erreurs de localisation. Lutilisation de
la golocalisation des fins marketing constitue un march neuf et instable, en particulier :
toutes les technologies ne sont pas ce jour standardises : il serait dommage
de squiper dune solution amene disparatre ou tre modifie en profondeur trop
rapidement , rappelle Cdric Belmont16, business manager chez Hardis Group (SSII
grenobloise) ;
|
|\/
coupler golocalisation outdoor et indoor est encore compliqu en pratique. Bien
$!

quil existe des mthodes thoriques, le suivi continu dun consommateur ou dun objet
4$

entre lieux ouverts et lieux ferms reste un dfi technique majeur ;


By

le stockage des donnes de golocalisation est un vrai sujet, car il demande une
scurit sans faille, ainsi quun savoir-faire en analyses de donnes afin dexploiter
pleinement lhistorique de dplacements ;
rares sont les tests qui se droulent 100 % comme prvu ! Des
dysfonctionnements lis la limitation de certains systmes dexploitation, la
frquence dmission ou des interfrences sont invitables et une phase de rodage
est souvent ncessaire. Par exemple un test avec un beacon permet rapidement de se
rendre compte que de nombreux lments peuvent perturber le signal Bluetooth (type
de matriaux, prsence dautres signaux sur la mme frquence, nombre de
personnes).

LA DONNE DE GOLOCALISATION EN PRATIQUE : CIBLER LES


AMATEURS DE TENNIS DE QUATRE FAONS DIFFRENTES

Considrons une enseigne darticles de sport se demandant comment acqurir et fidliser


davantage les amateurs de tennis qui constituent son segment le plus profitable. Cette
enseigne pourrait profiter de la donne de golocalisation grce au moins quatre cas
dusages diffrents.
Cas dusage 1 : dtecter les individus qui frquentent les cours de tennis et les
cibler avec du mdia. La socit Databerries dj mentionne en dbut de chapitre
collecte de faon trs fine les dplacements de plus de quatre millions de mobinautes. En
reprant les tlphones prsents hebdomadairement sur des courts de tennis, il est facile
den dduire que le propritaire du tlphone joue au tennis une fois par semaine. Un
segment trs qualifi dindividus est alors constitu (individus identifis par leur IDFA) afin
dtre ensuite cibl via les adexchanges mobiles.
Cas dusage 2 : agir quand lindividu est Rolland-Garos. En intgrant un pusher
de position temps rel dans lapplication mobile de la marque, il devient ds lors
possible dinteragir avec ses clients quand ils sont en train de regarder un match. Il est
galement possible par ce biais dapprendre que tel client est amateur de tennis bien quil
nait jamais ralis dachat dans cette thmatique. Cest le type de proposition de valeur
offerte par la division BtoC du spcialiste franais de la golocalisation Deveryware.
Cas dusage 3 : acheter de lespace publicitaire quand le mobinaute est moins de
200 mtres dun des points de vente de lenseigne. Cest la possibilit offerte par le
programmatique mobile puisque la donne de golocalisation est parfois incluse dans la
bid request. Lattribut amateur de tennis est ici fourni classiquement par de la third
party (Acxiom) ou second party (partenariat Babolat). peu prs tous les DSP mobiles
(Adotmob, Yanco, Adnow) sont capables de raliser ce cas dusage.
|
|\/
$!

Cas dusage 4 : recibler un visiteur magasin ayant stationn plus dune minute
4$

dans le rayon consacr au tennis. laide de petits botiers Bluetooth&WiFi, des start-
ups comme Fidzup ou TapValue dtectent chaque jour que tel IDFA a stationn dans tel
By

rayon . Un pool dIDFA avec ce comportement est alors constitu pour tre ensuite cibl
via les adexchanges mobiles.

RETENIR DE CE CHAPITRE
Le mobile est le nouveau terrain de jeu du data marketing, notamment grce sa capacit golocaliser le
consommateur en mouvement. Dduire des profils consommateurs sur la base dun historique de
dplacements, retargeter les visiteurs dun magasin ou dclencher une publicit selon lemplacement de
lindividu sont des cas dusages de plus en plus frquents.

vous de jouer
Rflchissez aux nouveaux services que vous pouvez offrir vos consommateurs en
intgrant un module de golocalisation avanc dans votre application mobile.
Investissez 100 dans un kit de beacons livr avec lapplication mobile et la plateforme
marketing et offrez-vous des notifications sur votre tlphone le matin quand vous arrivez au
bureau.
Gocodez votre base dadresses et affichez vos clients sur une carte laide dune des
nombreuses API de gocodage gratuites disponibles sur le Net.
SOURCES
Si la golocalisation est un sujet qui vous intresse, je vous conseille la lecture du livre de Muriel Glatin et Maike Studthoff
La Golocalisation, nouvelle arme des marketeurs aux ditions Kawa. Bien quun peu ancien (2012), ce livre reste encore
une rfrence dans le domaine.
La presse spcialise inonde rgulirement les professionnels du marketing dinformations propos des perspectives
offertes par la golocalisation et les articles ci-dessous complteront idalement la lecture de ce chapitre :
Le b.a.-ba du marketing golocalis rvl par Placecast , septembre 2012, Anne Bezanon, lepetitweb.fr ;
Golocalisation : la nouvelle boussole du marketing , juin 2015, Floriane Salgues, emarketing.fr ;
Beacons, 22 utilisations hors magasin connatre avant 2015 , dcembre 2014, Simon Fevry, siecledigital.fr ;
Le LiFi progresse : ce que vous devez savoir pour en parler clairement , novembre 2015, Simon Fevry,
siecledigital.fr ;
7 ralits sur les possibilits du beacon , fvrier 2015, sur le blog de la socit easy-beacon ;
6 Ides reues propos des beacons, livre blanc publi en dcembre 2014 par la socit Efficiens.

1. La golocalisation, nouvelle arme des marketeurs , Muriel Glatin et Maike Strudthoff, ditions Kawa, 2012
2. Plus prcisment demand par lapplication mobile loprateur systme selon un ensemble de rgles.
3. Technologie permettant de relier des appareils entre eux sans liaison filaire sur une porte de quelques dizaines de
mtres.
4. Branch dans la prise diagnostique , lOBD permet daccder toutes sortes dinformations en interrogeant les
calculateurs lectroniques de la voiture.
|
|\/
5. Plus prcisment de millions dIDFA anonymes.
$!

6. Visites supplmentaires provoques exclusivement grce laction promotionnelle.


4$

7. Transformation dune adresse postale en coordonnes (x,y) interprtables sur une carte.
8. Article Golocalisation : la nouvelle boussole du marketing paru dans emarketing.fr en juin 2015.
By

9. Muriel Glatin et Maike Strudhoff, La Golocalisation : nouvelle arme des marketeurs, ditions Kawa, 2012.
10. Gnralement un pusher de position associ une plateforme de scnarisation.
11. Source : Valentin Blanchot, Avec les nearables Estimote veut connecter tous les objets , Sicle Digital, septembre
2014.
12. Reprsentation graphique sous forme dun nuancier de couleur de donnes statistiques telles que des temps de
passage, des dplacements, etc.
13. Ici interprt comme le pourcentage des visiteurs du magasin qui repartent immdiatement .
14. Terme anglais dsignant un modle, une structure, un motif.
15. Leader de la golocalisation par bornes Wifi avec une base de 250 millions de points daccs WiFi dans le monde
couvrant ainsi 70 % de la population aux tats-Unis, au Canada, en Europe de lOuest ainsi quen Asie.
16. Cdric Belmont, Golocalisation des objets et des personnes : de lusage dpend la technologie retenue , 9 juin
2015.
Conclusion

Demain, la valeur dune voiture ne sera plus sa carrosserie, mais sa capacit gnrer
des donnes et traiter de linformation en mobilit.
Demain la data sera le premier actif de lentreprise, mme devant la marque.
Demain la donne sera utilise tous les tages de lentreprise pour quantifier des
intuitions, rduire des risques, optimiser des processus devenus trop complexes pour un
tre humain.
Demain la publicit ne sera plus vcue comme du harclement, mais comme un service.
Demain le Big Data (grosses donnes) sera un terme dsuet tant les objets
connects auront envahi le monde et la nouvelle problmatique sera celle du Huge
Data (immenses donnes).
Demain ce livre sera interactif et vous pourrez choisir en temps rel votre conclusion,
comme dans les missions de tlralit, entre les diverses propositions ci-aprs :
|
|\/
rsumer les avantages exploiter la donne : la plus grande valeur de la donne
$!

repose dans lconomie et non la croissance des revenus, grce notamment la


4$

rallocation des budgets et larrt de messages commerciaux peu efficients [tapez 1


By

pour les dtails de la version A] ;


rappeler dun ton pdagogue les erreurs viter : ne succombez pas la tentation
des buzzwords et prenez le temps dlaborer une vritable stratgie data adapte la
maturit de votre entreprise [tapez 2 pour les dtails de la version B] ;
mettre en exergue les citations et les maximes les plus pertinentes du data
marketing pour briller en runion, par exemple : La data est devenue un asset aussi
important pour lentreprise que ses employs (Jim Davies, CMO de la socit
Informatica) ou le client au milieu du chemin tu noublieras point (Christophe Cousin,
CEO de Camp de Base) [tapez 3 pour les dtails de la version C] ;
ouvrir sur les dfis venir et les perspectives des prochaines annes : peut-on
vraiment parler dultra ciblage quand un consommateur continue de recevoir une
publicit digitale pour un produit quil a finalement achet en magasin ? La rconciliation
crosscanal des identifiants est un dfi majeur des prochaines annes[tapez 4 pour
les dtails de la version D] ;
raconter une histoire : il tait une fois une entreprise qui avait dcid de devenir data
driven et opr de profonds changements dans son organisation [tapez 5 pour les
dtails de la version E].
titre personnel, jai opt pour cette dernire version et je vous la prsente donc in
extenso. Il tait une fois la Key Bank, 22e banque amricaine. Comme toutes les
entreprises de taille importante, la Key Bank vivait depuis des dcennies tranquillement sa
vie en silo : aux onze business units (BU) soutenues par deux dpartements marketing
correspondaient treize quipes danalystes et treize data warehouses. Le mtier tait au
pouvoir et dfinissait la marche suivre, la donne tait gre techniquement par la SI et
les analystes taient cantonns dans un rle de reporting, sans relles perspectives
dvolution ni demprise sur le business.
En 2013 un nouveau directeur gnral fut nomm la tte de lentreprise. Au cours de
ses premiers mois de fonction, quel ne fut pas son tonnement de ne pas parvenir
connatre le nombre de comptes clients ouverts en ligne. Chaque dpartement lui
fournissait un chiffre diffrent. Cartsien dans lme, il entreprit un chantier qui
rvolutionna lentreprise : la cration dun analytics center of excellence (ACE).
Exit les treize silos qui empchaient la vue densemble. En moins dun an la Key Bank
centralisa ses donnes dans deux data warehouses et fusionna les treize quipes
danalystes en une seule. Et ce nest pas tout ! Lanalytics center of excellence est
dsormais directement rattach au Comex (comit executif) et possde un droit de vto
sur lensemble des projets de la socit. Un nouveau modle de prsentation des projets
a t impos au mtier et dornavant tous les projets proposs doivent tre appuys par
un constat data avr et doivent quantifier lapport business apport par le projet. Les
|
|\/
demandes qui ne satisfont pas ce canevas sont tout simplement rejetes. De son ct,
$!

lACE est galement devenue force de proposition. Une vritable transformation en


4$

profondeur de la culture de lentreprise qui aura permis la banque daugmenter en douze


By

mois de 71 % le nombre de comptes ouverts en ligne.


Dictature de la donne bridant la crativit et lintuition mtier ou modle suivre ? Le
soin est laiss aux lecteurs den dcider, mais une chose est certaine : pour les
entreprises ayant atteint une certaine maturit dans la comprhension de lcosystme
data et la ralisation de premiers cas dusages, le prochain dfi venir sera dinstaurer
une gouvernance de la donne et de rorganiser lentreprise afin de soutenir vritablement
une stratgie data driven. Un sacr chantier qui rjouira les cabinets de conseil en
transformation !

En esprant que ce livre aura rpondu vos questions sur lensemble de la chane de
valeur de la donne.
Bien amicalement
PS : aucun constat data ne prouve que ce format de conclusion original tait une bonne
ide. Nhsitez pas laisser vos commentaires sur Amazon. Je minterdirai de vous
adresser une publicit digitale cible sur la base des donnes collectes dans votre
commentaire !
RPONSES AUX AUTODIAGNOSTICS

QUESTIONS PARTIE A (Page 46) COLLECTER ET STOCKER


Question 1 : pouvez-vous citer et expliciter les 5V dfinissant les Big Data ?
Le Big Data est souvent dfini en fonction de cinq critres :
le Volume est la traduction de big . 100 millions de lignes peuvent tre considrs comme la frontire entre base
de donnes et architecture Big Data ;
la Varit provient du fait que le Big Data mlange donnes structures (exemple : ticket de caisse) et donnes non
structures (exemple : image) ;
la Vlocit fait rfrence au nombre grandissant de cas dusages en temps rel (exemple : le processus denchre
publicitaire) ;
la Vracit souligne limportance de traiter des donnes de qualit ;
la Valeur rappelle de ne pas oublier de poursuivre un objectif business.

Question 2 : que dsigne-t-on par first, second et third party data ?


La first party dsigne les donnes propritaires de lentreprise.
La second party fait rfrence la first party dun partenaire business.
|
|\/
La third party reprsente des donnes tierces vendues par des fournisseurs de donnes.
$!
4$

Question 3 : selon vous quel volume de donnes correspond un mois dimpressions display dun grand
groupe ?
By

Un milliard dimpressions est un ordre de grandeur raliste !

Question 4 : quel outil du data marketing est rattach la notion de datalayer ?


Le datalayer structure la donne du site remonte par un TMS. Cette donne structure est ensuite mise disposition
dautres outils (DMP, DSP)

Question 5 : concrtement, comment expliqueriez-vous ce quest un cookie ?


Un cookie est un petit fichier texte dpos sur le navigateur de linternaute lors de la rponse dun serveur web une
requte http. Pour cette raison, changer de navigateur permet de rsoudre parfois plein de petits soucis !

Question 6 : connaissez-vous la diffrence principale entre un datawarehouse et un datalake ?


Par opposition au datawarehouse, le datalake est une plateforme permettant de stocker la donne sans avoir rflchi au
pralable sa structuration.

Question 7 : pouvez-vous citer deux diffrences majeures entre une infrastructure big data et une
infrastructure traditionnelle ?
Les deux paradigmes technologiques permettant les traitements big data sont la mise en rseau des machines (clusters)
et le morcellement des traitements (calculs distribus).

Question 8 : comment appelle-t-on lidentifiant publicitaire utilis pour le marketing mobile ?


LIDFA et lAdvertising Id sont les identifiants respectivement utiliss par Apple et Android, le terme gnrique tant device
Id. Schmatiquement ils reprsentent lquivalent des cookies dans le monde des applications mobiles.

Question 9 : Pouvez-vous citer trois faons de lier un cookie un e-mail ?


Les moments du log in ou de louverture dun e-mail sont des moments privilgis pour lier un e-mail un cookie.
Recourir un data onboarder type Temelio ou Acxiom est une solution rapide et efficace.

Question 10 : en une phrase, comment expliqueriez-vous la diffrence entre un CRM 360 et une DMP ?
Le CRM 360 collecte et stocke tout ce qui a trait aux donnes personnelles (achats, service client, navigations logues)
dans une optique de fidlisation tandis que la DMP collecte et stocke des donnes anonymes (gnralement autour dun
cookie) dans une optique principalement dacquisition (visiteurs non convertis, audiences look alike, exclusion daudience).

QUESTIONS PARTIE B (Page 110) EXTRAIRE DE LINFORMATION DES


DONNES
Question 1 : percevez-vous la diffrence entre statistiques, analyses de donnes et data mining ?
Les statistiques ne concernent gnralement gure plus de quelques centaines dindividus reprsentatifs, peu de
variables et ncessitent de fortes hypothses sur les lois statistiques suivies. Les modles sont issus de la thorie et
confronts aux donnes
Lanalyse des donnes traite un volume plus grand : quelques dizaines de milliers dindividus et quelques dizaines de
variables. Une plus grande importance est accorde aux calculs et la reprsentation visuelle.
Avec le data mining lapproche change fondamentalement : on parle de plusieurs millions dindividus et de plusieurs
centaines de variables. Les donnes sont imparfaites et ncessitent un prtraitement. Les modles sont issus des
donnes et on en tire des lments thoriques. Enfin, on ne recherche pas toujours loptimum mathmatique, mais le
modle le plus facile apprhender en pratique

Question 2 : comment expliqueriez-vous la diffrence entre segmentation et clustering ?


|
Les deux termes ont la mme finalit : rpartir les clients en diffrents groupes. Toutefois dans la segmentation les
|\/
groupes sont connus lavance et constitus sur la base de lintuition (exemple : le groupe des prospects qui ont une
$!

grande frquence de visites), alors que dans le clustering les groupes ne sont pas connus lavance et dtermins
4$

automatiquement.
By

Question 3 : que reprsente un corrlogramme ?


Il sagit dune visualisation trs efficace des corrlations entre variables. Cette reprsentation sobtient facilement sur le
logiciel R avec la fonction corrplot.

Question 4 : connaissez-vous et utilisez-vous les sparklines ?


Les sparklines sont des courbes miniatures places dans un tableau ct dun indicateur, afin dinformer sur son
volution dans le temps.

Question 5 : en quoi consiste lanalyse dite en composantes principales ?


LACP est une mthode consistant reprsenter les donnes dans un espace de dimension plus petite en minimisant la
perte dinformations. Cest une faon de simplifier grandement les analyses.

Question 6 : pouvez-vous expliquer la diffrence entre les algorithmes de rgression et les algorithmes de
classification ?
Les algorithmes de rgression sont utiliss pour prdire une valeur (exemple : un CA), tandis que les algorithmes de
classification servent classer les individus (exemple : les crditeurs risque).

Question 7 : que dsigne en data science le feature engineering ?


Le feature engineering dsigne la cration de nouvelles variables partir des variables existantes (exemple : binarisation
de la variable ge en variable enfant et variable adulte).

Question 8 : en analyse de donnes, comment appelle-t-on une valeur extrme ? Quelle reprsentation
graphique les met particulirement en vidence ?
Une valeur extrme est appele un outlier. La bote moustaches permet de les reprer en un coup dil !
Question 9 : quels sont les trois critres permettant dvaluer la pertinence dun modle prdictif ?
La qualit des prdictions, la capacit gnraliser sur un nouveau jeu de donnes et la facilit dimplmentation sont
trois critres cls dans lvaluation de la pertinence dun modle prdictif.

Question 10 : que dsigne vulgairement une rgression linaire simple ?


La rgression linaire simple dsigne le rsum dun ensemble de points par une droite. Cette simple commande
Excel apprise en 3e permet dj de faire des prdictions !

QUESTIONS PARTIE C (Page 184) ACTIVER LES DONNES


Question 1 : en France, quel pourcentage de publicit display est diffus sans ntre jamais vu ?
Environ une bannire sur deux nest pas vue par linternaute cens tre expos ! Le 4e baromtre de lAdVerification publi
par KantarMedia et Adledge en 2015 annonce ainsi 48,5 % de publicits vues (standard IAB) tandis que le rapport sur la
qualit mdia publi au 4e trimestre 2015 par le spcialiste Integral Ad Science parle de 53,5 % (standard MRC, Media
Rating Council).

Question 2 : quel est en France la part des campagnes display effectues en programmatique ?
Selon la 15e dition de lObservatoire de lePub du Syndicat des rgies internet (SRI) publie en janvier 2016, le
programmatique reprsente en France 40 % de lachat mdia display, soit un march de 423 M. Le march volue
toutefois trs vite et les analystes prvoient 550 M et 50 % du display pour lanne 2016.

Question 3 : que signifie RTB ? Quels sont les trois avantages qui ont permis lessor de ce mode dachat
mdia ?
|
|\/
RTB signifie Real time Bidding , savoir lachat despace publicitaire en temps rel via des enchres. Leffet dchelle,
$!

lautomatisation et lachat dune audience et non plus seulement dun contexte de diffusion sont les trois forces principales
4$

du RTB.
By

Question 4 : que signifient les abrviations DSP et SSP et quels sont leurs rles respectifs ?
La DSP (Demand Side Platform) est la brique logicielle qui permet aux acheteurs de se connecter la bourse dachats et
de paramtrer les modalits dachat.
La SSP (Supply Side Platform) est la brique logicielle qui permet aux diteurs de mettre en vente leur inventaire en bourse
et doptimiser le prix de vente.

Question 5 : comment expliqueriez-vous la diffrence entre marketing one to one et marketing one to
few ?
Le marketing one to few est une approche froid base sur des segments daudience pralablement enregistrs
tandis que le marketing one to one est une approche chaude et mcanique (modification dynamique du produit
propos, action/raction par rapport un vnement)

Question 6 : selon vous, quelle est la premire vertu de lutilisation de la data dans le marketing ?
Contrairement ce quon peut souvent lire, la valeur premire de la data dans le marketing est dans lconomie, pas
ncessairement dans la croissance du chiffre daffaires. Ces conomies sont atteintes par des stratgies dexclusion
(produits dj achets, clients rguliers exclus des campagnes Adwords) et par lautomatisation de tches faible
valeur ajoute (exemple : merchandising automatique, scnarios e-mails).

Question 7 : pouvez-vous citer quatre typologies de personnalisation ?


Le terme personnalisation ne signifie pas grand-chose en soi, car tout ou presque est personnalisable :
personnalisation du moment, personnalisation du contenu, personnalisation du canal, personnalisation de la frquence

Question 8 : pouvez-vous citer au moins deux catgories de-mails diffrents ?


On distingue gnralement les newsletters, les e-mails relationnels et les e-mails transactionnels. Ces derniers sont
particulirement sous-estims par lindustrie. Ils ont en effet le taux douverture le plus lev : pourquoi ne pas en profiter
en rajoutant un contenu valeur ajoute (vido explicative, livre blanc, guide, etc.). Il sagit typiquement de la dmarche
choisie par les entreprises de type data driven afin de gnrer davantage de micro-conversions.

Question 9 : quappelle-t-on un trigger marketing ? Pouvez-vous citer trois triggers diffrents ?


Trigger signifie gchette en anglais. On dsigne donc par trigger marketing le dclenchement automatique
dactions en fonction dvnements prdfinis lavance. Ces vnements peuvent tre transactionnels (exemple :
achat), connus lavance (exemple : date danniversaire), lis au comportement (exemple : 3e visite cette semaine du
site), etc.

Question 10 : quels sont les quatre prrequis ncessaires la mise en place dun scnario marketing bas sur
le beacon ?
Pour notifier un client proche dun beacon, il faut la runion de quatre prrequis : le client doit avoir tlcharg lapplication
mobile de la marque, avoir donn son optin la golocalisation et aux notifications et enfin avoir le Bluetooth allum.

|
|\/
$!
4$
By
Glossaire

Avec plus de 100 mots expliqus, ce glossaire du digital et data marketing se veut une aide la
lecture, mais galement une rfrence consulter ds quun terme vous chappe !
AB testing : stratgie consistant proposer la version A dune page, dun formulaire, dune
bannire, etc. 50 % des individus exposs et la version B aux 50 % restant. Lobjectif est de
dterminer la version la plus performante.
ACP : abrviation d Analyse en Composante Principale , transformation mathmatique visant
rduire la dimension de lespace danalyse en perdant le moins dinformation possible.
Adexchange : place de march virtuelle o se rencontrent loffre (SSP) et la demande (DSP) et
o soprent les transactions publicitaires, via un systme denchres.
Adserver (ct annonceur) : plateforme technologique permettant laffichage de la publicit.
Ladserver assure galement le rle de suivi de campagnes (impressions, clics, conversions).
Adserver (ct publisher) : plateforme technologique assurant la gestion de linventaire
|
|\/
publicitaire (quel espace est vendu quel annonceur).
$!

Adtech : dsigne lensemble des plateformes technologiques optimisant la publicit digitale


4$

(DMP, DSP, DCO, etc.).


By

Adwords : programme publicitaire lanc en 2000 par Google, Adwords se matrialise lors de la
recherche dun mot cl dans le moteur de recherche par des liens sponsoriss au-dessus des
rsultats naturels.
Algorithmes de classification : catgorie dalgorithmes dont le but est de prdire
lappartenance dun individu un groupe donn (exemple : prdire les personnes qui vont
dmnager).
Algorithmes de rgression : catgorie dalgorithmes dont le but est de prdire une valeur
(exemple : prdire la lifetime value dun individu).
API : abrviation d Application Programming Interface , les API sont des interfaces de
programmation qui permettent deux logiciels de communiquer entre eux et de sinterconnecter.
Arbre de dcision ( decision tree ) : algorithme majeur de la data science, larbre de
dcision repose schmatiquement sur la multiplication de tests sur les valeurs de diverses
variables en vue de dterminer le chemin optimal vers un objectif fix. Sa structure arborescente
le rend lisible par un tre humain ; en consquence, il est gnralement apprci des
commanditaires.
Attribution : lattribution marketing tente dvaluer de manire juste le rle de chaque levier
marketing dans la conversion afin de mieux rpartir les budgets marketing. La mtaphore du but
au football (qui nest pas le rsultat du seul buteur) est souvent employe pour expliquer la
philosophie derrire lattribution.
Beacon : petite balise Bluetooth permettant la golocalisation dun tlphone dans un rayon de
quelques dizaines de mtres, condition toutefois que celui-ci dispose dune application mobile
rceptrice du signal et que lantenne Bluetooth du tlphone soit allume.
Bid request : appel enchres transmise par la SSP aux DSP. Une bid request contient de
nombreux lments caractrisant lemplacement publicitaire commercialis et qualifiant
linternaute pour qui la publicit sera affiche.
Blacklist : liste noire dinventaires tablie par le trader mdia. Seuls les inventaires non cits
dans cette liste sont autoriss pour de laffichage publicitaire.
Bluetooth : technologie permettant de relier des appareils entre eux sans liaison filaire sur une
porte de quelques dizaines de mtres.
Calcul distribu : mthode de calcul dont le principe est de rpartir le calcul par morceaux sur
plusieurs machines. Cette mthode au cur du Big Data permet de raliser de gros calculs
mathmatiques trs rapidement. (Voir aussi MapReduce .)
Capping : procd consistant limiter le nombre dimpressions publicitaires maximales par
cookie sur une priode donne. |
|\/
Chief Digital Officer : nouveau mtier traduit parfois par directeur de la stratgie digitale , le
$!

Chief Digital Officer est le responsable de la transformation numrique de lentreprise. Ce


4$

mtier est amen disparatre au fur et mesure que les entreprises parviennent intgrer le
digital dans leur mtier historique.
By

Chief Data Officer : nouveau mtier traduit parfois par directeur de la stratgie data , le Chief
Data Officer est responsable de la transformation data de lentreprise. Il est idalement capable
dapprhender aussi bien les enjeux mtier que les enjeux systme dinformation de la
data.
Churn : terme anglais dsignant la perte de clients ou dabonns. Le mot franais quivalent pour
dcrire ce phnomne est l attrition .
Clustering : classification automatique des individus dans des groupes distincts, construits de
faon minimiser la distance entre individus au sein de chaque groupe et maximiser la distance
entre groupes.
Cookie : fichier texte dpos sur le navigateur dun internaute comportant un identifiant unique, le
nom de domaine de lmetteur et une date dexpiration. Pass en paramtre des appels http du
navigateur vers le serveur web, le cookie permet un site web de reconnatre le terminal et de
prendre une dcision en consquence.
Cookie matching : technique de rconciliation des identifiants des cookies dun systme
lautre. Tous les principaux acteurs publicitaires possdent des tables de correspondance entre
leurs cookies et les cookies des autres acteurs.
Conversion : la conversion dsigne la ralisation dun vnement objectif. Il sagit gnralement
de lachat, mais le remplissage dun formulaire de contact ou le tlchargement dun livre blanc
peuvent aussi tre des conversions (on parle parfois de micro-conversion).
Conversion (tunnel de) : concept central du digital marketing, le tunnel de conversion
correspond lensemble des tapes prcdant la conversion. chaque tape correspond des
pertes (la mtaphore du seau deau trou est frquemment employe).
Corrlation : deux variables sont dites corrles lorsque les variations de lune
(croissance/dcroissance) sont dpendantes des variations de lautre.
Couponing : stratgie marketing base sur le bon de rduction.
CPA : cot par acquisition, indicateur frquent en publicit pour valuer le retour sur
investissement dune campagne.
CPC : cot par clic, indicateur frquent en publicit pour valuer le retour sur investissement
dune campagne.
CPM : cot pour mille impressions, modle conomique frquemment utilis dans la publicit
digitale. Un annonceur paiera ainsi 5 du CPM ou 5 CPM.
CRM : abrviation de Customer Relationship Management , le CRM dsigne la base de donnes
clients, comprenant les informations personnelles (adresse, e-mail, tlphone) et lhistorique
des achats.
|
|\/
CRM 360 : plateforme technologique facilitant la collecte de donnes personnelles depuis
$!

plusieurs sources (call center, navigation logue web ou mobile, marketing direct, etc.) et
4$

lactivation de ces donnes au sein de marketing direct.


By

Cross-device (rconciliation) : rapprochement des terminaux appartenant un mme


utilisateur. Ce rapprochement peut seffectuer de manire dterministe (connexion un mme
service depuis plusieurs terminaux avec le mme identifiant) ou probabiliste (estimation que
deux terminaux appartiennent la mme personne en recoupant des informations de lieux de
connexion, de comportements de navigation)
Cross-sell : littralement ventes croises , le cross-sell dsigne une stratgie marketing
consistant proposer au client des produits auxquels il pourrait tre apptant la suite de ses
derniers achats.
CTR : issu de langlais Clic Through Rate, le CTR dsigne le taux de clic dune impression
publicitaire, savoir le nombre de clics divis par le nombre dimpressions
Custom audience : dsigne une audience charge par lannonceur dans des outils de ciblage
type Facebook ou Google Adwords, en vue dtre retouche sur ces rseaux.
Data center : lieu physique dans lequel sont regroups les lments concrets (ordinateurs,
serveurs, etc.) constituant le systme dinformation de lentreprise.
Data lab : entit transverse au sein de lorganisation spcifiquement ddie la cration de
valeurs grce au bon usage de la donne.
Datalake : grosse base de donnes pouvant accueillir des donnes peu structures, par opposition
un datawarehouse qui stocke des donnes trs structures. Le datalake est souvent construit sur
des technologies Big Data open source (voir Hadoop).
Datalayer : littralement couche de donnes , le datalayer est un objet javascript qui contient
toutes les informations transmises au TMS lors du dclenchement du tag (par exemple le style du
produit, son prix, lid du visiteur, etc.).
Datamart : le datamart est un sous-ensemble datawarehouse, avec pour objectif de rpondre aux
besoins prcis dun groupe particulier dutilisateurs au sein de lentreprise : le marketing, le RH,
etc.
Datamining : littralement fouille de donnes , le datamining est un processus faisant appel
aux techniques statistiques et mathmatiques permettant dextraire des informations
commercialement pertinentes et de modliser des schmas dinformations cachs au sein de
grandes bases de donnes.
Data scientist : mtier le plus sexy du XXIe sicle selon la Harvard Business Review, le data
scientist est un expert des modlisations mathmatiques doubl de solides comptences en
informatique. Il doit galement possder une forte sensibilit mtier et tre capable de restituer
efficacement ses dcouvertes.
Dataset : le dataset dsigne un jeu de donnes structures au sein dun tableur, prtes tre
|
|\/
analyses.
$!
4$

Datawarehouse : entrept de donnes stockant tout ou partie des donnes issues des bases de
donnes oprationnelles. Le rle du datawarehouse est double : dlester les bases de
By

donnes oprationnelles et fournir un socle laide dcisionnelle en entreprise (le


datawarehouse est parfois appel base de donnes dcisionnelle ).
DCO : labrviation de Dynamic Content Optimization dsigne le processus de
personnalisation la vole dune bannire publicitaire selon linternaute qui elle est
diffuse.
Device Id : identifiant unique associ un terminal mobile permettant la reconnaissance anonyme
dun utilisateur. Selon le systme dexploitation du terminal, on parlera dIDFA (IOS) ou
dAdvertising Id (Android). Le device Id est souvent considr comme lalter ego du cookie
dans lunivers mobile.
Discrepancy : terme anglais faisant rfrence aux dcalages entre les statistiques de deux outils
qui thoriquement devraient donner les mmes rsultats.
Display : forme de publicit digitale se matrialisant par laffichage dune bannire ou dune
vido sur un autre site web ou mobile que le sien. Le display est souvent oppos au search.
DMP : la Data Management Platform est une plateforme technologique facilitant la collecte de
donnes anonymes depuis plusieurs sources (navigation web, campagnes mdia, marketing
direct, partenaires), la construction daudiences et lactivation de celles-ci principalement
dans lcosystme publicitaire.
Donnes structures : on appelle donnes structures les donnes qui sont ranges,
organises selon une logique prdfinie. Il sagit typiquement de donnes dans un tableur dcrit
par un ensemble de variables en colonnes (ge, marque prfre, chiffre daffaires, etc.).
Donnes non structures : par opposition aux donnes structures, les donnes non structures
ne prsentent pas a priori de logique prdfinie. Il sagit typiquement dun fichier de
commentaires clients ou dimages.
Drive to store : concept au cur du marketing mobile, le drive to store dsigne les moyens mis
en uvre pour attirer un consommateur dans un point de vente.
DSP : abrviation de Demand Side Platform , la DSP est une plateforme technologique qui
permet lachat en temps rel et aux enchres des inventaires display proposs par les diffrents
sites ditoriaux. (Voir aussi SSP.)
ELT : Extract Load Transform est un processus informatique dintgration de donnes dun
systme source un systme cible. Les donnes brutes sont charges directement sur la cible, o
elles seront transformes selon les besoins.
ERP : abrviation d Enterprise Resource Planning , lERP assure la gestion des achats, la
gestion des ventes, la gestion comptable ainsi que la gestion des stocks de lentreprise. De par
ses fonctions structurantes, lERP est souvent apparent la colonne vertbrale de lentreprise.
|
ETL : Extract Transform Load est un processus informatique dintgration de donnes dun
|\/
systme source un systme cible. Un serveur intermdiaire transforme la donne selon des
$!
4$

rgles prtablies avant chargement vers la cible.


Fingerprinting : technique didentification probabiliste dun internaute, base sur une empreinte
By

numrique unique (caractristiques techniques du navigateur, caractristiques de navigation).


First look : fonctionnalit dune SSP permettant daccorder un accs prioritaire un acheteur par
rapport au march.
First party data : donnes issues des assets propritaires de lenseigne (sites web, CRM,
application mobile, bases de donnes, campagnes mdia, marketing direct, etc.).
Floor price : prix plancher dcid par le site ditorial en de duquel limpression nest pas
commercialisable.
GAFA : acronyme de Google Apple Facebook Amazon . Le terme GAFA est souvent
employ pour dsigner les gants du Web.
Geofencing : procd qui consiste difier une clture virtuelle autour dun magasin ou dun
point dintrt. Lentre ou les sorties de ce primtre active les sollicitations commerciales
selon le principe du trigger. La plupart des cas dusages marketing exploitant la donne de
golocalisation reposent sur le principe du geofencing.
Gouvernance : on appelle gouvernance des donnes lentit en charge de prendre les
dcisions quant lutilisation des donnes (stratgie, qualit, process).
Hadoop : infrastructure open source de stockage (HDFS Hadoop Distributed File System) et
danalyse (Hadoop MapReduce) particulirement adapte au traitement des Big Data. (Voir aussi
NOSQL.)
IDFA : voir Device Id .
IP (adresse) : abrviation d Internet Protocol , une adresse IP est un numro unique permettant
un ordinateur de communiquer dans un rseau. Un ordinateur avec plusieurs cartes rseaux peut
avoir plusieurs adresses IP.
Kaggle : concours de data science organis par des entreprises. La socit Netflix a popularis
ces joutes entre data scientists en promettant au vainqueur une rcompense dun million de
dollars.
Lead : terme anglais frquemment utilis pour dsigner un prospect interess par une offre.
Typiquement un internaute qui vous laisse ses coordonnes pour tre rappel est un lead .
Life time value : valeur estime dun client sur son cycle de vie. Par exemple, pour un site de
rencontre, la lifetime value de labonn correspondra aux nombres de mois passs sur le site
multipli par le cot dun abonnement mensuel.
Look alike (jumeaux statistiques) : procd consistant trouver dans une base de donnes
des individus similaires ceux dun chantillon de dpart. La qualit de lestimation de
similarit dpend fortement des donnes considres et du modle mathmatique construit.
|
|\/
Mac Address : la Media Access Control Address est un identifiant unique associ un terminal
$!

mobile. tant stocke dans une carte rseau, on parle parfois d adresse physique . Les
4$

adresses Mac sont utilises dans beaucoup de technologies rseau, notamment le Wifi.
By

Machine learning : branche de lintelligence artificielle. Concrtement, lordinateur amliore de


lui-mme le modle mathmatique initialement implment chaque fois quil reoit de nouvelles
donnes. Un exemple trs simple dalgorithme de machine learning est une rgression linaire
modlisant le prix dun appartement par rapport sa superficie : lquation de la droite
modlisant le nuage de points sajuste automatiquement chaque nouvel appartement rajout la
base de donnes.
MapReduce : mthode de calculs distribus sur plusieurs machines. Toutes les solutions
danalyses Big Data sont fondes sur cette mthode.
Marketing automation : stratgie dautomatisation de lenvoi des messages marketing selon
certains comportements types. (Voir aussi Trigger.)
Marketing direct : le marketing direct recouvre un ensemble de canaux de contact permettant
dobtenir une rponse directe du consommateur et/ou une transaction (e-mailing, courrier, SMS,
tlphone, etc.).
Martech : dsigne lensemble des plateformes technologiques optimisant le marketing direct
(routeur e-mail, CRM 360, Helpdesk, etc.).
Matrice de confusion : invente pendant la Seconde Guerre mondiale, la matrice de confusion
est une faon intuitive de mesurer lefficacit dun modle de prdiction.
MVP : le Minimum Viable Product est une philosophie consistant tester rapidement le cur du
produit afin den valider le concept sans avoir pass du temps sur les fonctionnalits non
indispensables.
NoSQL : labrviation de Not Only SQL dsigne une catgorie de bases de donnes dont le
principe gnral est de stocker la donne sur plusieurs machines relies entre elles. Cassandra,
MongoDB, Elastic Search ou Hadoop sont les bases de donnes NoSQL les plus connues sur le
march.
Onboarding : processus consistant associer un contact du CRM (identifi par le-mail et/ou son
adresse postale) un identifiant online (gnralement un cookie), afin de pouvoir cibler cette
personne avec de la publicit digitale.
Open data : donnes accessibles en libre-service, mises disposition par les organismes publics
(Insee, Ville de Paris, SNCF, IGN, etc.).
People-based : stratgie consistant cibler un individu et pas un terminal. (Voir aussi Cross-
device)
Persona : personne fictive qui reprsente un segment de client cible. Gnralement une fiche est
ddie chaque persona comportant un certain nombre dattributs caractristiques de la cible et
un scnario client (user story). |
Personnalisation : concept central du data marketing, la personnalisation sattache adapter les
|\/
processus marketing lindividu : adaptation du contenu, de la frquence, du moment, etc. des
$!
4$

sollicitations commerciales.
Piggybacking : littralement porter califourchon , le piggybacking est un procd consistant
By

pour un outil A non tagu sur un site web tout de mme dposer un cookie sur le navigateur dun
internaute en profitant du fait quun outil B partenaire soit lui-mme tagu sur le site.
Pixel : image de 1px 1px invisible lil nu, le pixel est une mthode de tracking trs usite. (Voir
aussi Tag .)
Prdictif : on dsigne par marketing prdictif la discipline visant anticiper le comportement
dun consommateur, grce la modlisation mathmatique de celui-ci. On distingue gnralement
la prdiction dune valeur (voir Rgression ) et la prdiction dun tat (voir
Classification ).
Private marketplace : fonction disponible au sein des adexchanges permettant un site ditorial
de slectionner les acheteurs pouvant participer aux enchres.
Programmatique : le terme recouvre lensemble des oprations marketing automatises. Le
terme est surtout utilis en publicit o il dsigne les transactions publicitaires opres de
manire automatise et lunit. Lachat programmatique peut tre ralis aux enchres (RTB) ou
prix fixe. Il peut par ailleurs tre non garanti ou garanti.
R : logiciel de statistiques avances open source, trs utilis dans le milieu de la data science.
RCU : abrviation de Rfrentiel Client Unique , le RCU est souvent assimil au CRM 360.
Reach : terme anglais dsignant le volume dindividus atteignables pou une campagne donne.
Rebond (taux de) : cet indicateur exprime le pourcentage de visiteurs dun site internet qui
repartent immdiatement . Il se calcule en faisant le rapport entre le nombre total de visites et
le nombre de visites une page.
Recommandation (moteur de) : outil permettant de personnaliser la slection de produits
proposs selon les caractristiques de lindividu (souvent son historique dachat et de
navigation). Le moteur de recommandation peut influencer laffichage des produits sur le site, le
contenu dun e-mail, le contenu dune bannire publicitaire, etc.
Retargeting : stratgie publicitaire consistant cibler un individu dj pass rcemment sur le
site web de lannonceur ou sur certaines pages spcifiques.
ROI : acronyme de Return On Investissement , le ROI ou retour sur investissement dune action
marketing mesure la rentabilit de cette action.
RTB : labrviation de Real Time Bidding dsigne le proccessus de vente aux enchres en
temps rel de linventaire publicitaire en ligne. Les sites ditoriaux proposent ce dernier via une
SSP (Supply Side Platform). Les annonceurs enchrissent via une DSP (Demand Side Platform)
opre par un trading desk. Loffre et la demande se rencontrent au sein dune bourse appele
adexchange . |
Scoring : traitement mathmatique consistant attribuer un individu une probabilit de
|\/
comportement futur. Les premiers modles de scoring ont t mis en place dans les banques dans
$!
4$

les annes 1970 afin destimer le risque associ aux crdits.


Scrum : mthode agile de dveloppement sappuyant notamment sur de courtes runions matinales
By

pendant lesquelles les participants au projet indiquent tour tour les tches quils ont effectues
la veille, les difficults rencontres et enfin les travaux quils effectueront dans la journe.
SDK : abrviation de Software Development Kit , un SDK est un ensemble doutils daide la
programmation. Il contient en particulier du code prcrit organis sous forme de librairies, de la
documentation, un mulateur de test, etc.
Search : la publicit search dsigne les annonces Adwords qui saffichent au-dessus des
rsultats du moteur de recherche.
Second party data : donnes issues de partenariats directs, par exemple les cookies issus de la
navigation dinternautes sur le site web du partenaire.
Segmentation : regroupement dindividus selon des critres dfinis en amont (sexe, ge,
frquence dachat, types de produits achets)
Spark : version volue de calcul distribu. (Voir aussi MapReduce .)
SQL : abrviation de Structured Query Language , langage informatique permettant dexcuter
des requtes dans une base de donnes structure. Par extension, SQL dsigne les bases de
donnes adaptes au langage SQL, encore appeles bases de donnes relationnelles .
SSP : abrviation de Supply Side Platform , la SSP est une plateforme technologique permettant
un site ditorial de mettre en bourse son inventaire display et doptimiser la valeur de son
inventaire.
Tag : le tag de tracking est un extrait de code insr dans le code html dune page web qui a pour
vocation dappeler un serveur web lorsquil est dclench (on dit que le tag est brl ). Par
ce procd, le tag permet au serveur de dposer un cookie dans le navigateur de linternaute et de
collecter de la donne sur un cookie.
Taggage (plan de) : document dcrivant spcifiquement les endroits o sont poss les tags de
tracking et la nomenclature associe.
Taxonomie : arborescence servant classer les cookies dans une DMP.
Third party data : donnes collectes, segmentes et mises disposition par un prestataire
externe (data provider). La facturation slve en gnral quelques euros le CPM.
TMS : abrviation de Tag Management System , le TMS est un outil simplifiant
considrablement la gestion des tags sur un site web en les encapsulant dans un master tag.
Trading desk : socit spcialise dans lachat despaces publicitaires display, vendus en mode
programmatique. Le trading desk sappuie sur une (ou plusieurs) plateformes DSP open source
ou propritaire.
Trigger : littralement gchette , le trigger est un vnement dclenchant une action marketing.
|
|\/
Par exemple, le nombre de visites par semaine sur le site internet sera considr comme un
$!

trigger si, au bout de la troisime visite, un pop-up invitant discuter avec un conseiller se
4$

dclenche.
By

Visibilit (indicateur de) : une impression publicitaire est dite visible lorsquau moins 50 %
de sa surface a t affiche pendant au moins 1 seconde (norme IAB).
Whitelist : liste blanche dinventaires tablie par le trader mdia. Seuls les inventaires cits
dans cette liste sont autoriss pour de laffichage publicitaire. (Voir aussi Blacklist .)
Yield Management : processus doptimisation des prix plancher afin de maximiser la rentabilit
des revenus publicitaires des diteurs.
Les socits et solutions spcialises dans la
data

CABINETS/AGENCES CONSEILS

Vous souhaitez orienter davantage votre entreprise vers la donne ? Le recours un


cabinet spcialis peut savrer dune grande utilit pour dfinir la stratgie, les bons outils
et le plan de transformation de lentreprise !
55 aide les marques exploiter de faon optimale les donnes et la technologie pour
mettre en place des stratgies de communication plus adaptes.
Artefact a t fond en 2013 par trois polytechniciens. Ce cabinet matrise toute la
chane de la valeur de la donne travers quatre activits : conseil, dveloppement, data
science, cration publicitaire.
Camp de Base est une agence de marketing services spcialise dans la valorisation des
|
|\/
donnes marketing. Camp de Base a t rachet en 2016 par le groupe Webedia
$!

spcialis dans les mdias en ligne et le divertissement (le groupe possde notamment
4$

les sites Allocin et 750 g).


By

Converteo est un spcialiste du webmarketing et de la webanalyse depuis de


nombreuses annes ; le cabinet a pris avec succs le virage du data marketing.
Publicis ETO est une filiale du groupe Publicis spcialise dans la mise en uvre de
rfrentiel client unique et de CRM 360.

AGENCES MARKETING/PUBLICITAIRES

Quelles soient historiques ou nouvellement cres autour des dernires technologies data
marketing, ces agences sauront vous accompagner dans la mise en uvre de vos
campagnes de marketing direct et publicitaires.
1000Mercis est un pionnier du data marketing et une agence reconnue en CRM, DMP et
RTB.
Adnow est un trading desk mobile spcialis dans le drive to store. La socit a
notamment lev 1,2 million deuros en 2015.
Adotmob est un trading desk mobile agissant autour dune solution DSP propritaire. La
socit a lev 1 million deuros en 2015.
Affiperf est le trading desk de lagence Havas.
AOD est le trading desk de lagence Publicis (restructuration en cours).
Criteo est spcialise dans le reciblage publicitaire (retargeting), Criteo est considre
comme une des entreprises majeurs du march de la publicit digitale dans le monde
depuis sa cotation au Nasdaq en 2013.
Gamned est un trading desk indpendant, notamment bien implant en Suisse et au
Brsil. Il a appartenu un temps au groupe Makazi.
TabMo (trading desk et DSP mobile) se diffrencie notamment par des formats
publicitaires trs innovants, exploitant tout le potentiel du canal mobile.
Tradelab est un des principaux trading desks indpendants franais.
Yanco est le trading desk mobile du groupe S4M spcialis dans le tracking mobile.

ADTECH

La publicit est en pleine mutation technologique et les acteurs ci-dessous y sont pour
quelque chose !
Acxiom, expert de la donne, de lanalytique et des marketing services, est un des
principaux fournisseurs de donnes third party.
|
|\/
$!

Adobe Audience Manager est la DMP dAdobe et reprsente une des DMP leaders du
4$

march.
By

Bluekai fut une des premires DMP leader du march. Elle a depuis t rachete par
Oracle.
Databerries est une jeune start-up spcialise dans la donne de golocalisation et dans
le ciblage marketing sur mobile. La socit labore sur demande des segments
daudience bass sur les habitudes de dplacements (exemple : les individus qui se
rendent dans les magasins Carrefour ou Auchan), achte de lespace mdia pour ces
individus et mesure lincrment de visites en magasin. Databerries a lev 1,7 million
deuros en dcembre 2015.
Doubleclick est une solution adtech de Google. La suite est notamment compose de
Doubleclick Bid Manager (DSP) et Doubleclick Campaign Manager (adserver).
Exelate est un des plus gros fournisseurs de donnes du march. La socit a t
rachete par linstitut dtudes marketing Nielsen en 2015.
Makazi est un des diteurs majeurs de Data Management Platform (DMP) en mode
SaaS.
Mediamath est une des principales DSP du march.
Netadge est une des principales DSP mobile du march
Sizmek est un des adservers principaux du march, anciennement Mediamind.
Smartadserver est un des adservers principaux du march, lanc par Aufeminin.com en
2001.
TapValue est une solution de tracking en magasin et de publicit mobile (retargeting des
visiteurs magasins, geofencing autour des points de vente).
Tubemogul est une DSP spcialise dans lachat vido
Weborama est une solution DMP se caractrisant par une large offre third party
propritaire et la possibilit de raliser galement ladserving des publicits.

MARTECH

Les CRM et routeurs e-mails ont bien volu depuis les annes 2000 : linstar de la
publicit, le marketing direct sest technologis et la concurrence est rude entre
diteurs !
Actito est un diteur de solutions proposant une plateforme de marketing relationnel
permettant notamment la mise en uvre de scnarios trigger marketing volus.
Eloqua est une solution de-mailing et de marketing automation rachete par Oracle.
|
|\/
$!

Exact Target est une solution de-mailing et de marketing automation rachete par
4$

Salesforce plus de deux milliards de dollars en 2013.


By

Marketo est une solution de marketing automation, adapte galement aux PME.
Neolane est une solution de-mailing et de marketing automation, devenue en juin 2013
Adobe Campaign, transaction estime 600 millions de dollars.
Probance est un des nombreux diteurs de plateforme de marketing automation.
Salesforce est lditeur de logiciel leader sur le march du CRM et de la relation client
depuis sa cration en 1999.
Selligent est une socit ditrice de solutions de marketing relationnel, notamment un
CRM 360.
Splio est un acteur majeur du secteur du routage e-mail et de la gestion de la relation
client.

AUTRES

Data science, data quality, data onboarding, data visualisation le panorama des
technologies de la data est large et dpasse la simple segmentation adtech/martech !
Dataiku est un diteur de logiciels facilitant le nettoyage des donnes et le travail des
data scientists.
Experian est un acteur mondial dans le traitement de linformation ; Experian propose
notamment des solutions de gestion de la qualit des donnes.
S4M est une solution de mesure de campagnes publicitaires menes sur mobile.
Temelio est un des principaux CRM onboarder du march.

|
|\/
$!
4$
By
Remerciements

Merci du fond du cur Cindy Dorkenoo, auteur de Stratgie Digitale, sans qui ce livre
naurait jamais vu le jour. Un grand merci aussi lodie Bourdon, ditrice chez Eyrolles,
qui a soutenu ce projet avec enthousiasme et ma accord toute sa confiance pour la
rdaction de ce livre.
Une immense reconnaissance mon papa pour sa relecture pointilleuse et son regard
novice qui ma forc tendre vers toujours plus de pdagogie et de clart. Plus
gnralement merci tous les relecteurs, David, Rmi et Jrme en tte, pour leurs
remarques claires.
Jadresse galement de chaleureux remerciements tous mes anciens collgues et
notamment les consultants dArtefact dont le contact quotidien ma pouss vers toujours
plus dexcellence. La prface rdige par Vincent Luciani, fondateur du cabinet, nest
quune illustration de vos nombreux talents.
Caroline, ma conjointe depuis quatre annes, tu mrites amplement ta place dans ces
|
|\/
remerciements tant tu supportes avec beaucoup de patience mon stakhanovisme et mon
$!

acharnement.
4$

Enfin, merci toutes les personnes qui me sont chres et mapportent chaque jour
By

lnergie ncessaire la ralisation de mes projets. Je nai pas la place pour tous les
citer, mais ce livre leur appartient.
Index

R 152, 175, 178


750 g 275
1000Mercis 54, 276

A
ACP 143, 145, 147, 259, 263
Actito 91, 234, 277
Acxiom 83, 200, 204, 250, 257, 276
Adgear 199
Adnow 200, 250
Adobe 278
Adobe Audience Manager 200
Adotmob 200, 209, 241, 250
adserver 188, 197, 199, 213, 263
adtech 21, 92
Advertising Id 57, 78, 101, 267
|
|\/
Adwords 24, 70, 83, 99, 128, 193, 261, 263
$!

Affiperf 200
4$

Akio 89
algorithmes de classification 111, 176, 179, 181, 259
By

algorithmes de rgression 111, 259


Allocin 275
Amazon 13, 19, 81, 142, 255
API 71-72, 250, 263
Apple 78, 81-82, 92, 101
Appnexus 200, 203, 211-212, 220
arbre de dcision 168
Archos 237
Artefact 15-16, 44, 60, 63, 84-85, 100, 106-107, 208, 275, 279
Artemide 94
attribution 31, 44, 77, 216, 218, 264
Auchan 276
AXA 41, 244

B
Babolat 54, 250
Barclays 245
beacon 79, 185, 237-238, 243, 245, 247, 249, 251, 262
bid request 194-195, 199, 210, 241, 250
Bizo 20
blacklist 210
Bluekai 96, 200
bluetooth 79, 237, 241, 247, 249-250, 262, 264
Bouygues Telecom 237
Bulmers 240

C
calcul distribu 18, 273
Campaign Manager 199
Camp de Base 63, 91, 275
capping 210, 213
Caradisiac 208
Carrefour 54, 238, 243, 276
Catalina 243
Chief Data Officer 41, 60, 264
Chief Digital Officer 18
Chief Marketing Technologist 40
Chrome 211
churn 28, 177-178, 196
clustering 21, 110, 135, 147-152, 172, 258
Coca-Cola 51
Coheris 89
conversion 19, 24, 26, 31-32, 70, 98, 119, 169, 203, 218, 222, 224, 226, 232, 265
Converteo 275
cookie 46-47, 57, 66, 70, 78, 80-82, 84, 92-95, 101-102, 116, 187, 195-196, 257, 264-265, 267, 271
cookie matching 101
|
|\/
corrlation 135-136, 138-141, 149, 152
$!

couponing 72, 243


4$

CPA 216-217, 265


CPC 265
By

CPM 28, 116, 118, 120-121, 123-124, 188, 205, 218, 266, 274
Criteo 68, 190, 276
CRM 17, 21, 23, 38, 47, 49, 53, 62, 80, 82-85, 87-95, 101-102, 105-107, 207, 257, 269-272
CRM 360 21, 47, 49, 87, 90-92, 105-106, 257, 266, 270, 272
cross device 101, 209, 271
cross-sell 135
custom audience 83, 85

D
Danone 107, 208
Darty 199, 237
Databerries 240, 249, 276
Dataiku 115, 278
data lab 41
datalake 47, 75, 85, 100, 106, 257, 266
datalayer 46, 71, 85, 256, 267
datamining 17, 75, 105-106, 152
data scientist 40, 50, 126, 182, 267
dataset 113-115, 267
datawarehouse 47, 75, 257, 266-267
DBM 203
DCO 212-213, 235, 263, 267
Decathlon 54
Deepmind 14
Deveryware 277
device Id 257
Dimelo 89
display 24, 31, 46, 99, 105, 184, 195, 199, 207, 225, 241, 256, 260, 268, 273-274
DMP 21, 26, 47, 49, 62, 71, 82, 84-85, 87-88, 92-108, 195, 200, 205, 209, 256-257, 263, 268, 274, 276
Dolist 226
donnes non structures 50-51, 106, 256, 268
donnes structures 50, 63, 71, 74, 91, 256, 267-268
Doubleclick 199, 209, 277
drive to store 268
DSP 84, 101, 103, 184, 199-200, 202-205, 209, 212, 219, 241, 250, 256, 260, 263-264, 268, 272, 274

E
Easyjet 142
EDF 93
Eloqua 89, 91
ELT 73, 268
Eptica 89
ERP 72
Estimote 245
ETL 73, 268
Euclid Analytics 246
|
|\/
Exact Target 91
$!

Exelate 93, 200, 204


4$

Experian 59, 77, 241, 278


By

F
Faberg 245
Facebook 14, 17, 31-32, 50-51, 56-58, 70, 81, 83, 85, 107, 199, 247
feature engineering 111, 169, 259
Fidzup 239, 250
fingerprinting 81
first party data 53-54, 70, 93, 204, 208, 256
floor price 191
Flos 94

G
GAFA 81, 269
Galerie Sakura 243
Gamned 200, 276
Gmail 15, 81, 93
Google 14-15, 17, 19, 32, 58, 63, 70, 72, 77-78, 81, 83, 85, 92, 99, 162, 199, 209, 217
gouvernance 38, 41, 255
GrandVision 233

H
Hadoop 18, 266, 269, 271
Hardis Group 248

I
Iconeme 243
IDFA 57, 78, 80, 84, 92, 101, 241, 249-250, 257, 267
Insiteo 239
Instagram 58, 83
IP 78, 81, 269

J
JC Decaux 241

K
Key Bank 254

L
Lactalis 54
La Franaise des Jeux 241
Lemonde.fr 67, 199
lifetime value 263, 270 |
LinkedIn 20, 106, 225
|\/
LiveRamp 83
$!

look alike 99, 102, 106-107, 195, 208, 235, 258


4$

Lucibel 238
By

M
Mac address 79
machine learning 165
Madkuku 225
Maisons du monde 241
Makazi 276-277
MapReduce 264, 269-270, 273
marketing automation 21, 222, 277
Marketo 91
Marmiton 208
martech 40, 87
Martinelli Luce 94-95
matrice de confusion 33
McDonalds 142
Mediamath 200, 203, 209
Meetic 222-223
Mercedes 208
Microsoft 14
MongoDB 271
Monoprix 238, 243
moteur de recommandation 227, 272
muse de la Tulipe 243
MVP 42, 271
Mytraffic 241

N
Neolane 89
Nestl 225
Netadge 200, 241, 277
Netflix 13, 17, 170, 201
Nielsen 207
Nivea 244
NoSQL 85, 271
Notico Shopping 243
Nutella 54

O
O2 240
Oledcomm 238
onboarding 82-85, 93, 97, 101-102, 105, 207
open data 53
Oracle 276-277
Orange 199, 237
|
|\/
P
$!

persona 55
4$

Philips 238
By

piggybacking 271
Pinterest 51, 106
Placecast 240, 251
Pole Star 239
PriceMinister 142
Probance 91, 232
programmatique 24, 93, 105, 184, 187, 190-193, 197, 201, 203, 206, 208, 214, 216-217, 219-220, 243, 250, 260, 272, 274
Publicis 18, 91
Publicis ETO 91, 275
Purestorage 20

R
RCU 65, 87, 90, 272
reach 104, 206, 247
RetailMeNot 243
retargeting 190, 208, 216
RLSA 70
ROI 25, 34-35, 104, 207, 214, 272
RTB 120, 191, 193-197, 200-201, 203, 205, 215, 219-220, 260, 272

S
S4M 276, 278
Saatchi & Saatchi 245
Sage 89
Salesforce 89, 277-278
Sarenza 31-32
scoring 17, 21, 42, 179, 225, 235, 273
scrum 43
SDK 101, 273
second party data 53-54, 204, 208-209, 256
Selligent 91, 278
Sephora 239-240
Shopadvisor 243
Siebel 89
Sizmek 199, 213
Smartadserver 199
SNCF 72
Spark 273
Splio 91, 278
Spontex 44
SQL 73
SSP 184, 199, 260, 263-264, 268-269, 272-273

T
TabMo 241
|
|\/
Tactads 209
$!

tag 70, 267, 273-274


4$

TapValue 250
Target 166
By

taxonomie 50, 94-95, 97, 99, 102, 105


Telefonica 240
Temelio 83, 93, 257
test A/B 124
TF1 13
The North Face 240
third party data 46, 53-54, 63, 70, 97, 204-209, 218, 256, 276
TMS 70-71, 85, 256, 267, 274
Tradelab 200, 220, 276
trading desk 200, 203-204, 209, 212, 217, 219, 272, 274, 276
trigger 36, 91, 185, 223-226, 228, 232, 234-235, 261, 270, 274, 277
Tubemogul 200
Twitter 44, 106

V
visibilit 38, 191, 215-216, 218, 244
Vivaki 200

W
Walmart 142
Weborama 204
whitelist 210
Y
Yanco 200, 250
Yelp 72
Yoplait 199
YouTube 15, 17, 51, 58, 199

|
|\/
$!
4$
By
Table des figures

Figure 1 La data peut tre exploite tous les tages du tunnel marketing
Figure 2 Larbre dquivalence, un moyen puissant de rendre un objectif spcifique
Figure 3 Dterminer les indicateurs de performance : une tape cl dun projet data marketing
Figure 4 Modle en U : la premire visite a un poids aussi fort que le dernier clic
Figure 5 La matrice de confusion : une faon intuitive de mesurer lefficacit dun algorithme
Figure 6 Matrice de priorisation des cas dusages
Figure 7 Les 5 V du Big Data
Figure 8 Diffrence entre donnes structures et non structures
Figure 9 Pose dun cookie par le serveur lors de laffichage dune page
Figure 10 Personnalisation dune page web grce au cookie
|
Figure 11 Pose dun cookie par un tiers
|\/
$!

Figure 12 Le piggybacking, cl de vote de lcosystme publicitaire


4$

Figure 13 Schma simplifi dune architecture SI conventionnelle


By

Figure 14 De multiples identifiants pour une seule identit


Figure 15 Rconciliation dterministe des identifiants (mthode du pivot)
Figure 16 Rconciliation probabiliste par fingerprinting
Figure 17 Principe du CRM onboarding
Figure 18 Le CRM 360 agrge les donnes personnelles issues de diffrentes sources et
alimente les outils de campagne marketing direct
Figure 19 Six sources de donnes alimentent la DMP en cookies
Figure 20 La taxonomie est au cur du fonctionnement dune DMP
Figure 21 Mcanisme de cration daudience dans une DMP
Figure 22 La courbe de (up)lift permet de mesurer la qualit dun modle look alike
Figure 23 Principe gnral denvoi dune audience Adwords partir dune DMP
Figure 24 Radar dvaluation dune DMP
Figure 25 cosystme data cible
Figure 26 Exemple de dataset typique en data marketing : en ligne les clients, en colonne les
variables
Figure 27 Loi de Pareto : une minorit demplacements publicitaires gnrent la majorit du
revenu
Figure 28 Analyse de la dispersion des CPM travers une bote moustaches
Figure 29 Tableau de frquence
Figure 30 Top des impressions vendues du mois
Figure 31 La matrice temporelle met en vidence les saisonnalits
Figure 32 Les cycles temporels, une technique danalyse puissante
Figure 33 Lusage de la moyenne mobile change la perspective de lanalyse
Figure 34 La moyenne mobile, une approche pour mesurer les tendances de fond
Figure 35 Lobjet de la newsletter de Batrice est-il vraiment meilleur que celui choisi par
Alain ?
Figure 36 La matrice 4 quadrants permet didentifier rapidement des opportunits
Figure 37 Des millions de segmentations sont possibles avec seulement quelques dizaines de
critres de segmentations
Figure 38 Une bonne segmentation est la combinaison de quatre enjeux majeurs
|
Figure 39 Interprter la segmentation RFM et la rendre accessible au mtier
|\/
$!

Figure 40 Segmenter les clients dune banque selon leur pargne et leurs revenus annuels
4$

Figure 41 Nombre de produits cliqus par individus et par catgories


By

Figure 42 La rgression linaire simple est lapproximation dun nuage de points par une droite
Figure 43 Relation entre les clics sur la catgorie bricolage et les clics sur la catgorie
jardinage
Figure 44 La significativit du coefficient de corrlation dpend du nombre dobservations
Figure 45 Matrice de corrlation entre quatre catgories de produits
Figure 46 Le treillis matriciel, une faon efficace de reprsenter la matrice de corrlation
Figure 47 Le corrlogramme, la faon standard de reprsenter la matrice de corrlation
Figure 48 Cercle des corrlations trac avec le logiciel R
Figure 49 Tableau des valeurs propres obtenues suite une analyse en composante principale
Figure 50 Le scree plot permet de dterminer les axes factoriels selon le principe du coude
Figure 51 Corrlation des anciennes variables avec les axes factoriels
Figure 52 Les axes factoriels se dduisent des 4 axes initiaux
Figure 53 Reprsentation des individus dans le plan factoriel
Figure 54 Segmentation et clustering sappuient sur des approches diffrentes
Figure 55 Le dendogramme, livrable classique dune analyse de clustering
Figure 56 Constitution de deux clusters avec la mthode non hirarchique
Figure 57 Quatre dimensions reprsentes dans ce graphique (CA, PdM, temps, comparaison)
Figure 58 Les sparklines, ou comment introduire des mini-graphiques dans vos tableaux
Figure 59 Tableau de bord quatre quadrants
Figure 60 Trois variables descriptives du consommateur : laquelle apporte le plus
dinformations sur la probabilit dachat ?
Figure 61 Lentropie est un moyen de dterminer les bons critres de choix dans un arbre de
dcision
Figure 62 Comparaison de diffrents modles sur une courbe ROC
Figure 63 Mthodologie derrire la conception dun algorithme prdictif
Figure 64 Prdiction du volume sonore des criquets selon la temprature
Figure 65 Trois types de variables sont collects sur les magasins pour prdire le chiffre
daffaires au m2
Figure 66 Rsultat de la rgression linaire multivarie avec le logiciel R
|
|\/
Figure 67 Trois types de variables collectes sur les clients pour prdire une ventuelle
$!

rsiliation (base dapprentissage)


4$

Figure 68 Rsultat de la rgression logistique multivarie avec le logiciel R


By

Figure 69 Trois variables collectes dans les tchats (base dapprentissage)


Figure 70 La premire bannire publicitaire rencontra un franc succs !
Figure 71 Fonctionnement de la publicit la fin des annes 1990
Figure 72 Criteo est le premier sintresser lindividu derrire lcran
Figure 73 Les quatre segments du programmatique
Figure 74 Grands principes de fonctionnement du RTB
Figure 75 Lachat mdia programmatique change le paradigme de la publicit digitale
Figure 76 Le panorama des acteurs de la publicit digitale donne mal la tte plus dun
annonceur !
Figure 77 Chane de valeur simplifie du RTB
Figure 78 Extrait dune bid request mobile telle que la reoivent les DSP
Figure 79 La donne aide optimiser le mdia selon trois axes
Figure 80 Piloter la stratgie dachat par le machine learning : la rvolution permise par les
DSP programmables
Figure 81 Le DCO permet de personnaliser la bannire pour chaque internaute
Figure 82 Problmatiques pratiques des annonceurs
Figure 83 Stratgie diffrencie de mesure selon les objectifs de campagne
Figure 84 Dun mdiaplanning fig un marketing continu centr sur le client
Figure 85 Modle simple de gestion personnalise de la pression marketing
Figure 86 Plus de 40 fabricants de beacon disponibles sur le march !

|
|\/
$!
4$
By
Table des encadrs

Attribution ou dduplication ?
Combien valent vos donnes personnelles ?
Dont worry, be happy
Cookie first party et cookie third party
Gestion dynamique des tags par un TMS en 5 tapes
La courbe de Lift (ou duplift)
La p-valeur, notion cl des statistiques
Problmes poss par les espaces de grande dimension
Les avantages de la visualisation des donnes : la parole aux utilisateurs
Un exemple de prdiction marketing qui a fait le tour du monde
Prdiction nest pas causalit !
Le scoring : une valuation par une note entre 0 et 1 de la probabilit dappartenance une classe
Du marketing programmatique au marketing programmable
|
|\/
Journey Optimizer
$!
4$

Meetic, pas fleur bleue !


Lexplosion du mobile en chiffres
By

Le beacon, ce nest pas sorcier !


Les nearables : rendre nimporte quel objet connect
Pour suivre toutes les nouveauts numriques du Groupe Eyrolles, retrouvez-nous sur Twitter et
Facebook

@ebookEyrolles

EbooksEyrolles

|
|\/
$!
4$

Et retrouvez toutes les nouveauts papier sur


By

@Eyrolles
Eyrolles