Professional Documents
Culture Documents
Data Mining
Accueil : Ressources statistiques : Études de cas : 2000 : Data Mining | English | Grands caractères | Petits caractères
Les techniques statistiques du data mining sont bien connues. Il s'agit notamment de la régression linéaire et logistique, de l'analyse multiv
de neurones. Cependant, les approches traditionnelles de l'inférence statistique échouent avec les grosses bases de données, car en prése
trouvera forcément un niveau élevé de redondance parmi les variables, certaines relations seront fausses, et mêmes les relations les plus f
construire un modèle dont le pouvoir de prédiction soit satisfaisant. Il ne suffit pas de savoir quelles relations sont statistiquement importan
Prenez le cas d'une campagne qui offre à la vente un produit ou un service et qui cible une base de clientèle donnée. En règle générale, en
service s'il leur est proposé. Un publipostage envoyé à 100 000 clients choisis au hasard générera ainsi environ 1 000 ventes. Les techniqu
identifiant quels clients risquent le plus de réagir à la campagne. Si le taux de réponse peut être augmenté ("lift value") de 1% à 1,5%, par
qui réduit le coût du publipostage d'un tiers.
Données
Cet exemple nous a été fourni par Gary Saarenvirta, anciennement de The Loyalty Group, maintenant chez IBM Canada.
Chaque cas représente un compte. Les numéros de compte ont été supprimés.
La variable objective est une variable de réponse indiquant si un consommateur a réagi ou non à une campagne de mailing direct pour un
0.
Les données sont extraites d'un jeu de données beaucoup plus large dont le taux de réponse était d'environ 1%. Nous avons utilisé les 1 07
choisies au hasard, soit un total de 2 158 cas.
Le fichier contient 200 variables explicatives : v137, v141 et v200 sont des indicateurs de sexe "homme," "femme" ou "inconnu," respectiv
de type monétaire pour les comptes spécifiques ; v25-v136 sont des variables de recensement et v145-v199 sont des variables démograph
normalisées.
Une table contenant certaines descriptions de variables est jointe. Certaines variables spécifiques au produit ont été masquées. "p##" sign
récente), "trans" signifie le nombre de transactions, "spend" signifie le montant dépensé en dollars. Par exemple : p01rcy signifie récence d
en question au cours du mois le plus récent. "Jamais actif" serait indiqué par la plus grande valeur de récence possible, sur la base du prem
Les variables de recensement et de contribuables sont des statistiques sommaires pour la zone de dénombrement dans laquelle l'adresse d
moyens d'individus ou de familles ou de dollars comprises dans les catégories indiquées. Une table contenant certaines descriptions de var
de recensement d'après leurs noms, mais des tables contenant des descriptions plus longues des variables sont jointes : le Groupe "a" et le
des doutes.
Vous pouvez télécharger les données sous forme de classeur Excel 97/98 gary.xls (5.9 Mo), sous forme de classeur Excel 97/98 comprimé e
ZIP gary.zip (1.3 Mo).
gary.zip contient deux fichiers texte. Les données sont présentées dans un fichier ASCII à largeur fixe Sasvar.txt et la description des fichier
fichiers texte, vous DEVEZ utiliser les positions de colonnes du fichier imtrans.txt pour importer les données dans SAS ou Splus car certaine
dézippez les fichiers texte sous UNIX vous devrez tenir compte de la présence d'un caractère de changement de ligne à la fin de chaque lig
Suggestions d'analyse
Nous vous demandons d'utiliser Splus ou SAS pour cette analyse, cependant les méthodes suggérées ici ne sont pas toutes disponibles sou
plupart des analyses. Vous pouvez probablement obtenir un exemplaire d'essai à peu de frais de SAS. Nous recommandons également le p
Pour toutes les analyses ci-dessous, vous devez créer un ensemble d'apprentissage et un ensemble de validation. Comme les données ont
proportion originale de 1% "Vrai" pour la variable objective. Vous obtiendriez bien entendu de meilleurs ensembles de validation si vous dis
n'ayant pas réagi, mais ce fichier est trop gros pour être distribué de façon pratique. Les ensembles de validation construits à partir de l'éc
Tous les résultats doivent être reportés à l'aide d'un tableau de gains tabulaire ou graphique. Un tableau de gains est une fonction représen
rapport au % de clients contactés (en abscisse). Si la campagne vise des individus choisis au hasard, le tracé sera une ligne droite de pente
risquent le plus de réagir, la courbe de gains sera située au-dessus de la diagonale sauf, bien entendu, à 0% et 100% où elle chevauchera
La performance d'un modèle de prévision est mesurée en examinant le % de personnes ayant réagi lorsque 10%, 20% ou 30% des clients o
aux campagnes aléatoires sur cette tranche si bien que, par exemple, un contact de 10% des clients atteindra 15% à 35% des personnes q
plus que cela, il est possible que vous ayez un problème d'"overfitting" ou que les données ne soient fortement faussées.
Essayez des corrélations linéaires simples, Spearman et Pearson, contre la variable objective et réduisez le nombre de variables. Avec ce je
de supprimer les variables colinéaires.
Divisez les variables en blocs de 10-20 et construisez des modèles logistiques pour chacun des blocs. Une fois les modèles construits, regro
recommencez jusqu'à ce qu'il ne reste plus qu'un bloc de variables. N'oubliez pas de supprimer les variables colinéaires.
Créez des facteurs PCA à partir du jeu de variables (n'y incluez pas la variable objective !). Sélectionnez un jeu réduit de variables à partir d
modèle à partir des facteurs. Comparez ce résultat au résultat obtenu en utilisant tous les facteurs, et notez l'effet de l'"overfitting" (appren
Exécutez un "varclus" avec toutes les variables. Cette procédure regroupes les variables en groupes hiérarchiques en utilisant les facteurs
construisez un modèle logistique. N'oubliez pas de supprimer les variables colinéaires.
La performance d'un modèle de prévision est mesurée en examinant le % de personnes ayant réagi lorsque 10%, 20% ou 30% des clients o
aux campagnes aléatoires sur cette tranche si bien que, par exemple, un contact de 10% des clients atteindra 15% à 35% des personnes q
plus que cela, il est possible que vous ayez un problème d'"overfitting" ou que les données ne soient fortement faussées.
Essayez des corrélations linéaires simples, Spearman et Pearson, contre la variable objective et réduisez le nombre de variables. Avec ce je
de supprimer les variables colinéaires.
Divisez les variables en blocs de 10-20 et construisez des modèles logistiques pour chacun des blocs. Une fois les modèles construits, regro
recommencez jusqu'à ce qu'il ne reste plus qu'un bloc de variables. N'oubliez pas de supprimer les variables colinéaires.
Créez des facteurs PCA à partir du jeu de variables (n'y incluez pas la variable objective !). Sélectionnez un jeu réduit de variables à partir d
modèle à partir des facteurs. Comparez ce résultat au résultat obtenu en utilisant tous les facteurs, et notez l'effet de l'"overfitting" (appren
Exécutez un "varclus" avec toutes les variables. Cette procédure regroupes les variables en groupes hiérarchiques en utilisant les facteurs
construisez un modèle logistique. N'oubliez pas de supprimer les variables colinéaires.
Créez des échantillons d'apprentissage et de test multiples. Utilisez le "bootstrap" pour évaluer les limites d'erreur sur les coefficients de m
remplacement pour évaluer la sensibilité de la régression logistique à la configuration du jeu de données.
Utilisez SAS pour construire une régression "Radial Basis Function". Utilisez toutes les méthodes décrites ci-dessus pour réduire le jeu de va
Il est possible d'implémenter un arbre de décisions avec SAS à l'aide de l'algorithme CART. Exécutez cet algorithme pour toutes les variable
avec remplacement. Cela devrait améliorer les performances de l'arbre de quelques points de pourcentage.
Vous pouvez également essayer d'autres techniques de modélisation y compris les réseaux de neurones et les algorithmes génétiques.
Tous les résultats de modèle doivent être analysés quant à la performance de la table de gains à l'aide des critères suivants :
Quel est le rapport du taux de réponse (en % des clients contactés) par rapport à une campagne non ciblée pour des campagnes contactan
taux de réponse de 10%, 20% ou 30% respectivement. La plupart des campagnes contactent 10% à 30% de la clientèle potentielle. De bon
aléatoire dans cette tranche.
Monotonicité et régularité : les taux de réponse d'un groupe quantile forment-ils un profil en baisse régulière ? Toute ondulation est preuve
Facilité d'expliquer le modèle. Il est très important pour les clients potentiels de pouvoir comprendre pourquoi le modèle fonctionne !
Resources
Vous pouvez vous procurer un exemplaire des travaux de Gary Saarenvirta en ligne à l'adresse http://www.db2mag.com/. Il est également l
trouver à l'adresse http://www.redbooks.ibm.com/.
En lançant une recherche Internet sur le terme "data mining", vous trouverez plusieurs produits commerciaux similaires à Intelligent Miner
© 2001-2003 Société statistique du Canada | Contactez la SSC | Contactez le webmestre | Créé par Pip Media Group
Navigation du site
Quoi de neuf?
À propos de la SSC
Congrès
Groupes et régions
Comités
Accréditation
Publications
SSC Liaison
Forum de discussion
Offres d'emploi
Plan du site
Sites connexes
PNSDC
Recherche
Recherche avancée
Ce site n'est visible dans sa version formatée qu'avec un navigateur qui supporte les normes Web, mais son contenu est accessible par ou
aractères
des informations jusque là inconnues, mais qui peuvent être utiles et lucratives, et d'utiliser ces informations pour
et logistique, de l'analyse multivariée, de l'analyse des principales composantes, des arbres décisionnels et des réseaux
bases de données, car en présence de milliers ou de millions de cas et de centaines ou de milliers de variables, on
t mêmes les relations les plus faibles paraîtront statistiquement importantes dans tout test statistique. L'objectif est de
s sont statistiquement importantes.
donnée. En règle générale, environ 1% de la base de clientèle "réagiront", c'est-à-dire achèteront le produit ou le
ron 1 000 ventes. Les techniques de data mining permettent un marketing fondé sur la relation avec la clientèle, en
"lift value") de 1% à 1,5%, par exemple, alors 1 000 ventes pourront être réalisées avec 66 666 envois seulement, ce
BM Canada.
agne de mailing direct pour un produit spécifique. "Vrai" ou "réponse" est représenté par 1, "Faux" or "non-réponse" par
1%. Nous avons utilisé les 1 079 personnes de ce groupe ayant réagi, ainsi que 1 079 personnes n'ayant pas réagi,
emme" ou "inconnu," respectivement, et v1-v24, v138-v140 et v142-v144 sont la récence, la fréquence et des données
9 sont des variables démographiques "taxfiler" provenant des contribuables. La majorité des variables ont été
t ont été masquées. "p##" signifie produit, "rcy" signifie la récence (nombre de mois depuis la transaction la plus
mple : p01rcy signifie récence du produit 1. Notez qu'une récence zéro signifie que le compte était actif pour le produit
e possible, sur la base du premier mois pour lequel l'entreprise a recueilli des données.
ement dans laquelle l'adresse du titulaire du compte est située. Elles indiquent généralement les nombres totaux ou
nt certaines descriptions de variables de contribuables est jointe. Vous devriez pouvoir deviner la plupart des variables
sont jointes : le Groupe "a" et le Groupe "b" sont présentés séparément. N'hésitez pas à nous contacter si vous avez
asseur Excel 97/98 comprimé en archive ZIP gary_xls.zip (2.4 Mo), or sous la forme de fichiers texte dans une archive
.txt et la description des fichiers de données est dans un fichier imtrans.txt. Si vous décidez de travailler avec les
dans SAS ou Splus car certaines colonnes sont contiguës. Faites attention aux fins de lignes ; si par exemple, vous
t de ligne à la fin de chaque ligne lorsque vous calculerez la longueur de l'enregistrement.
sont pas toutes disponibles sous Splus. Si vous disposez d'une licence SAS, le module Enterprise Miner automatisera la
recommandons également le produit Intelligent Miner d'IBM, mais il est moins probable que vous y ayez accès.
ation. Comme les données ont été stratifiées à 50/50, vous devez créer un ensemble de validation non stratifié avec la
embles de validation si vous disposiez de l'échantillon complet d'environ 100 000 comptes, dont 99% de personnes
ation construits à partir de l'échantillon stratifié 50/50 devraient suffire pour les besoins de cet exercice.
gains est une fonction représentant le % de personnes incluses dans la campagne ayant réagi (en ordonnée) par
é sera une ligne droite de pente unitaire passant par l'origine. Si la campagne cible de préférence les personnes qui
et 100% où elle chevauchera forcément la droite.
10%, 20% ou 30% des clients ont été contactés. Un bon modèle obtiendra des résultats de 1,5 à 3,5 fois supérieurs
ra 15% à 35% des personnes qui réagiront. À moins que cela, les données n'ont pas un très bon pouvoir de prévision, à
ent faussées.
nombre de variables. Avec ce jeu réduit de variables, construisez des modèles de régression logistiques. N'oubliez pas
ois les modèles construits, regroupez les variables restant dans les modèles et créez de nouveaux blocs de 10-20, puis
colinéaires.
eu réduit de variables à partir des facteurs PCA (en utilisant le % cumulatif de la variation expliquée) et construisez un
l'effet de l'"overfitting" (apprentissage par coeur). N'oubliez pas de supprimer les variables colinéaires.
hiques en utilisant les facteurs PCA. Sélectionnez des variables du niveau inférieur des groupes hiérarchiques et
10%, 20% ou 30% des clients ont été contactés. Un bon modèle obtiendra des résultats de 1,5 à 3,5 fois supérieurs
ra 15% à 35% des personnes qui réagiront. À moins que cela, les données n'ont pas un très bon pouvoir de prévision, à
ent faussées.
nombre de variables. Avec ce jeu réduit de variables, construisez des modèles de régression logistiques. N'oubliez pas
ois les modèles construits, regroupez les variables restant dans les modèles et créez de nouveaux blocs de 10-20, puis
colinéaires.
eu réduit de variables à partir des facteurs PCA (en utilisant le % cumulatif de la variation expliquée) et construisez un
l'effet de l'"overfitting" (apprentissage par coeur). N'oubliez pas de supprimer les variables colinéaires.
hiques en utilisant les facteurs PCA. Sélectionnez des variables du niveau inférieur des groupes hiérarchiques et
erreur sur les coefficients de modèles et la performance du tableau de gains. Essayez d'échantillonner avec et sans
dessus pour réduire le jeu de variables et comparez les résultats RBF aux résultats logistiques.
orithme pour toutes les variables. Construisez des ensembles d'apprentissage multiples en utilisant l'échantillonnage
es algorithmes génétiques.
ritères suivants :
pour des campagnes contactant 10%, 20% ou 30% des clients ? À ces seuils, une campagne aléatoire donnerait des
la clientèle potentielle. De bons modèles peuvent obtenir des résultats de 1,5 à 3,5 meilleurs au taux de réponse
b2mag.com/. Il est également l'auteur du livre The Intelligent Miner for Data Applications Guide, que vous pouvez
a Group
n contenu est accessible par ous les navigateurs et appareils à accès Internet.