ECRIT PAR | Muriel Glatin

Parlez-vous Data Scientist ? Episode 1

Algorithmes, scoring, modèle prédictif, segmentation AID, analyses typologiques… comment s’y retrouver dans les propos des data scientist ? Essai de clarification – épisode 1

Parlez_vous_datascientist

Depuis le début de l’année, de nombreux papiers et infographies établissent des job descriptions sur les nouveaux métiers de la Data. Celui de Data Scientist est une de ces nouvelles fonctions, encore souvent très mal connue des entreprises.
Au-delà des questions de profil et d’organisation, on peut anticiper une autre difficulté avec l’intégration de ces nouveaux experts de la data : celle du partage d’un langage commun, en particulier avec les fonctions marketing lorsque l’expertise intègre les directions métier.
Outre le fait que le data scientist emprunte un langage technique propre à son expertise, celui des statistiques et de la mathématique, la difficulté de compréhension s’explique aussi par le fait que certains termes renvoient parfois à des définitions différentes selon l’émetteur, métier versus expert.
Il est toujours difficile de vulgariser des domaines complexes, mais j’espère vous fournir quelques points de repères qui vous permettront d’y voir plus clair sur le sujet et d’initier un dialogue plus constructif avec vos scientifiques de la data.

Les trois grandes familles d’algorithmes des data scientists

Pour analyser le sens caché des données, le data scientist utilise des méthodes statistiques, ou algorithmes. Le choix d’une méthode plutôt qu’une autre se fera d’abord en fonction de l’objectif poursuivi et de la nature des données. La performance de l’algorithme et sa robustesse par rapport à l’environnement des données étudiées orientera le choix final du scientifique.
Pour schématiser, nous pouvons, selon l’objectif poursuivi, organiser les méthodes en 3 grandes familles :

1 – Méthodes descriptives -> Pour résumer un ensemble complexe de données :
Ces méthodes statistiques visent à résumer l’information contenue dans une base de données clients riche de milliers de variables qualifiant les contacts (comportements, profil, satisfaction, usages..). Les données fournies en entrée de ces analyses peuvent être des données quantitatives (fréquence de consommation par exemple) ou qualitatives (préférence produits). A partir de l’interprétation humaine des résultats produits par les algorithmes, traduits souvent sous forme de mapping, il est alors possible de comprendre les dimensions qui structurent le phénomène de l’étude (les axes du mapping) et qui donnent lieu à la construction d’une typologie. Les classes d’individus ainsi révélées, encore dénommées clusters, sont alors positionnés les uns par rapport aux autres, et leurs tailles évaluent leur potentiel numérique.
– Mots-clé associés : analyse des données, typologie, mapping, clusters, classification, algorithme non supervisé,…
– Exemple de méthodes descriptives : Analyse en composante principale (ACP), Analyse en composantes multiples (ACM), Classification hiérarchique ascendante, k-means…

2 – Méthode explicatives -> pour identifier les facteurs influençant un phénomène
Ces méthodes consistent à repérer parmi toutes les variables qualifiant les contacts celles qui impactent significativement le phénomène que l’on cherche à comprendre. Il pourra s’agir de modéliser un comportement d’achat, de résiliation (ou churn), d’appétence à un univers de produits, un niveau d’insatisfaction ou encore une probabilité de non solvabilité… Le phénomène à expliquer peut être une donnée quantitative (un montant dépensé par exemple), ou qualitative (commande/non commande). Ce type d’algorithmes trouvent de nombreuses applications au sein des équipes marketing pour améliorer la fidélité, limiter le churn, développer les ventes croisées, réduire les impayés, optimiser la prospection…
A partir de la valeur connue des facteurs expliquant le phénomène, il est possible d’estimer la valeur du phénomène étudié. C’est pourquoi, les modèles explicatifs peuvent également servir à prédire.
– Mots-clé associés : scoring, modélisation statistique, variable explicatives/expliquées, algorithme supervisé…
– Exemple de méthodes explicatives : régression, analyse discriminante, modèle logistique, analyse de segmentation AID, …

3 – Méthodes prédictives -> pour orienter l’offre
Quel produit mettre en avant sur son site marchand ? Combien de vendeurs prévoir dans le magasin ? Deux exemples de questions pour lesquelles les méthodes prédictives peuvent apporter des réponses. Pour la première question, les algorithmes privilégieront les analyses de corrélation permettant de faire ressortir les associations d’achats (par exemple). Le second sujet peut être traité par les méthodes d’analyse des séries chronologiques : cette discipline de l’économétrie consiste à comprendre l’évolution d’une variable en fonction du temps, à en extraire tendance et saisonnalité, et à appliquer le modèle produit pour prévoir les valeurs futures.
– Mots-clé associés : séries chronologiques, co-occurrence d’achat…
– Exemple de méthodes prédictives: théorie des graphes, ARMA, …

« Tous les modèles sont faux, mais certains sont utiles » (Georges Box).

La boîte à outils des data scientists recèle donc de nombreuses méthodes. Il n’y a pas de méthode meilleure dans l’absolu. C’est pourquoi le data scientist procède souvent par comparaison en appliquant sur un même échantillon différents algorithmes concurrents. Le modèle produisant les meilleurs indicateurs de performance sera retenu. Il est également possible de procéder en combinant les démarches pour tirer le meilleur de chaque algorithme.

Dans l’épisode 2, je vous donnerai la traduction de 10 mots-clé qui vous seront utiles pour dialoguer avec votre correspondant data scientist !

Article rédigé par Muriel Glatin.

  1. Joli travail de vulgarisation ! Bravo.