Tout ce que vous avez besoin de savoir avant de vous mettre au data mining

En 2001, le MIT en faisait l'une des dix technologies émergentes qui devaient changer le monde au XXIe siècle. Le data mining se base pourtant sur des techniques qui existent depuis longtemps. Qu'est-ce qui a changé ? Les capacités de stockage et de calcul offertes par l'informatique moderne, la constitution de gigantesques bases de données par les entreprises ou encore l'apparition de logiciels puissants et accessibles. Suivant la « prophétie » du MIT, le data mining est sorti des laboratoires de recherche pour entrer dans le monde des entreprises.

À quoi ça sert et comment ça fonctionne ?

Le data mining rend les données intelligibles. Aussi appelé fouille de données ou exploration de données, il se base sur des méthodes automatiques ou semi-automatiques, et il utilise un ensemble d'algorithmes issus de disciplines scientifiques diverses telles que les statistiques, l'intelligence artificielle ou l'informatique. Selon des critères définis au préalable, il permet de découvrir des corrélations et d'identifier des modèles, ou patterns, dans de grands ensembles de données. Grâce à ces modèles, on extrait un maximum de connaissances utiles pour l'entreprise.

Quels usages peut-on faire du data mining ?

Gestion de la relation client, optimisation de sites web, détection de fraudes, maintenance préventive ou prédiction d'achats d'un produit : ce ne sont que quelques exemples des multiples applications du data mining. Son utilisation en milieu professionnel permet de résoudre des problèmes très divers, d'optimiser les décisions stratégiques et opérationnelles de l'entreprise, d'augmenter son chiffre d'affaires ou de réduire ses coûts. Dans le domaine commercial par exemple, les sociétés analysent le comportement des consommateurs pour établir des profils complexes, savoir quels produits peuvent intéresser leurs clients et quand ils seront intéressés. À partir de cette analyse, ils peuvent savoir quand et à qui accorder des cartes de fidélité, ou proposer automatiquement des produits en vente additionnelle.

Des exemples concrets ? En combinant des modèles algorithmiques et les données de ses utilisateurs, Netflix détermine ce qui rend une série ou un film populaires. C'est parce qu'elle avait cette connaissance de ses utilisateurs que la compagnie a tout fait pour acquérir les droits de la série House of Cards, dont on connaît aujourd'hui le succès.
La plus grande chaîne de cafés au monde, Starbucks, a souvent réussi l'exploit d'ouvrir un nouveau salon à proximité de l'un de ses autres salons, sans que cela ait une influence quelconque sur le taux de succès de chacun. Un risque inutile ? Pas avec le data mining.

T-Mobile et de nombreux autres opérateurs télécoms utilisent l'exploration de données pour identifier les clients susceptibles de passer à la concurrence. En déterminant les causes principales du turnover de sa clientèle, un opérateur peut mettre en œuvre des solutions efficaces pour garder plus de clients.

Comment se mettre au data mining ?

Le data mining s'est d'abord développé dans les secteurs qui manipulent depuis toujours de grands volumes de données clients : banques, assurances, grande distribution, etc., mais aussi parmi les pouvoirs publics. Aujourd'hui, la fouille de données concerne l'ensemble des secteurs d'activité dès lors qu'il y a suffisamment de données à explorer.

Par où commencer ? Cartographiez toutes vos données accessibles, assurez-vous qu'elles sont fiables et définissez une problématique claire à étudier.

Quelle infrastructure technique ? Les données collectées peuvent être stockées et gérées sur des serveurs physiques ou dans le cloud. Plus la problématique étudiée est complexe, plus il faudra de données. Plus la taille de la base de données est importante et les requêtes complexes et nombreuses, plus un système puissant est requis.

Quel logiciel de data mining ? Le marché est dominé par de gros acteurs comme SAS avec sa solution Enterprise Miner, IBM avec SPSS ou encore Microsoft avec Microsoft Analysis Services. Pour une entreprise qui s'initie à ces méthodes d'analyse et choisit une version basique, le prix d'une application de data mining démarre autour de 15 000 euros. Ce prix monte avec la puissance du système d'information. Il existe également des solutions open source dont les plus utilisées sont Tanagra, Orange et Weka.

Comment analyser les données ? Si Internet regorge de cours passionnants pour tous les niveaux, les entreprises s'en remettront le plus souvent à des spécialistes, analystes data ou business, pour tirer le meilleur parti des données récupérées. Mais la technologie évoluant, il existe aujourd'hui sur le marché des outils de visualisation et de reporting performants, intégrant même parfois directement des fonctionnalités analytiques. Grâce à un tel outil, un commercial ou un manager est capable de récupérer la plupart des informations pertinentes pour son activité, sans l'aide d'un data scientist.

Avant de se lancer, connaître les limites

À la lecture de cet article, une chose cependant doit vous alerter sur les limites à s'imposer dans l'exploration de données. À la fois éthique et légale, cette limite recouvre trois notions importantes : la protection des données personnelles, le consentement de la personne et le droit d'opposition. Autrefois grâce à la CNIL et aujourd'hui plus encore avec le Règlement général sur la protection des données (RGPD), les citoyens-consommateurs européens disposent de droits pour protéger leur vie privée et garder la maîtrise de leurs informations.

Le data mining se base sur des données nominatives qui permettent de créer un profil complet des individus, de leurs goûts et de leurs comportements. Quelles que soient les personnes potentiellement visées par votre démarche (clients mais aussi salariés, partenaires, etc.), vous devez les informer de l'utilisation faite de leurs données et leur donner la possibilité de refuser totalement ou partiellement cette utilisation. Vous êtes aussi responsable de la sécurisation de ces données.

Le RGPD pose donc un cadre légal qui permet d'éviter les dérives. Une telle réglementation ne doit pas être vue comme un frein par les entreprises, mais plutôt comme la régulation d'un secteur encore naissant et de ce fait immature. En somme, la RGPD instaure de nouvelles bases vers une utilisation raisonnée des données, pour créer une relation entreprise-utilisateurs plus saine et transparente. C'est là une attente forte des consommateurs : une relation à la fois plus privilégiée et personnalisée, mais aussi une relation de confiance.