La tendance Big Data est issue du besoin grandissant pour toutes les entreprises d'identifier les causes, les raisons et les solutions à tous les évènements, et ce afin de créer une valeur supérieure à ce qui était produit par le passé. À cause d'une compétitivité toujours plus forte, quel que soit le secteur d'activité, il est rapidement apparu essentiel de savoir où se trouve la valeur ajoutée de l'entreprise et de connaître les points faibles à améliorer. Dans le même temps, grâce à la numérisation de l'information, beaucoup ont pu accumuler de plus en plus de données qui ont mis en lumière les coulisses de leurs activités : le Big Data était né.
L'expression Big Data se traduit littéralement par grosses données, ou encore méga données. Elle désigne un immense volume de données brutes et non structurées d'origines diverses, stockées sur fichiers numériques. On peut imaginer le Big Data comme la bibliothèque où vous vous rendez quand vous ne parvenez pas à trouver la réponse à une question. L'analyse de données (data analytics), quant à elle, sera un livre illustré de cette bibliothèque. Avec le Big Data, l'important volume d'informations qui transitent, ainsi que la nécessité de vérifier leurs sources, impose de disposer d'une très grande capacité informatique pour le traitement et l'analyse.
Stockage, changement d'approche : comment se mettre au Big Data ?
De par sa nature, le Big Data n'est qu'un vaste inventaire de données accumulées pendant une période plus ou moins étendue. Le stockage de ces données numériques a été révolutionné grâce à l'arrivée du cloud computing et la promesse d'immenses espaces de stockage en ligne. Adieu les baies de disques durs parquées dans le sous-sol des bureaux. Désormais, il existe des entreprises dédiées à la création et à la maintenance d'hébergement dont la capacité se compte en yottaoctets (un yottaoctet équivaut à mille milliards de téraoctets). Disposer d'un espace suffisant est donc aujourd'hui un prérequis facilement rempli.
Pour réussir sa transition Big Data, une entreprise doit aussi changer son modus operandi et adopter une approche orientée data. Cela commence par la numérisation de toutes les données déjà existantes, et l'automatisation de l'enregistrement des nouvelles données. Une société qui travaille sur Internet, comme Google ou Facebook, aura peu de mal à franchir le pas, puisque la majeure partie de son activité repose déjà sur le numérique. Ces entreprises sont d'ailleurs très friandes de Big Data et décident de leur politique et des innovations à rechercher à partir des informations récoltées. Les recommandations de produits à ajouter à votre panier sur Amazon : c'est grâce au Big Data. Les suggestions de personnalités à suivre sur Twitter : encore le Big Data. Les exemples Web ne manquent pas.
Pour d'autres activités, cette approche centrée sur la data représente une opportunité d'ouverture et de transparence envers les utilisateurs. La Ville de Paris en est un très bon exemple. Depuis 2008, elle met en libre accès plusieurs de ses données au public : chantiers, signalisation des feux tricolores, budgets administratifs, détails météorologiques, réseau cyclable, liste des prénoms déclarés à l'état civil, etc. Ces données brutes issues de bases de données municipales peuvent être utilisées pour des recherches scientifiques, l'amélioration des infrastructures ou la création de nouveaux services et métiers.
Comment analyser, interpréter et utiliser des données brutes ?
Un rapide coup d'œil à une base de données vous donnera le tournis : il s'agit d'une interminable suite de chiffres non mis en forme. Afin d'en tirer des connaissances précises et utilisables, il est impératif de filtrer ces données sur plusieurs niveaux. Ce n'est qu'après beaucoup d'épurations et d'analyses, notamment réalisées grâce à l'analytics, qu'il sera possible de tirer profit des informations.
Le Big Data emploie des outils technologiques complexes tels que le parallélisme informatique et l'automatisation des tâches. Ces technologies permettent le traitement des informations de manière simultanée et très rapidement. L'analyste Doug Laney évoque dès 2001 la problématique des 3 V : Volume (nombre considérable de données à traiter), Variété (des informations provenant de sources diverses, non structurées, libres d'accès) et Vélocité (fréquence de création, collecte et partage).
Cette constante recherche d'optimisation du temps de traitement a fait fleurir de nouvelles technologies comme les bases de données NoSQL et des infrastructures dédiées à la distribution des requêtes. Le framework Hadoop est à ce jour la principale plate-forme : il combine un système de fichiers distribué, une base NoSQL et un algorithme de calcul haute performance. En facilitant les prises de décisions en temps réel, en optimisant les processus opérationnels ou en améliorant l'expérience client, toutes ces innovations servent une visée commune : le développement des entreprises à l'ère du numérique.
Faut-il posséder des connaissances techniques pour faire du Big Data ?
Avant de vous lancer dans l'organisation de votre propre base de données, soyez conscient qu'un bon niveau technique est requis, à commencer par une certaine connaissance des technologies impliquées ainsi que des systèmes distribués, comme le parallélisme informatique évoqué précédemment. Connaître plusieurs langages informatiques est nécessaire : Java et Scala pour la programmation, Apache ou Hadoop pour les frameworks. Une appétence pour les mathématiques et les statistiques est bienvenue : vous allez traiter beaucoup de chiffres. Enfin, il ne faut pas manquer de créativité pour rassembler, interpréter et analyser les données récoltées.
En somme, une stratégie Big Data ne s'improvise pas, mais des solutions existent pour toutes les entreprises désireuses de se lancer. Beaucoup ont déjà leurs propres spécialistes en interne. Leurs équipes Big Data sont composées de personnes aux compétences variées, principalement des développeurs et des analystes, dont le rôle est d'enrichir la base de données et d'aider les équipes à mieux comprendre leur activité. De leur côté, les petites structures peuvent compter sur de nombreux prestataires experts du domaine et prêts à partager leurs compétences. Ces acteurs (comme Tableau :)) proposent des outils et services intégrés qui s'adaptent aux besoins de tous types de structures, pourvu qu'elles aient des données à traiter.
Un dernier conseil toutefois : quelle que soit la taille de votre entreprise, gardez à l'esprit qu'il faudra posséder une infrastructure souple et facilement extensible pour anticiper l'évolution de vos besoins.