Remerciements
En préambule à ce mémoire, nous tenons à remercier Monsieur Patrice Guillon, notre Directeur de mémoire, qui s’est toujours montré à l’écoute et disponible. Nous adressons également nos plus sincères remerciements aux personnes qui nous ont apporté leur aide et qui ont contribué à l’élaboration de ce travail de recherche, à savoir : - Philippe KUHN, Business Développeur Veille & Innovation chez Digimind, - Henri ISAAC, Professeur associé à l’université Paris-Dauphine, - Luc BYHET - Chargé de l’innovation & stratégie marketing chez Commerce Guys, - Julien MORESCHETTI - Ingénieur avant vente & Architecte solution chez IBM - Bruno DA COSTA OLIVEIRA - Chargé de l’innovation produit chez MYTF1 VOD - Thomas Chiron - Directeur de production chez Napoléon production - Yoan Cabidoche - Data Analyst chez Carat (Groupe AEGIS Media)
Table des matières
introduction ..................................................................................................................... 1 I. Le marché de la donnée ........................................................................................... 5
A. Les différents types de données .............................................................................. 5
1. Les données internes et externes..................................................................................... 5 2. Les données structurées et non structurées................................................................... 11
B. L’enjeu de l’analyse des données internes ........................................................... 13
1. Les pratiques actuelles ................................................................................................... 13 2. Les moyens de demain................................................................................................... 16
II. Big Data .................................................................................................................. 20
A. Caractéristiques et fondements du Big Data ......................................................... 20
1. 2. 3. 4. Le Volume....................................................................................................................... 20 La Variété ....................................................................................................................... 25 La Vélocité ...................................................................................................................... 29 La Véracité...................................................................................................................... 33
B. Facteurs clés de succès .......................................................................................... 35
1. Une méthodologie éprouvée........................................................................................... 36 2. La stratégie de recrutement ............................................................................................ 41
III. Big Data, Big business ? ...................................................................................... 43
A. Maîtriser son marché et sa marque ........................................................................ 43
1. Connaître son marché .................................................................................................... 43 2. Connaître sa marque ...................................................................................................... 44 3. Anticiper des évènements .............................................................................................. 45
B. Connaître sa clientèle .............................................................................................. 46
1. Une granularisation poussée du profil client ................................................................... 46 2. Le Community Management et la méthode de l’embasement ....................................... 48
C. L’avènement du “Marketing on Demand” .............................................................. 50
1. 2. 3. 4. Les outils de recommandation ........................................................................................ 50 Vers une “boutique on demand” ..................................................................................... 54 Un marketing prédictif ..................................................................................................... 55 Le Big Data et la recherche de la Qualité ....................................................................... 58
IV. Difficultés et dérives du Big Data ....................................................................... 59
A. Un principe de prédiction remis en cause ............................................................. 59
1. Les techniques prédictives encore peu rentables........................................................... 59 2. Une durée d’intégration plus longue que prévue ............................................................ 61 3. Une veille améliorée par l’arrivée du Big Data................................................................ 62
B. La difficile conduite du changement au sein de l’entreprise ............................... 64
1. Les entreprises ne sont pas prêtes................................................................................. 64 2. Les organisations internes ne sont pas prêtes ............................................................... 66
3. Le problème majeur que représente la qualité de la donnée ......................................... 67
C. Le Big Data, c’est pour quand ? ............................................................................. 68 D. Cadre juridique et réveil de l’internaute ................................................................. 70
1. Le rôle fondamental de l’internaute ................................................................................ 71 2. Les gouvernements à la croisée des chemins................................................................ 73
introduction
L’avènement du numérique, accompagné des nouvelles technologies mobiles a considérablement augmenté la quantité et la nature des données qui circulent au sein de l’écosystème numérique. A titre d’exemple, 90% des données dans le monde ont été créées au cours des deux dernières années. Les données sont partout, des capteurs utilisés pour collecter les informations climatiques, des messages sur les sites de médias sociaux, des images numériques, des signaux GPS de téléphones mobiles... Elles sont aujourd’hui la représentation mathématique ou statistique d’une activité opérée par un internaute, un détenteur de Smartphone, d’une TV connectée ou tout autre appareil relié à internet. Elles sont le reflet de sa personnalité, de ses usages, de ses préférences d’achats, de ses goûts et de ses envies. Cependant, le terme est vaste et la définition que l’on a des data est souvent floue. Mais alors, de quoi parle-t-on exactement ? Quelles sont les données à disposition des entreprises et quelle est leur maturité par rapport au marché de la data ? De grands acteurs du numérique comme IBM ont, par le passé, apporté bon nombre de solutions technologiques qui permettent aujourd’hui aux entreprises d’exploiter des données. Nous pensons notamment aux outils d’informatique décisionnelle, tels que la Business Intelligence1 qui, depuis le début des années 2000, permet aux entreprises de connaître et de comprendre les ressorts de leurs activités (logistique, commerciale, management de la qualité, etc.). L’arrivée prochaine de “l’internet des objets” (Google Glass, montre numérique, etc.) et la démocratisation massive des plateformes sociales (Facebook, Twitter) va pourtant constituer une étape supplémentaire dans l’exploitation des données. Il s’agira cette fois-ci de récolter, de traiter et d’exploiter des données créées par l’internaute sur des territoires étrangers aux marques. Et, alors que des outils comme la Business
1
Désigne les moyens, méthodes et outils qui permettent de récolter, traiter et modéliser les données de l’entreprise en vue d'offrir une aide à la décision et de permettre à un décideur d’avoir une vue d’ensemble de son activité.
1
Intelligence montrent actuellement leurs limites quant à l’exploitation de ces nouvelles données (commentaires, avis sur les forums, etc.), comment les entreprises vont-elles opérer cette transition qui s’annonce de toute évidence complexe ? Ces changements imposent aux entreprises de trouver de nouvelles solutions pour faire face à cette prolifération des donnés. Lesquelles ? Une des solutions évoquées depuis quelques mois porte le nom de “Big Data” 2 . Véritable Buzzword de l’année 2013 - Indice 1003 selon Google Trends - le Big Data est attendu par les acteurs du numérique comme un véritable messie. Il est, à ce titre, supposé répondre à l’intégralité des enjeux du marché de la donnée, à savoir, la volumétrie, le temps réel, la variété ou encore la véracité des données. Alors, quelles sont véritablement les solutions apportées par le Big Data et quelles sont les principales différences avec les systèmes actuels ? Comment les entreprises vont-elles pouvoir mettre en place des architectures capables de supporter des téraoctets de données sans sombrer dans un marasme géant ? De nombreux intervenants nous ont aidé à répondre à ces questions, qui sont pour la plupart des explications techniques que nous avons tenté de vulgariser au maximum. De la même manière, nous avons souhaité pointer les principaux facteurs clés de succès du Big Data, car, il est clair que, s’il permet de répondre aux défis du numérique, la transition s’annonce ardue. Elle semble pourtant nécessaire. En effet, tout l’intérêt du sujet repose sur les perspectives et les opportunités induites par le Big Data, qui promettent d’ailleurs d’être colossales. Le marché mondial du Big Data est évalué à 24 milliards de dollars à l’horizon 20164. On parle également d’une croissance annuelle de l’ordre de 31,7%. La principale raison de ce succès réside dans la diversité des usages rendus possibles par le Big Data. En exploitant au mieux les données, les entreprises s’offrent de nouveaux leviers de croissance, mais également
2
Le Big Data peut être défini par sa capacité à traiter l’intégralité des données du web et de l’entreprise. Il apporte également des solutions pour résoudre les problématiques de volumétrie et de vélocité. On entend par vélocité la capacité des entreprises à collecter, analyser et exploiter les données en temps réel. 3 le nombre 100 correspond au volume de recherche maximal 4 http://www.zdnet.fr/actualites/big-data-un-marche-de-24-milliards-de-dollars-en-2016-39786119.htm
2
de rentabilité ou de qualité. Des secteurs porteurs comme la criminologie ou la médecine ont déjà adopté le Big Data. Alors, comment la donnée a-t-elle redéfini les usages de secteurs aussi complexes ? Une partie de notre travail de recherche a consisté à comprendre en quoi le Big Data représente une véritable rupture dans les métiers du marketing. En effet, la granularisation5 du client a d’ores et déjà redéfini et rendu obsolète les principes de la moyenne ou du modèle Pareto6. De ce fait, quels sont les stratégies et les usages marketing qui pourront être mis en place grâce à ce travail sur la donnée ? S’agit-il vraiment d’une révolution, et, existe-t-il des points d’ombre au Big Data ? En effet, bien que les experts soient unanimes sur sa capacité à modifier notre vision du client ainsi que l’ensemble de nos méthodes d’analyse, nous avons souhaité en apprendre davantage sur les difficultés réellement rencontrées par les entreprises. Quelles sont, en ce sens, les raisons qui pourraient nous pousser à considérer davantage le Big Data comme un paradigme et non plus comme la révolution attendue ? Derrière ce travail d’évangélisation, il existe effectivement de vraies zones d’ombre, que ce soit en termes technologiques, organisationnelles, et bien sûr juridiques. Remettent-elles pour autant en cause l’existence du Big Data ou vont-elles simplement retarder son application ? A partir des éléments que nous avons recueillis, il est probable que cette deuxième hypothèse soit la plus probable. Pour répondre à cette problématique, des ouvrages comme «Big Data Now» et «Big Data : A revolution that will transform how we live, work and think», ainsi que de nombreuses études numériques (livres blancs, études de marché) et enfin un grand nombre d’articles de la presse généraliste et spécialisée nous ont permis d’appréhender les grands lignes du sujet. Nous avons ensuite assisté, lors de la deuxième étape de recherche, à deux conférences, EBC et Athènes. Elles nous ont apporté des connaissances ainsi qu’une vision plus stratégique et opérationnelle des enjeux du Big Data associés aux métiers du marketing.
5 6
pratique qui consiste à segmenter au maximum un contenu ou un échantillon Modèle qui soutient que 20% des causes produit 80% des effets.
3
C’est pourtant notre troisième phase de recherche qui fut la plus fondatrice, à savoir les entretiens avec Luc Byhet, Henry Isaac, Philippe Kuhn, et Julien Moreschetti, tous en contact direct ou indirect avec les vraies problématiques métiers qu’impliquent le Big Data. D’autres intervenants, comme Bruno Da Costa Oliveira, Thomas Chiron ainsi que Yoan Cabidoche, nous ont permis à travers leurs métiers respectifs, d’affiner notre problématique et de partager leurs visions du Data Management.
4
I. Le marché de la donnée A. Les différents types de données
Les sources s’accordent toutes sur un même point, une « donnée » peut être définie, au sens propre du terme, comme un élément d’information qui sert de point de départ à un raisonnement. Les révolutions technologiques successives ont, depuis, mis en avant une autre définition. Une donnée est principalement définie comme la représentation d’une information en vue d’un traitement automatique. Aujourd’hui, les données représentent la brique de base des sociétés de l’information. Alors que la loi de Moore7, qui prédisait un dédoublement de la capacité de calcul des ordinateurs tous les 18 mois, touche à sa fin, il est temps de reconsidérer l’intégralité des enjeux que représentent les « données » pour les entreprises. Dans cette partie, nous tenterons d’effectuer un audit des données que les entreprises, dans leurs globalités, possèdent pour faire fructifier leurs business.
1. Les données internes et externes
a. Les données internes i. Définition et usages
Les données internes portent sur l’activité de l’entreprise. Elles relèvent de son propre écosystème et englobe l’intégralité de la chaîne de production, de la supply-chain à la production, en passant par les ventes. Elles peuvent être qualitatives ou quantitatives. En mettant en place des outils de “collecte”, une entreprise peut connaître l’état de son business, ses facteurs clés de succès, ses sources d’améliorations et les leviers d’actions à sa disposition. Une première approche consiste à mieux connaître ses
clients, ses concurrents, son marché, ses résultats et sa chaîne d’opération. Cette connaissance se caractérise, par exemple, par la mise en place de KPI (Key Performance Indicator) qui renseigne sur l’atteinte des objectifs et la bonne santé de l’activité. Chez ShowRoomPrivé.com par exemple, l’utilisation du NPS (Net Promoter Score) représente la clé de voute de l’activité. Ce KPI permet de diagnostiquer la fidélité et le taux de recommandation client. L’entreprise peut ainsi identifier les promoteurs ou ambassadeurs sur lesquels la marque peut s’appuyer pour lancer une opération de communication, augmenter sa viralité, et bien d’autres usages. Philippe KUHN, Business développeur veille & innovation chez Digimind, nous en dit plus sur les usages actuels associés au traitement des données.
“Une entreprise est aujourd’hui capable de récolter suffisamment de données pour établir un Dashboard de ses ventes (géolocalisé, par produit, etc.), de ses retours clients (répartition des retours et statistiques associées), de sa chaîne logistique, etc. Elle est ensuite en mesure de proposer des solutions pour augmenter la qualité de son produit ou de son service.” 8
Pour répondre à ce besoin, de nombreux outils de CRM (Customer Relationship Management) proposent des solutions modulables et adaptées à chaque secteur d’activité. Au cours de ces dernières années, l’accès à ce type de solutions est d’ailleurs devenu suffisamment simple et abordable pour que le marché français atteigne les 5 milliards d’euros en 20139. Une société comme Sales Force propose l’accès à ses services sur la base d’un abonnement mensuel et en mode SaaS10. Thomas Chiron, Directeur de production chez Napoléon (Architecture de l’information et optimisation UX), nous explique quels sont les apports de la data dans le domaine de la conception et de l’expérience utilisateur.
8 9
Entretien Philippe KUHN - Business Développeur, veille & innovation chez Digimind - 20 mai 2013
http://www.xerfi.fr/etudes/1sae18.pdf SaaS (Software as a Service) caractérise une solution logicielle installée sur un ordinateur distant dont l’utilisateur peut bénéficier depuis n’importe quel appareil, et depuis n’importe où.
10 L’appellation
6
“Les statistiques de navigation de l’internaute (parcours client, taux de rebond...) sont structurantes sur ce qu’il faut améliorer sur une plateforme Web ou mobile. Le temps où les plateformes se créaient uniquement sur la base de l’intuition est révolu. Aujourd’hui, les statistiques aident à définir les grandes lignes de ce que sera ou ne sera pas une plateforme. Cela peut passer par la valorisation d’une catégorie au fort taux de transformation mais qui génère pourtant peu de trafic à cause de son manque de visibilité... Beaucoup d’usages sont possibles”. 11
L’amélioration des sites Web ou applications à partir des données de parcours clients (les plus visitées, durées, parcours détaillées menant à l’achat, taux de rebond) est une des solutions qui permettent de réduire au maximum la prise de risque. Ce constat est également partagé par Philipe Kuhn.
“La conception d’une bonne application nécessite de bien connaître ses clients. La navigation au sein d’une plateforme et l’usage proposé aux consommateurs doit être en accord avec leurs niveaux d’expertise sur les nouvelles technologies. Une application comme MYTF1 VOD doit respecter l’identité de ses clients pour adapter l’interface produit. Cette connaissance passe aujourd’hui par la récolte de données”. 12
Le marché est suffisamment mature pour proposer des solutions techniques adaptées à chaque secteur d’activité. Parmi eux, on trouve Google Analytics qui propose des moyens simples permettant à toutes entreprises disposant d’une plateforme Web de connaître les statistiques liées à son activité. Une autre approche porte sur les opportunités d’anticipation et de prévision qu’offrent les données. En effet, sur la base d’une analyse historique des données (baisse des ventes, modification du comportement utilisateur), une entreprise peut faire le choix de privilégier un scénario plutôt qu’un autre, et ainsi occuper un nouveau territoire de marque et/ou faire évoluer son offre. Une entreprise qui constate une baisse régulière
11 12
Entretien Thomas Chiron - Directeur de production - Napoléon production - 17 mai 2013 Entretien Phillipe Kuhn - Responsable Veille - Digimind - 22 mai 2013
7
en valeur d’un de ses segments de vente sera en mesure d’adapter son positionnement et son offre par la même occasion. Au niveau marketing, Philipe Kuhn, confirme l’utilité de cet usage.
“L’efficacité des campagnes marketing passe par une analyse segmentée de ses consommateurs et de leurs habitudes d’achat sur la base des données récoltées. Un service marchand récolte ainsi un nombre de renseignements suffisant sur ses utilisateurs pour mieux connaître sa communauté et ainsi développer une stratégie marketing cohérente”.
Sur le marché de l’analyse de la donnée interne, les contraintes de budget ou d’accessibilité se sont considérablement réduites avec le temps. Preuve en est, ¾ des CMS13 disposent de Back-office qui offrent des Dashboard complets regroupant toute l’activité de la plateforme, qu’elle soit commerçante ou non. C’est là qu’intervient la Business Intelligence. ii. La Business Intelligence, l’analyse des données internes
Le traitement des données n’est pas une discipline nouvelle, des acteurs tels qu’IBM, Microsoft, SAP ou Oracle se bousculent pour proposer des solutions informatiques sur le marché de l’informatique décisionnelle, en constante évolution depuis les années 2000. L’objectif de la Business Intelligence est de regrouper et agréger de multiples sources internes de l’entreprise telles que des données financières et comptables, des données clients issus d’un CRM, des données émanant de la production, des données RH, etc. Elle restitue par la suite les résultats sous forme d’un Dashboard regroupant les chiffres-clés. La BI permet de faire des regroupements à différents niveaux
13 Un CMS (Content Management Systems) ou système de gestion de contenu est destiné à la
conception et à la mise à jour dynamique de site web ou d'application multimédia.
8
géographiques d’une usine local, en passant par la gestion d’une région, pour aller jusqu’au management de filiales à l'international. Les résultats peuvent se générer en temps réel. Ils sont comparables à des objectifs fixés par le Top Management et permettent de suivre l’évolution d’un indicateur dans le temps. La BI peut gérer toutes les fonctions internes au sein d'une entreprise. Des clients, au marketing, en passant par les ventes, les produits, les services, la communication, ou les promotions, il offre une vision opérationnelle. Philippe Minier, Directeur des Systèmes d’Information de l’entreprise Kaufman&Broad, spécialiste en promotion immobilière, explique les raisons qui l’ont poussé à adopter des outils de BI :
“Les salariés passaient beaucoup de temps à faire des regroupements de tableaux Excel divers pour prendre des décisions. J’ai donc souhaité réduire le temps d'élaboration des Reporting afin de pouvoir gérer des volumes importants de données tout en conservant de bonnes performances.“14
Une fois ces données internes maitrisées, il convient à l’entreprise de s’ouvrir à des données qui ne résultent pas de son activité. C’est pour cela qu’elle se tournera vers des données externes. b. Les données externes Les données externes sont toutes les données qui circulent autour de l’entreprise et qui ne sont pas générées dans le cadre de l’activité de l'entreprise. Elles sont récoltées à travers le Web, par tous types de média ou bien via des fournisseurs de données (études de marché, base de données clients, instituts statistiques).
Ces données permettent à une entreprise d’obtenir une vision globale de son écosystème, de sa position sur le marché, de sa cible et de son activité, son comportement ou ses habitudes d’achats. Yoan Cabidoche, lors d’un entretien, nous a expliqué de quelle manière les annonceurs média récupèrent et exploitent les informations sur les media TV, presse et radio, fournies par Médiamétrie :
“Nous disposons d’un outil, MMW, qui nous fournit des indices de performance prévisionnelles à partir de données historiques. A chaque fois qu’un annonceur souhaite mettre en place une campagne media, il nous communique sa cible (âge, CSP, localisation...). En retour, nous lui fournissons le media adapté ainsi que les indices de performance associés. Les résultats permettront de prendre une décision quant à la chaîne la plus adaptée, le programme, les plages horaires, ainsi qu’un taux de couverture (nombre de personnes ayant vu l’annonce) et un GRP (Gross Rating Point) qui détermine le taux de répétition du message sur le coeur de cible. Les informations fournies par Médiamétrie se basent sur les 10 dernières années. Pour analyser le ROI d’une campagne, les données nous sont automatiquement communiquées à J+10.” 15
Les données externes sont, de fait, toutes les informations créées et échangées sur des plateformes externes à l’entreprise. Cependant, nous aborderons ci-dessous une nouvelle classification et segmentation des données, celle des données structurées, semi-structurées, et non structurées.
15
Entretien Yoan Cabidoche - Chargé des stratégies média - Carat (Groupe AEGIS Media) - 6 juin 2013
10
2. Les données structurées et non structurées
a. Les données structurées Une donnée structurée est une donnée qui peut être automatiquement intégrée et traitée par une base de données16. Par exemple, un champ de saisie dans un formulaire d’inscription d’une plateforme Web renseigne des informations structurées (nom, prénom, âge) et certaines non structurées mais dont on reconnaît leurs natures aux champs de saisie associés (lieu de naissance). Toute donnée est potentiellement structurée à partir du moment où la base de données censée traiter l’information dispose des prérequis et des références nécessaires. Les données structurées reflètent principalement l’organisation d’une société (ressources humaines, géographique, fonctionnel), son activité commerciale (produits, ventes, clients) ou marketing (campagnes et données opérationnelles, indicateurs de performance). Les données structurées représentent environ 20% des données présentes sur le Web 17 . Elles proviennent en générale directement du système d’information de l’entreprise. Elles sont de ce fait facilement interrogeables et exploitables puisqu’elles sont abritées dans des bases de données relationnelles18. b. Les données semi-structurées Les données semi-structurées sont les fichiers logs19 de sites Web et les données émanant de capteurs intelligents, par exemple les coordonnées GPS d’appareils mobiles. Elles tendent à devenir de plus en plus présentes dans la perspective où les
16 Une base de données est un ensemble d'informations, connexes de manière directe ou indirecte,
enregistrées dans un dispositif informatique. 17 http://www.silicon.fr/hans-joseph-jeanrond-sinequa-80-des-donnees-dune-entreprise-sont-non-structurees84984.html 18 Une base de données relationnelle est un stock d'informations décomposées et organisées dans des matrices appelées relations ou tables. 19 Un fichier log désigne le fichier contenant les enregistrements d’une application, d’une plateformes ou d’un appreil.
11
objets connectés composeront le quotidien de millions de personnes dans les prochaines années (exemples : Google Glass, Google Car, Google Watch, etc.).
c. Les données non structurées Les données non structurées sont des données qui nécessitent d’être traitées pour être intégrées à une base de données. Elles exigent un traitement avant intégration dans la mesure où elles ne peuvent pas être interprétées automatiquement par le système de collecte. Leur stockage, néanmoins, ne pose pas de problèmes majeurs. Les données non structurées sont majoritairement des informations textuelles provenant de différents canaux : ● réseaux sociaux (Facebook, Twitter, etc.) ● blogs et forums ● réponse à des enquêtes clients ● email ou SMS ● fichiers multimédia (son, image, vidéo) Les données non structurées représentent aujourd’hui 75% des données présentent sur internet20. Elles sont le fruit de l’activité de l’internaute sur le Web. On considère donc à juste titre que ce sont des données externes à l’entreprise. Elles ne sont généralement peu voire pas exploitées du fait de la haute complexité de leurs traitements et de leurs difficultés d’intégration à un système d’informations standard. On estime à moins de 10% le taux d’exploitation des données non structurées au sein de l’entreprise21.
B. L’enjeu de l’analyse des données internes
1. Les pratiques actuelles
Dans une étude menée en mai 2010, des chercheurs ont montré que les cinquante sites Web américains les plus visités collectent en moyenne 10 informations par utilisateur et par page. En 2012, lors de la même enquête, il est apparu que la moyenne est passée à 60 informations collectées par utilisateur et par page. Certains sites récoltent même jusqu’à 200 informations par page22. Ces chiffres soulignent clairement la tendance grandissante des entreprises à connaître et analyser l’activité de leurs clients. Nous pouvons également parler de “besoin” puisque comme nous l’avons décrit dans la partie précédente, les données permettent aujourd’hui à une entreprise d’affiner sa stratégie en réduisant ses risques et donc de valoriser ses investissements. Pour collecter cette manne de données, plusieurs moyens sont utilisés. Parmi eux, les cookies (ou “beacon”, “robot”) sont sans doute la plus ancienne et la plus efficace des techniques. Les cookies peuvent être définis comme des mouchards chargés de veiller sur l’activité de l’internaute lorsqu’il navigue sur un environnement numérique. Il s’agit en fait d’un protocole de communication entre un Serveur HTTP23 et un Client HTTP24. Le cookie permet de stocker des informations spécifiques sur l’utilisateur. On en distingue actuellement trois types : § les cookies d’origine : ils servent à mémoriser les articles ajoutés à un panier d’achat ou un service de facturation
22 Big Data Now : 2012 edition, O’Reilly Media Inc, p.47
23 24
logiciel permettant d’exécuter des requêtes logiciel conçu pour se connecter à un serveur HTTP
13
§
les cookies de suivi : ils portent sur le parcours utilisateur (pages fréquentées, durée, etc.) et sur l’activité de l’utilisateur (provenance, articles achetés, etc.)
§
les cookies de fonctionnalité : ils sont utilisés pour mémoriser les préférences et/ou modifications communiquées par l’utilisateur (langue sélectionnée par l’utilisateur, magasins le plus proche, consultations des produits, widgets25, etc.) sur une plateforme donnée.
L’exploitation des données effectuée par les Cookies fait parfois débat. Certains d’entre eux fonctionnent en effet de manière assez opaque, comme le “MC”, qui fait partie de la famille des “cookies tiers”. Le cookie “MC” se charge de transférer les données de l’internaute vers un partenaire commercial afin qu’il puisse améliorer la pertinence des annonces publicitaires à l’intention des visiteurs. L’outil le plus utilisé du marché n’est autre que Google Display, qui capte plus de 50% des recettes publicitaire sur le web.26 Il permet d’afficher une publicité sur un site tiers à partir d’un site déjà visité par l’internaute. Par exemple, l’internaute se rend sur Sarenza.com et consulte plusieurs modèles de chaussures, il va par la suite quitter le site et se rendre sur Youtube, où il retrouvera dans l’espace publicitaire, les chaussures qu’il a regardé. Google, lors de votre passage sur Youtube, va analyser les cookies tiers présents dans votre historique, et faire ressortir les produits que vous avez visités sur Sarenza.com. Évidemment, les cookies ne sont qu’un moyen parmi d’autres de récupérer des données. Aujourd’hui, de nouvelles technologies permettent de disposer de nombreux points de contacts avec le consommateur. En effet, on couple ces techniques avec d’autres plus récentes et en cours de démocratisation comme la technologie RFID27 (Radio Frequency Identification) qui stocke sur un serveur dédié toute information
25
Outil qui permet d'obtenir et visionner des informations.
Cette technologie permet d’identifier un objet, d’en suivre le cheminement et d’en connaître les caractéristiques à distance grâce à une étiquette émettant des ondes radio, attachée ou incorporée à l’objet.
14
(consommation, partage) créée à partir d’un capteur distant. La technologie RFID offre la possibilité aux constructeurs de disposer d’un véritable réseau de traçabilité des objets, quels qu’ils soient. Jean Christophe Lecosse en dit davantage sur les hypothétiques usages liés à la RFID28.
“On est seulement aux prémisses de telles applications, mais on pourrait imaginer un vêtement muni d’une puce permettant de le localiser rapidement dans son dressing grâce à son smartphone, ou qui indique à quand remonte son dernier passage à la blanchisserie”
L’avènement de la mobilité et l’adoption des Smartphones ou tablettes ont également permis aux technologies de géolocalisation de devenir incontournables au point d’être systématiquement utilisées à travers les applications actuelles et surtout au niveau hardware29. Des sociétés comme Facebook, Twitter et autres réseaux sociaux ont pris un autre virage en proposant des plateformes qui s’approvisionnent directement des données créées par ses utilisateurs. Au vu de l’usage de ces plateformes et de leurs taux d’utilisation, on peut présumer que, structurellement, la création et le partage d’informations passeront au cours des prochaines années essentiellement par le biais de réseaux sociaux.
2. Les moyens de demain
a. L’internet des objets De nouvelles tendances vont prochainement être appliquées sur des marchés de masse et permettront aux entreprises d’en savoir encore plus sur leurs cibles. Parmi celles-ci, on retrouve les objets connectés. Ils reposent sur un service de stockage en Cloud qui héberge des données d’usages et de consommations portant sur l’utilisation de l’objet par le client. Ces produits, qui multiplient les points de contact avec l’utilisateur, permettent de densifier et d’approfondir cette relation à travers une connexion quasi sans coupure qui prend en compte les usages des consommations encore peu ou pas analysés. Dans son dernier rapport 30 , la société Hadoop indique d’ailleurs que le nombre d’objets connectés a d’ores et déjà dépassé le nombre d’ordinateurs. De son côté, Ericsson, le géant des équipements de réseaux mobiles, prédit qu'il y aura 50 milliards d'objets connectés31 (voitures, frigos, capteurs intelligents, etc.) dans le monde d'ici à 2020, contre une douzaine de milliards aujourd'hui. Actuellement, les TV connectés sont la première concrétisation de cette tendance. De nombreux constructeurs comme LG ou Samsung disposent déjà de gammes de produits commercialisés. Deux autres secteurs sont sur le point d’être intrinsèquement modifiés par ces nouveaux usages, l’habitat et l’automobile. Lors du dernier CES (Consumer Electronic Show), de nombreuses innovations ont été présentées dans le domaine de l’habitat. Nous avons assisté à des annonces de nouvelles fonctions telles que le contrôle à distance de la température, de la luminosité, des appareils électroménagers et d’autres informations comme le nombre de personnes présentes dans un habitat et leurs occupations. La maison deviendra bientôt un lieu entièrement connecté où les habitudes de vie seront collectées et analysées en flux continu.
30 Hype Cycle for Big Data, 2012, Gartner, 2012, 100p.
31
Les perspectives sont peu ou prou les mêmes dans le domaine de l’automobile. Lors de ce même CES, le P-DG d’Audi, Rupert Stadler déclarait que :
“Le futur de la voiture n’est pas un système où toutes les informations sont gérées en local, mais plutôt via une connexion permanente. Recherche, navigation, applications utilisées dans le véhicule seraient donc communiquées à un serveur Web dédié. On parle d’une voiture connectée susceptible de répondre aux besoins de son conducteur mais également de renvoyer tous types d’informations comme la gestion de la vitesse, de la lumière, les points d’arrêt ...” 32
La tendance est déjà en marche avec les récentes annonces de Google concernant ses Google Glass. La généralisation de capteurs en tous genres pour suivre nos faits, gestes et états, qu’Olivier Ezzrati, spécialiste des TIC, a caractérisé « d’API humaine »33, est en pleine explosion. Le marché ne peut que valider ce constat puisque la majorité des constructeurs spécialistes de l’innovation ont déjà pris le chemin de la numérisation complète de leurs offres. Il existe ainsi une forte probabilité pour que le monde de demain soit régi majoritairement par la création et la transmission de données, que l’on peut d’ores et déjà nommé, “d’or gris”34.
b. Les limites actuelles
Comme nous l’avons vu, la plupart des entreprises disposent des infrastructures nécessaires pour collecter et codifier chaque action en donnée, afin de la transformer en information. Une fois synthétisée, cette information sera exploitée dans un objectif
32 33 http://www.egmcartech.com/2011/01/06/audi-ceo-rupert-stadler-delivers-2011-ces-keynote-speech/ http://www.oezratty.net/wordpress/2012/leweb-2012-services-connectes-aux-objets/ 34 Le big data est souvent appelé « Or gris » en référence aux perspectives de business qu’il est susceptible de générer, au même titre que l’or noir.
17
d’amélioration des processus internes. L’arrivée de l’informatique décisionnelle telle que la Business Intelligence a permis ces évolutions. Cependant, alors que les données non structurées représentent environ 80% de la masse de données totale présente sur le Web, leur exploitation est actuellement trop complexe. Philippe KUHN explique que :
“Les données non structurées représentent un vrai challenge pour 99 % des entreprises. Leur valeur est immense mais techniquement, leur exploitation est si complexe qu’il est impossible de les faire « parler ». Leurs variétés, leurs multiplicités, leurs sources et leurs volumes rendent leurs traitements trop complexes”.35
Le marché est donc en attente de perspectives et d’évolutions techniques capables d’apporter des possibilités de traitement plus efficaces et plus adaptées. Ces besoins se traduisent aujourd’hui par une forte volumétrie de données, ainsi qu’une nécessité accrue de traitement rapide et plus précis. Les sites e-commerce, par exemple, ont un vrai besoin de réactivité puisque c’est cette même réactivité qui leur permet d’apporter des solutions et des réponses aux besoins clients, qui sont aujourd’hui de plus en plus volatiles et complexes. Dans l’évolution du marketing, on observe deux phases assez distinctes. La première a obéi à la règle du “One to many”. On parle ici des premiers pas du marketing et des périodes de média de masse. Un même message était alors utilisé pour l’ensemble des clients, sans aucune distinction. La deuxième phase obéit à une logique de “One to One”. Cette phase se traduit par la recherche d’un message adapté à chaque client. La logique de segment arrive ainsi à son terme. Le but des entreprises est de proposer un produit adapté à chaque client (on pense notamment aux différents outils de recommandation déjà mis en place). Cette
35
Entretien Philippe KUHN - Business Développeur, veille & innovation chez Digimind - 20 mai 2013
18
logique, implique justement d’en connaître beaucoup sur son client (volume des données). Il convient ensuite d’intégrer les nouvelles données le concernant le plus rapidement possible, de manière à disposer de propositions à jour (rapidité de traitement des données) et également d’intégrer dans ces données des sources diverses qui viennent étayer et valider ces recommandations (variété des données et des sources). Dans cette recherche de granularité36 du client, les entreprises sont donc confrontées à des limites techniques fortes. Quelles sont, alors, les solutions qui pourront permettre de répondre à ces différents besoins ? Parmi les solutions évoquées depuis quelque temps, le “Big Data” est un concept qui fait son chemin. Mais de quoi parlons-nous exactement ?
36 La notion de granularité définit la taille du plus petit élément, de la plus grande finesse d'un système.
Quand on arrive au niveau de granularité d'un système, on ne peut plus découper l'information.
19
II. Big Data A. Caractéristiques et fondements du Big Data
On peut littéralement qualifier le Big Data comme une solution permettant de traiter un grand volume de données variées, véraces et avec une forte vélocité. Ainsi, le Big Data se définit généralement par la règle des 4V, à savoir : ● le Volume, ● la Vélocité, ● la Variété, ● la Vélocité.
1. Le Volume
a. Le Big Data répond à une volumétrie nouvelle La croissance des données est comparable à la fonction exponentielle. A titre d’exemple, on comptait plus de 2,7 milliards d’internautes dans le monde début 2013, alors qu’ils n’étaient que 147 millions en 199837. La courbe de volume des données a évidemment suivi cette évolution. L’année 2005 a été marquée par l’apparition du Web 2.0 grâce aux nouveaux réseaux et l’émergence du Web social. Depuis cette date, le web est devenu une plateforme géante, en mouvement constant, qui accumule des milliards de messages sous toutes leurs formes, émis par une multitude d’acteurs et d’objets connectés. La capacité de stockage mise à disposition des internautes et des consommateurs témoignent d’une manière marquante cette évolution du marché (augmentation des espaces de stockage des boites e-mail, augmentation croissante des capacités de stockage des disques durs, démocratisation du Cloud grand public et professionnel).
C’est au tour des entreprises de s’adapter à l’état du marché. D’après Henry Isaac, chercheur et professeur associé à l’université Paris-Dauphine,
“Le Big Data est apparu à un moment où les data sont devenues si volumineuses qu’il était indispensable de repenser les bases de données existantes. Auparavant, il était très compliqué de collecter plusieurs centaines de téraoctets et de les analyser. Pourtant, les données étaient bel et bien là. Le Big Data offre certaines perspectives grâce à des moyens techniques plus puissants”. 38
Pour reprendre les termes de Bruno Walther, CEO de Captain Dash, une agence spécialisée dans le Big Data, “On peut considérer le Big Data comme un énorme « fichier à plat » qui permet de traiter plusieurs milliers de données” 39 (l’équivalent d’un tableau Excel de plusieurs dizaines de milliers de lignes et de colonnes). Cette évolution du “fichier Excel” collecte des données depuis de nombreuses sources internes et externes. Ainsi, les données du Web, comme celles récupérées depuis les objets connectés, sont littéralement “aspirées”, qu’importe le volume et le nombre, pour être stockées. Grâce à des solutions techniques que nous détaillerons plus bas, le Big Data permet de briser ce qui représente un des principaux freins des entreprises : l’analyse d’un grand nombre de données, qui, par ailleurs est également l’un des plus grands enjeux de demain. Henry Isaac nous explique en quoi le Big Data permet de faire face à cette contrainte.
“Nous sommes aujourd’hui en mesure d’exécuter un nombre de requêtes encore jamais vu. On assiste à une remise en cause de la modélisation. En effet, plutôt que d'exécuter les modèles de calcul un par un, on va pouvoir envoyer plus de 100 000 modèles en une fraction de seconde afin d’arriver au même résultat. Autrefois, les développeurs étaient effectivement dans l’obligation (du fait des contraintes techniques) de trouver le modèle de calcul permettant de résoudre un problème X, c’est à dire la mise en place d’une
38 39
Entretien Henry Isaac - Professeur Associé Paris Dauphine - 28 mai 2013 https://www.youtube.com/watch?v=u3uH6MYrAmI
21
réponse générique à un problème donné, il leur est aujourd’hui possible d’effectuer un nombre suffisamment grand de requêtes pour trouver cette même réponse en un laps de temps réduit.40”
C’est par exemple grâce à la technique du Bootstrapping41 qui consiste à faire de l’inférence statistique sur de nouveaux échantillons à partir d’un échantillon initial, que Google a pu lors de l’année 2011 détecter l’apparition et mesurer la contamination de la grippe au niveau mondial. C’est également grâce à cette technique que “le prodige du Big Data”, Nate Silver, a “prédit” l'élection de Barack Obama lors de sa dernière campagne présidentielle. Beaucoup de spécialistes considèrent à ce titre que l’application de ce type de pratique est aujourd’hui rendue possible grâce aux outils Big Data. La démarche intellectuelle n’est pas très éloignée de ce que l’on peut trouver dans le domaine de la statistique ou des sondages, car, dans ce cas de figure, seule la capacité de calcul varie. Ici, et plus particulièrement dans le domaine de Google et de la campagne d’Obama, il s’agit essentiellement de valider une hypothèse observée dans un échantillon réduit au sein d’un échantillon, qui, pour le coup, peut s’avérer être aussi vaste que l’écosystème numérique. En mentionnant la firme Google, nous abordons un sujet plus complexe au sujet du Big Data : son accessibilité. D’après une étude menée au près de 1000 entreprises42, par le cabinet ESG au cours de l’année 2012, il a été démontré que le principal défi pour les entreprises portait sur la gestion et le stockage des données. Même si elles conviennent que le Big Data apporte des solutions dans le traitement de leurs données, il les confronte également à de nombreux challenges techniques. Dans la même étude, on apprend également que les deux besoins dont elles sont les plus demandeurs
40 Entretien Henry Isaac - Professeur Associé Paris Dauphine - 28 mai 2013
41 42 http://www.entrepreneur.com/encyclopedia/bootstrapping http://www.esg-global.com/blogs/ingest-to-insight-big-data-vendor-of-the-year-2012-and-2013-outlook-finalists-cloudera-ibmopera-solutions/
22
portent sur une meilleure réactivité (55%) ainsi que sur des analyses prédictives plus rapides (44%). b. Des solutions Open source qui s’adaptent au marché Pour répondre à ces difficultés, des sociétés ont mis en place des logiciels Open Source43 spécifiquement conçus pour le Big Data. Parmi eux, nous pouvons citer le plus célèbre, Hadoop, qui fait partie de la solution Big Data proposée par IBM. Cette plateforme associe technologies classiques bien adaptées aux tâches structurées et répétitives ainsi qu’aux nouvelles technologies, idéales pour l'exploration, la reconnaissance de données et l'analyse de données non structurées. Hadoop est souvent considéré, à tord, comme une base de données. En réalité, il s’agit d’un système de fichiers organisant les données, capable d’uploader et de trier des volumes de données très importants (de l’ordre de plusieurs dizaines de téraoctets en quelques secondes). De la même manière, Hadoop est un “écosystème d’analyse” et non pas une solution uniforme et standard. Hadoop répond à deux besoins essentiels : le stockage et le traitement des données. Charles Zedleweski, Vice-Président Produit chez Cloudera cite 3 besoins auxquels répond Hadoop :
“Le premier est évidemment le traitement massif des données. Le deuxième répond à un besoin plus spécifique qui porte sur la transformation des données vers un format structuré. Enfin, troisième besoin, celui de “l’analytique avancée”, c’est à dire l’élaboration de modèles prédictifs (lutte contre la fraude, type de publicité à proposer en ligne...) dans des environnements divers”.44
La solution de « Stockage des données » s’appuie sur un système de fichiers distribués (HDFS pour Hadoop Distributed File System). Ces systèmes sont déjà développés sous
d’autres formes, cependant, ils proposent une particularité bien spécifique. Il répartit en effet le traitement des données sur un grand nombre de nœuds serveur45, offrant ainsi une certaine robustesse aux systèmes en place. Hadoop repose sur un paradigme appelé « MapReduce ». MapReduce répartit les données entre un serveur central et un réseau de serveur moins puissants. Les requêtes peuvent, de ce fait, être traitées et réparties en fonction de leurs natures (volume, complexité). Les serveurs secondaires (esclaves) traitent les données et envoient leurs réponses aux serveurs principaux (ou maîtres), qui génèrent ces réponses via une « sortie principale ». Le fait que plusieurs nœuds fonctionnent en simultanés permet aux données d’être traitées et chargées très rapidement. Cette solution est aujourd’hui utilisée par Amazon, AOL, Apple, Facebook, Microsoft, Twitter ou Yahoo!.
c. Le Cloud Computing Jusqu’à l’apparition du Cloud, les données étaient uniquement traitées de façon locale dans des Data Warehouse. Le Cloud permet aujourd’hui d’effectuer ces activités d’analyse, de production, et de stockage dans un serveur externe, loué à une société tierce. De nombreux acteurs présentent aujourd’hui leurs solutions Cloud pour les entreprises. IBM a, pour sa part, une nette avance sur le marché français et américain, et plus généralement sur le marché mondial. Au delà du fait qu’il présente de réels avantages pour les petites entreprises, il va permettre de faciliter la mise en place de systèmes informatiques complexes en les externalisant, mais également en réduisant considérablement les investissements financiers et humains. Le Cloud permet en effet de réduire les coûts de structure et d’avoir accès à un espace de stockage modulable en fonction de la charge de données
45
un nœud serveur repose sur un ou plusieurs serveurs liés à un ou plusieurs ordinateurs qui permettent une gestion globale de
l’information dans le but d’augmenter la disponibilité, faciliter la montée en charge et permettre une répartition de la charge.
24
à traiter. Pour pouvoir exploiter cette manne d'informations et ces gigantesques flux de données, d'importantes capacités de calcul sont nécessaires, le Cloud Computing permet donc de "louer" une puissance de calcul et un espace de stockage adapté pour un traitement Big Data. En effet, seuls peu d'acteurs sont en mesures d'effecteur ce traitement avec leurs propres infrastructures, au vu des équipements informatiques nécessaires. On peut bien sûr parfaitement faire du Big Data sans Cloud, mais le volume de données à disposition des entreprises et la difficulté de mise en place d’infrastructures ainsi que le coût associé rend évidemment la solution extrêmement avantageuse. La démocratisation du Cloud est donc en passe de se concrétiser, et il permet au Big Data de trouver un nouveau levier de développement, notamment des raisons d’engagement de durée, de tarification à l’utilisation, stockage et volume évolutif en fonction des besoins. Évidemment, la liste de ces facteurs est non exhaustive. Il est clair, pourtant, que ces évolutions tendent à favoriser l’usage du Big Data. Ce traitement volumineux de données peut être considéré comme la principale caractéristique du Big Data, pourtant, il reste encore trois critères essentiels.
2. La Variété
a. La variété des données, un enjeu considérable Nous l’avons vu dans la partie précédente, les données sont variées (structurées, semistructurées, non structurées). Parmi elles, les données non structurées ont toujours représenté un véritable enjeu pour les entreprises. Ce sont, en effet, celles qui possèdent le plus de “valeur” mais dont le traitement apparaît comme quasiment impossible dans la mesure où leur nature est incompatible avec “l’intelligence informatique.”
25
Le Big Data repose aussi sur l’Open Data, synonyme de “mine d’or” pour cette nouvelle tendance de la libération des données publiques, dont les Etats-Unis sont leader en la matière. Ce mouvement a précédé l’arrivée du Big Data et procurent aux entreprises des données fraîches encore inexploitées par le secteur privé. On retrouve parmi elles des indicateurs démographiques, sociologiques et médicaux qui concernent la population, mais aussi des informations sur les transports publics, l’urbanisme. En structurant ces données, de nombreuses start-up sont nées et proposent des services innovants, utiles aux citoyens, et prennent en quelque sorte le relai des services publics. Il va s’en dire que ces données représentent une manne très qualitative. Une base de données dispose de tables46, qui correspondent à des valeurs (nom, prénom, numéro de téléphone, liste déroulante). Elle ne peut intégrer que des données structurées. Les données non structurées comme avis consommateurs ou les commentaires de forums sont de facto plus complexes à collecter et stocker. A titre d’exemple, si une entreprise décidait de récupérer 100 avis et qu’elle les intégrait dans l’une de ses tables. Que donnerait l’extraction de ces données ? Pas grand chose car elles ne seraient pas analysables et reconnaissables par des systèmes classiques d’exploration de données, on ne pourrait donc en tirer aucune statistique ni aucune information précise. Sur quel levier s’appuie le Big Data pour aller au-delà de cette contrainte ?
b. Une analyse intelligente de l’information L’objectif est ici de se servir des points de redondance sémantique. Une phrase est dotée d’un sens qui trouve sa racine autour de l’articulation d’une suite de mots. C’est justement cette articulation qui apporte son sens à une phrase. Il existe plusieurs dizaines voire centaines d’articulations et de formules possibles. Pourtant, le sens
restera inchangé, c’est sur ce constat que les solutions Big Data ont développé des outils qui permettent une analyse poussée des données non-structurées. Par exemple : “cette entreprise escroque ses clients depuis 10 ans” et “cette société vole la clientèle depuis des années” sont deux phrases qui possèdent un sens proche, pourtant, les mots utilisés sont différents. On remarque cependant une typologie commune autour des mots qui composent cette phrase : escroquerie, clients, société. C’est comme ça que fonctionne le Big Data, autour de typologie de mots. En transformant des données non structurées en “typologies structurantes”, le Big Data apporte une réponse à l’analyse des données externes. Cette possibilité est aujourd’hui explorée et mise en place par de nombreux outils. Parmi eux, on retrouve Hadoop, comme nous le disions auparavant, il offre la possibilité de traiter une multitude de données simultanément. Cependant, sa force réside également dans sa capacité à traiter plusieurs types de données, structurées, semi-structurées et non structurées. Hadoop est de ce fait une plateforme pour données multi-structurées. Julien Moreschetti, Ingénieur avant-vente et Architecte de solutions techniques chez IBM nous explique que :
“Chaque phrase dispose d’une particularité, dans sa tournure, et avec une opinion négative ou positive qui peut être distinguée. A partir de ces éléments, le Big Data va procéder à un classement. Il n’est pas question ici de classer des données dans des tables aussi précises que celles qui gèrent les données structurées. Cependant, les outils Big Data permettent de trouver des redondances dans les données afin de les classer, les segmenter. Cette segmentation va permettre de les faire “parler”, de les interpréter. Sans pour autant rentrer dans une analyse poussée, en les regroupant par thèmes, nous sommes aujourd’hui capable de donner un sens à tous types de données. Les outils mis en place, par exemple par IBM, permettent d’observer ce qui se passent sur la toile, les réseaux sociaux, les forums. Ces techniques fonctionnent évidemment sur la base d’un grand nombre de données. C’est ce volume qui va permettre de faire ressortir une logique, une tendance”.
27
Le Big Data permet donc de scruter les données non structurées Web dans le but d’en savoir plus sur un marché donné :
“Dans l’exemple du secteur bancaire, je suis par exemple capable de connaître ce qui se dit sur chacun des acteurs grâce un Dashboard47 défini par des indicateurs. Ces données sont récupérées depuis le logiciel SMA48 (Social Media Aggregator) et traitées grâce à un logiciel de type Hadoop”.49
Parmi ces indicateurs évoqués par Julien Moreschetti, nous trouvons : “Share of Voice overview” : de qui parle-t-on le plus ? Exemple : Bank Of America : 23%. Ici, 23% des données actuellement partagées sur le marché bancaire concernent la société Bank of America. “Share of Voice sentiment distribution” : comment parle-t-on de la marque ? Exemple : 67% d’opinion positive Ici, 67% des données actuellement partagées autour du sujet de la société Bank of America sont des avis positifs. “Share of Voice trend” : évolution sur une période donnée Ici, un graphique permet de connaître l’évolution de la masse de données partagée sur un thème au cours d’une période de temps donnée. “Share of Voice by sources” : depuis quelles sources ? Exemple : Facebook 23% SMA permet de savoir depuis quelles plateformes les données sont échangées. Cette technique ne peut être mise en place qu’après une sélection au préalable des plateformes.
47 48
Résumé des données associées à des indicateurs sous la forme d’images, graphiques, etc. https://www-304.ibm.com/social/aggregator/ 49 Entretien Julien Moreschetti - Ingénieur avant vente & Architecte solution - IBM - 5 juin 2013
28
“Share of Voice by geography” : depuis quelles zones géographiques ? Exemple : New York : 13% Ici, 13% des échanges proviennent de l’état de New York. L’analyse de ces différentes variables va permettre d’identifier des signaux faibles. C’est à dire l’analyse des opportunités ou menaces du marché de manière prédictive par la mise en place d’une veille.
3. La Vélocité
a. Garantir la performance Julien Moreschetti nous explique le problème.
“Généralement, on récupère les fichiers, on les agrège, puis les stockent dans un Data Warehouse50. C’est le fonctionnement basique. La variété des données implique que l’on va chercher plus d'informations qu’auparavant, et donc qu’on dispose d’un volume de données beaucoup plus important. Sans modifier le fonctionnement du traitement de données, on risque deux choses. Premièrement, une dégradation conséquente des performances, ou, deuxièmement, une explosion du système”.51
La question est donc la suivante : comment traiter un grand volume de données provenant de sources variées si la capacité d’affichage et de traitement n’est pas au rendez-vous ? Au delà du “comment”, nous pourrions également nous poser la question du “pourquoi”. La mise en place de solutions Big Data sans une notion de vélocité ne seraient être entièrement remis en question. Néanmoins, ses usages et sa pertinence s’en trouveraient, alors, fortement réduits. Le Big Data implique nécessairement un besoin de performance. C’est cette même performance qui va offrir une synergie entre la variété et le volume.
50
Serveur informatique dans lequel est centralisé un volume important de données consolidées à partir des différentes sources de renseignements d'une entreprise 51 Entretien Julien Moreschetti - Ingénieur avant vente & Architecte solution - IBM - 5 juin 2013
29
L’efficacité, la rapidité et la pertinence sont permises grâce à plusieurs évolutions majeures qui accompagnent l’évolution et l'émergence de ce phénomène.
“Hadoop répond en partie au problème grâce à sa capacité à repartir les requêtes en fonction de leurs priorités et leurs natures (volume, complexité). Cependant, un outil comme Streams, développé par IBM permet de répondre plus efficacement à cette problématique. Il réduit considérablement le coût et la complexité des environnements actuels d’intégration de données. Streams va donc transférer toutes les transformations vers un moteur ETL (Extract-Transform-Load) qui va stocker les informations en cache52. Vous réduisez ainsi les opérations de staging des données 53 et/ou l’envoi des transformations dans la base de données”.54
Comme son nom l’indique, l’ETL 2.0 comme l’appelle Steven HADDAD, ingénieur chez Syncsort, le moteur ETL va d’abord traiter et filtrer les données. Pendant ce temps, ces dernières sont stockées en cache. Une fois le filtrage effectué, les données seront ensuite stockées dans le Data Warehouse. L’ETL 2.0 redéfinit l’intégration de données dans les entreprises, exploite la problématique du Big Data pour la transformer en avantage compétitif. Évidemment, Streams n’est qu’un exemple parmi d’autres.
52 Une mémoire cache enregistre temporairement
des copies de données provenant d'une autre source de donnée, afin de diminuer le temps d'accès d'un matériel informatique à ces données. La mémoire cache est plus rapide et plus proche du matériel informatique qui demande la donnée, mais plus petite que la mémoire pour laquelle elle sert d'intermédiaire. 53 Espace de stockage temporaire 54 Entretien Julien Moreschetti - Ingénieur avant vente & Architecte solution - IBM - 5 juin 2013
30
D’autres évolutions technologiques permettent cette vélocité. Parmi elles, l'émergence des bases de données NoSQL. b. L'émergence du NoSQL Pour aborder les bases de données NoSQL, il convient de rappeler ce que sont les bases de données SQL. Les données utilisées et collectées par une entreprise sont stockées et partagées dans des systèmes de gestion de bases de données (SGBD). Ces SGBD permettent, de stocker et partager, mais également de retrouver, trier, modifier et ainsi d’effectuer des reportings depuis ces mêmes données. Un SGBD regroupe donc un ensemble d'informations, classé et regroupé grâce à des tables. Ces données sont reliées logiquement entre elles. On dit qu’elles sont relationnelles. MySQL est donc un système de base de données relationnelles. Les SGBD sont depuis toujours largement répandus dans les structures d’entreprises. Elles sont généralement dimensionnées en fonction de l’entreprise et correspondent à des besoins précis en terme d’utilisateurs, de taille, et de type de données. Face à cette nouvelle volumétrie, le MySQL montrent cependant des limites en terme de temps de réponses et de répartition des charges. A titre d’exemple, un site Web disposant de plusieurs millions de visiteurs par jour et traitant un nombre de requêtes importantes exigerait alors la mise en place d’une architecture coûteuse et des compétences en optimisation de serveurs importantes. Cette nouvelle volumétrie implique également 3 notions stratégiques pour une entreprise, la conservation de la vélocité des tâches de production nécessaires au bon fonctionnement de l’entreprise (production), l’utilisation des données pour granulariser au maximum les recherches (analyse), et enfin la conservation de sa fonction de stockage et de sauvegarde (stockage).
L’enjeu se résume pour l’entreprise à cette simple question : comment conserver une forte performance sur ces trois activités (production, analyse, stockage) alors que le
31
volume de données à traiter tend à se démultiplier ? Dans cette perspective, selon laquelle le taux d’utilisation des interfaces numériques tend à augmenter considérablement, il convient de repenser l’architecture des bases de données et leurs fonctionnements. Ce rôle est aujourd’hui rempli par les bases de données NoSQL, conçues spécifiquement pour des usages volumineux, véloces et variés. La technologie NoSQL va ainsi dissocier les activités de production, d’analyse et de stockage en répondant en même temps aux besoins de scalabilité55, c’est à dire de montée en charge. Cette montée en charge s’effectue de manière qualitative en ajoutant une valeur (on touche ici davantage à des logiciels comme Hadoop) et quantitativement (hausse du trafic d’une plateforme Web).
Le système est simple, on utilise la donnée que l’on souhaite et on la croise avec une autre, sans pour autant qu’il soit nécessaire que ces deux tables aient été paramétrées ensemble. Ces bases de données sont non relationnelles et permettent de mettre à plat l’ensemble des tables. Cette solution a vu le jour sous l’impulsion de firmes comme Twitter, Facebook, Amazon ou Google qui génèrent plusieurs téraoctets de données par jour et qui par conséquent avaient de vrais besoins asynchrones 56 dans la gestion des requêtes. Cette même solution va permettre de donner un sens aux données sans remettre en cause les performances des plateformes Web.
55
Capacité que possède l’architecture pour évoluer en cas de montée en charge
56 Du point de vue du développeur, une méthode est asynchrone si elle est lancée en parallèle de l'exécution
du programme. Le programme continue donc à s'exécuter en attendant la réponse de la méthode asynchrone.
32
4. La Véracité
L’objectif du Big Data est, comme nous l’avons dit précédemment, de profiter de l’incroyable richesse que représentent les échanges conversationnels sur les réseaux sociaux (Facebook, Twitter, Foursquare, etc.) et autres média pour pouvoir collecter, analyser, croiser ces données avec les données internes de l’entreprise. Depuis l’avènement du numérique et des plateformes sociales, ce sont bel et bien les internautes qui “ont le micro” selon la célèbre expression de Tara Hunt, experte en ecommunication. Ce sont de ce fait, les internautes qui génèrent les contenus et les informations. Et c’est justement parce qu’elles sont émises par le client qu’elles nécessitent un travail de qualité et de vérification. Les données en effet, peuvent s’avérer être erronées ou fausses. En effet, comme le montre le rapport “The Real-World Use of Big Data” 57 par IBM et la Saïd Business School de l’université d’Oxford, la majorité des entreprises ont des doutes sur la fiabilité des données récupérées sur le Web grâce au Big Data. C’est un fait, le Big Data, comme tous les autres outils existants, ne permet pas de différencier une information vraie d’une information fausse ou erronée. Même en effectuant un tri en amont du traitement, comme nous avons pu le voir grâce aux outils d’ETL notamment, la “vérité” est une notion trop subjective pour être aborder au sens stricte du terme. Ainsi, il est clair qu’une part d'incertitude sera toujours présente lorsqu’il s’agira de traiter les données non structurées de l’écosystème numérique et plus particulièrement des réseaux sociaux. Le Big Data implique d’accepter cette incertitude. Néanmoins, pour appréhender au mieux cette part de “faux”, il est nécessaire de mettre en place une “contextualisation des données”. Julien Moreschetti nous explique que :
“C’est l’évolution des données qui va essentiellement renseigner une entreprise sur la véracité des données. Aujourd’hui, le meilleur moyen d’exploiter des données en tenant compte de cette incertitude est d’accepter une marge d’erreur, comme dans toute
pratique statistique. Sur 10 000 commentaires recueillis depuis Facebook, je sais environ que 15% d’entre eux seront soit erronés, soit faux. Pour pallier cette incertitude, les entreprises doivent cibler les données dans un but précis. Par exemple le bruit généré autour d’un produit ou d’une marque. C’est l’évolution des différents segments de données (positif, négatif, géographique) qui va permettre de faire parler les données”.58
Ce sont donc les critères de tendance et d’évolution des données qui vont permettre de les qualifier comme théoriquement viables et potentiellement exploitables. Ici, c’est davantage le volume qui va permettre de minimiser au maximum cette contrainte de véracité. En effet, c’est en analysant une communauté dans sa globalité que l’analyse des tendances permettra de ne pas tenir compte des quelques pourcentage qui disposent d’une faible fiabilité. Dans d’autres domaines, cette même approche peut aussi être utilisée. Vestas, numéro 1 mondial des éoliennes, constitue un exemple en la matière. Au même titre que les avis ou les commentaires sur les forums ou réseaux sociaux, la météo proposent également des données compliquées à intégrer du fait de sa viabilité. Confronté au problème constant d'optimiser l’emplacement des éoliennes pour capter les vents les plus forts, Vestas a décidé de mettre en place une solution ambitieuse qui lui permet d’analyser 16 pétaoctets de données pour chaque éolienne ainsi que des données météo comprenant plus de 170 variables. Grâce à cela, Vestas a pu réduire la durée de prévision de la vitesse des vents de trois semaines à moins d’une heure. On comprend ici que les données recueillies par l’entreprise mélange à la fois de “vraies informations”, celles qui vont confirmer une hypothèse, et les autres, qui vont invalider une hypothèse. C’est finalement le mélange de ces deux types d’informations qui va former ces données homogènes et exploitables pour l’entreprise. Le Big Data implique donc de traiter des informations qui vont invalider une hypothèse à cause de leurs caractères erronées voire faux dans certains contextes. Cette incertitude doit être
58
Entretien Julien Moreschetti, Ingénieur avant vente & Architecte solution, 5 juin 2013
34
appréhendée de manière intelligente, en créant un contexte autour des données. C’est ce contexte qui permettra aux entreprises de transformer ces données en “informations”.
B. Facteurs clés de succès
Selon le Big Data Survey Europe conduit par BARC en 2012 auprès de 274 entreprises en Allemagne, Autriche, France, Suisse et Royaume-Uni, les points clés qui poussent les entreprises à intégrer un système Big Data sont : ● de meilleures possibilités de traitement des données (75%), ● un traitement de grands volumes de données (72%), ● des entrées multiples de données dans l’entreprise (66%), ● une vision globale des données internes et externes sous forme d’un tableau de bord (43%). Les réponses de l’étude ont déterminé que les fonctions de l’entreprise les plus concernées par le Big Data sont les équipes de Business Intelligence (47%), viennent ensuite les équipes informatiques (23%) et les équipes commerciales (16%). L’attribution du sujet à ces différentes fonctions dépend intrinsèquement des besoins de l’entreprise et de son activité.
Les fonctions marketing souhaitent intégrer le BD pour résoudre des problématiques d'intégration des données des médias sociaux et le perfectionnement des sites e-
35
commerce. Pour la fonction vente, le facteur clé d’acquisition s’explique dans l’approfondissement du comportement des clients et la création d’offres personnalisées. Quels sont, alors, les facteurs clés de succès pour la réussite d’un projet Big Data ?
1. Une méthodologie éprouvée
Dans tous projets, la méthodologie est la pierre angulaire et l'élément indispensable de toute réussite. Les méthodologies sont autant d’atouts qu’elles permettent d’avoir une vision claire sur les rôles de chacun, les étapes à valider ainsi que sur la démarche qualité. Selon le cabinet McKinsey, la méthodologie représente 80% de la réussite d’un projet, quel qu’il soit. Tout ce processus est évidemment applicable pour la mise en place d’un système Big Data. Pour Tim McGuire, Directeur du cabinet McKinsey,
« Le Big Data va devenir un enjeu extrêmement important au cours des prochaines années, et cela pour une raison très simple, il va redéfinir la frontière entre les perdants et les gagnants. A ce titre, la réussite du Big Data passe par une méthodologie centrée sur l’entreprise et non sur la donnée. Les bonnes questions doivent être posées dans le bon ordre. » Ainsi, quatre étapes semblent essentielles à ses yeux.
a. Réfléchir sur l’identité de l’entreprise. Il est primordial de s'interroger sur le véritable core-business de l’entreprise, de connaître et de comprendre les axes de création de valeur susceptibles d’être activés grâce à de nouvelles données.
“Les réflexions sur les objectifs, les besoins et les capacités de l’entreprise sont une étape majeure pour éviter le fiasco que beaucoup d’entreprises ont connu ces dernières
36
années. Quel est l’objectif que je veux atteindre grâce à la mise en place d’un système Big Data ?”
Le chemin du Big Data est long et coûteux. Selon le cabinet, un projet Big Data dure en moyenne un an et son coût est évidemment impactant, que ce soit en terme de ressources humaines que d’investissement financier. Pour traverser les différentes difficultés il est primordial de connaître et de partager les intentions de l’entreprise, à la fois en interne (en communicant avec l’intégralité des collaborateurs concernés), et en externe, (porter l’innovation et l’avancée de l’entreprise auprès de la clientèle, des média et des investisseurs). L’entreprise doit connaître et comprendre les objectifs permis grâce au Big Data. C’est cet objectif qui permettra à l’entreprise d’appréhender le challenge de la meilleure des manières.
b. Connaître ses besoins en terme de données Choisir, c’est renoncer. Accumuler les données ne sert pas à grand chose et, d’expériences, McKinsey a vu énormément de sociétés échouer dans leurs objectifs parce qu’elles n’ont pas été assez pragmatiques dans l’approche de leurs besoins. Une fois l’objectif clairement défini, il est donc essentiel de réfléchir aux données dont l’entreprise a besoin pour atteindre cet objectif. Trois questions sont essentielles pour réussir cette étape : ● Que veut-on faire des données ? ● Quel est le sens que l’on veut leur donner ? ● Quel est le bénéfice que l’on souhaite en retirer ?
37
De la même manière, il est primordial de se poser la question des données externes, car ce sont elles qui vont permettre aux entreprises de créer de la valeur ajoutée. A ce titre, une vraie étude de marché est nécessaire pour cibler les sources qui correspondent le plus à votre secteur d’activité et à votre besoin. Sur quels réseaux sociaux, sur quelle plateformes vais-je pouvoir trouver mes données ? L’exemple de Ford permet de bien illustrer cette approche. John Ginder, Responsable de l’Analytics explique sa démarche :
« nous pensons qu’il y a un fort intérêt à collecter les données issues de capteurs intelligents (siège, pédales, signalétique, gestuelle) pour mieux comprendre comment la voiture opère et comment le consommateur utilise les véhicules dans le but d’alimenter notre processus de conception et d’optimiser l’expérience de conduite dans le futur.”59
Le professeur Shigeomi Koshimizu, du Japan's Advanced Institute of Industrial Technology, arrive à déterminer grâce à des capteurs intégrés au siège d’un véhicule si le conducteur qui s’assied dans le véhicule est bien celui qui le conduit d’habitude. La simple action de s’asseoir dans son véhicule est mesurée par 360 capteurs différents, capables d’estimer à 98% si c’est la bonne personne qui conduit le véhicule. Basé sur cette technologie, des constructeurs automobiles y voient déjà un apport non négligeable en terme de sécurité avec la mise en place d’un système antivol, mais aussi pour déterminer l’endormissement du conducteur et le réveiller grâce à un effet sonore dans le but de diminuer les accidents de la route dus à la somnolence.
c. « Find the nugget of gold »60
«C’est sans doute l‘étape la plus complexe puisqu’elle consiste à trouver et définir les modélisations types qui vont permettre un traitement et une exploitation optimale des données. Enfin, il faut également trouver la solution qui va permettre d’intégrer ces données aux outils en place et à l’architecture existante. Pour cela, il faut aller dans ces
59 http://www.youtube.com/watch?v=PsxAe77axMc
60 traduction « trouver la pépite d’or », expression de McKinsey
38
données, les comprendre, les transformer pour qu’elles vous permettent de modifier les processus de votre entreprise.»61 explique Tim McGuire.
Matthias Roggendorf, consultant expert au sein du cabinet McKinsey, explique que :
« La phase de mise en place d’un système d’informations en adéquation avec les attentes, que l’on appelle la phase « transforming data », peut de ce fait, durer entre 6 et 9 mois ».
Pour valoriser cet investissement, il est important de profiter des résultats pour modifier l’organisation de la société. La finalité d’un projet Big Data n’existe en effet que dans un seul et unique objectif, améliorer les processus. Si aucun changement n’est effectué dans l’entreprise, alors la valeur créée restera marginale par rapport aux investissements effectués. A quoi bon avoir mobiliser du temps, de l’argent, si la structure d’exploitation du business et vos processus décisionnels ne sont pas modifiés voire améliorée ? A ce titre, Tim McGuire avertit sur un danger assez fréquent : le manque ou l’absence d’hypothèses.
« Il est primordial de débuter le travail avec des hypothèses. Nous avons, dans le passé, rencontré beaucoup d’entreprises qui attendaient que les résultats et les données parlent d’eux mêmes. Il est au contraire important voire essentiel de définir une liste d’hypothèses que les données vont valider ou invalider ».
Matt Ariker, Chief Operation Officer chez McKinsey est clair :
“ le Big Data n’est pas de la magie. Il est primordial de démarrer avec des hypothèses et de définir de manière très précise là où l’on veut emmener l’entreprise. Il ne faut pas se lancer dans le projet et attendre que les conclusions viennent d’elles mêmes.”
61
Big Data: The next frontier for innovation, competition, and productivity ; McKinsey, p.156
39
Tim Mc Guire résume sa méthodologie par une phrase simple mais qui en dit long sur ce type de projet : « The right company, the right data, the right modeling capabality and the right transformation methods ». Henry Isaac rajoute lui une dernière étape à cette méthodologie, à savoir “la gouvernance des données”. Comme il le fait remarquer :
« Il y a en parallèle de ce travail une vraie réflexion à mener sur la gouvernance des données. Qui est responsable des données ? Une fois qu’elles ont été traitées, il est essentiel de connaître la procédure à suivre entre les différents pôle marketing ou DSI»62
d. Une structure et une visibilité forte Tim Mc Guire explique que l’entreprise doit “avoir les reins solides” pour supporter cette transition. En effet, la bonne gestion du budget alloué au développement et à l’intégration des outils Big Data doit être bien comprise, bien évaluée et doit accompagner et pérenniser le projet. Le Big Data permet certes de créer de la valeur. Cependant, cette valeur ne doit pas se créer au détriment du core-business de l’entreprise et il est important d’aborder ce type de projets en parallèle de ce qui fait et fera la réussite de l’entreprise. La bonne santé financière de l’entreprise à court et moyen terme, est, en cela, une prérogative majeure. Un projet Big Data implique de nombreuses ressources humaines et une enveloppe financière conséquente qu’il est important de conserver tout au long de la phase de développement. Ces phases permettront de montrer des résultats régulièrement et d’entretenir la motivation des équipes. C’est ce fonctionnement itératif et méthodique qui permettra aux entreprises d’aller au bout du projet.
62
Entretien Henry Isaac - Professeur Associé Paris Dauphine - 28 mai 2013
40
A titre d’exemple, et pour attester de l’investissement nécessaire à la mise en place de solutions Big Data, la Caisse des Dépôts avec ICANIC (Intellectual Capital Analytics), aura investi environ 2 millions d’euros dans l’élaboration de sa plateforme consacré à la mesure de la valeur des brevets.
2. La stratégie de recrutement
Les nouvelles technologies de traitement de données et les nouveaux outils mis à disposition des entreprises ont en effet créé un véritable besoin en terme de compétences. Aujourd’hui, comme le fait remarquer Jean-François Marcotorchino, VP, Scientific Director chez Thales Division DSC, les entreprises sont à la recherche de salariés hybrides, à la fois experts en informatique et en statistiques. Ces deux métiers, autrefois différents, tendent aujourd’hui à se rapprocher.
«Il est nécessaire aujourd’hui pour les entreprise de disposer d’une ressource qui disposent une connaissance et une compréhension de l’intégralité de la chaîne de valeur des données»63.
Pourtant, le marché de la formation n’est pas encore prêt. Actuellement, les formations adaptées à ces nouveaux besoins sont peu nombreuses, bien qu’elles tendent à émerger sous le poids des entreprises. Les écoles sont en pleine mutation et mettent un accent particulier sur le développement de parcours spécialisés, telles que TelecomParisTech qui débutera dès septembre son mastère spécialisé Big Data. Il existera à court et moyen-terme une demande estimée à plus de 20 000 professionnels. Au niveau marketing, il est également indispensable de former les élèves sur la valeur que représente la donnée dans la stratégie produit ou service d’une entreprise. Cette difficulté est d’autant plus complexe à gérer que les métiers du marketing sortent tout
juste d’une phase de transition liée aux métiers du numérique. En effet, c’est seulement au cours des dernières années que les formations ont adapté et intégré la notion de NTIC à leurs programmes. Il faut donc compter environ 10 ans avant que le marché ne soit fourni de professionnels. Avant cela, il incombe aux entreprises de raisonner intelligemment. Il faut par conséquent qu’elles disposent d’une véritable stratégie à moyen terme et qu’elles sachent en amont ce qu’elles souhaitent faire au niveau de la donnée. Cette stratégie va aider à mettre en place une tactique, qui consistera soit à former ses troupes sur les prérequis en terme d’exploitation de la donnée, ou bien, à définir un plan de recrutement au sein duquel les profils hybrides seront privilégiés. En effet, on voit bien que de plus en plus de secteurs sont en cours d’automatisation, et ce, pour des raisons de productivité. Le principe de “destruction créatrice”64 défini par Schumpeter impose à tous les métiers de se réinventer. Les métiers du marketing, par exemple, doivent d’ores et déjà se poser la question de savoir quels rôles ils joueront dans la chaîne de valeur de l’entreprise numérique. Si cette évolution se confirme, les marketeurs devront, en plus de leurs compétences de bases, être rompus aux usages statistiques et mathématiques. Évidemment, de nombreux autres facteurs clés de succès sont indispensables dans la réussite d’un projet Big Data. On pense notamment à la stabilité technique de l’entreprise qui souhaite s’attaquer au sujet, mais aussi aux fonctions marketing qu’il convient de repenser totalement, car les usages sont voués à évoluer considérablement.
64 Désigne le processus continuellement à l'œuvre dans les économies et qui voit se produire de façon simultanée la disparition de secteurs d'activité économique conjointement à la création de nouvelles activités économiques.
42
III. Big Data, Big business ?
Les outils Big Data permettent, comme nous l’avons expliqué ci-dessus, d’exploiter les données externes et non structurées. Évidemment, cette capacité nouvelle des technologies à intégrer ces nouveaux types de données est, en soit, une révolution. Cependant, quels usages peuvent découler de ces nouvelles caractéristiques apportées parmi le Big Data ? Quelles sont les opportunités à saisir ? Cette partie s’articulera autour de Business Cases déjà implémentés par des entreprises.
A. Maîtriser son marché et sa marque
1. Connaître son marché
L’avènement du web 2.0 a considérablement redéfini le rapport de force entre les clients et la marque. Aujourd’hui, les clients ou prospects disposent de l’espace et des plateformes nécessaires pour parler d’une marque, en bien ou en mal. Leur influence est grandissante et susceptible de modifier la stratégie des marques. Seulement, pour qu’une marque puisse utiliser les informations qui gravitent autour d’elle, encore faut-il qu’elle puisse identifier clairement les messages et les zones de partage. C’est justement ce qu’apportent les outils Big Data. Cet usage permet effectivement de mieux connaître son marché, et ce, en temps réel. Il offre un “overview” complet sur ce qui se dit d’un marché à l’instant T. Quel est l’état du marché ? Où est-il principalement localisé ? Quel est l’état de satisfaction générale de sa clientèle ou ses prospects ? Quels sont les freins identifiés ? De ce premier usage découle de nombreuses opportunités, notamment celles qui consistent à se démarquer de la concurrence en adoptant un positionnement plus approprié. Par exemple, sur un marché relativement atone (où les prix du marché sont estimés trop élevés par une grande majorité des clients) une entreprise décide
43
d’envoyer à tous ses clients ainsi qu’à ses prospects une réduction de 5 euros sur l’achat d’un de ses produits. On imagine alors qu’elle aura profité de ces informations pour affiner sa stratégie, et par conséquent, augmenter son CA. La comparaison entre différents acteurs d’un même segment permet également de connaître son positionnement par rapport à la concurrence et d’obtenir ainsi un premier KPI sur ses investissements. On va pouvoir observer que la société avec laquelle nous sommes en concurrence est beaucoup plus citée et qu’elle génère beaucoup plus de bruit sur la toile. L’enjeu est ensuite de deviner les raisons de cet écart. En analysant par exemple la stratégie de communication de cette marque concurrente, l’entreprise sera en mesure de savoir qu’elle est visiblement la bonne stratégie à adopter. Cette connaissance générale de son marché et de son positionnement, apporte donc de nouvelles instructions sur ses forces et faiblesses.
2. Connaître sa marque
La redistribution des cartes entre la marque et l’internaute induite par le web 2.0 a considérablement réduit la maîtrise de son identité numérique. Alors qu’auparavant, une marque revendiquait son identité grâce à des opérations de communication en mass-market, aujourd’hui, c’est davantage l’internaute qui va structurer l’identité de la marque à travers sa prise de parole. On observe à ce moment là un véritable gap entre l’identité revendiquée par la marque et sa véritable identité perçue sur le web. L’exemple de “La vache qui rit” du groupe Bel illustre bien ce changement. En menant une étude aux USA, IBM s’est aperçu que les produits de la marque étaient principalement perçus comme diététiques. Or ce n’est clairement pas le positionnement initial de la marque. Fort de ce constat, la marque a ajusté son positionnement, notamment dans les points de vente où le transfert des produits dans les rayons diététiques a augmenté les ventes de 40%.
44
Autre exemple, celui d’Henkel, qui après avoir observé les échanges portant sur sa marque, s’est aperçu qu’un grand nombre de commentaires négatifs portait sur l’odeur de sa gamme de lessive. Ce problème, jamais remonté auparavant lors des échanges directs avec la clientèle, a poussé la marque à modifier sa formule. Peu de temps après cette modification, les échanges observés sur le web ont fait état d’une baisse de 20% des avis négatifs. Le Big Data offre aux entreprises une opportunité unique, celle de connaître l’intégralité des leviers d’actions qui lui permettent d’augmenter son chiffre d’affaires ou d’affirmer son positionnement. En recueillant les feedback clients en temps réel, l’entreprise dispose d’une vision claire et limpide sur ce qu’elle doit améliorer, ce qu’elle doit communiquer et la manière dont elle doit le faire.
3. Anticiper des évènements
Un des principaux enjeux auxquels les marques sont confrontées porte sur la gestion des Bad-buzz. Une marque comme Groupon connaît aujourd’hui beaucoup de difficultés à maîtriser ce qui se dit sur elle. On peut d’ores et déjà affirmer qu’un badbuzz est techniquement inévitable. S’il doit avoir lieu, l’entreprise pourra au mieux, réduire son importance. L’unique levier d’action réside dans la capacité de l’entreprise à identifier les causes et y remédier efficacement. C’est ce besoin auquel le Big Data est en mesure de répondre. Pour une entreprise comme Groupon qui propose une cinquantaine de Daily Deal en France et par pays (Allemagne, UK, USA, etc.), le Big Data permet d’identifier en temps réel les retours clients et de les traiter rapidement. Une série de mesures est ensuite envisageable pour maîtriser au mieux ce qui va se partager sur la toile. Par exemple, on peut imaginer qu’une opération d’emailing visant à avertir la totalité des clients sur un défaut de fabrication produit permettrait à l’entreprise de couper court à toutes mauvaises publicités et à tout déchaînement numérique.
45
Cet usage est d’autant plus parlant lorsqu’il porte sur des métiers où le risque associé à un défaut de fabrication est susceptible de remettre en cause l’existence même d’une société au sein d’un marché. L’exemple du marché automobile est assez parlant. Nombreux sont les exemples de marques ayant eu du mal à se relever d’un défaut de fabrication (pédale de freins...) que ce soit en termes financiers ou en terme d’image de marque. Une entreprise susceptible d’identifier rapidement un défaut de fabrication et qui contactera alors la totalité des utilisateurs du produit pour les avertir du problème aura de ce fait gagner sur deux tableaux. Le premier, nous venons de le dire, permettra à l’entreprise d’éviter un drame ainsi que les conséquences financières et d’image que cela engendre. Le second permettra dans bien des cas, de rassurer la clientèle sur la capacité de la marque à anticiper les problèmes. Deux enjeux sont liés à cette seconde opportunité, la fidélisation et le rapport de confiance entre la marque et le client. Deux objectifs recherchés par toutes entreprises et qui sont aujourd’hui permis par le Big Data.
B. Connaître sa clientèle
1. Une granularisation poussée du profil client
A ce sujet, Marc Atallah, directeur chez Deloitte France explique, nous en dit plus sur ce sujet.
«On exploite désormais toutes les données dont on dispose sur un client, en les mettant toutes au même niveau, sans les hiérarchiser : leur âge, leur profession, les boutiques autour de chez eux… Cela nous permet d’établir des profils de clients totalement nouveaux »65.
Aujourd’hui, la granularisation du client est devenue une évidence. Mais qu’est ce que cela implique pour les métiers du marketing ?
Pour Bruno Walther, une des clés du Big Data est de ne plus raisonner en terme de moyenne.
« Quand on y réfléchit, toute la pensée marketing est basée sur la moyenne et les segments. Certes, c’est rassurant et relativement efficace bien sûr. Mais ça ne fonctionne plus. Raisonner sur la moyenne quand on fait du marketing, c’est aussi absurde qu’un vendeur de jeans qui dirait qu’il ne propose que des tailles 42 dans sa boutique parce que c’est la taille la plus vendue. »66
Autre exemple avancé par Bruno Walther, celui des clients qui appartiennent à plusieurs types de segments et pour lesquels il est difficile voire impossible d’avoir une vision claire de leurs besoins à un instant T. Un client qui, le midi, ira s’acheter un sandwich et qui dégustera le soir une bouteille de Dom Pérignon appartient à deux segments bien distincts. Le problème, dans ce cas de figure, c’est que c’est bel et bien la moyenne qui sera analysée. Le Big Data permet au marketing de sortir des dogmes encrés dans les usages depuis l’avènement du commerce. La situation est similaire lorsque l’on observe les campagnes de publicité sur internet. En se servant de la granularité de la donnée, on s’aperçoit qu’une campagne peut vite passer d’un taux de clic de 5% à 0% selon l’heure à laquelle elle est diffusée. Par exemple, on s’aperçoit qu’au moment où elle est diffusée à la télévision, elle va générer un taux de clic sur internet 5 à 6 fois supérieur au taux de clic moyen. La raison réside dans le fait que 72% des possesseurs de tablettes regardent la TV en même temps67. Encore une fois, l’application de la moyenne induit un gommage de la donnée. L’approche permise par la granularisation du client apparaît indispensable dans la compréhension des comportements et dans la mise en place de recommandations pertinentes.
Le Big Data permet donc d’identifier les clients et les prospects d’une entreprise non plus selon les critères comportementaux usuels, mais en construisant une segmentation nouvelle que l’on qualifiera d’attitudinale, dans la mesure où ils émanent des avis, commentaires, opinions, souhaits, jugements, valeurs, goûts, préférences, aversions, critiques, demandes, attentes, réclamations, désirs…
2. Le Community Management et la méthode de l’embasement
Parmi les usages offerts par la granularisation du client, on retrouve l’embasement, c’est à dire la capacité d’une entreprise à faire correspondre le profil d’un client volatile avec un profil de sa base clientèle, accessible via CRM. C’est donc sa capacité à retrouver un client et à l’identifier au delà de ses frontières. Pour comprendre l’utilité de cette technique, il convient d’effectuer un rapide retour sur la situation actuelle. En effet, l’efficacité de l’emailing se ternit peu à peu face à l’émergence de nouveaux moyens de communication bien plus efficaces. On observe que les taux d’ouverture ainsi que les taux de clics des campagnes sont en chute libre. Le canal e-mail va perdurer mais on constate une sur-sollicitation progressive des internautes. C’est pourquoi les marques s’ouvrent aux réseaux sociaux. La tendance est à l'interaction et la communication directe avec les clients. Cependant, les marques ont besoin d’aller encore plus loin dans cette interaction grâce à des outils Big Data. Prenons l’exemple d’un client fidèle, depuis 15 ans, à la marque Sony. Ce client a acheté un grand nombre de produits (TV, téléphone, baladeur...). Énervé et déçu pour une raison donnée, ce client décide de poster un message sur la page Facebook de Sony France. Le community manager de l’entreprise va lui répondre, et le convier à se rendre dans le magasin le plus proche pour résoudre son problème. Il est d’ailleurs intéressant de souligner une tendance qui consiste à considérer les réseaux sociaux comme un espace de “défoulement”. En effet, ces derniers sont souvent utilisés par les clients pour remonter des retours négatifs (retours d’expérience, 48
produits défectueux). Alors que cette utilisation était jusque là considérée comme une menace pour les marques, elle peut dorénavant être considérée comme une opportunité du fait de la capacité de réaction permise par le Big Data. En appliquant l’embasement, c’est à dire l’exploitation de données externes telles qu’un profil Facebook et la base de données interne de l’entreprise (qui regroupe tous les historiques d’achats), l’entreprise va pouvoir corréler les deux informations pour agir juste. La marque va adopter un ton différent, faire naître une connivence entre elle et le client. Grâce à cela, la marque valide l’engagement et le degré d’attachement de son client. En effectuant un audit de l’historique d’achat du client et en le croisant aux données issues de son profil Facebook, une marque est également en mesure de proposer des offres commerciales pertinentes et personnalisées. Cette corrélation permet de reconnaître les ambassadeurs de marque via les réseaux sociaux et d’affiner leur Net Promoter Score (NPS)68.
Le Big Data, grâce à sa capacité de granularisation permet de proposer aux clients des services et des recommandations sur mesure, deux moyens qui impactent énormément la satisfaction client.
68
Le NPS est la part de client prête à recommander une entreprise. C’est généralement ceux qui accordent une note comprise entre 9 et 10 lorsqu’il s’agit d’évaluer les services d’une marque.
49
C. L’avènement du “Marketing on Demand”
1. Les outils de recommandation
Cette granularisation permet de proposer le bon produit au bon client. Cet usage, qu’on peut rattacher aux outils de recommandation va très vite se retrouver profondément amélioré par la mise en place d’outils Big Data. Une entreprise comme Amazon propose un des moteurs de recommandation les plus efficaces du marché. Cependant, ce dernier montre toute de même certaines limites, notamment en terme de variété de données. Il puise actuellement sa force sur sa capacité à gérer la forte volumétrie induite par les données d’achats client. De manière assez simpliste, l’outil de recommandation d’Amazon s’appuie sur deux types de valeur, le nom du client et les achats qu’il a effectués. Exemple : - Le client A a acheté les livres 1 – 4 – 7 – 9 – 10 au sein d’une gamme produit - Le client B a acheté les livres 2 – 3 – 5 – 6 – 8 au sein de la même gamme de produit - Le client A se verra recommander les produits achetés par le client B et vice versa. En intégrant des données externes, non structurées issues du profil utilisateur, de nombreuses opportunités marketing sont possibles. Premièrement, on évite de proposer des contenus que le client est susceptible de connaître. Comme le souligne Jeremy Howard, professeur à l’université de San Francisco dans l’ouvrage Big Data Now : Edition 2012,
“Les outils de recommandation actuels n’offrent que peu de nouveautés et de surprises aux consommateurs. La plupart du temps, les produits recommandés sont basés sur l’auteur ou le thème. Le Big Data, à travers des outils de recommandation pointus, offre la possibilité de proposer des contenus qui ne sont pas en tête des ventes et qui ne sont
50
pas du même auteur ni forcement du même thème mais qui peuvent néanmoins correspondre aux goûts et aux attentes du consommateur.” 69
Jeremy Howard explique :
“Qu’en se basant sur l’intégralité des données utilisateurs, à savoir son profil, ses lieux de consommation, ses types d’achat, les heures et dates d’achat, ses commentaires et ses appartenances communautaires, bientôt toute entreprise sera capable de proposer bien qu’un plus qu’un film du même réalisateur ou un livre du même auteur.” 70
Ainsi, les entreprises seraient en mesure d’offrir un vrai rôle de conseil qu’on peut retrouver dans les librairies où le client se laisse l’orienter vers ce qu’il est susceptible d’aimer mais surtout vers un produit qu’il n’aurait sans doute pas acheter sans avoir été recommandé. Un autre avantage découle de l’utilisation d’un tel outil de recommandation, la valorisation du catalogue. Un catalogue est en effet composé de produits qui comporte de fortes inégalités, où la règle des 20/80 règne depuis des d’années. La granularisation du client permettrait aux marketeurs de sortir de ce qu’Elie Pariser, CEO de la société Upworthy, spécialisée dans la mise en place d’outils de recommandation, appelle « le Bubble Filter », un terme qui décrit la tendance selon laquelle l’affichage de produits recommandés ne se base que sur des critères de ventes et de popularité. Le Big Data offre donc la possibilité de sortir de la logique de meilleures ventes ou de réseaux d’acheteurs (bien qu’efficace) et de disposer d’un Marketing On Demand ou chaque utilisateur disposerait de son propre algorithme. Dans le cadre des catalogues de vidéo à la demande, ce type de données permettrait aux équipes marketing de varier les sources de CA et de doper leurs ventes sur des contenus à faible valeur ajoutée. Bruno Da Costa Oliveira, Chef de projet au sein de MYTF1 VOD confirme cette hypothèse.
69 70
Big Data Now : 2012 Edition, O’Reilly Media Inc., p.30 Big Data Now : 2012 Edition, O’Reilly Media Inc., p.32
51
“Les outils de recommandation basés sur un algorithme personnalisé, permettraient en effet aux services VOD de mettre en avant des contenus souvent peu accessibles au sein des boutiques. En terme d’image, les outils de recommandation permettent également de valoriser un positionnement qui se veut proche du consommateur. Néanmoins, la mise en place de ce type d’outils est basée sur deux principes. Soit il est uniquement basé sur le parcours du client, auquel cas on tourne vite en rond et c’est le problème des outils de recommandation actuels. Ce n’est pas parce que l’on clique sur un contenu qu’on a envie de l’acheter. Or un outil de recommandation se basera sur ce parcours pour proposer d’autres contenus du même genre. Le problème peut très vite devenir contraignant car on se voit proposer des contenus sur la base d’une navigation où l’erreur est fréquente. Deuxième solution, l’outil de recommandation est basé sur un écosystème interne où l’on fait parler au maximum le consommateur à travers des commentaires, des Likes et autres outils qui permettent de cerner au mieux son profil”.
71
C’est justement cet écosystème qu’essaye de mettre en place Amazon à travers ses fonctionnalités de Like et de commentaires (sur un produit ou entre clients). Dans le livre Big Data Now : Edition 2012, Jeremy Howard, comme Bruno Da Costa auparavant, aborde également le thème de l’allongement de la durée de vie des produits ou du « lifetime value». Sur des secteurs comme la VOD, ce sont les produits les plus “chauds” qui réalisent 80% des ventes, voire plus. En remontant des contenus à faible valeur mais qui correspondent pourtant aux goûts de l’utilisateur (Les Dents de la Mer, Apocalypse Now), on tend à faire baisser le ratio 20/80 et à équilibrer le CA réalisé sur l’ensemble de la boutique. Bruno Da Costa nous cite plusieurs exemples qui pourraient permettre d’atteindre cette finalité.
“Offrir des réductions sur des produits que le consommateur n’était pas prêt à acheter ou aurait acheter ailleurs, offrir aux consommateurs des réductions sur des produits qu’il n’aurait sans doute jamais acheté mais qu’il est susceptible d’aimer, offrir les premières
71
Entretien Bruno Da Costa - Chargé de l’innovation produit - MYTF1 VOD - 15 mai 2013
52
minutes ou les premières pages d’un livre ou d’une vidéo fréquemment visité mais jamais converties.”
Ici, nous sommes cependant dans un cas de figure où le prix d’achat reste peu élevé. Les taux de transformation sont différents lorsqu’il s’agit par exemple d’acheter un jean. Le prix ainsi que l’incertitude liée à la qualité du produit et à sa taille sont autant d'éléments qui peuvent freiner considérablement l’achat. Pour répondre à ce défi, certaines entreprises mettent en place des approches créatives pour récolter et traiter des données qui permettent de booster les ventes vestimentaires. Zafu, une agence spécialisée dans la mise en place d’outil de recommandation, débute par une série de questions à propos du corps de l’internaute (ses dimensions, son gabarit, ses spécificités…), comment l’internaute porte les jeans qu’ils possèdent, quelles sont ses préférences en terme de style, et bien d’autres questions. Il propose par la suite une série de produits triés par gamme, et demande à l’utilisateur de donner son avis sur ce qu’il voit (“not for me” ou “I love it”). Une fois ces étapes de renseignement et de collecte de donnée effectuées, la plateforme met au point l’algorithme personnalisé qui permettra de proposer les bons produits au bon client. On peut clairement identifier les avantages opérationnels que cette solution apporte à l’entreprise. Premièrement, boosté par la pertinence des produits proposés, le taux de conversion sur la plateforme tend à augmenter de façon significative. En toute logique, le résultat communiqué par Zafu fait état d’une augmentation du taux de conversion de 154% sur les plateformes qui utilisent cet outil. Deuxièmement, en réduisant les freins à l’achat, l’algorithme personnel permet d’augmenter le panier moyen. Le résultat communiqué par Zafu fait état d’une augmentation du panier moyen de 11%. A titre d’exemple, le panier moyen sur une plateforme comme Placedestendances.com représente environ 55€. En mettant en
53
place un outil similaire, la plateforme augmenterait son panier moyen de 6€ et le ferait passer à 61€. Sur une base clientèle de 200 000 clients/an, le chiffre d’affaires pourrait grimper à 12 200 000 € au lieu de 11 000 000 € actuellement. Autre avantage qu’offre la solution de Zafu porte sur le management de la qualité. Le chiffre avancé par la société montre une baisse des retours clients de 9%. Le Big Data et plus précisément l’adoption d’algorithme personnalisé permettent, en proposant les produits adaptés aux besoins du client, de réduire les insatisfactions. Enfin, cela permet également de créer un dialogue avec l’utilisateur et d’éviter d’hypothétiques dérives du Big Data, comme l’absence totale de lien avec l’internaute. C’est effectivement une des craintes prononcées par Daniel Kaplan, directeur général de la fondation internet nouvelle génération, qui explique que :
« Desfois, si on veut savoir ce que quelqu’un aime, est ce qu’on ne ferait pas mieux de lui demander ? Cela permet d’éviter une situation au sein de laquelle l’entreprise n’aurait plus aucun intérêt à communiquer à ses clients. » 72
L’outil de recommandation fait donc parti des applications du Big Data. Néanmoins, il est possible d’aller plus loin dans la personnalisation du point de vente.
2. Vers une “boutique on demand”
Si une entreprise est capable de connaître les produits qui vont générer le plus fort taux de transformation chez un client, pourquoi s’arrêter au simple outil de recommandation ? En effet, chaque client dispose de ses propres critères de sélection et de navigation. En fonction des segments, certains clients sélectionneront automatiquement des tris par prix, d’autres par nouveautés. Certains clients sélectionneront automatiquement des filtres par genres, que ce soit pour des vêtements,
des livres, des films, voire des meubles. Chaque client dispose d’un tropisme73 qui lui est propre dans sa manière de naviguer sur le web. C’est à partir de ce constat que la société Adku a conçu un algorithme personnalisé afin de proposer une boutique sur mesure pour chacun des clients. Cette société, rachetée par Groupon au bout de seulement 6 mois d’existence, a évidemment mis le doigt sur un enjeu majeur pour les prochaines années. Le rôle de la plateforme s’en trouve radicalement changé puisqu’il ne s’agit plus alors que d’une structure fixe (cadre inchangé, emplacement des catégories similaire) au sein de laquelle les catégories de produits s'adapteront en fonction de l’utilisateur. On comprend bien l'intérêt d’une société comme Groupon à proposer ce type d’avantage à ses clients. Le principe de Daily Deal et la diversité des offres sont autant d’arguments pour proposer rapidement aux clients ce qu’il ont l’habitude d’acheter ou de consommer. Cette personnalisation est un bon levier de fidélisation. De la même manière, on réduit considérablement la réduction du temps de parcours utilisateur et par conséquent le nombre de clic nécessaire au client pour trouver ce qu’il souhaite. A ce titre, comment répondre au mieux à ce prérequis autrement qu’en proposant une Plateforme On Demand qui prend en compte l’historique de navigation de l’utilisateur pour lui proposer ce qu’il aime ? En allant plus loin, nous pourrions même mettre en place une boutique qui proposerait à l’utilisateur ce qu’il va ou compte acheter. Alors, possible ?
3. Un marketing prédictif
Gilles Babinet, investisseur dans de nombreuses start-up dont Captain Dash, l’assure.
“Ce qu’on est capable de faire avec la météorologie et la prévision à quinze jours est possible dans tous les domaines. Par exemple, en analysant les recherches et les
73
Tendance naturelle et/ou intrinsèque à tendre vers quelque chose ou quelqu'un
55
habitudes de navigation des internautes pour tenter de deviner quels seront leurs prochains achats. Et leur proposer de façon proactive des publicités ou des produits correspondants. Jusqu’ici, lorsqu’un internaute effectuait une recherche sur un produit (un vol, un appareil photo, une machine à laver, etc.), les spécialistes du « retargeting » étaient capables de proposer une bannière liée à ce produit. Il est d’ailleurs devenu fréquent de voir apparaître des publicités ciblées après une recherche (cf. cookie tiers).”74
Il devient possible de prédire si une personne pourra être intéressée par des produits proches, comme une réservation d’hôtel, une location de voiture ou une caméra vidéo. Gille Babinet va plus loin dans l’analyse.
“C’est là tout l’enjeu du Big Data : faire des propositions sur la base de l’historique client mais qui disposent tout de même d’une forte valeur prédictive. La barrière est assez abstraite, pourtant il s’agit bien de prédire les actes de consommation d’un client sur la base de ses recherches récentes. Dans le cadre d’un parcours GPS, on pourra très bien mettre en avant certains itinéraires plutôt que d’autres en fonction des recherches. C’est finalement bon pour le business mais également bon pour le client, qui dispose d’un outil qui lui met l’intégralité des solutions à disposition. Il y a énormément de cas d’usages”. 75
Parmi ces usages, on retrouve l’exemple d’une plateforme américaine qui permet de connaître le pourcentage de chance que deux personnes ont de tomber amoureux. Un autre exemple en dehors de la sphère marketing, illustre lui aussi le potentiel prédictif du Big Data. En effet, plusieurs grandes villes américaines se sont équipées du logiciel PredPol (pour Predictive Policing), qui permet de prédire où et quand un crime va se produire. Grâce à une base de données recensant les infractions passées, l’algorithme, tenu secret mais disponible à la vente, permet d’aiguiller très précisément les forces de l’ordre. Alors qu’aucune infraction n’a encore été commise, une patrouille est envoyée à un lieu donné directement par PredPol. Le système, accessible depuis un ordinateur, une tablette, ou même un Smartphone, s’actualise en temps réel et
détermine les zones à risques, celles où la probabilité d’infraction est la plus importante. À Los Angeles, entre novembre 2011 et mai 2012, ce dispositif a contribué à faire chuter de 33 % les agressions et de 21 % les crimes violents. À Santa Cruz, le nombre de cambriolages a diminué de 19 % sur les six premiers mois de l’année. Enfin, dans le domaine de la santé, les acteurs du Big Data tels qu’IBM se sont déjà mis en route. Certainement parce que le volume d'informations de ce marché a doublé en cinq ans et sans doute parce que les médecins ont de plus en plus de patients. Pour cela, IBM a créé Watson76, une machine qui possède une capacité de traitement inégalée et, qui est capable d'analyser 20 millions de pages de données en moins de trois secondes. IBM a par ailleurs ajouté un programme d’intelligence artificielle conçu dans le but de communiquer avec les professionnels de la médecine, et ce, dans le langage humain. Enfin, il inclue une plateforme Big Data permettant l’agrégation de multiples sources de données. Cette merveille technologique peut être programmée pour intégrer toutes les publications médicales, les dossiers des patients et les encyclopédies de médecine. Les capacités d’analyse de Watson lui permettent de traiter toutes les données rassemblées autour d’un patient, à savoir ses symptômes, les remarques faites par le médecin, les entrevues avec le patient et ses antécédents familiaux. Wellpoint, une entreprise américaine d’assurance maladie, a signé un partenariat commercial avec IBM pour équiper des hôpitaux. Quatre, à ce jour, l’utilisent déjà dans le but d’améliorer les soins de santé pour des millions d’américains. Des dizaines de milliards de dollars pourraient être économisés si les soins étaient dispensés de manière plus pertinente, en tenant compte et en exploitant de manière plus efficiente tout ce que l'on sait déjà.
76 http://www-05.ibm.com/fr/watson/
57
4. Le Big Data et la recherche de la Qualité
La majorité des entreprises mettent en action le management de la qualité qui a pour objectif l’amélioration des performances à la fois en interne (collaborateurs) mais aussi en externe (clients, partenaires, actionnaires). Ce perfectionnement peut être apportée par l’usage du Big Data, comme nous le démontre l’exemple de l’entreprise UPS spécialisée dans le transport et la livraison de colis. Lorsqu’une organisation aussi importante qu’UPS constate le moindre problème sur sa flotte de véhicules, une partie de la promesse “vous amener plus loin” peut prendre fin. La réduction des coûts de non qualité apparaît comme essentielle. UPS, par la mise en place de nouvelles technologies sur sa flotte géante en implémentant le Big Data va pouvoir économiser des millions de dollars par an et ainsi exceller dans un domaine clés. Tous ces bénéfices vont être apportés par la collecte et l’analyse de données recueillies par des capteurs placés sur les camions que ça soit au niveau du moteur, des suspensions, des freins ou des pneus. Par conséquent, ils peuvent observer en temps réel la charge d’utilisation des camions sur toute sa structure. Ils n’ont donc plus besoin de changer des pièces de manière régulière alors qu’elles pourraient fonctionner correctement encore quelques années. En mettant en pratique le Big Data, l’entreprise a réalisé des économies, améliorer les conditions de travail des conducteurs et a réduit considérablement son empreinte carbone, mais pas seulement car les autres entreprises du secteur n’ont pas encore adopté cette pratique, ce qui représente pour UPS un avantage concurrentiel non négligeable par rapport à FedEx ou DHL.
58
IV. Difficultés et dérives du Big Data A. Un principe de prédiction remis en cause
1. Les techniques prédictives encore peu rentables
Ne nous trompons pas sur l’origine du terme “prédiction”. Il s’agit bien de la mise en place d’hypothèses qui tendent à se réaliser dans le futur et qui sont issues d’une analyse passée et historique. Comme nous l’ont montré les business cases, les projets Big Data se sont toujours basés sur de l’analyse historique (parcours navigateurs, actes ou intentions d’achat). C’est le passif et “les empruntes numériques” des internautes qui permettent aux outils Big Data d’effectuer des recommandations et de pousser certaines offres ou services. Seulement, quelle est la véracité de ces modèles dans le moyen et long terme ? Michael Wu, Chief Scientist de l’entreprise Lithium Technologies prend pour exemple les prévisions météorologiques. Selon lui, si l’on recueille toutes les données météo du jour et qu’on les utilise pour une prédiction, les résultats ne seront uniquement valables à court terme. Si l’on applique cette prévision sur un mois, la pertinence sera forcement moindre. 77 Appliquée aux domaines du marketing, de la communication et de la publicité, cette inexactitude parait compliquée à appréhender au-delà d’un laps de temps supérieur à quelques jours voire quelques heures. En effet, quelle sera la véracité d’un avis client au delà d’une semaine ? Les modifications comportementales qu’ont entraîné le numérique sont complexes à mesurer. Cependant, la navigation et les achats sur internet se font de plus en plus impulsif. La montée en puissance de plateformes de Daily Deal (VentePrivées.com), d’achats groupés (Groupon) ou d’enchères (Clic’n’take)
souligne une tendance nouvelle : les actes d’achats sont basés sur l’offre tarifaire et de moins en moins sur de véritables besoins à moyen terme. C’est clairement le prix qui conditionne l’achat et non plus le besoin consommateur. Nous sommes davantage dans un schéma où l’utilisateur va chercher l’hypothétique besoin qu’il est susceptible de combler au prix le plus avantageux. Les entreprises sont donc face à un défi complexe bien résumé par Tarah Hunt dans son livre “The Whuffie Factor” :
“Comment trouver une logique dans le comportement d’achat d’un internaute alors que les marques tentent, depuis 10 ans, de remplacer toute notion de logique par une notion d’instantanéité et d’impulsion ? L’internaute navigue de manière totalement aléatoire sur le web et les applications. Tenter d’y trouver, par la publicité, une source de revenu exponentiel me parait trop complexe et illusoire, que ce soit aujourd’hui ou demain”. 78
En partant de ce constat, peu d’entreprises sont aujourd’hui en mesure d’investir des budgets communication à partir d’indicateurs de véracité aussi faibles. Dans le domaine de la publicité, le Big Data n’a pas encore fait ses preuves. Selon Criteo, le leader de la publicité ciblée en ligne, les taux de clic issus des recommandations prédictives sont inférieurs aux produits classiques de « retargeting » (deux fois environ), mais au moins trois fois supérieurs aux bannières classiques. Les méthodes de retargeting sont donc deux fois plus efficaces que les méthodes de recommandation prédictives. Techniquement, les méthodes de retargeting disposent effectivement d’un ratio risque/gain plus faible. Cela permet aux annonceurs d’investir des sommes publicitaires avec un retour sur investissement plus fiable. Ce retard à l’allumage s’explique aussi de manière conjoncturelle. En France par exemple, le marché de la publicité numérique n’est pas suffisamment mature pour adopter des techniques aussi pointues même dans un avenir proche. Les annonceurs comme les agences ne sont pas vraiment engagées dans un cercle vertueux d'innovation et de prise de risque. Les uns comme les autres se replient sur des techniques de communication traditionnelles et n'hésitent pas à couper des budgets
78
HUNT, Tarah, The Whuffie Factor, 2009, 320 p.
60
initialement alloués aux nouveaux médias. Toujours selon la même étude le digital devrait passer en France de 20,9 % aujourd'hui à 24,6 % des investissements publicitaires en 2015, contre 41 % au Royaume-Uni. Le retard de l'Hexagone, déjà perceptible en 2012, devrait s'accentuer. Le constat est sensiblement le même sur les objets connectés de type Smartphones ou tablettes. Tandis que le marché pèse environ 526 millions de livres, il ne représente en France que 48 million d’euros.79 Toutefois, Olivier Mazeron, président de GroupM Interaction (WPP) tempère ce constat. “Bien que le marché soit, d’une manière générale atone et plutôt frileux, En terme d'innovation, la France est plutôt en avance sur la data et la publicité ciblée.”
2. Une durée d’intégration plus longue que prévue
Alors que dans les faits, les méthodes de retargeting existent depuis plusieurs années grâce à l’utilisation des cookies tiers, elles ne sont mises en place par les entreprises que depuis 1 ou 2 ans. Facebook par exemple, a lancé son propre système de publicité ciblée et de retargeting début 2013. Ce dernier prend en compte les requêtes et navigations effectuées en dehors de la plateforme et “retarget” l’utilisateur une fois que ce dernier est sur son fil d’actualité. La mise en place de ce système par Facebook à ce stade d’usage en dit long sur le laps de temps nécessaire entre l’implémentation d’une technologie et son adoption par les entreprises. Autre exemple, toujours sur Facebook, les publicités ciblées. La firme américaine propose depuis peu un service publicitaire destiné aux marques ou associations qui vise à granulariser au maximum la cible recherchée. Cet outil permet, par exemple, de toucher la cible Londonienne, fan de Rock’n’roll, entre 18 et 25 ans, et fan des Rolling Stones. Dans ce cas précis, il s’agit bien d’un exemple d’utilisation massive de données variées et externes, et donc de Big Data. Ces usages sont suffisamment nouveaux pour les entreprises. Leurs adoptions vont prendre 2 voire 3 années avant d’être totalement
démocratisés, adoubés et compris par toute la chaîne de production de l’entreprise. Autant de temps qui retarde l’hypothétique mise en place de publicités prédictives. Le chemin semble donc encore long pour que le marché intègre les techniques de Big Data et son caractère prédictif, cependant, dans le secteur de la veille, les enjeux et les difficultés sont différents.
3. Une veille améliorée par l’arrivée du Big Data
Comme vu précédemment, la vérité consiste à considérer le Big Data comme capable de proposer des hypothèses comportementales à très court terme. Cette donnée implique une gestion des données en temps réel comme l’explique Julien Moreschetti.
“Il faut savoir où chercher. Sans piste et sans historique, tenter de prédire une tendance ou des changements comportementaux relève de l’impossible. Dans le cadre de la campagne d’Obama et des algorithmes mis au point par Nate Silver, ils savaient exactement où chercher. Les périodes d'élection sont cycliques et les points d’échanges sont clairement identifiés. Néanmoins, dans le cas d’une marque, qui souhaite en partant de rien, prédire les comportements de ses clients, ça relève du domaine de l’impossible. Une marque a besoin de points de repère. Internet est trop grand pour tenter ce genre d’approche. C’est lorsqu’un phénomène s’est déjà produit et que la source du bruit a bien été repérée qu’une entreprise sera capable de tracker et d’anticiper un évènement. C’est cet effet d’expérience qui va permettre aux entreprises de disposer de données prédictives”.
Philippe Kuhn nous parle également de la situation et du travail qui attend les entreprises au cours des prochains mois et années :
“Aujourd’hui, les solutions Big Data ne permettent pas de solutionner tous les problèmes ni de répondre à toutes les questions des entreprises dans le domaine du marketing et plus particulièrement de la veille. Dans quelques années, lorsque les marques auront appris à analyser chacun des phénomènes impactant pour elles, c’est à dire sa
62
localisation, sa manifestation, les leaders d’opinion associés, les sources et plateformes de relais... les nouveaux usages de veille seront démocratisés et permettront aux marques de devenir plus intelligentes.” 80
C’est donc une veille constante de son marché qui permettra aux marques d’utiliser et d'appréhender le caractère prédictif des outils Big Data. Sans cette étape qui s’avère essentielle, le Big Data ne permet pas de cadrer le périmètre d’action et d’influence de sa marque sur la totalité du web. Ce challenge relève en effet de l’impossible, que ce soit en terme technique ou fonctionnel. Techniquement, la quantité de données serait évidemment trop grande et les recherches trop vastes. Fonctionnellement, l’analyse par les équipes de Data Scientist ou Marketing serait toute sauf productive et difficilement pertinente. Julien Moreschetti confirme :
“Il est fondamental de choisir les bons mots-clés, les bonnes sphères de recherche afin d’avoir des résultats facilement exploitables et suffisamment pertinents pour qu’ils puissent être exploitables par les pôles décisionnels. C’est un travail complexe à la fois au niveau de l’entreprise que de notre côté chez IBM. Nous devons paramétrés les outils pour qu’ils correspondent aux objectifs de recherches de l’entreprise. Du côté de l’entreprise cliente, elle devra opérer ses propres recherches en amont et connaître son marché”.81
Encore une fois, le Big Data implique de ne pas tomber dans un manichéisme primaire. Les résultats diffèrent en fonction des usages et des contextes. Nous sommes cependant sûrs que le Big Data apporte des réponses supplémentaires dans le ciblage clients et dans la connaissance de ses besoins à court terme.
80 81
Entretien Philippe Kuhn - Chargé Veille & Innovation - Digimind - 20 mai 2013 Entretien Julien Moreschetti - Ingénieur avant vente & Architecte solution - IBM - 5 juin 2013
63
B. La difficile conduite du changement au sein de l’entreprise
Nous l’avons vu plus haut, le Big Data implique des prérequis, qui nécessitent des investissements, qu’ils soient financiers, humains, ou organisationnels. Cependant, audelà de ces investissements, les entreprises doivent pour la plupart faire face à de nombreuses difficultés.
1. Les entreprises ne sont pas prêtes
Parmi ces prérequis, on peut placer en premier la stabilité et la robustesse de l’infrastructure technique, qui est aujourd’hui indispensable pour effectuer une montée en charge au niveau de la masse de données ou pour ajouter une brique à cette architecture dans le but d’améliorer et d’approfondir les traitements. Or, s’il s’agit d’une évidence, Henry Isaac explique que la réalité est bien différente.
“Pour des raisons pratiques, on constate que dans les faits, la tendance est au contraire à la réduction de la quantité et de la nature des données. On est plutôt dans une logique de “Small data” avec pour question principale “De quelles données ai-je vraiment besoin ?”. Cette tendance s’explique par le fait que dans beaucoup d’entreprises rencontrent des difficultés énormes pour mettre en place des architectures techniques capables de traiter une quantité de données importante.” 82
Alors que l’on serait tenté de penser que ces contraintes sont réservées aux TPE et aux PME, on s’aperçoit que de nombreux groupes Français rencontrent eux aussi de sérieux problèmes lorsqu’il s’agit de mettre en place des architectures viables et pérennes. C’est ce que nous confirme une nouvelle fois Henry Isaac.
«Certains groupes Télécom sont confrontés depuis 15 ans à des problématiques de volumétrie. Ils travaillent sur des sets de données, des technologies de requêtage et de vectorisation. Là où ils pourraient travailler sur 25 variables, ils n’en retiennent que 2. La
82
Entretien Henry Isaac - Professeur Associé Paris Dauphine - 28 mai 2013
64
raison est toujours financière. Cela nécessite des serveurs, du temps, des ressources, et quel est le bénéfice pour l’entreprise ? Quasiment nul. Aujourd’hui, le coût de la donnée est trop cher et le bénéfice n’est pas suffisamment visible. Par conséquent, beaucoup d’entreprises décident de réduire leurs niveaux de connaissance.”
Pour le moment la complexité, le coût, et le temps nécessaire à la mise en place d’architectures Big Data impliquent des investissements trop importants pour les entreprises. Prochainement, les choses peuvent changer. Une évolution du marché du Cloud permettra de simplifier les problématiques de stockage et de faciliter l’accès aux entreprises qui bloquent sur les coûts d’installation parfois démesurés qui leurs sont demandés. C’est ce qu’avance Luc Byhet.
“L’évolution du Cloud représente une véritable porte d’entrée pour le Big Data. Aux USA, le Cloud a permis une véritable démocratisation du stockage et du traitement de la donnée. En France, le retard est assez grand et le marché présente trop de barrières d’adoption. Cela fait effectivement parti des évolutions qui vont permettre la mise en place d’outils Big Data. Le Cloud est trop petit pour le moment83, surtout dans des gros volumes de données. pour espérer une adoption massive des entreprises.” 84
Le Big Data fait donc figure de paradigme. Les idées et les concepts évoluent 20 fois plus vite que les sociétés qui composent l’économie réelle. Le gap entre ce que l’on souhaite et ce qui existent réellement est immense et ne risque pas, selon nous, d’être résorbé avant de nombreuses années.
Luc BYHET - Chargé de l’innovation & stratégie marketing - Commerce Guys - 30 mai 2013
65
2. Les organisations internes ne sont pas prêtes
La restructuration d’une architecture d’entreprise est une mission extrêmement complexe, qui demande du temps, de la patience et des compétences organisées autour d’un même objectif. Mais ce n’est pas tout, les difficultés sont également d’ordre organisationnel.
“Dans 90% des cas, les entreprises arrêtent le projet au début, parce que le principal problème d’une entreprise, c’est l’étape de l’ETL, qui représente 80% d’un projet de structuration de la donnée. Les entreprises passent un temps fou à trier les données. Pour éviter cela, les DSI mettent en place un contrôle de qualité de la donnée qui entraîne une restriction d’usages. Si demain on décide de supprimer les restrictions imposées pour la saisie des factures, il y a de fortes chances pour que les personnes qui s’occupent de l’analyse des réponses se retrouvent dans votre bureau dans les 10 minutes qui suivent. Les données seront impossibles à analyser car elles n’auront plus de structure. Si l’opérationnel est perturbé, c’est toute l’entreprise qui s’arrête. 85
Le problème posé par Henry Isaac porte sur ce qu’on appelle le “Master Data Management” ou “la gouvernance de la donnée”. Qui est responsable de la donnée, de sa définition, de son périmètre, de sa mise à jour ? Qui assure sa fiabilité et sa véracité ? Au delà des difficultés techniques évoquées ci-dessus, la gouvernance de la donnée est également l’un des prérequis indispensables.
“Vous avez des données mais vous ne pouvez rien en faire. C’est la réalité quotidienne du Business Intelligence. Pourtant, nous sommes sûrs de la donnée structurée, interne, dont le périmètre est maîtrisé par l’entreprise. Quels seraient les résultats avec des données non structurées issues des réseaux sociaux ? Maintenant, ça ne veut pas dire que c’est impossible, mais simplement que la réalité est toujours plus besogneuse que ce qu’on imagine. La qualité de la donnée est un enjeu fondamental. D’où vient la donnée ? Qui l’a produit ? Qui peut valider sa véracité ? Le Big Data implique les mêmes niveaux de complexité bien supérieurs au niveau de compétences actuel des entreprises.”
85
Entretien Henry ISAAC - Professeur Associé Paris-Dauphine - 28 mai 2013
66
On comprend donc qu’au delà des prérequis techniques et organisationnels, la qualité de la donnée est un véritable problème pour les entreprises.
3. Le problème majeur que représente la qualité de la donnée
Le Big Data implique une pondération de la véracité des données. En partant de constat, les entreprises sont prévenues, il est impératif qu’elles fassent preuve de méfiance à l’égard des données générées par le web. Cependant, cela rend-il les données inexploitables ? La réponse est oui en grande partie. En effet, à l’heure où un pourcentage non négligeable des avis publiés sur les plateformes sociales ne peut pas être considérées comme valables, comment mettre au point des recommandations jugées pertinentes au niveau marketing ? En allant plus loin dans le processus décisionnel de l’entreprise, comment justifier un investissement marketing en tenant compte de cette part (petite ou grande) d’incertitude ? Le récent exemple86 de Peter Hook, qui, au cours des deux dernières années et sous le pseudonyme “Tavare” n’a publié pas moins de 105 avis visant à discréditer ses concurrents montre bien cette difficulté. Cette politique de faux avis, qu’on appelle “astroturfing” aux USA, est un véritable fléau pour les sites de recommandations. Selon une étude publiée en avril 2013 et réalisée par le cabinet Edelman Berland auprès de 35.042 participants dans 26 pays (15.595 voyageurs et 19.447 entreprises), 44% des internautes ont choisi leur dernier hébergement en se basant uniquement sur les avis en ligne87. Au niveau de l’entreprise, c’est donc l’intégralité des données créées qui deviennent inexploitables. Peu importe le traitement que l’on en fait et le travail effectué en interne. Comme nous l’a expliqué Julien Moreschetti lors de notre entretien “garbage in, garbage out”. Une donnée biaisée à la base ne pourra donner suite qu’à un résultat
caduque donc impossible à interpréter. La donnée doit être considérée comme un produit ou plutôt comme une matière première. La démarche d’assurance qualité est indispensable, elle va permettre d’assurer le bon fonctionnement des prochaines étapes de la chaîne de production. Par extension, il s’agit bien de traiter la problématique de la cyber sécurité. Si une société décide de mettre en difficulté une société concurrente, il suffit pour cela de hacker ses sources d’informations pour mettre à mal son algorithme et donc la pertinence même de ses résultats. Nous mettons en garde ici sur un véritable point faible qui vaut pour l’intégralité des acteurs du web et qui serait susceptible d’être hautement préjudiciable pour n’importe quelles entreprises.
C. Le Big Data, c’est pour quand ?
Des investissements techniques colossaux, des réflexions organisationnelles
complexes et profondément engageantes, des résultats plus besogneux à obtenir qu’il n’y parait, des incertitudes sur la qualité de la donnée, des questions sur l’évolution des technologies.... L'énumération des doutes et des contraintes concernant la mise en place et l’application des solutions Big Data ne manquent pas. Quel est alors l’état du marché et sa maturité par rapport à l’arrivée du Big Data ? Henry Isaac nous a fourni des éléments de réponses.
“À l’heure où je vous parle, 99% des entreprises ne sont pas en mesure de mettre en place ce type de solutions. Mon expérience montre qu’elles n’ont pas encore assez de maturité pour implémenter des systèmes cohérents et fonctionnels. La majorité des sociétés, en dehors des firmes internationales comme Facebook et quelques exemples américains, qui prétendent maîtriser les 4V du Big Data sont évidemment conscientes de l’apport en terme d’image que cela peut représenter. A ce titre, on peut très bien considérer le Big Data comme un coup marketing, et ça l’est en partie. Le Big Data fait vendre. Les entreprises cherchent à se démarquer et à trouver de nouvelles sources de revenus grâce aux évolutions technologiques. Des entreprises comme IBM qui se sont
68
positionnées sur le marché du Big Data depuis plusieurs années disposent aujourd’hui d’une position importante sur le marché. Les raisons s’expliquent par une très bonne communication sur leur activité, leurs dépenses en R&D, et leurs offres de service. Or aujourd’hui, nous sommes davantage au stade d’une Business Intelligence améliorée, nous tendons vers le Big Data, mais il reste de belles années au marché pour qu’il soit maîtrisé et adopté.” 88
Ce constat assez unique pour être souligné est également partagé par Luc Byhet :
“On l’a bien vu avec les précédentes arrivées technologiques qu’ont représenté la Business Intelligence, le marché met énormément de temps à appréhender les nouveaux usages. A ce titre, j’évaluerais l’arrivée du Big Data entre 2015 et 2020. D’ici là, certaines entreprises mettront en place de très bons systèmes, mais elles resteront extrêmement marginales. Il faut aussi être clairvoyant sur ce qu’il se passe véritablement. Des sociétés comme IBM ou Cap Gemini font plus de bruits qu’autres choses. IBM n’innove pas constamment mais rachète des sociétés qui travaillent sur le sujet. Le Big Data est une affaire d’acquisitions bien sentie. Les acteurs font du “vaporware”, des effets d’annonces qui ont pour but de se positionner en tant que leader d’une technologie qui n’est pourtant pas ou très rarement mis en pratique. Pour le moment, ce sont avant tout des budgets marketing colossaux et des stratégies d’évangélisation. De plus, les technologies à base des fondements du Big Data comme le NoSQL s’avèrent très instables. L’effet d’annonce passé, beaucoup d’acteurs se rendent compte que le NoSQL n’apporte, pour l’instant, pas les réponses tant espérées.”
Tandis que le Big Data est présenté comme “la prochaine étape pour les entreprises”, nos études montrent en effet que beaucoup d’étapes intermédiaires sont indispensables pour atteindre et relever ses challenges, aussi bien techniques qu’organisationnels. On est encore dans la promesse du début du marché. Actuellement, les compétences ne sont pas encore là et il reste sans doute de nombreuses années avant que ce
88
Henri ISAAC - Professeur associé Paris-Dauphine - 28 mai 2013
69
phénomène puisse efficacement produire tous les bénéfices qu’il prétend apporter. Un autre point assez important pour être souligné porte sur le cadre juridique censé entourer le traitement de la donnée à grande échelle.
D. Cadre juridique et réveil de l’internaute
Quelles sont les évolutions possibles du marché en ce qui concerne la protection de l’utilisateur ? En effet, il est clair que le Big Data repose sur une manne d’informations utilisateurs libre de droit et d’exploitation. Cependant, que se passerait-il si toutes ces informations, sous la pression des gouvernements et de la méfiance des internautes, venaient à se tarir ? Il y a un an, une étude réalisée par le cabinet Domo89, montrait qu’à chaque minute, plus de 100 000 messages étaient postés sur Twitter, 684 000 messages (liens, statuts, photos, etc.) partagés sur Facebook, 48 heures de vidéos envoyées sur Youtube, et 3600 photos postées sur Instagram. Nous l’avons affirmé tout au long de ce mémoire, le grand défi de la prochaine décennie consiste à exploiter ces données. Facebook a d’ores et déjà révolutionné le marché publicitaire grâce aux informations récoltées depuis sa plateforme sociale. Une démocratisation des outils d’analyse sémantique permettra d’ici peu d’en faire de même avec des plateformes comme Instagram ou Pinterest. La stabilité de leurs systèmes repose donc sur un seul et unique : l’exploitation et la vente de ces données, qui s’effectue jusqu’à présent sans réel problème ni contestation extérieure. Deux éléments sont pourtant susceptibles de remettre en cause cette tendance. Pour l’instant, rien ne laisse présager une insurrection de la part des internautes ni un encadrement sévère de la part des gouvernements. Pourtant, il semblerait que les choses soient en mesure de changer, tout du moins, le débat est ouvert.
1. Le rôle fondamental de l’internaute
55% des français ont conscience de l’utilisation de leurs données à des fins publicitaires et 30% craignent que leurs données soient utilisées à des fins publicitaires. Au cours des prochaines années, il est inéluctable que ce pourcentage augmente pour atteindre finalement les 80 ou 90% avant 2020. a. Les réseaux sociaux En 2011, environ 35% des internautes témoignaient une relative confiance dans les réseaux sociaux, en 2013, ils sont 32%. Cette baisse de 3 points est importante. 2 français sur 3 ne font pas confiance dans les réseaux sociaux. Combien seront-ils en 2020 et quelles sont les raisons de cette méfiance ? Les principales raisons évoquées portent directement sur l’utilisation de leurs données. En effet, 82% des personnes interrogées sont gênées par l’utilisation de leurs données à des fins publicitaires. Pour éviter de recevoir des publicités, 47% d’entre eux communiquent même de fausses informations. Alors, quels sont les leviers qui pourraient pallier cette méfiance ? Pour 41% d’entre eux, aucune action ne pourra leur donner confiance en les réseaux sociaux et 20% pense qu’une meilleure politique de confidentialité pourrait les y aider.
b. Dans le e-commerce En 2009, environ 51% des internautes témoignaient une relative confiance dans le ecommerce, en 2011 ils étaient aux alentours de 56%, avant de descendre à 53% en 2013. On note que la courbe s’est inversée depuis 2012. Combien seront-ils en 2020 et quelles sont les sources de leurs méfiances ? 48% craignent que leurs données soient utilisées à des fins abusives, 32% craignent que les données soient conservées sans limites de temps et 38% à des fins
71
publicitaires. A ce titre, 98% des internautes jugent essentiels qu’une limite de temps soit fixée dans le cadre de l’utilisation de leurs données.
c. Dans ces conditions, quel avenir pour la data ? Dans le domaine du e-commerce, 90% des français disent avoir déjà achetés sur internet, alors qu’ils étaient 85% en 2009. Dans le domaine des réseaux sociaux, le taux d’utilisation est aujourd’hui de 77% contre 75% en 2011. En somme, bien que les usages se renforcent, l’internaute se veut beaucoup plus méfiant et plus “éveillé” en ce qui concerne l’utilisation faite de ses données. Cette tendance remet évidemment en question le Big Data. Comme nous avons pu le voir, le Big Data se nourrit des données utilisateurs. Le Web des objets connectés se base d’ailleurs sur un principe de total transparence en ce qui concerne l’activité de l’internaute. Or quels seraient les usages, si 75% des détenteurs de Smartphones refusaient par défaut d’activer la fonctionnalité de géolocalisation ? La réponse est complexe, autant que les sujets qu’elle soulève, il est cependant clair que les tendances du futur se basent sur des prédictions fragiles. Leurs réactions serontelles exacerbées par cette prolifération d’appareils et d’usages ? On pense notamment aux Google Glass de Google, qui semblent proposer des services intéressants mais extrêmement intrusifs et à priori bancale d’un point de vue législatif. A la vue de ce type d’évolution et de la situation actuelle, ce scénario est probable.
i.
Le rapport coût / avantage pour l’internaute
L’un des principaux facteurs qui va influencer l’avenir repose évidemment sur la nature des services proposés par les entreprises. On parle ici du rapport coût / avantage, indicateur économique qui permet de juger la valeur d’un investissement. On nommera investissement le fait, consciemment, de partager ses données sur le web et de les communiquer à des plateformes tiers. Ainsi, si les avantages qui en résultent s'avèrent
72
suffisants pour supporter le coût de cet investissement, nous pouvons partir du principe qu’une grande part des internautes décidera de jouer le jeu. A l’inverse, si les investissements s’avèrent insuffisants, la tendance actuelle sera sans doute confirmée. Cette théorie est actuellement validée par le scandale “Prism” qui a eu lieu au cours du mois de Juin 2013 et qui porte sur la récolte et l’analyse des données des citoyens américains par les services de renseignements du pays. Une étude menée par le Washington Post montre que 62% des personnes interrogées jugent importants que leurs données soient récoltées et exploitées pour prévenir un hypothétique acte terroriste même si cela se fait au détriment d’une protection de la vie privée. Toutes proportions gardées, nous pensons justement que si les entreprises utilisent de manière intelligente ces données et qu’elles permettent aux utilisateurs de faciliter, d’approfondir et d’améliorer la qualité de leurs activités, tout en respectant leurs vies privées, un accord tacite devrait être trouvé. La base de cet accord repose sur la philosophie adoptée par les entreprises et leurs capacités à considérer l’internaute comme un client et non comme un produit. Le deuxième élément susceptible d’influencer les tendances futures repose sur la capacité et la volonté des gouvernements à encadrer le marché de la donnée.
2. Les gouvernements à la croisée des chemins
Le Big Data pose nécessairement une question juridique sur le droit des entreprises à utiliser des données qui pourraient émaner d’internautes non avertis. L’exemple des Google Glass est sans doute l’un des plus marquants. Comment réguler un appareil qui enregistrera des heures et des heures d’enregistrement vidéo sans aucune considération de la notion propriété intellectuelle et de la protection de la vie privée ? Plusieurs instances françaises et européennes encadrent le marché de la donnée sur internet. En première ligne, nous retrouvons la CNIL90 qui a pour principal objectif de protéger les données personnelles, d’accompagner l’innovation, et de préserver les
90
Commission Nationale de l’Information et des Libertés
73
libertés individuelles. Pour cette raison, les CNIL européennes et nationales tentent actuellement de gérer la problématique du Big Data. Cependant, Henry Isaac nous explique deux choses, premièrement qu’il est sans doute déjà trop tard, et deuxièmement que les rapports de force entre les institutions et les entreprises sont aujourd’hui en passe de s’inverser.
“Aujourd’hui, les gouvernements sont incapables d’appréhender la problématique de l’exploitation des données personnelles. C’est de toute façon un sujet qui aurait dû être traité et considéré comme majeur au cours de la dernière décennie. J’ai l’impression que les états se rendent compte seulement aujourd’hui de l’importance du sujet. D’ailleurs je pense très sincèrement qu’il est déjà trop tard. Google centralise d’ores et déjà, via ses services des milliards de données chaque jour. Pour l’instant ils n’ont pas décidé de les commercialiser, mais quand ils le souhaiteront, qui pourra les en empêcher ? A titre d’exemple, Facebook le fait déjà. Il y a également un vrai enjeu d’éducation, combien de personnes sont réellement au courant de l’utilisation faites de leurs données ? La vérité qui se cache derrière cela est que chaque action effectuée sur internet remplie de manière continue notre “casier numérique”. 91
La Commission européenne, qui souhaite évidemment suivre l’évolution technologique, a publié un projet de nouvelle réglementation destinée à remplacer le cadre juridique actuel. Il introduit de nouveaux droits, comme le droit à l'oubli, le droit à la portabilité des données 92 , la vie privée par la conception et la confidentialité par défaut. De nombreuses discussions ont également lieu dans les hautes sphères politiques pour encadrer l’utilisation des cookies tiers, en compagnie d’acteurs comme Facebook ou Google. Ils sont âpres et font l’objet de lobbying puissant de la part des firmes Américaines. Cependant, sous la pression de l’Allemagne, beaucoup plus concernée par la question de la propriété de la donnée, l’Europe est donc en passe de réussir à mettre en place un projet juridique viable.
91 92
Entretien Henry Isaac - Professeur Associé Paris Dauphine - 28 mai 2013 Désigne la possibilité de gérer soi-même ses données personnelles, de les porter d'un système à un autre, de les partager entre plusieurs systèmes.
74
Nous l’avons vu précédemment, le marché de la data représente plusieurs milliards de dollars. Si de nouvelles barrières à l’entrée faisaient leur apparition au niveau européen, quelles seraient les conséquences pour les entreprises françaises ? Henry Isaac souligne que :
“Pour les internautes, il s’agirait effectivement d’une très bonne nouvelle. Le droit à l’oubli permettrait de sortir d’un système où les entreprises disposent de tous les droits, la restriction de la collecte des données permettrait d’éviter tous types d’abus et de sensibiliser les internautes. La vraie question repose maintenant sur les conséquences que ces réglementations vont engendrées en terme de business. Clairement, il existe une vraie dualité entre l’internaute et l’entreprise. Favoriser l’un revient à défavoriser l’autre. Le problème ici est concurrentiel, puisque les USA ne sont pas dans une optique de protection de l’utilisateur. Si l’Europe décide de réglementer le marché de la data, cela se fera au détriment d’une compétitivité sur le marché de la data, de la publicité ciblée etc.”93
Il faut donc choisir entre la protection de l’internaute et la compétitivité des entreprises européennes sur le marché de la data. Sans être aussi manichéen, il existe bien sûr des scénarios intermédiaires, qui comme nous l’avons vu consisterait par exemple à considérer à sa juste valeur l’internaute. Quoi qu’il en soit, les vides juridiques sont nombreux à l’approche de cette nouvelle ère numérique. Il est impératif et fondamental pour les futures générations de rétablir un équilibre entre les entreprises et le consommateur et de redéfinir le cadre de la vie privée numérique.
93
Entretien Henry Isaac - Professeur Associé Paris Dauphine - 28 mai 2013
75
Conclusion
Le Big Data est donc amené à soulever des problématiques bien plus importantes que ses seules avancées technologiques. Nous l’avons vu, bien que ces dernières soient innovantes, leur application va demander du temps, beaucoup de temps avant qu’elles ne puissent être maîtrisées et intégrées aux processus décisionnels des entreprises. Ces mêmes entreprises sont actuellement trop fragiles et trop jeunes pour appréhender de telles architectures car les contraintes sont nombreuses. Elles sont premièrement d’ordre financier, car la mise en place implique de lourds investissements qui sont supportables pour des sociétés comme Facebook ou Google mais qui restent inabordables pour 99% d’entre elles. La complexité induite par la mise en place de ces architectures représente elle aussi un frein important, d’autant que, comme nous l’avons vu les ressources et les compétences requises par le Big Data ne sont pas encore disponibles sur le marché. Plusieurs scénarios vont potentiellement permettre au Big Data d’éclore et de connaître l’évolution que bon nombre d’experts lui prêtent. Dans un premier temps, il est fort probable que les instances de formation prennent en compte ce phénomène pour adapter leurs parcours et ainsi permettre aux entreprises de recruter les Data Scientist nécessaires. De la même manière, cette évolution globale du marché va sans doute impliquer de repenser en grande partie la nature même des métiers du marketing, car, il parait évident à la vue des éléments fournis précédemment que la data va modifier l’intégralité des secteurs d’activité. Deuxièmement, l’évolution du Cloud va, au cours des prochaines années, représenter un autre facteur essentiel à la démocratisation du traitement de la data. Lui seul peut permettre de faire baisser le prix de la donnée en augmentant la capacité de stockage et en facilitant le travail d’analyse et de traitement. C’est ce scénario qui s’est déroulé aux USA et c’est principalement grâce à cela que les entreprises américaines disposent aujourd’hui d’une avance considérable dans la maîtrise et l’exploitation de la donnée. Le marché français risque donc d’assister à une transition longue et besogneuse qui passera sans doute par la disparition des Data Warehouse au profit d’espaces de
76
stockage exclusivement externes. Ce phénomène est en soit un énorme défi pour les entreprises françaises et en dit long sur le chemin nécessaire avant que les sociétés puissent mettre en place des processus techniques et organisationnels propices au Big Data. Car il est clair qu’au-delà des challenges techniques qu’impliquent le Big Data, il est indispensable pour les entreprises d’adopter une vraie politique de la donnée. A ce titre, cette politique doit être centrée sur les besoins et les objectifs de la marque et doit permettre à tous les salariés de considérer la data comme une véritable matière première, susceptible à elle seule d’améliorer la qualité de production ou de service. Un des principaux enjeux du Big Data est donc de valoriser la data, de lui donner du sens tout en travaillant sur sa véracité et sa fiabilité, pour qu’elle devienne vecteur de performance au sein des structures. C’est ce travail de fond qui permettra aux entreprises de bien négocier ce tournant, car nous l’avons vu, la difficulté que rencontre les entreprises porte sur le nettoyage des données. Pour éviter cette contrainte, plusieurs moyens sont à la portée des entreprises. Nous l’avons vu à travers d’exemples comme Zafu ou Zap Travel qui ont décidé de privilégier la qualité à la quantité. C’est d’ailleurs ce type de solutions qui risquent de se développer dans un premier temps. Leurs mises en place nécessitent effectivement moins de temps, d’argent, et il n’est pas rare de retrouver des résultats aussi pertinents et instructifs sur l’utilisateur qu’avec des données externes. Il est donc essentiel d’avoir en tête que le Big Data n’implique pas obligatoirement de traiter un volume colossal de données et qu’il est tout à fait possible de récréer un écosystème interne de partage et d’expression utilisateur qui permette d’affiner la segmentation client sans grosse volumétrie. Concernant le traitement des données non structurées disponibles sur le web, les enjeux sont bien plus complexes et le niveau de difficulté bien supérieur. Actuellement, très peu d’entreprises peuvent revendiquer un traitement de données non structurées comme peuvent l’être les commentaires, les Likes ou les posts sur Twitter. Les outils
77
disponibles ont certes permis d’appréhender plus précisément ce challenge, cependant, leurs intégrations et leurs interprétations ne sont aujourd’hui qu’à un stade exploratoire. Pourtant, au niveau micro, certains usages sont d’ores et déjà permis, nous pensons notamment aux outils de veille autour desquels nous assistons à une véritable révolution sous l’impulsion des SMA94 . Pour les marques, il s’agit véritablement de connaître les fluctuations de son marché, des acteurs qui le compose et surtout, d’anticiper d’éventuels évènements susceptibles de modifier la structure du marché à court, moyen ou long terme. Dans ce domaine, Google ne cesse de proposer et d’inventer de nouveaux usages. On pense à Google Trends, qui est actuellement le seul outil capable d’obtenir un temps de réponse aussi court par rapport à la quantité de données récupérées, au point de pouvoir prédire les comportements des internautes qui effectuent des requêtes sur le célèbre moteur de recherche. C’est ce fameux caractère prédictif qui agite tant les débats et qu’il est possible de retrouver dans certains cas, mais, qui a pourtant du mal à faire ses preuves dans d’autres secteurs. Car si la prédiction est aujourd’hui permise à travers des usages microéconomiques, elle l’est beaucoup moins dans des situations où la segmentation et la granularisation sont élevées. En effet, la mise en place de recommandations prédictives centrées sur l’utilisateur est encore bien trop opaque et complexe pour qu’on puisse la considérer comme acquise. Les résultats sur le marché de la publicité le prouvent. Pourtant, cette granularisation de la clientèle offrent aux métiers du marketing d’énormes opportunités d’augmenter le taux de transformation, le panier moyen, la fidélisation et également les cycles de vie du produit. Nous l’avons vu à travers les outils de recommandation qui s’annoncent déjà comme un des principaux défis des entreprises et sans doute l’une des premières applications du Big Data. Ce MOD Marketing On Demand - représente une véritable aubaine dans la quête de personnalisation des services. Il permettra lorsqu’il sera mis en place de réduire les freins à l’achat et de proposer des expériences de navigation nouvelles et novatrices.
94
Social Media Aggregator
78
Avant cela, les entreprises devront apprendre à améliorer leurs connaissances du client à travers des données plus simples car structurées mais qui permettront tout de même de trouver de nouvelles sources de segmentation. Car l’internet des objets représente le premier défi auquel les entreprises vont être confrontées. Il offrira une vision précise des usages utilisateurs et permettra de connaître chaque client d’une manière bien plus poussée. Encore faut-il que ces usages soient acceptés par l’utilisateur qui montre des signaux réfractaires quant au “flicage” massif qu’il s’apprête à subir. L’évolution des mentalités est en ce sens un facteur déterminant dans l’évolution du Big Data, au même titre que les stratégies politiques européennes, dont les débats et les actes de lobbying s’annoncent d’ores et déjà nombreux. A ce titre, il nous semble indispensable de réguler les rapports entre le consommateur et l’entreprise au sein de l’écosystème numérique. Le droit à l’oubli, la propriété intellectuelle sont autant de sujets fondateurs et pour lesquels les sociétés du monde entier accusent un retard considérable. Attention, il convient toutefois de pondérer la rapidité des transitions technologiques et philosophie induites par le Big Data. En effet, alors que des acteurs comme IBM ou Cap Gemini promettent, grâce à son arrivée, des systèmes entièrement automatisés ou prédictifs, le passé nous a montré que la réalité était souvent bien différente. Déjà, à l’époque, l’arrivée de la Business Intelligence avait laissé entrevoir ce même genre d’avancées. Or, la réalité actuelle est tout autre. L’automatisation par exemple, ne semble toujours pas praticable. Plusieurs raisons expliquent cet engouement, souvent démesuré. Premièrement il est profondément normal que le marché attende énormément des Évolutions technologiques apportées par le Big Data. L’imaginaire est sans cesse nourri par les visions futuristes qui composent le paysage cinématographique et littéraire. De plus, notre passé proche nous pousse à envisager les Révolutions technologiques de manière beaucoup plus rapide qu’auparavant. Il y a 10 ans, internet se démocratisait à peine, alors finalement, pourquoi pas ? Rappelons nous de cette phrase prononcée par Henry Isaac et qui résume bien cette idée : “la réalité est toujours plus besogneuse que ce que l’on croit”. Deuxièmement, les enjeux commerciaux pour des acteurs comme IBM sont énormes. Leur stratégie d’évangélisation n’est autre qu’une vaste opération de prospection où le Big Data fait
79
figure d'appât. De plus, dans un monde où l’innovation est devenue le principal facteur clé de réussite, cette image de pionnier est en soit une vraie victoire pour la firme, qui s’est d’ores et déjà positionné comme leader sur le marché. En somme, bien que le Big Data apporte des réponses bien plus poussées que la Business Intelligence, iI convient de pondérer les différentes promesses qui ont émanées de toute part. A ce titre, il nous semble que la doctrine “let the data speak” n’est pas encore d’actualité, et ce, pour de nombreuses années encore. Il n’empêche, le Big Data permet d’aborder des thèmes qui s’avèrent fondamentaux pour l’avenir de nos sociétés : quelle sera la place de la technologie dans le futur ? Quel rôle souhaite-t-on donner à la donnée et dans quelle mesure souhaitons-nous impliquer la machine dans les processus décisionnels ? La société américaine a d’ores et déjà décidé de modifier son ADN en intégrant le Big Data dans des secteurs comme la criminologie ou la médecine. Dénuée de sa capacité de décision et donc de ses responsabilités, quelle sera alors la place de l’homme ?