Big data & Machine learning
Le Big Data désigne un ensemble très volumineux de données qu’aucun système classique de gestion de base de données ou de gestion de l’information ne peut vraiment exploiter.Quant au Machine learning, encore appelé apprentissage automatique, c’est l’utilisation des outils de l’intelligence artificielle (algorithmes, réseaux de neurones…) en vue d’obtenir une analyse prédictive à partir de données collectées.
Concept
Les outils analytiques traditionnels ne sont pas suffisamment performants pour exploiter pleinement la valeur du Big Data. Les volumes de données sont trop larges pour des analyses compréhensives, et les corrélations et relations entre ces données sont beaucoup trop importantes pour que les analystes puissent tester toutes les hypothèses afin de dégager des valeurs de ces données.
Les méthodes analytiques basiques sont utilisées par les outils de business intelligence et de reporting pour le rapport des sommes, pour faire les comptes et pour effectuer des requêtes SQL. Les traitements analytiques en ligne sont une extension systématisée de ces outils analytiques basiques qui nécessitent l’intervention d’un humain pour spécifier ce qui doit être calculé.
Le Machine Learning s’avère idéal pour exploiter les opportunités cachées du Big Data. Cette technologie permet d’extraire de la valeur en provenance de sources de données massives et variées sans avoir besoin de compter sur un humain. Elle est dirigée par les données, et convient à la complexité des immenses sources de données du Big Data. Contrairement aux outils analytiques traditionnels, il peut également être appliqué aux ensembles de données croissantes : plus les données injectées à un système Machine Learning sont nombreuses, plus ce système peut apprendre et appliquer les résultats à des insights de qualité supérieure. Le Machine Learning permet ainsi de découvrir les patterns complètement enfouies dans les données avec plus d’efficacité que l’intelligence humaine.
Fonctionnementl, utilisation Big Data & Machine Learning
Applications
Le duo Big Data et « Machine Learning » est ce qui permet aux entreprises aujourd’hui de créer de la valeur ajoutée grâce à leurs données. Pourquoi ?
Pour mieux le comprendre, sachons déjà que le « Machine Learning » est au cœur des outils que nous utilisons au quotidien, s’appliquant à presque tous les domaines existants. Des nombreuses applications de cette association technologique, nous allons nous appesantir au domaine de la Banque plus précisément dans le marketing et la cybersécurité.
Optimisation de l’efficacité des prospection avec le marketing Prédictif
Depuis trois mois, vous passez l’essentiel de votre pause-déjeuner les yeux rivés sur trouverunappart.cm. Et, lorsque vous vous déconnectez du site d’annonces immobilières, c’est pour vous précipiter sur ceux des banques, afin de comparer les offres de prêts. Cinq minutes à tuer ? Vous voilà sur Google, à la recherche des derniers articles parus sur l’évolution récente des prix de l’immobilier, des taux, ou encore des frais de notaire. Nul besoin d’être Sherlock Holmes pour deviner que vous avez la ferme intention d’acquérir un appartement dans un futur proche. Sans que vous ne lui ayez (encore) rien demandé, votre banque serait donc bien inspirée de vous adresser sous peu une offre de prêt immobilier. Laquelle vous semblerait autrement plus opportune que les propositions de crédit automobile dont votre établissement bancaire vous bombarde régulièrement, alors que vous ne possédez pas de voiture.
Mais pour ce faire, encore faudrait-il que votre banque dispose de tous les indices précités. C’est désormais possible avec le big data, qui, grâce à l’analyse et au croisement d’énormes masses de données structurées ou non (publications sur les réseaux sociaux, emails, etc.), permet de disposer d’une connaissance beaucoup plus fine des clients et, partant, de leur proposer le bon produit, au bon moment, par le canal de distribution le plus adéquat. « Le marketing classique repose sur des informations partielles et souvent obsolètes. Le marketing prédictif permet de résoudre cet inconvénient, puisqu’il est basé sur la recherche de données « fraîches » sur le Web, sur les réseaux sociaux et via l’open data, données qui sont ensuite combinées à celles des fichiers clients des entreprises », a expliqué Philippe Spénato, l’un des responsables de la startup Data Publica, spécialisée dans le marketing prédictif, lors d’un séminaire sur le big data qui se déroulait à Paris mardi 26 janvier 2017.
Le Big data et le Machine learning dans la lutte contre la cybercriminalité
Pour détecter en temps réel les nombreuses menaces qui guettent leurs clients en ligne, les banques doivent analyser leur trafic, de grandes quantités d’informations générées par des dizaines – voire des centaines – de millions d’événements enregistrés sur leur site web chaque jour.
Seuls les outils Big data permettent aujourd’hui d’analyser ces volumes massifs de données en temps réel, pour détecter, entre autres, les tentatives de fraude, les comportements suspects, les anomalies du trafic, etc.
D’après Léa, experte en sécurité SI, chez Société Générale, le Big data couplé au Machine Learning est au cœur de la lutte contre la cybercriminalité dans le domaine bancaire et, en particulier, dans la détection de la fraude dans la banque à distance.
Concrètement, les outils et techniques de Big data et Machine learning permettent par exemple aux équipes de Sécurité SI des Réseaux de banque de détail en France de traiter 60 à 120 millions de nouveaux événements par jour, issus des actions des clients (clics, connexions, etc.). Ils permettent notamment d’explorer de nouvelles approches pour la détection dynamique des attaques de banque en ligne les plus complexes.
Léa explique également que l’utilisation des outils Big data permet une étude comportementale des clients, afin de détecter de nouveaux scénarios d’attaques. Les cybercriminels sont de plus en plus forts, car l’activité est largement rentable, dit-elle. « Nous avons donc construit sur une infrastructure Big data basée sur la technologie de traitement de données Hadoop et MapReduce, un certain nombre d’algorithmes d’intelligence artificielle, plus précisément de Machine learning, nous permettant de modéliser toutes les habitudes des clients, afin de “scorer” les opérations et détecter celles qui sont suspicieuses », a-t-elle ajouté. Les variables modélisées chez le client incluent, entre autres, les habitudes de navigation sur la page Web de banque à distance, les habitudes de connexion (informations de poste de connexion, IP, dispositifs utilisés, etc.) et les habitudes de transaction (virements, pays de destination, etc.). Léa souligne que cette approche permet d’anticiper les futurs scénarios de fraude en temps réel.
En plus de l’étude comportementale des clients, « les outils Big data permettent aussi d’analyser les risques bancaires liés aux différents scénarios d’attaques de la banque en ligne, notamment grâce au profilage des clients pour une meilleure estimation de l’impact de l’attaque ou encore au calcul de complexité des chemins d’attaques pour une meilleure estimation de la vraisemblance d’attaque », dit-elle. « Le Machine learning permet en plus d’automatiser et gérer les réponses face aux scénarios d’attaques de la banque en ligne. »
En dépit des craintes exprimées par certains sur la collecte de données massives, les outils Big data permettent donc une révolution positive qui s’impose de plus en plus dans la stratégie de cybersécurité des entreprises. Comme Léa l’a expliqué, dans le domaine bancaire, il trouve sa place au coeur de la lutte contre la cybercriminalité et la fraude de banque en ligne : une des raisons pour lesquelles ce domaine d’activités a une demande croissante de profils Big data au sein des équipes IT.
Impact
Le débat sur l’impact réel de l’exploitation des big data associés à l’apprentissage automatique tend à opposer les bénéfices d’une meilleure compréhension des comportements humains aux dangers d’abus concernant la vie privée. Un article de Susan Athey, ancienne économiste en chef de Microsoft, montre qu’il ne faut pas non plus surestimer la qualité de la compréhension qu’on peut en tirer (« Beyond Prediction : Using Big Data for Policy Problems », Science n° 6324, 3 février 2017).
Jusqu’à récemment, les analyses statistiques des comportements humains devaient choisir entre deux types d’informations. Les enquêtes permettent de poser beaucoup de questions à relativement peu de gens, avec le risque que les personnes interrogées soient peu représentatives de l’ensemble de la population. Avec un échantillon plus large, les recensements permettent de s’adresser à beaucoup de gens, voire à des populations entières, mais en leur posant peu de questions, ce qui limite l’analyse à une modélisation simple.
Mise en garde
Désormais, les entreprises comme Google, Apple ou Facebook disposent de millions de variables décrivant le comportement de millions de personnes. Les techniques d’apprentissage machine (« machine learning ») peuvent y cerner des tendances qui échapperaient à un regard purement humain. Mais Susan Athey nous met en garde contre un optimisme facile quant à la sophistication des modèles comportementaux qui en découlent.
Observer des comportements, les cerner à l’aide de l’algorithme le plus sophistiqué, ne nous aide pas à savoir si ces comportements restent inchangés lorsque nous essayons d’intervenir pour améliorer la situation. Or, quasiment toutes les applications des big data concernent une intervention potentielle, que ce soit une politique publique, la politique commerciale d’une entreprise ou le choix d’un hôpital entre différents traitements.
Son article cite de nombreux cas où les tendances observées par les méthodes du big data ne suffisent pas pour prédire l’impact d’une intervention. La société eBay avait cru calculer par ces méthodes que son retour sur investissement en publicité en ligne était de 1 400 % à cause d’une forte corrélation entre les achats et les investissements publicitaires. Après une vérification expérimentale, il a été constaté que le vrai retour était de… 63 %, car la plupart des achats auraient été faits sans les annonces !
Des risques scientifiques
L’apprentissage machine est souvent utilisé par les entreprises privées pour prédire les profils de clients les plus susceptibles de quitter la firme pour un concurrent. Ces prédictions sont utilisées pour allouer le service aprèsvente en priorité aux clients de fidélité faible. Mais ces interventions sont souvent décevantes : être susceptible de partir vers un concurrent ne rend pas forcément le client sensible aux efforts de la firme pour le garder.
Un exemple des risques scientifiques des analyses big data apparaît dans un article d’un autre économiste en chef d’une grande entreprise – en l’occurrence Hal Varian, de Google (« Big Data : New tricks for Econometrics », Journal of Economic Perspectives (https://www.aeaweb.org/articles? id=10.1257/jep.28.2.3) , n°28/2, printemps 2014). On constate depuis vingt ans qu’être noir aux Etats Unis est associé à une probabilité plus faible de se voir accorder un prêt immobilier. Une analyse big data effectuée par Varian montre que lorsqu’on prend en compte le fait d’avoir pu trouver ou non une assurance (condition nécessaire pour un prêt), la différence raciale ne joue plus aucun rôle.
Peut-on en conclure que les différences raciales ne sont pas importantes pour accéder aux prêts immobiliers ? Pas du tout ! Comme le reconnaît Varian, trouver une assurance pourrait être plus difficile pour les Américains noirs que pour les autres – c’est peutêtre même à travers l’allocation des assurances que la discrimination raciale aurait son impact principal sur l’accès aux prêts. Les big data permettent de prédire qui recevra un prêt, mais en expliquer les causes reste un défi autrement plus complexe.
Partager cet article