Machine Learning
Présentation et atouts
Le machine learning est une méthode d'analyse des données qui automatise la création de modèles analytiques. C'est une branche de l'intelligence artificielle qui repose sur l'idée que les systèmes peuvent apprendre des données, identifier des tendances et prendre des décisions avec un minimum d'intervention humaine.
Évolution du machine learning
Grâce aux nouvelles technologies informatiques, le machine learning a énormément progressé. Il est issu de la reconnaissance de tendances et de la théorie selon laquelle les ordinateurs peuvent apprendre sans être programmés à effectuer des tâches spécifiques. Les chercheurs s'intéressant à l'intelligence artificielle voulaient en effet savoir si les ordinateurs étaient capables d’apprendre des données. La dimension itérative du machine learning est importante car les modèles s'adaptent d’eux-mêmes lorsqu'ils sont exposés à de nouvelles données. Ils apprennent de calculs précédents afin de produire des décisions et résultats fiables et reproductibles. La science n'est donc pas nouvelle, mais elle connaît un nouvel élan.
Alors que de nombreux algorithmes de machine learning existent depuis longtemps, la capacité à appliquer automatiquement des opérations mathématiques complexes aux big data (de façon répétitive et de plus en plus rapide) est une évolution récente. Voici quelques exemples très connus d'applications de machine learning :
- La voiture autonome surmédiatisée de Google ? L'essence du machine learning.
- Les recommandations en ligne comme celles d'Amazon et de Netflix ? Des applications de machine learning pour la vie quotidienne.
- Savoir ce que les clients disent de vous sur Twitter ? Du machine learning associé à la création de règles linguistiques.
- La détection des fraudes ? L'une des utilisations les plus évidentes et les plus importantes à l'heure actuelle.
Machine learning et intelligence artificielle
Si l'intelligence artificielle (IA) désigne au sens large une science visant à imiter les capacités humaines, le machine learning en est un sous-ensemble qui consiste à former une machine à apprendre par elle-même. Regardez cette vidéo pour comprendre la relation entre l'IA et le machine learning. Elle explique le fonctionnement de ces deux technologies, exemples et anecdotes à l’appui.
Quel est l'intérêt du machine learning ?
Le regain d'intérêt pour le machine learning s’explique par des facteurs qui sont également à l’origine de l’incroyable popularité du data mining et de l'analyse bayésienne : multiplication et diversification des données disponibles, puissance de calcul plus importante et moins coûteuse, stockage des données plus économique.
Autant de facteurs qui permettent désormais de créer automatiquement des modèles capables d’analyser des données complexes et volumineuses, et d’obtenir rapidement des résultats précis, y compris à très grande échelle. Et en élaborant des modèles précis, une entreprise multiplie ses chances d'identifier des opportunités rentables, ou de se prémunir des risques inconnus.
Quelles sont les composantes essentielles d’un système de machine learning performant ?
- Fonctions de préparation des données.
- Algorithmes (de base et avancés).
- Processus d'automatisation et itératifs.
- Évolutivité
- Modélisation d’ensembles.

Le saviez-vous ?
- En machine learning, la cible est une « étiquette ».
- En statistique, la cible est une « variable dépendante ».
- Une variable en statistique est une « caractéristique » en machine learning.
- Une transformation en statistique est une « création de caractéristique » en machine learning.
Le machine learning de nos jours
En utilisant des algorithmes pour créer des modèles qui révèlent des connexions, les entreprises peuvent prendre de meilleures décisions sans intervention humaine. Découvrez les technologies qui façonnent le monde dans lequel nous vivons.
Opportunités et enjeux du machine learning en entreprise (en anglais)
Ce livre blanc publié par O'Reilly constitue un guide pratique pour le déploiement d'applications de machine learning dans l'entreprise.
Développez vos compétences
Bénéficiez d'une formation approfondie et d'un accès gratuit aux logiciels SAS pour développer vos compétences en Machine Learning (Apprentissage Automatique). La formation comprend : 14 heures de cours, 90 jours d'accès gratuit au cloud, un format d'apprentissage flexible en ligne, aucune compétence en programmation requise.
Le machine learning transformera-t-il votre entreprise ? (en anglais)
Ce rapport Harvard Business Review Insight Center étudie dans quelle mesure le machine learning va transformer les entreprises et leur mode de gestion.
Télécharger le rapport
Application du machine learning à l'IoT
Le machine learning peut permettre de gagner en efficacité, notamment dans le domaine de l'Internet des objets. Cet article explore le sujet.
Utilisation
La plupart des entreprises qui manipulent de gros volumes de données reconnaissent l'intérêt du machine learning. En extrayant des informations de ces données (souvent en temps réel), elles peuvent travailler plus efficacement ou devancer leurs concurrents.
Services financiers
Les banques et autres entreprises du secteur financier utilisent principalement le machine learning dans le but d’interpréter les données et de prévenir la fraude. Les informations obtenues servent à identifier des opportunités d'investissement ou indiquent aux investisseurs le meilleur moment pour réaliser leurs opérations. Le data mining permet également de repérer les clients à haut risque ou d'utiliser la cybersurveillance à la recherche de signaux révélateurs de fraude.
Administration
Les administrations en charge de la sécurité et des services publics ont particulièrement besoin du machine learning car elles ont accès à de nombreuses sources de données pouvant receler de précieuses informations. Ainsi, l'analyse des données des capteurs fait apparaître des pistes pour améliorer l'efficacité et réaliser des économies. Le machine learning permet également de détecter la fraude et d'éviter l'usurpation d'identité.
Santé
Le machine learning a le vent en poupe dans le secteur de la santé, grâce à l'avènement d'accessoires connectés et de capteurs qui évaluent en temps réel l'état de santé d'un patient. La technologie sert également à analyser les données pour dégager des tendances ou des indicateurs d'alerte permettant d’améliorer les diagnostics et les traitements.
Marketing et vente
Les recommandations d'achat des sites web utilisent le machine learning pour analyser votre historique d’achats et vous proposer des articles susceptibles de vous intéresser. L’avenir de la grande distribution réside dans cette capacité à capturer des données, à les analyser et à les mettre à profit pour personnaliser une expérience d'achat (ou déployer une campagne marketing).
Energies
Trouver de nouvelles sources d'énergie. Analyser les minerais présents dans le sol. Prévoir les pannes des capteurs d'une raffinerie. Simplifier l'approvisionnement en pétrole pour optimiser l’efficacité et la rentabilité. Les cas d'usage dans ce secteur sont nombreux et ne cessent de se multiplier.
Transports
L'analyse des données pour identifier des schémas et tendances joue un rôle clé dans le secteur des transports, dont la rentabilité est tributaire de la capacité à optimiser les itinéraires et à anticiper les problèmes. L'analyse des données et la modélisation sont des outils importants pour les sociétés de livraison, les transports publics et autres entreprises du secteur.
En savoir plus sur les secteurs qui utilisent cette technologie
- Agriculture
- Banque
- Marchés financiers
- Casinos
- Produits de consommation
- Santé
- Enseignement supérieur
- Hôtels
- Assurance
- Sciences de la vie
- Manufacturing
- Pétrole et gaz
- P-12 Education
- Secteur Public
- Retail
- Petites et moyennes entreprises
- Analytique dans le Sport
- Voyages & transports
- Télécommunications, médias & technologie
- Transports & énergie
Méthodes courantes de machine learning
Les deux méthodes de machine learning les plus utilisées sont l'apprentissage supervisé et l'apprentissage non supervisé, mais il en existe d'autres. Voici les principales.
Les algorithmes d'apprentissage supervisé sont entraînés sur des exemples étiquetés, par exemple une entrée dont le résultat attendu est connu. Ainsi, un équipement pourrait comporter des points de données étiquetés « E » (échecs) ou « R » (réussites). L'algorithme d'apprentissage reçoit une série de données en entrée avec les sorties correctes correspondantes, et apprend en comparant la sortie réelle avec les sorties correctes. Il modifie alors le modèle en conséquence. A l'aide de méthodes comme la classification, la régression, la prédiction et le "gradient boosting", l'apprentissage supervisé utilise des schémas pour prédire les valeurs de l'étiquette sur d'autres données non étiquetées. Cette méthode d'apprentissage est couramment utilisée dans les applications où les données historiques servent à prévoir des événements futurs probables. Par exemple, elle permet de savoir dans quels cas des transactions de carte de crédit risquent d'être frauduleuses ou quel assuré est susceptible de soumettre une demande d'indemnisation.
L'apprentissage non supervisé s’applique aux données sans étiquettes historiques. Dans ce cas, le système ne connaît pas la « bonne réponse ». C'est à l'algorithme de déterminer le modèle présenté. Le but est d'explorer les données et d'en découvrir la structure. L'apprentissage non supervisé fonctionne bien avec les données transactionnelles. Il permet par exemple d'identifier des segments de clients qui possèdent des attributs similaires et peuvent donc être traités de la même façon dans les campagnes marketing. Il peut aussi détecter les attributs principaux qui servent à segmenter la clientèle. Parmi les techniques les plus courantes figurent les cartes auto-organisatrices, le mappage du voisin le plus proche, la clusterisation par la méthode des nuées dynamiques et la décomposition en valeurs singulières. Ces algorithmes servent aussi à segmenter des thématiques de texte, à recommander des articles et à identifier des données hors normes.
L'apprentissage semi-supervisé a les mêmes applications que l'apprentissage supervisé. Cependant, son entraînement repose à la fois sur des données étiquetées et non étiquetées, généralement une petite quantité de la première catégorie et une grande quantité de la seconde catégorie (car l'acquisition de données non étiquetées coûte moins cher et nécessite moins d'efforts). Ce type d'apprentissage peut être utilisé avec des méthodes comme la classification, la régression et la prédiction. L'apprentissage semi-supervisé est utile lorsque le coût de l'étiquetage est trop élevé pour justifier un processus d'apprentissage entièrement étiqueté. La reconnaissance du visage d'une personne sur une webcam fait partie des premières applications de cette méthode.
L'apprentissage par renforcement est souvent utilisé en robotique, dans les jeux vidéo et la navigation. Avec l'apprentissage par renforcement, l'algorithme découvre par tâtonnements les actions qui donnent les meilleurs résultats. Les trois grandes composantes de ce type d'apprentissage sont les suivantes : l'agent (l'apprenant ou le décideur), l'environnement (tout ce avec quoi l'agent interagit) et les actions (ce que l'agent peut faire). Le but est que l'agent choisisse les actions de façon à obtenir le résultat optimal en un laps de temps donné. L'agent atteindra bien plus rapidement les objectifs en appliquant une stratégie adéquate. L'apprentissage par renforcement a donc pour objectif d’apprendre la meilleure stratégie.
Les humains peuvent généralement créer un ou deux modèles satisfaisants par semaine ; le machine learning est capable d'en générer des milliers.
Thomas H. Davenport, expert reconnu de l'analytique
extrait du Wall Street Journal
Différences entre le data mining, le machine learning et le deep learning
Bien que toutes ces méthodes aient un objectif commun (extraire des informations, des tendances et des relations permettant de prendre des décisions), les approches et les capacités diffèrent.
Data mining
Le data mining peut être considéré comme un sur-ensemble de méthodes permettant de tirer des enseignements des données. Il peut combiner approches statistiques classiques et machine learning. Il applique des méthodes issues de différents domaines pour identifier dans les données des tendances jusqu’alors inconnues : algorithmes statistiques, machine learning, analyse textuelle, analyse de séries chronologiques et autres branches de l'analytique. Le data mining englobe également l'étude et la pratique du stockage et de la manipulation des données.
Machine learning
Avec le machine learning, la grande différence est que, comme pour les modèles statistiques, il s'agit de comprendre la structure des données — d'ajuster des distributions théoriques aux données qui sont bien comprises. Par conséquent, il y a derrière les modèles statistiques une théorie mathématiquement prouvée, à condition que les données répondent également à des hypothèses fortes. Le machine learning repose sur le fait de pouvoir utiliser des ordinateurs pour rechercher une structure dans les données, même si aucune théorie existante ne permet de se faire une idée de cette structure. Le test d'un modèle de machine learning est une erreur de validation de nouvelles données, et non un test théorique vérifiant une hypothèse nulle. Comme le machine learning utilise souvent une approche itérative pour apprendre des données, il est facile d'automatiser cet apprentissage. Les données sont soumises à des passages successifs jusqu'à ce qu'un schéma cohérent soit établi.
Deep learning
Le deep learning associe les avancées en matière de puissance de calcul et des types de réseaux neuronaux particuliers pour assimiler des schémas complexes dans de gros volumes de données. Le deep learning offre actuellement des techniques de pointe pour la reconnaissance d'objets dans des images et de mots dans des sons. Les chercheurs s'efforcent à présent d'appliquer ces résultats en reconnaissance de schémas à des tâches plus complexes, telles que la traduction automatique, le diagnostic médical et nombre d’autres problématiques sociales et économiques.
Comment ça marche
Pour tirer le meilleur parti du machine learning, vous devez savoir coupler les algorithmes les plus performants aux outils et processus appropriés. Fort de sa longue et solide expérience en statistique et data mining, SAS met à profit les innovations en matière d’architecture pour accélérer au maximum l’exécution de vos modèles, même dans les environnements de très grande envergure.
Algorithmes: Les interfaces graphiques de SAS vous aident à créer des modèles et à mettre en œuvre un processus de machine learning itératif. Nul besoin d'être un expert en statistiques. Notre gamme complète d'algorithmes de machine learning, inclus dans de nombreuses solutions SAS, vous permettra de valoriser rapidement vos big data. Composantes des algorithmes SAS :
Réseaux de neurones
| |
Arbres décisionnels
| |
Forêts aléatoires
| |
Etude d’associations et recherche de séquences
| |
Gradient boosting et bagging
| |
Machines à vecteurs de support | |
Mappage du voisin le plus proche | |
Clusterisation par la méthode des nuées dynamiques | |
Cartes auto-organisatrices |
Techniques d'optimisation de la recherche locale (par exemple, algorithmes génétiques)
| |
Espérance-maximisation
| |
Splines de régression adaptatifs multivariés
| |
Réseaux bayésiens
| |
Estimation de la densité du noyau
| |
Analyse en composantes principales | |
Décomposition en valeurs singulières | |
Modèles de mélange gaussien | |
Création de règles d’exécution séquentielle |
Outils et processus : Comme nous le savons maintenant, les algorithmes ne font pas tout. En définitive, le secret de l'exploitation des big data réside dans l’association des meilleurs algorithmes selon la tâche à accomplir, intégrant les fonctionnalités suivantes :
Qualité et gestion des données
| |
Interfaces utilisateur pour la création de modèles et de flux de processus
| |
Exploration interactive des données et visualisation des résultats de modèles
| |
Comparaisons de différents modèles de machine learning pour identifier rapidement le plus performant
|
Évaluation automatisée de modèles d'ensembles pour identifier les plus performants
| |
Déploiement aisé de modèles pour obtenir rapidement des résultats reproductibles et fiables
| |
Plate-forme intégrée complète pour l'automatisation du processus décisionnel fondé sur les données
|
Avez-vous besoin de conseils pour choisir un algorithme de machine learning en fonction des circonstances ? Ce blog tenu par Hui Li, data scientist chez SAS, est un aide-mémoire pratique.
En savoir plus
- Analytics tackles the scourge of human traffickingVictims of human trafficking are all around us. From forced labor to sex work, modern-day slavery thrives in the shadows. Learn why organizations are turning to AI and big data analytics to unveil these crimes and change future trajectories.
- Viking transforms its analytics strategy using SAS® Viya® on AzureViking is going all-in on cloud-based analytics to stay competitive and meet customer needs. The retailer's digital transformation are designed to optimize processes and boost customer loyalty and revenue across channels.
- Public health infrastructure desperately needs modernizationPublic health agencies must flex to longitudinal health crises and acute emergencies – from natural disasters like hurricanes to events like a pandemic. To be prepared, public health infrastructure must be modernized to support connectivity, real-time data exchanges, analytics and visualization.
- SAS CIO: Why leaders must cultivate curiosity in 2021With the change we’re all facing this year, CIOs should be counting on curiosity to play a crucial role in how we’re going to meet the challenges that lie ahead. From the moment COVID-19 hit, our IT organization has relied on curiosity – that strong desire to explore, learn, know - to fuel the urgent changes required. And it’s curiosity that will enable us to meet the needs of the future of work post-pandemic.