Supervised learning

⌚: 4 minutes

L’apprentissage supervisé, dans le contexte de l‘intelligence artificielle (IA) et du Machine Learning, est un type de système dans lequel les données d’entrée et de sortie souhaitées sont fournies. Les données d’entrée et de sortie sont étiquetées pour être classées afin de fournir une base d’apprentissage pour le traitement futur des données. Le terme d’apprentissage supervisé vient de l’idée qu’un algorithme apprend à partir d’un ensemble de données de initiale, qui peut être considéré comme l’enseignant.

Les systèmes dit de Supervised Machine Learning fournissent aux algorithmes d’apprentissage des données connues pour soutenir les résultats futurs. Les chatbots, les voitures autonomes, les programmes de reconnaissance faciale, les systèmes experts et les robots font partie des systèmes qui peuvent utiliser l’apprentissage supervisé ou non supervisé. Les systèmes d’apprentissage supervisé sont principalement associés à l’IA basée sur l’extraction, mais ils peuvent également être capables d’utiliser un modèle d’apprentissage génératif.

Comment fonctionne l’apprentissage supervisé ?

En général, le Supervised learning se produit lorsqu’un système reçoit des variables d’entrée et de sortie avec l’intention d’apprendre comment elles sont mises en correspondance, ou liées. L’objectif est de produire une fonction de cartographie suffisamment précise pour que, lorsqu’une nouvelle entrée est donnée, l’algorithme puisse prédire la sortie. Il s’agit d’un processus itératif, et chaque fois que l’algorithme fait une prédiction, il est corrigé ou reçoit un retour d’information jusqu’à ce qu’il atteigne un niveau de performance acceptable.

Les données de formation pour l’apprentissage supervisé comprennent un ensemble d’exemples avec des sujets d’entrée appariés et la sortie souhaitée (qui est également appelée signal de supervision). Par exemple, dans une application d’apprentissage supervisé pour le traitement d’images, un système d’IA peut être fourni avec des images étiquetées de véhicules dans des catégories telles que les voitures ou les camions. Après une observation suffisante, le système doit être capable de distinguer et de classer les images non étiquetées, et la formation est alors terminée.

Les applications d’apprentissage supervisé sont généralement divisées en deux catégories, la classification et la régression. La classification est apparentée par exemple lorsque la valeur de sortie est une catégorie telle que voiture ou camion et vrai ou faux. Un problème de régression se pose lorsque la production est une valeur réelle, calculée, comme le prix ou le poids.

Algorithmes d’apprentissage supervisé

Les algorithmes d’apprentissage machine supervisé les plus courants sont :

Régression linéaire.
Régression logistique.
Réseaux neuronaux artificiels (ANN).
Analyse discriminante linéaire.
Arbres de décision.
Apprentissage de la similitude.
Logique bayésienne.
Machines à vecteurs de support (SVM).
Forêts aléatoires.

Lors du choix d’un algorithme d’apprentissage supervisé, il faut tenir compte de quelques éléments. Le premier est le biais et la variance qui existent au sein de l’algorithme car il y a une ligne fine entre être assez flexible et être trop flexible. Une autre est la complexité du modèle ou de la fonction que le système essaie d’apprendre. En outre, l’hétérogénéité, la précision, la redondance et la linéarité des données doivent être analysées avant de choisir un algorithme.

Apprentissage supervisé ou non supervisé

On parle d’apprentissage non supervisé ou unsupervised learning lorsqu’un algorithme ne reçoit que des données d’entrée, sans valeurs de sortie correspondantes, comme ensemble de formation. Contrairement à l’apprentissage supervisé, il n’y a pas de valeurs de sortie ou d’enseignants corrects. Au lieu de cela, les algorithmes sont capables de fonctionner librement afin d’en savoir plus sur les données et de présenter des résultats intéressants. L’apprentissage non supervisé est populaire dans les applications de regroupement, ou l’acte de découvrir des groupes au sein des données, et d’association, ou l’acte de prédire les règles qui décrivent les données.

Les modèles d’apprentissage supervisé présentent certains avantages par rapport à l’approche non supervisée, mais ils ont également des limites. Les systèmes sont plus susceptibles de porter des jugements fiables auxquels les humains peuvent se référer parce que les humains ont fourni la base des décisions. Cependant, dans le cas d’une méthode basée sur la recherche, les systèmes d’apprentissage supervisé ont des difficultés à traiter les nouvelles informations. Si un système avec des catégories pour les voitures et les camions est présenté avec une bicyclette, par exemple, il devrait être incorrectement classé dans une catégorie ou l’autre. En revanche, si le système d’IA était génératif, il pourrait ne pas savoir ce qu’est la bicyclette, mais serait capable de la reconnaître comme appartenant à une catégorie distincte.

Une approche qui combine à la fois des techniques supervisées et non supervisées est appelée apprentissage semi-supervisé. Dans ce cas, seuls certains des points de données d’entrée sont étiquetés avec des informations de sortie.