Définition Natural Language Processing
⌚: 7 minutes
Le Natural Language Processing (NLP) est la capacité d’un programme informatique à comprendre le langage humain tel qu’il est parlé. La PNL est une composante de l’intelligence artificielle (IA).
Le développement d’applications en PNL est difficile car les ordinateurs exigent traditionnellement que les humains leur « parlent » dans un langage de programmation précis, non ambigu et très structuré, ou par un nombre limité de commandes vocales clairement énoncées. La parole humaine, cependant, n’est pas toujours précise – elle est souvent ambiguë et la structure linguistique peut dépendre de nombreuses variables complexes, notamment l’argot, les dialectes régionaux et le contexte social.
Comment fonctionne le traitement du langage naturel : techniques et outils
L’analyse syntaxique et sémantique sont deux techniques principales utilisées avec le traitement du langage naturel. La syntaxe est l’arrangement des mots dans une phrase afin de leur donner un sens grammatical. La PNL utilise la syntaxe pour évaluer le sens d’une langue en fonction de règles grammaticales. Les techniques syntaxiques utilisées comprennent l’analyse syntaxique (analyse grammaticale d’une phrase), la segmentation des mots (qui divise un grand morceau de texte en unités), la rupture de phrase (qui place les limites de la phrase dans les grands textes), la segmentation morphologique (qui divise les mots en groupes) et la racine (qui divise les mots avec une inflexion en eux pour former des racines).
La sémantique implique l’utilisation et la signification des mots. La PNL applique des algorithmes pour comprendre le sens et la structure des phrases. Les techniques que la PNL utilise avec la sémantique comprennent la désambiguïsation du sens des mots (qui dérive la signification d’un mot en fonction du contexte), la reconnaissance des entités nommées (qui détermine les mots qui peuvent être classés en groupes) et la génération du langage naturel (qui utilisera une base de données pour déterminer la sémantique derrière les mots).
Les approches actuelles de la PNL sont basées sur l’apprentissage approfondi (deep learning), un type d’IA qui examine et utilise des modèles dans les données pour améliorer la compréhension d’un programme. Les modèles d’apprentissage approfondi nécessitent des quantités massives de données étiquetées pour s’entraîner et identifier les corrélations pertinentes, et l’assemblage de ce type de gros ensemble de données est l’un des principaux obstacles à la PNL actuellement.
Les premières approches de la PNL reposaient davantage sur des règles, les algorithmes d’apprentissage machine (machine learning) plus simples étant informés des mots et des phrases à rechercher dans le texte et recevant des réponses spécifiques lorsque ces phrases apparaissaient. Mais l’apprentissage en profondeur est une approche plus souple et intuitive dans laquelle les algorithmes apprennent à identifier l’intention des locuteurs à partir de nombreux exemples, presque comme un enfant apprendrait le langage humain.
Les trois outils couramment utilisés pour la PNL sont NLTK, Gensim et Intel NLP Architect. NTLK, Natural Language Toolkit, est un module python open source avec des ensembles de données et des tutoriels. Gensim est une bibliothèque Python pour la modélisation de sujets et l’indexation de documents. Intel NLP Architect est également une autre bibliothèque Python pour l’apprentissage approfondi des topologies et des techniques.
Utilisations du traitement du langage naturel
Les recherches menées sur le traitement du langage naturel tournent autour de la recherche, en particulier la recherche d’entreprise. Il s’agit de permettre aux utilisateurs d’interroger des ensembles de données sous la forme d’une question qu’ils pourraient poser à une autre personne. La machine interprète les éléments importants de la phrase en langage humain, tels que ceux qui pourraient correspondre à des caractéristiques spécifiques d’un ensemble de données, et renvoie une réponse.
La PNL peut être utilisée pour interpréter du texte libre et le rendre analysable. Il y a une énorme quantité d’informations stockées dans les fichiers de texte libre, comme les dossiers médicaux des patients, par exemple. Avant les modèles de PNL basés sur l’apprentissage approfondi, ces informations étaient inaccessibles à l’analyse assistée par ordinateur et ne pouvaient être analysées de manière systématique. Mais la PNL permet aux analystes de passer au crible d’énormes quantités de texte libre pour trouver des informations pertinentes dans les fichiers.
L’analyse du sentiment est un autre cas d’utilisation principal de la PNL. Grâce à l’analyse des sentiments, les spécialistes des données peuvent évaluer les commentaires sur les médias sociaux pour voir comment la marque de leur entreprise se comporte, par exemple, ou examiner les notes des équipes du service clientèle pour identifier les domaines dans lesquels les gens souhaitent que l’entreprise soit plus performante.
Google et d’autres moteurs de recherche basent leur technologie de traduction automatique sur des modèles d’apprentissage approfondi de la PNL. Cela permet à des algorithmes de lire le texte d’une page web, d’en interpréter le sens et de le traduire dans une autre langue.
Importance de la PNL
L’avantage du traitement du langage naturel est visible dans les deux affirmations suivantes : « L’assurance du Cloud computing devrait faire partie de tout accord de niveau de service » et « Un bon SLA garantit une nuit de sommeil plus facile – même dans le Cloud ». Si vous utilisez le traitement du langage naturel pour la recherche, le programme reconnaîtra que le cloud computing est une entité, que le Cloud est une forme abrégée de cloud computing et que SLA est un acronyme industriel pour accord de niveau de service.
Ce sont les types d’éléments vagues qui apparaissent fréquemment dans le langage humain que les algorithmes d’apprentissage machine ont historiquement mal interprétés. Aujourd’hui, grâce aux améliorations de l’apprentissage profond et de l’intelligence artificielle(IA), les algorithmes peuvent les interpréter efficacement.
Cela a des implications sur les types de données qui peuvent être analysées. Chaque jour, de plus en plus d’informations sont créées en ligne, et une grande partie d’entre elles sont en langage humain naturel. Jusqu’à récemment, les entreprises n’étaient pas en mesure d’analyser ces données. Mais les progrès de la PNL permettent d’analyser et d’apprendre à partir d’un plus grand nombre de sources de données.
Avantages de le PNL
Le PNL offre des avantages tels que :
- Amélioration de la précision et de l’efficacité de la documentation.
- La possibilité de faire automatiquement un texte de synthèse lisible.
- Utile pour les assistants personnels tels que Google Home.
- Permet à une organisation d’utiliser des chatbots pour le support client.
- Facilite l’analyse des sentiments.
Défis associés à la PNL
Le PNL n’est pas encore totalement au point. Par exemple, l’analyse sémantique peut encore être un défi pour la PNL. Parmi les autres difficultés, on peut citer le fait que l’utilisation abstraite du langage est généralement difficile à comprendre pour les programmes. Par exemple, la PNL ne détecte pas facilement le sarcasme. Ces sujets nécessitent généralement la compréhension des mots utilisés et du contexte dans lequel ils sont utilisés. Autre exemple, une phrase peut changer de sens en fonction du mot sur lequel le locuteur met l’accent. La PNL est également confrontée au fait que le langage, et la façon dont les gens l’utilisent, changent continuellement.