Qu’est-ce que l’extraction de mots-clés ?
L’extraction de mots-clés (également appelée détection de mots-clés ou analyse de mots-clés) est une technique d’analyse de texte qui permet d’extraire automatiquement les mots et expressions les plus utilisés et les plus importants d’un texte. Elle permet de résumer le contenu des textes et de reconnaître les principaux sujets abordés.
L’extraction de mots-clés fait appel à l’intelligence artificielle (IA) et au traitement du langage naturel (NLP) pour décomposer le langage humain afin qu’il puisse être compris et analysé par des machines. Elle est utilisée pour trouver des mots clés dans toutes sortes de textes : documents ordinaires et rapports d’activité, commentaires sur les médias sociaux, forums et avis en ligne, articles d’actualité, etc.
Imaginez que vous souhaitiez analyser des milliers d’avis en ligne sur votre produit. L’extraction de mots clés vous aide à passer au crible l’ensemble des données et à obtenir les mots qui décrivent le mieux chaque avis en quelques secondes seulement. Ainsi, vous pouvez facilement et automatiquement voir ce que vos clients mentionnent le plus souvent, ce qui épargne à vos équipes des heures et des heures de traitement manuel.
Pourquoi l’extraction de mots-clés est-elle importante ?
Grâce à l’extraction de mots clés, vous pouvez trouver les mots et les phrases les plus importants dans des ensembles de données massifs en quelques secondes seulement. Et ces mots et expressions peuvent fournir des informations précieuses sur les sujets dont parlent vos clients.
Étant donné que plus de 80 % des données que nous générons chaque jour ne sont pas structurées – c’est-à-dire qu’elles ne sont pas organisées de manière prédéfinie, ce qui les rend extrêmement difficiles à analyser et à traiter – les entreprises ont besoin de l’extraction automatisée de mots-clés pour les aider à traiter et à analyser les données des clients de manière plus efficace.
Quel est le pourcentage d’avis clients qui portent sur le prix ? Combien d’entre eux parlent d’UX ? Ces informations peuvent vous aider à élaborer une stratégie commerciale axée sur les données en identifiant ce que les clients considèrent comme important, les aspects de votre produit qui doivent être améliorés et ce que les clients disent de votre concurrence, entre autres.
Dans le monde universitaire, l’extraction de mots clés peut être la clé pour trouver des mots clés pertinents dans des ensembles massifs de données (comme de nouveaux articles, des documents ou des revues) sans avoir à lire l’intégralité du contenu.
Quel que soit votre domaine d’activité, les outils d’extraction de mots-clés sont la clé pour vous aider à indexer automatiquement des données, à résumer un texte ou à générer des nuages de mots-clés les plus représentatifs. Voici quelques-uns des principaux avantages de l’extraction de mots-clés :
1. Scalabilité
L’extraction automatisée de mots-clés vous permet d’analyser autant de données que vous le souhaitez. Oui, vous pourriez lire des textes et identifier les termes clés manuellement, mais cela prendrait énormément de temps. L’automatisation de cette tâche vous donne la liberté de vous concentrer sur d’autres aspects de votre travail.
2. Des critères cohérents
L’extraction de mots-clés agit sur la base de règles et de paramètres prédéfinis. Vous n’avez pas à faire face aux incohérences, fréquentes dans l’analyse manuelle des textes.
3. Analyse en temps réel
Vous pouvez effectuer l’extraction de mots-clés sur des messages de médias sociaux, des avis de clients, des enquêtes ou des tickets de support client en temps réel, et obtenir des informations sur ce qui se dit sur votre produit au moment même où cela se produit et le suivre dans le temps.
Extraction Mots-Clés, Comment cela fonctionne-t-il ?
L’extraction de mots-clés simplifie la tâche consistant à trouver des mots et des phrases pertinents dans un texte non structuré. Cela inclut les courriels, les messages sur les médias sociaux, les conversations en ligne et tout autre type de données qui ne sont pas organisées de manière prédéfinie.
L’extraction de mots clés peut automatiser les flux de travail, comme le marquage des réponses aux enquêtes entrantes ou la réponse aux demandes urgentes des clients, ce qui vous permet de gagner un temps considérable. Elle fournit également des informations exploitables, fondées sur des données, qui permettent de prendre de meilleures décisions commerciales. Mais ce qu’il y a de mieux avec les modèles d’extraction de mots-clés, c’est qu’ils sont faciles à configurer et à mettre en œuvre.
Il existe différentes techniques que vous pouvez utiliser pour l’extraction automatique de mots-clés. Des approches statistiques simples qui détectent les mots clés en comptant la fréquence des mots, aux approches d’apprentissage automatique plus avancées qui créent des modèles encore plus complexes en apprenant des exemples précédents.
Dans cette section, nous allons passer en revue les différentes approches d’extraction de mots-clés, en nous concentrant sur les modèles basés sur l’apprentissage automatique.
Extraction Mots-Clés, Une Approches statistiques simples
L’utilisation de statistiques est l’une des méthodes les plus simples pour identifier les principaux mots clés et expressions clés d’un texte.
Il existe différents types d’approches statistiques, notamment la fréquence des mots, les collocations et cooccurrences de mots, TF-IDF (abréviation de term frequency-inverse document frequency) et RAKE (Rapid Automatic Keyword Extraction).
Ces approches ne nécessitent pas de données d’entraînement pour extraire les mots-clés les plus importants d’un texte. Toutefois, comme elles ne s’appuient que sur des statistiques, elles peuvent négliger des mots ou des phrases pertinents qui ne sont mentionnés qu’une seule fois, mais qui devraient quand même être considérés comme pertinents. Examinons en détail certaines de ces approches :
1. Fréquence des mots
La fréquence des mots consiste à répertorier les mots et les phrases qui se répètent le plus dans un texte. Cette méthode peut s’avérer utile à de nombreuses fins, qu’il s’agisse d’identifier des termes récurrents dans un ensemble de commentaires sur des produits ou de déterminer quels sont les problèmes les plus courants dans les interactions avec l’assistance clientèle.
Cependant, les approches basées sur la fréquence des mots considèrent les documents comme un simple « sac de mots », laissant de côté les aspects cruciaux liés au sens, à la structure, à la grammaire et à la séquence des mots. Les synonymes, par exemple, ne peuvent pas être détectés par cette méthode d’extraction de mots clés, ce qui écarte des informations très précieuses.
2. Collocations et cooccurrences de mots
Également connues sous le nom de statistiques N-gram, les collocations et cooccurrences de mots permettent de comprendre la structure sémantique d’un texte et de compter des mots distincts comme un seul et même mot.
Les collocations sont des mots qui vont fréquemment ensemble. Les types de collocations les plus courants sont les bi-grammes (deux termes qui apparaissent de manière adjacente, comme « service clientèle », « appels vidéo » ou « notification par e-mail ») et les tri-grammes (un groupe de trois mots, comme « facile à utiliser » ou « canaux de médias sociaux »).
Les cooccurrences, quant à elles, font référence à des mots qui ont tendance à cooccurber dans le même corpus. Ils ne doivent pas nécessairement être adjacents, mais ils doivent avoir une proximité sémantique.
3. TF-IDF
TF-IDF (term frequency-inverse document frequency) est une formule qui mesure l’importance d’un mot pour un document dans une collection de documents.
Cette métrique calcule le nombre de fois qu’un mot apparaît dans un texte (fréquence des termes) et le compare à la fréquence inverse des documents (la rareté ou la fréquence de ce mot dans l’ensemble des données).
En multipliant ces deux quantités, on obtient le score TF-IDF d’un mot dans un document. Plus le score est élevé, plus le mot est pertinent pour le document.
Les algorithmes TD-IDF ont plusieurs applications dans l’apprentissage automatique. En fait, les moteurs de recherche utilisent des variantes des algorithmes TF-IDF pour classer les articles en fonction de leur pertinence par rapport à une certaine requête de recherche.
Lorsqu’il s’agit d’extraction de mots-clés, cette métrique peut vous aider à identifier les mots les plus pertinents d’un document (ceux qui ont les scores les plus élevés) et à les considérer comme des mots-clés. Cela peut être particulièrement utile pour des tâches telles que le marquage des tickets de support client ou l’analyse des commentaires des clients.
Dans bon nombre de ces cas, les mots qui apparaissent le plus fréquemment dans un groupe de documents ne sont pas nécessairement les plus pertinents. De même, un mot qui apparaît dans un seul texte mais qui n’apparaît pas dans les autres documents peut être très important pour comprendre le contenu de ce texte.
Disons que vous analysez un ensemble de données de commentaires sur Slack :
Des mots comme this, if, the, this or what, seront probablement parmi les plus fréquents. Ensuite, il y aura beaucoup de mots liés au contenu avec des niveaux élevés de fréquence, comme communication, équipe, message ou produit. Cependant, ces mots ne fourniront pas beaucoup de détails sur le contenu de chaque critique.
Grâce à l’algorithme TF-IDF, vous pouvez évaluer l’importance de chaque terme et extraire les mots-clés qui résument le mieux chaque commentaire. Dans le cas de Slack, ils peuvent extraire des mots plus spécifiques comme multicanal, interface utilisateur ou application mobile.
4. RAKE
Rapid Automatic Keyword Extraction (RAKE) est une méthode d’extraction de mots clés bien connue qui utilise une liste de mots vides et de délimiteurs de phrases pour détecter les mots ou les phrases les plus pertinents dans un texte.
Prenons l’exemple du texte suivant :
L’extraction de mots-clés n’est pas si difficile après tout. Il existe de nombreuses bibliothèques qui peuvent vous aider à extraire des mots-clés. L’extraction automatique rapide de mots-clés est l’une d’entre elles.
La première chose que fait cette méthode est de diviser le texte en une liste de mots et de supprimer les mots d’arrêt de cette liste. Elle renvoie une liste de ce que l’on appelle des mots de contenu.
Supposons que notre liste de mots d’arrêt et de délimiteurs de phrases ressemble à ceci :
mots d’arrêt = [is, not, that, there, are, can, you, with, of, those, after, all, one] délimiteurs = [., ,]
Ensuite, notre liste de 8 mots de contenu, ressemblera à ceci :
content_words = [mot-clé, extraction, difficile, beaucoup, bibliothèques, aide, rapide, automatique]
Ensuite, l’algorithme divise le texte au niveau des délimiteurs de phrases et des mots d’arrêt pour créer des expressions candidates. Ainsi, les expressions clés candidates seraient les suivantes :
L’extraction de mots-clés n’est pas si difficile après tout. Il existe de nombreuses bibliothèques qui peuvent vous aider à extraire des mots-clés. L’extraction automatique rapide de mots-clés est l’une d’entre elles.
Une fois le texte divisé, l’algorithme crée une matrice de cooccurrences de mots. Chaque ligne indique le nombre de fois qu’un mot de contenu donné coïncide avec tous les autres mots de contenu dans les phrases candidates. Pour l’exemple ci-dessus, la matrice ressemble à ceci :
Une fois cette matrice construite, les mots reçoivent un score. Ce score peut être calculé comme le degré d’un mot dans la matrice (c’est-à-dire la somme du nombre de cooccurrences du mot avec tout autre mot du texte), comme la fréquence du mot (c’est-à-dire le nombre de fois où le mot apparaît dans le texte), ou comme le degré du mot divisé par sa fréquence.
Si nous devions calculer le score de degré divisé par le score de fréquence pour chacun des mots de notre exemple, il ressemblerait à ceci :
Ces expressions reçoivent également un score, qui est calculé comme la somme des scores individuels des mots. Si nous devions calculer le score des expressions en gras ci-dessus, il ressemblerait à ceci :
Si deux mots-clés ou phrases-clés apparaissent ensemble dans le même ordre plus de deux fois, une nouvelle phrase-clé est créée, quel que soit le nombre de mots d’arrêt que la phrase-clé contient dans le texte original. Le score de cette phrase-clé est calculé de la même manière que celui d’une phrase-clé unique.
Un mot-clé ou une phrase-clé est choisi(e) si son score fait partie des T meilleurs scores, où T est le nombre de mots-clés que vous voulez extraire. Selon l’article original, T correspond par défaut à un tiers des mots du contenu du document.
Pour l’exemple ci-dessus, la méthode aurait retourné les 3 meilleurs mots-clés, qui, selon le score que nous avons défini, auraient été l’extraction automatique rapide de mots-clés (13,33), l’extraction de mots-clés (5,33) et de nombreuses bibliothèques (4,0).