Les mots caractéristiques
On vous explique l'algorithme qui se cache derrière les mots caractéristiques de nos publications
2022-03-16
On utilise souvent le terme de “mots caractéristiques” dans nos publications, mais est-ce que vous avez vraiment ce qui se cache derrière ce terme ?
Une première intuition
Quand on analyse les mots les plus prononcés par un rappeur, l’approche instinctive semble être celle de compter simplement les mots. Mais cette méthode provoque deux effets indésirables :
Un mot répété à outrance dans un morceau (et ça arrive souvent dans le rap) va biaiser notre statistique, ce mot sera sur-représenté même s'il n’est présent que dans un morceau. La solution à ce problème est toute simple : ne compter qu’une seule fois un mot par morceau
Ensuite, dans une langue comme le Français, la fréquence des mots n’est pas toujours la même : certains apparaissent plus souvent que d’autres. On retrouve très souvent en haut du classement des mots appartenant à des expressions :
VIE, TEMPS, MONDE, FOIS, COUP, ...
Comment résoudre ce problème ?
En fait, le problème qu’on souhaite résoudre n’est plus réellement de trouver les mots les plus présents, mais d’extraire les “mot-clés” (ou “keywords” en anglais) qui représentent le plus un artiste : vous l’avez, ce sont nos fameux “mots caractéristiques”. Il existe de nombreux algorithmes pour résoudre ce problème, qui n’a bien évidemment pas qu’une seule solution.
Le fameux algorithme
Celui qu’on utilise est le plus simple d’entre eux : TF-IDF (pour Term Frequency-Inverse Document Frequency). Son fonctionnement est assez intuitif : on attribue à chaque mot un score équivalent aux nombre de morceaux ou il est présent (Term Frequency), divisé par le nombre d’artistes qu’ils l’ont prononcé (Inverse Document Frequency). C’est ce dernier terme qui est le plus dur à obtenir, vu qu’il nécessite d'avoir les données de beaucoup d'artistes. Ça tombe bien ça, on a.
Bon, la formule est un tout petit peu plus complexe que ça, mais c’est l’idée. De cette manière, les mots que tous les rappeurs disent se retrouveront fortement pénalisés par rapport à des mots plus personnels.
Un très bon article référence d’autres algorithmes possibles pour ce genre d’opération
TF-IDF, TextRank, TopicRank, YAKE!, keyBERT...
Enfin, vous devez vous en douter, cette méthode marche aussi pour n’importe quel type de “documents”. Dans cet article, il s'agissait d’artistes, mais si on considère un mois entier de sorties du Rap Français, cette méthode peut permettre de trouver les “mots du mois” qui nous publions mensuellement. Pour ce type de publication, on ne compte un mot qu'une fois par album. Et la méthode de calcul décrite ci-dessus explique pourquoi les mots ne se trouvent pas dans un ordre parfaitement décroissant.