Interview – “XP News Classif” LAB LINCOLN

Merwane. B & Pascal. F

Présentation de Merwane et Pascal, premiers  participants aux Expériences du LAB Lincoln

 

 

Comment avez-vous entendu parler des XP du LAB ?

Quelles ont été vos motivations pour y participer ?

 

M : J’ai découvert les XPs du LAB lors du premier appel à candidature en novembre dernier. J’ai été intéressé par l’XP de “News Classif”, car durant mon cursus d’ingénieur, j’ai déjà eu l’occasion de travailler sur le domaine du NLP.

En voyant les différentes XPs que le LAB LINCOLN proposait, c’était l’occasion pour moi de me familiariser avec ces algorithmes et de travailler sur ce type de sujets en dehors de ma mission.

 

P : J’ai découvert les XPs durant le Light Up Meeting LINCOLN de décembre dernier. Suite à l’événement, nous avons reçu un mail de présentation des XPs et les détails des attendus.

Contrairement à Merwane, j’ai découvert la Data Science autrement : j’ai fait une formation avec LINCOLN justement pour me familiariser avec le Machine Learning et les sujets de Data Science en général.
L’XP imaginée par le LAB sur la classification d’articles correspondait en partie à cette formation pour laquelle je devais valider un projet, c’était l’occasion de faire d’une pierre deux coups.

L’XP aborde des modèles de langages qui sont nouveaux [transformers avec BERT, ndlr]. Créés par Google il y a deux ans, ces modèles en français sont encore méconnus et donc très peu exploités par les entreprises, mis à part quelques niches spécialisées.

Il m’a donc semblé intéressant de découvrir quelque chose à la fois contemporain et innovant et de pouvoir l’expérimenter avec le LAB.

 

Qu’attendiez-vous de Lincoln concernant ce projet ?

 

M : Ce sont de nouveaux sujets qu’on n’a jamais eu l’occasion de traiter, et de travailler main dans la main avec le LAB, nous permet d’être encadré par des experts dans ce type de projet.

Dès l’instant où on rencontre un problème, on peut se tourner directement vers eux, généralement ils ont les réponses. Le plus frustrant quand on travaille sur ce type de projet, c’est d’être bloqué et de devoir chercher une aiguille dans une botte de foin.

Ainsi, le fait d’être avec le LAB permet directement de leur adresser les problèmes qu’on rencontre, d’avoir une solution rapide et de pas rester bloqué, d’être toujours dans une optique de progression et de voir les choses avancer.

C’est ce que je recherchais : voir son projet aboutit, sans forcément se dire ” il y a des choses que je ne comprends pas” et donc de devoir travailler plus que nécessaire car le temps est limité.

 

P :  De l’accompagnement dans la montée en compétences sur les outils et sur la méthodologie.

Pour ma part c’était mes premiers pas en la matière. J’ai eu la chance d’être accompagné par les deux Data Scientistes expérimentés du LAB, François et Antoine. Il y avait une forme d’apprentissage quand même sur les librairies [python, ndlr], sur les outils qui étaient assez ardus [HuggingFace, ndlr], en tout cas pour moi, et les modèles qui étaient également nouveaux [Flaubert, un modèle Français BERT, ndlr].

 

Estimez-vous avoir eu l’occasion de monter en compétences
grâce à cette XP?

 

M : Pour ma part, oui ce sont des compétences que je vais directement réutiliser.

Et est-ce que c’est un critère d’évolution ? Je pense que oui, car c’est dans la continuité de ce que je fais actuellement et j’espère que ça va continuer dans ce sens.

Travailler avec des personnes aussi expérimentés qu’Antoine et François, m’a permis de monter en compétence d’un point de vue technique. Grâce à cette collaboration, j’ai repensé à ma façon de travailler et à la gestion de mes tâches.

 

Pourriez-vous me parler de votre sujet ?

En quoi est-ce innovant ?

 

M : Le NLP, l’analyse du langage de manière générale, ce sont des sujets très actuels. On cherche à traiter l’information de plus en plus rapidement et on peut aller plus vite dans ce traitement en analysant directement nos paroles et la façon dont on transmet l’information.

Notre approche est innovante parce qu’on utilise de nouveaux modèles qui sont plus performants dans la retranscription et dans l’analyse du langage.

Ces nouveaux modèles permettent d’analyser le contexte qui entoure les différents mots clés qui composent le texte. L’idée de notre approche, c’était de pouvoir utiliser cette analyse du contexte pour être capable de comprendre quel est le sujet d’un article de presse. Si on arrive à en déduire le sujet, on peut potentiellement par la suite les classer pour obtenir une base de données d’articles.

Les étapes franchies sont les étapes d’un projet NLP classique :

  • La première a été de composer notre base de données [MLSUM, base de données d’articles « lemonde », ndlr] et d’essayer de la structurer pour avoir un ensemble d’articles, je dirais analysable ou du moins exploitable par nos différents algorithmes.
  • La seconde étape a été de convertir ces articles, qui étaient du texte, dans un format qu’on appelle les “Tokens”, ce sont des formats lus par les différents modèles et les différents algorithmes.
  • La troisième étape a été de faire apprendre et ingérer ces différents Tokens à notre modèle pour qu’il en tire des informations, pour qu’il apprenne et qu’il s’enrichisse. De cette façon une fois qu’on a fait cette phase dite “d’apprentissage”, on peut récupérer un modèle, enfin un algorithme auquel on va passer de nouveaux articles et qui va être capable de classer des articles de presse sans qu’on lui demande quoi que ce soit et donc de les catégoriser [par exemple : culture, économie, éducation, environnement …, ndlr].

 

P : La particularité de ces modèles c’est qu’ils sont pré-entraînés sur des gros volumes de données, des millions de pages web, de documents, de livres et d’articles. Il apprend la langue, son contexte, il fait la différence entre un mot utilisé dans un article économique et un mot dans un article de sport, même si ce mot est commun, il apprend également la sémantique et la syntaxe.

Toute cette connaissance accumulée dans ce modèle, le rend difficile à manipuler. On est venu ajouter le transfère de cette connaissance apprise par ce modèle de langue dans une tâche plus spécifique qui est la classification des articles, une sorte de “fine tuning”, c’est-à-dire le transfert de connaissance vers une autre tâche.

 

Considérez-vous que le sujet traité est applicable au monde de l’entreprise ?

Pourriez-vous donner un exemple ?

 

P : La particularité de ces modèles est le transfert de connaissances, de ce modèle vers un autre algorithme, on peut l’utiliser sur d’autres tâches que de la classification.

Par exemple, on peut l’utiliser sur de l’analyse de sentiments : est-ce qu’une personne a une opinion positive ou négative de la revue d’un film, d’un produit sur Amazon ou un commentaire ? On peut aussi l’utiliser pour classer des produits, générer du texte, bien que ça soit une technologie moins bien maîtrisée, pour automatiser des rapports commerciaux par exemple. Il y a plusieurs types d’applications, on pourrait d’ailleurs aussi l’utiliser dans la compréhension du langage parlé.

Il y a plein de choses qui peuvent être faites, je pense aussi qu’il y a beaucoup de Use Cases qui n’ont pas encore été pensés, ni par les scientifiques ni par les entreprises, mais ce sont des modèles d’avenir. Voilà, un jour on arrivera à parer à notre machine à café !

 

Quel est votre meilleur conseil pour réussir une expérience comme celle-ci ?

 

M : Le premier conseil, c’est de se renseigner sur les différents modèles qu’on va utiliser. C’est-à-dire, savoir comment fonctionnent-ils, quels types d’éléments analysent- ils … c’est de comprendre un peu plus le modèle, parce que ce type d’algorithme reste relativement compliqué, c’est donc beaucoup de temps à déchiffrer pour essayer de comprendre ce qui se passe.

Grâce à sa formation, Pascal était un peu plus renseigné sur le sujet et sur la façon dont fonctionnaient ces algorithmes ce qui nous a permis de gagner du temps.

 

Comment vous êtes-vous organisés pour travailler ?

 

P : En présentiel, tout simplement. Nous sommes venus sur site car pour échanger, c’est quand même plus facile. On a fait une ou deux séances à distance car on avait plus accès aux salles de réunions, COVID oblige, et on n’a pas pu être présent.

Je pense que Merwane sera d’accord avec moi, le présentiel c’est ce qu’il y a de mieux !
Pouvoir discuter entre nous, être à proximité du LAB pour pouvoir échanger régulièrement dans la journée (pas les déranger tout le temps non plus, ce n’est pas le but).

 

M : Ne serait-ce que sur le début tout simplement pour pouvoir connaître la personne, discuter avec et faire connaissance. C’est quand même un peu plus simple quand on se voit en face à face plutôt qu’à distance.

 

Estimez-vous que cette collaboration vous a appris l’un de l’autre ?

 

M : Ça c’est clair ! Disons que, déjà juste pour moi, c’était une mission très technique, ça m’obligeait de sortir de ma zone de confort en essayant un peu plus d’expliquer les choses, essayer de me justifier plus souvent etc.

 

P : Oui, on s’est complété de ce point de vue-là ! Il est vrai qu’avec la formation que je faisais, j’avais une connaissance plus théorique, et l’XP était l’occasion pour moi de la mettre en pratique. J’avais besoin de comprendre chaque étape, et c’est vrai que j’ai posé beaucoup de questions. Mais c’est plutôt sain, ça m’a permis de monter en compétences.

On s’est donc complété de cette façon, l’un plus théorique, l’autre plus pratique.

 

Quels sont pour vous les points forts que vous mettriez en avant pour inciter d’autres collaborateurs à participer aux XP ?

Que diriez-vous aux collaborateurs qui hésitent à se lancer ?

 

P : Il faut tout d’abord sortir de sa zone de confort ! Vouloir se challenger et expérimenter de nouvelles choses.

C’est une bouffée d’oxygène dans les missions, on est amené à faire quelque chose de complètement différent de notre quotidien. Grâce à l’XP, on a découvert l’équipe du LAB et on a participé à son développement.

 

M : Le gros avantage c’est que le LAB propose des sujets relativement innovants qu’on ne voit pas souvent en entreprise.
Aujourd’hui, peu d’entreprises essayer de travailler sur ce genre de problématiques. C’est donc l’occasion pour nous de se former, d’être accompagné par une équipe et de pas travailler seul dans son coin ou même en formation.

Disons que le contexte du LAB fait qu’on monte forcément beaucoup en compétences sans même s’en rendre compte. En tout cas en terme de temps, je pense qu’en 10 jours, si j’avais dû travailler par moi-même je ne serais pas autant monté en compétences que lors de cette XP.

 

Diriez-vous que cette XP était une réussite ?

 

P : L’objectif était de faire de la classification en utilisant ce modèle, en terme de code, de méthodologie et de résultats, il était probant. Mission accomplie d’une certaine façon, et puis en plus ça a été une aventure riche en apprentissage et en partage.

 

 

[NDLR : le modèle de catégorisation d’articles de presse en Français, développé pendant l’XP, est disponible sur la plateforme de partage HuggingFace : https://huggingface.co/lincoln/flaubert-mlsum-topic-classification]