Comment l’IA améliore le traitement de l’information pour la gestion d’actifs ?

Lincoln a eu l’opportunité d’accompagner un client du secteur bancaire dans l’évolution de son système de parsing d’ordres d’achat/vente de titres basé sur des e-mails provenant de courtiers.

La problématique initiale de ce client résidait dans la nécessité de réviser régulièrement ses outils existants en devant développer/adapter ses algorithmes pour chaque nouveau courtier ou nouvelle information rencontrée.

Nous leur avons proposé de démontrer, à travers un Proof of Concept (POC), comment les modèles de langage (LLM) pourraient améliorer le système actuel de manière plus générale, sans nécessiter de révisions fréquentes.

1- QUEL ÉTAIT L’OBJECTIF DU POC ? 

L’entreprise reçoit quotidiennement un nombre important de mails provenant de différents courtiers et contenant des informations à traiter et à stocker : il s’agit d’ordres de type ILS (Insurance Linked Securities).

Les ordres de courtiers reçus sont sous la forme de chaîne de mots/nombres semi-structurés avec des informations à propos du demandeur, de la quantité d’ordres à acheter ou encore à vendre. Certaines valeurs sont accompagnées d’unités, il faudra alors convertir ces valeurs dans une même unité. Il arrive même dans certain cas que l’unité soit omise et qu’il faille le comprendre.

Cette image décrit le schéma d'ordres de courtiers qui a été utilisé pour que Lincoln mette en place le POC chez un client du secteur bancaire.

La solution actuellement en place utilise des expressions régulières pour retranscrire ces d’ordres d’achat/vente. Cette solution permet d’atteindre un score de 95% d’ordres correctement et entièrement retranscrits.

L’objectif était donc de créer une solution faisant appel à un LLM afin de récupérer d’une part les informations attendues tout en surperformant par rapport à la solution existante. Et d’autre part, de disposer d’une solution en capacité de traiter tout nouveau courtier sans impact sur les temps de développement.

2- LES ÉTAPES DU PROCESSUS DE DÉVELOPPEMENT

Comme pour tout projet de Data Science, la première étape consiste à explorer, traiter et analyser l’ensemble des données mise à disposition. Chaque courtier possède sa propre manière d’exprimer un ordre d’achat/vente et celle-ci peut varier dans le temps.

Une fois les données nettoyées, nous avons reconstruit un jeu de test avec tous les schémas observés dans les mêmes proportions afin de représenter au mieux notre jeux de données total tout en réduisant les coûts de développement lorsqu’il s’agira de scorer nos différentes améliorations. Ce jeu de donnée a par la suite été vérifié par des experts afin de valider leur cohérence.

Nous avons exploré la méthode dite « few shots » permettant d’automatiser des tâches à l’aide d’un prompt d’instruction et d’un ensemble d’exemples minutieusement choisit.

La recherche du prompt et des exemples optimaux sont recherchés de manière itérative. La métrique utilisée pour scorer la solution finale implique que l’ensemble des champs présents dans l’ordre doivent être correctement extraits.

La dernière phase du projet consiste à chercher à obtenir le meilleur score sur notre jeu de test en modifiant notre prompt et nos exemples. Une fois ce score atteint, nous l’avons validé sur un jeu de validation avec des données récentes.

Nous avons exploré les modèles propriétaires (sociétés privées) ainsi que des modèles Open Source (gratuit – communauté). Au vu des résultats obtenus et de la simplicité de mise en place avec les modèles d’OpenAI, notre choix s’est porté sur un modèle type GPT dans sa version 3.5.

Les livrables finaux prennent la forme de packages en langage python pouvant être déployés directement chez AXA IM à l’aide du modèle Secure GPT déjà mis à disposition au sein de la compagnie.

3- QUELS SONT LES RÉSULTATS OBTENUS ? 

Gain de performance :

  • 8 champs extraits contre 6 avec la solution existante.
  • 99,9 % de champs correctement et entièrement extraits sur le jeu de validation contre 95 % avec la solution actuellement en place.

Gain de temps & coût :

  • Environ 30 minutes pour extraire les champs d’un ensemble de 1000 ordres.
  • 1,40 € pour extraire les champs d’un ensemble de 1000 ordres.

Le projet de POC initié par Lincoln a démontré les avantages de l’utilisation de l’IA générative pour analyser des informations déstructurées et complexes.

D’une part, cette approche facilite leur exploitation dans les processus métiers, et d’autre part, elle permet à notre client de gagner en productivité grâce à une solution plus efficace et moins sujette aux révisions régulières.

logo Lincoln

Chez Lincoln, nous sommes fiers d’accompagner nos clients sur des problématiques métiers intégrant l’IA générative.