L’information et la connaissance sont au cœur de la vie des organisations. Elles sont essentielles à la prise de décision, à la préservation et à la valorisation des savoir-faire, ainsi qu’à l’innovation. Face à un volume croissant de documents et à la complexité de leur contenu, l’analyse manuelle atteint rapidement ses limites et les outils traditionnels peuvent s’avérer insuffisants, créant un besoin pour des méthodes avancées issues de la recherche. Les technologies d’intelligence artificielle développées par le CEA-List pour l’analyse sémantique du texte et de l’image contribuent à la transformation numérique des acteurs publics et privés. Fondées sur l’innovation, elles visent à améliorer l’accès à l’information, l’analyse et la génération de contenus documentaires.
Extraction d’information à partir de documents spécialisés, souvent complexes
Nos travaux en extraction d’information portent sur l’adaptation à un domaine de spécialité, afin d’extraire des concepts d’intérêt pour nos partenaires, ainsi que des relations entre ces concepts. Ils s’appuient aussi bien sur des grands modèles de langages (LLM) ou des modèles plus frugaux, selon les contraintes industrielles de coût et de performance.
Dans les entreprises, les données annotées nécessaires à l’apprentissage supervisé en extraction d’information manquent le plus souvent. Cette contrainte impose de développer des stratégies d’adaptation tels que le few-shot learning, zero-shot learning, ou de génération de données synthétiques annotées, etc. Le service a démontré son expertise en gagnant une première place au challenge EvalLLM 2025 pour la seconde année consécutive pour l’annotation de concepts (et de relations dans un cas) dans un contexte de peu de données annotées et des domaines spécialisés : ières places EVALLM 2024 et 2025 : https://www.linkedin.com/posts/cealist_1re-place-du-cea-list-au-challenge-evalllm-activity-7348274697605640195-WtsO/?originalSubdomain=fr

Les documents les plus complexes présentent une mise en page signifiante impliquant notamment des tableaux ou une structuration spécifique de la page, mais aussi des textes, des images ou des schémas qui sont complémentaires. Pour une analyse détaillée de ces documents, seul un traitement multimodal peut en révéler la richesse. Le service, fort de ses compétences en NLP et en vision par ordinateur, développe son expertise autour :
- de l’analyse de données semi-structurées dans des documents PDF corporate, tableaux, schémas, cartes et images
- de modèles dédiés à la multimodalité (MM-LLMs spécialisés) ou encore de modèles pour améliorer la conversion et la structuration de tableaux en amont de l’extraction d’information. # [pour en savoir plus pointeur page labo]
Pour exemple, Socotec et Thales nous ont accordé leur confiance sur cette thématique.
- Socotec : analyse, extraction et déduction d’information à partir de rapports d’inspection, documents complexes par nature, à des fins d’acquisition de connaissance du patrimoine immobilier https://www.socotec.fr/media/news/socotec-cea-bimdata-gestion-donnees
- Thales : développement d’IA générative multimodale pour extraire, traiter, corréler et d’interpréter différents types d’informations à des fins de génération des synthèses et de rapports fiables dans le domaine du renseignement https://www.cea.fr/presse/Pages/actualites-communiques/institutionnel/thales-cea-partenariat-intelligence-artificielle-generative-confiance-appliquee-defense.aspx
Simplifier l’accès à l’information avec un agent conversationnel (chatbot)
En 2017, le CEA-List proposait un agent conversationnel dédié à la formation des étudiants en médecine pour les aider à poser un diagnostic dans un contexte de réalité mixte. En 2025, les technologies ont évolué avec des LLM plus fluides dans les échanges grâce aux chatbots, et à des scénarii plus ouverts. Nos défis actuels, nourris par nos projets institutionnels et industriels visent à :
- Simplifier l’accès à l’information avec plus de fluidité et de naturel dans l’échange avec un chatbot, incluant une communication appropriée entre un chatbot et un groupe de personnes (modélisation multi-locuteur des dialogues), la détection des intentions des locuteurs, etc.
- Améliorer l’accès à la documentation, des applications ou du code métier pour des solutions basées Retrival Augmented Generation (RAG) et variantes (GraphRAG) adaptées à la problématique de nos partenaires.
- Augmenter la confiance dans le chatbot et l’information via le contrôle de la génération et l’évaluation.
- Réduire les hallucinations en utilisant des ontologies, graphes de connaissance ou graphe de scènes.
Nous sommes bien sûr ouverts à d’autres défis similaires.
Exemples de projets menés au CEA-List :
- Agent conversationnel (écrit et oral) et synthèse d’information pour la réunion dans le cadre du projet Cortex, en consortium avec Alcatel. https://itsocial.fr/contenus/actualites/alcatel-lucent-enterprise-et-cortex2-collaborent-pour-faire-de-la-videoconference-une-experience-immersive/

- Agents conversationnels pour la recherche d’applications ou de code. Ces agents conversationnels sont intégrés dans la plateforme DeepLab du CEA (écosystème fermé), dédiée à l’ingénierie collaborative des systèmes et logiciels, afin d’assister les utilisateurs dans leurs recherches.
