Réserver une démonstration

Vérifiez les brevets de nouveauté et les brevets provisoires en quelques minutes avec Patsnap Eureka AI !

Essayer maintenant

L'article de Patsnap sur l'IA biomédicale récompensé lors de l'EMNLP 2025

Article actuellement en cours de lecture : L'article de Patsnap sur l'IA biomédicale récompensé lors de l'EMNLP 2025

Patsnap est fier d'annoncer que notre article intitulé « C.R.A.B : A Benchmark for Evaluating Curation of Retrieval-Augmented LLMs in Biomedicine » (C.R.A.B : un benchmark pour évaluer la curation des modèles linguistiques à grande échelle augmentés par la recherche dans le domaine biomédical) a été accepté à l'EMNLP 2025, l'une des conférences les plus importantes au monde dans le domaine du traitement du langage naturel.

En tant que première référence multilingue conçue pour évaluer la manière dont les grands modèles linguistiques (LLM) augmentés par la recherche organisent le contenu biomédical, cette reconnaissance marque une étape importante pour la recherche en IA de Patsnap et constitue une validation solide de notre travail à la croisée de l'intelligence artificielle et de la biomédecine.

Accédez à l'article ici.

Qu'est-ce que le C.R.A.B. ?

L'article de Patsnap présente C.R.A.B, le premier benchmark multilingue permettant d'évaluer la capacité des LLM à enrichir la recherche à partir de contenus biomédicaux en anglais, français, allemand et chinois. Axé sur la « capacité de curation » d'un modèle, c'est-à-dire son aptitude à citer des sources pertinentes et à filtrer le bruit, C.R.A.B utilise une nouvelle métrique basée sur les citations pour mesurer la précision et l'efficacité. Les résultats révèlent des écarts de performance évidents entre les principaux modèles, soulignant la nécessité urgente de renforcer les capacités de sélection biomédicale.

Partie 1 : Évaluation de la « capacité de conservation »

Alors que la génération augmentée par la récupération (RAG) gagne du terrain dans les applications biomédicales, évaluer de manière fiable la capacité d'un modèle à sélectionner des preuves pertinentes est devenu un défi majeur.

Cela fait référence à la capacité d'un LLM à identifier et référencer la littérature pertinente tout en ignorant les éléments non pertinents dans un corpus récupéré.

Contrairement aux benchmarks existants, C.R.A.B introduit une approche d'évaluation innovante basée sur les citations, évaluant les modèles en fonction de leur comportement réel en matière de citations lors de la génération de réponses, sur la base de trois indicateurs clés :

  • Précision de la pertinence (RP) : exactitude de la citation des preuves pertinentes
  • Suppression des éléments non pertinents (IS) : efficacité dans la suppression des preuves non pertinentes
  • Efficacité de la curation (CE) : équilibre global et robustesse (exprimée sous forme de score F1)

Le C.R.A.B. comprend environ 400 questions biomédicales ouvertes, associées à 2 467 références pertinentes et 1 854 références non pertinentes couvrant des sujets tels que la biologie fondamentale, la découverte de médicaments, les applications cliniques, l'éthique, la réglementation et la santé publique. Certaines questions ne comportent délibérément aucune référence valide afin de simuler les lacunes réelles en matière de recherche.
Toutes les données proviennent de PubMed et Google Search, la recherche étant assurée par LlamaIndex.

Partie 2 : Principales conclusions

Patsnap a évalué 10 grands modèles d'apprentissage automatique généraux et de raisonnement, notamment GPT-4-turbo, GPT-4o, Claude-3.7-Sonnet, Gemini-1.5-Pro, DeepSeek-V3, Doubao, DeepSeek-R1, QwQ-32B, Gemini-2.0-Thinking et o3-mini, et a consigné ses principales conclusions ci-dessous.

1ère conclusion : les modèles à code source fermé offrent des performances plus stables.

Les LLM à code source fermé ont démontré des performances plus solides et plus constantes.

  • GPT-4o a obtenu les meilleurs résultats en chinois (CE F1 = 80,46).
  • Gemini-1.5-Pro led en anglais (CE F1 = 71,91)
  • o3-mini a obtenu d'excellents résultats en français (72,98) et en allemand (73,97).

Cela suggère que le pré-entraînement multilingue à grande échelle confère aux modèles fermés un avantage en termes de stabilité par rapport aux modèles open source.

Deuxième constat : certains modèles de raisonnement sont moins performants que leurs versions de base.

Étonnamment, certains modèles axés sur le raisonnement (par exemple DeepSeek-R1, QwQ) ont obtenu des résultats inférieurs à ceux de leurs homologues de base. La recherche a révélé que l'entraînement par renforcement sur des tâches mathématiques et de codage conduisait à une « réflexion excessive » dans des contextes biomédicaux, ce qui entraînait une mauvaise utilisation des références et une réduction de la précision du domaine.

3e conclusion : une formation spécifique au domaine améliore considérablement les performances

Pour tester le potentiel d'amélioration, Patsnap a effectué un pré-entraînement continu (CPT) et un réglage fin supervisé (SFT) sur Llama 3-70B à l'aide de données biomédicales.

  • Référence CE F1 = 58,42
  • Le CPT s'est amélioré pour atteindre 69,23.
  • SFT l'a ensuite augmenté à 73,58.

Cela prouve qu'une formation ciblée dans un domaine particulier peut considérablement améliorer la capacité à organiser les preuves.

De plus, la validation par des experts humains sur l'ensemble de données en anglais a confirmé la fiabilité de C.R.A.B : ses évaluations automatisées correspondaient aux jugements des experts avec une cohérence supérieure à 90 % pour les trois mesures (RP 92,3 %, IS 89,7 %, CE 91,5 %).

La précision des citations dans le domaine biomédical a un impact direct sur les décisions cliniques, le développement de médicaments et la sécurité des patients. En quantifiant les performances des LLM en matière de curation des preuves, C.R.A.B fournit une norme unifiée pour la création de systèmes d'IA biomédicaux fiables et transparents, qui s'avèrent précieux pour l'aide à la décision clinique, la recherche d'informations sur les médicaments, les revues de littérature, la conformité réglementaire, etc.

Le jeu de données CRAB est désormais disponible sur Hugging Face.

Perspectives d'avenir

Patsnap reste déterminé à favoriser l'innovation grâce à une IA de pointe.
Cette avancée majeure dans la recherche en IA biomédicale améliore non seulement la qualité des applications LLM à recherche augmentée dans des domaines spécialisés, mais renforce également les fondements techniques des produits IA de Patsnap, aidant ainsi les clients à extraire des informations plus approfondies et à prendre des décisions plus rapides et plus sûres à partir d'énormes ensembles de données biomédicales. En continuant à repousser les limites de la technologie et de l'expérience produit, Patsnap restera un moteur essentiel de l'innovation scientifique et technologique à l'échelle mondiale.

Votre partenaire en IA agentique
pour une innovation plus intelligente

Patsnap fusionne la plus grande base de données propriétaire au monde sur l'innovation avec une IA de pointe pour booster l'
, la R&D, la stratégie en matière de propriété intellectuelle, la science des matériaux et la découverte de médicaments.

Réserver une démonstration