Patsnaps biomedizinische KI-Studie bei EMNLP 2025 ausgezeichnet
Aktuell abgespielter Beitrag: Patsnaps biomedizinische KI-Studie bei EMNLP 2025 ausgezeichnet
Patsnap ist stolz darauf, bekannt geben zu dürfen, dass unser Artikel „C.R.A.B: A Benchmark for Evaluating Curation of Retrieval-Augmented LLMs in Biomedicine” (C.R.A.B: Ein Maßstab zur Bewertung der Kuratierung von suchgestützten LLMs in der Biomedizin) bei der EMNLP 2025, einer der weltweit führenden Konferenzen im Bereich der natürlichen Sprachverarbeitung, angenommen wurde.
Als erster mehrsprachiger Benchmark, der entwickelt wurde, um zu bewerten, wie durch Retrieval erweiterte große Sprachmodelle (LLMs) biomedizinische Inhalte kuratieren, stellt diese Anerkennung einen wichtigen Meilenstein für die KI-Forschung von Patsnap dar – und eine starke Bestätigung unserer Arbeit an der Schnittstelle zwischen künstlicher Intelligenz und Biomedizin.

Die Abhandlung finden Sie hier.
Was ist C.R.A.B.?
Die Veröffentlichung von Patsnap stellt C.R.A.B vor, den ersten mehrsprachigen Benchmark zur Bewertung, wie gut suchgestützte LLMs biomedizinische Inhalte in Englisch, Französisch, Deutsch und Chinesisch kuratieren. Mit Fokus auf der „Kurationsfähigkeit” eines Modells, also seiner Fähigkeit, relevante Quellen zu zitieren und Störsignale herauszufiltern, verwendet C.R.A.B eine neuartige zitierbasierte Metrik zur Messung von Genauigkeit und Effizienz. Die Ergebnisse zeigen deutliche Leistungsunterschiede zwischen den führenden Modellen und unterstreichen die dringende Notwendigkeit, die biomedizinischen Kurationsfähigkeiten zu verbessern.
Teil 1: Bewertung der „Kurationsfähigkeit“
Da die Retrieval-Augmented Generation (RAG) in biomedizinischen Anwendungen zunehmend an Bedeutung gewinnt, ist die zuverlässige Bewertung der Fähigkeit eines Modells, relevante Belege zu kuratieren, zu einer zentralen Herausforderung geworden.
Dies bezieht sich darauf, wie gut ein LLM relevante Literatur identifizieren und referenzieren kann, während irrelevante Materialien innerhalb eines abgerufenen Korpus ignoriert werden.
Im Gegensatz zu bestehenden Benchmarks führt C.R.A.B einen innovativen zitierbasierten Bewertungsansatz ein, bei dem Modelle anhand ihres tatsächlichen Zitierverhaltens während der Antwortgenerierung auf der Grundlage von drei Schlüsselkennzahlen bewertet werden:
- Relevanzgenauigkeit (RP): Genauigkeit der Zitierung relevanter Belege
- Irrelevanzunterdrückung (IS): Wirksamkeit bei der Vermeidung irrelevanter Beweise
- Kurations-Effizienz (CE): Gesamtbalance und Robustheit (ausgedrückt als F1-Score)
C.R.A.B umfasst etwa 400 offene biomedizinische Fragen, gepaart mit 2.467 relevanten Referenzen und 1.854 irrelevanten Referenzen zu Themen wie Grundlagenbiologie, Arzneimittelforschung, klinische Anwendungen, Ethik, Regulierung und öffentliche Gesundheit. Einige Fragen enthalten absichtlich keine gültigen Referenzen, um reale Lücken bei der Informationsgewinnung zu simulieren.
Alle Daten stammen aus PubMed und Google Search, wobei die Suche von LlamaIndex.

Teil 2: Wichtigste Ergebnisse
Patsnap hat 10 führende allgemeine und auf Schlussfolgerungen basierende LLMs bewertet, darunter GPT-4-turbo, GPT-4o, Claude-3.7-Sonnet, Gemini-1.5-Pro, DeepSeek-V3, Doubao, DeepSeek-R1, QwQ-32B, Gemini-2.0-Thinking und o3-mini, und die wichtigsten Ergebnisse unten festgehalten.

Erste Erkenntnis: Closed-Source-Modelle bieten eine stabilere Leistung.
Closed-Source-LLMs zeigten eine stärkere und konsistentere Leistung.
- GPT-4o erzielte die besten Ergebnisse in Chinesisch (CE F1 = 80,46).
- Gemini-1.5-Pro LED in Englisch (CE F1 = 71,91)
- o3-mini erzielte hervorragende Ergebnisse in Französisch (72,98) und Deutsch (73,97).
Dies deutet darauf hin, dass umfangreiches, mehrsprachiges Vortraining geschlossenen Modellen einen Stabilitätsvorteil gegenüber Open-Source-Modellen verschafft.
2. Erkenntnis: Einige Argumentationsmodelle schneiden schlechter ab als ihre Basisversionen.
Überraschenderweise schnitten bestimmte auf Argumentation fokussierte Modelle (z. B. DeepSeek-R1, QwQ) im Vergleich zu ihren Basispendants schlechter ab. Die Untersuchung ergab, dass das Verstärkungstraining bei Mathematik- und Code-Aufgaben zu „Überdenken” in biomedizinischen Kontexten führte, was zu einer falschen Verwendung von Referenzen und einer verminderten Domänen-Genauigkeit führte.
3. Erkenntnis: Domänenspezifisches Training steigert die Leistung erheblich.
Um das Verbesserungspotenzial zu testen, führte Patsnap ein kontinuierliches Vortraining (CPT) und eine überwachte Feinabstimmung (SFT) auf Llama 3-70B unter Verwendung biomedizinischer Daten durch.
- Basis-CE F1 = 58,42
- CPT verbesserte sich auf 69,23
- SFT erhöhte ihn weiter auf 73,58.
Dies beweist, dass gezieltes Domänen-Training die Fähigkeit zur Evidenz-Kuration deutlich verbessern kann.
Darüber hinaus bestätigte die Validierung durch menschliche Experten anhand des englischen Datensatzes die Zuverlässigkeit von C.R.A.B.: Die automatisierten Bewertungen stimmten mit den Expertenurteilen in allen drei Metriken zu über 90 % überein (RP 92,3 %, IS 89,7 %, CE 91,5 %).
Die genaue Zitierweise in der Biomedizin hat direkten Einfluss auf klinische Entscheidungen, die Entwicklung von Arzneimitteln und die Patientensicherheit. Durch die Quantifizierung der Leistungsfähigkeit von LLMs bei der Kuratierung von Evidenz bietet C.R.A.B einen einheitlichen Standard für den Aufbau vertrauenswürdiger und transparenter biomedizinischer KI-Systeme, die sich als wertvoll für die Unterstützung klinischer Entscheidungen, die Abfrage von Arzneimittelinformationen, Literaturrecherchen, die Einhaltung gesetzlicher Vorschriften und vieles mehr erweisen.
Der CRAB-Datensatz ist jetzt auf Hugging Face verfügbar.
Ausblick
Patsnap engagiert sich weiterhin dafür, Innovationen mit modernster KI voranzutreiben.
Dieser Meilenstein in der biomedizinischen KI-Forschung verbessert nicht nur die Qualität von LLM-Anwendungen mit erweiterter Suchfunktion in speziellen Bereichen, sondern stärkt auch die technische Grundlage der KI-Produkte von Patsnap und hilft Kunden dabei, tiefere Einblicke zu gewinnen und schnellere, sicherere Entscheidungen auf der Grundlage umfangreicher biomedizinischer Datensätze zu treffen. Patsnap wird auch weiterhin die Grenzen der Technologie und des Produkterlebnisses erweitern und damit eine wichtige Triebkraft für wissenschaftliche und technologische Innovationen weltweit bleiben.