Patent-KI-Benchmarking erklärt: Warum allgemeine LLMs zu kurz greifen
Aktuell abgespielter Beitrag: Patent-KI-Benchmarking erklärt: Warum allgemeine LLMs zu kurz greifen
Patente dienen dem Schutz von Innovationen, doch ihre Handhabung bleibt einer der komplexesten und risikoreichsten Arbeitsabläufe in der modernen Industrie.
Allgemeine LLMs können zwar einige oberflächliche Patentrecherchen durchführen, sind jedoch nicht speziell für den Bereich des geistigen Eigentums konzipiert.
Können allgemeine LLMs die Präzision einer Anspruchsgruppe wirklich verstehen? Können sie risikoreiche Entscheidungen wie Neuheitsrecherchen oder Entwürfe in frühen Phasen unterstützen? Wo liegen ihre Stärken und wo ihre Schwächen?
PatentBench wurde entwickelt, um diese Fragen zu beantworten.
PatentBench ist der erste Benchmark, der entwickelt wurde, um die Leistungsfähigkeit von KI bei realen Patentaufgaben zu testen, beginnend mit einer der anspruchsvollsten: der Neuheitsrecherche. Durch die Verwendung von fachmännisch kuratierten Offenlegungen und Referenzen, die dem Goldstandard entsprechen, bringt es Klarheit, Struktur und messbare Standards in einen Bereich, in dem all dies viel zu lange gefehlt hat.
Warum Patsnap PatentBench entwickelt hat
PatentBench ist der erste umfassende Benchmark, der speziell für patentorientierte KI entwickelt wurde. Er bewertet Modelle anhand von zwei wesentlichen Dimensionen:
- Zehn Kernkompetenzen im Bereich Patentrecht – die grundlegenden Fähigkeiten, über die ein patentbewusster LLM verfügen muss (z. B. Interpretation, Übersetzung, Entwurf, Argumentation)
- Patentaufgabenanwendungen – reale Arbeitsabläufe wie Neuheits-/Stand der Technik-Recherche, FTO-Analyse (Freedom-to-Operate), Übersetzung, Ausarbeitung von Spezifikationen, bildbasierte Erkennung von Verletzungen.
Mit PatentBench entwickelt sich die Patent-KI von losen „Spielzeugmodell“-Experimenten zu messbaren, wiederholbaren Leistungen, bei denen Modelle verfolgt, verglichen und verbessert werden können.
Patentfachleute können endlich mit Zuversicht das beste Tool auswählen, wodurch sich die Evaluierungszeit und das Rätselraten erheblich reduzieren. Die Branche erhält einen transparenten Standard, der die Messlatte höher legt und stärkere, leistungsfähigere KI-Patentmodelle fördert.
Mit PatentBench definiert Patsnap neu, was KI für den Bereich geistiges Eigentum leisten kann. Die Ära generischer großer Sprachmodelle, die vorgeben, Patentprobleme zu lösen, ist vorbei.
Es ist an der Zeit, sich für KI zu entscheiden, die auf fundiertem Patent-Know-how basiert.
Ein Einblick in unsere PatentBench-Methodik
Die Patsnap PatentBench ist ein Benchmark speziell für Neuheitsrecherchen in realen Patentszenarien.
Es bewertet die Leistung von drei KI-Tools: Patsnap's Novelty Search AI Agent, ChatGPT-o3 (mit Websuche) und DeepSeek-R1 (mit Websuche).
Wichtige Ergebnisse und Erkenntnisse
Der Bewertungsdatensatz ist gleichmäßig über die IPC-Klassifikationen verteilt und deckt sowohl Mainstream-Technologien als auch Nischenbereiche ab. Was die Sprache betrifft, so sind 68 % der Daten in Englisch und 32 % in Chinesisch, wodurch sichergestellt wird, dass das Modell bei mehrsprachigen Patentinhalten gute Leistungen erbringt. Was die Verteilung nach Empfangsämtern betrifft, so machen Anmeldungen aus den Vereinigten Staaten (US) und China (CN) jeweils etwa 32 % aus, während Anmeldungen aus dem Europäischen Patentamt (EP) und der WIPO (WO) jeweils etwa 18 % ausmachen. Diese ausgewogene Mischung spiegelt die unterschiedlichen Prüfungsstile in den wichtigsten Patentgerichtsbarkeiten wider und gewährleistet eine realistischere, global repräsentative Bewertung.

X Trefferquote:Anteil der Stichproben, bei denen eine richtige Antwort unter den ersten 1, 3 oder 5 Ergebnissen erscheint.

In unseren Benchmark-Tests erzielte der Novelty Search AI Agent eine Trefferquote von 81 % für X-Dokumente innerhalb der 100 besten Suchergebnisse.
X Recall Rate:Misst, wie gut ein KI-Tool X-Dokumente abruft, was bei der F&E-Planung und vor der Patentanmeldung von entscheidender Bedeutung ist. Ein höherer Recall hilft Teams dabei, technische Lösungen zu verfeinern und stärkere Ansprüche zu formulieren. Er wird berechnet als Anteil der X-Dokumente, die in den ersten 100 Ergebnissen abgerufen wurden, im Verhältnis zur Gesamtzahl der X-Dokumente in allen Testbeispielen.

Die X-Dokument-Rückrufquote erreichte 36 % im Vergleich zu ChatGPT-o3 und DeepSeek-R1.
Sind Sie bereit, den Unterschied zu erleben? Buchen Sie noch heute eine Demo bei Patsnap und entdecken Sie, wie der Patsnap Novelty Search AI Agent Ihren gesamten IP-Workflow verändern kann.