Verbesserung der FTO-Suche durch degenerierte Sequenzsuche
Biologische Sequenzen bilden die Grundlage für Innovationen in der Biotechnologie, wobei sich unzählige Fortschritte um diese Sequenzen drehen. Die Einzigartigkeit biologischer Sequenzen stellt jedoch eine Herausforderung für herkömmliche, auf Schlüsselwörtern basierende Methoden zur Informationsgewinnung dar, was häufig dazu führt, dass wichtige Informationen und potenzielle Risiken übersehen werden.
Die in Patentansprüchen dargestellten Sequenzen umfassen eine Vielzahl von Variationen, wobei nicht nur die Sequenzen selbst beschrieben werden, sondern auch ein bestimmter Grad an Homologie gefordert wird. Daher stützen sich Forscher bei der Durchsuchung von Sequenzdatenbanken stark auf Algorithmen zum Abgleich homologer Sequenzen und verwenden vordefinierte Homologie-Schwellenwerte, um umfassende Ergebnisse zu gewährleisten. Dieser Ansatz wird bei der Suche in aktuellen biologischen Sequenzdatenbanken häufig angewendet.
Dennoch bleibt eine drängende Frage offen: Können diese ähnlichen Sequenzsuchen wirklich alle potenziellen Zielsequenzen identifizieren? Obwohl sich diese Methoden als wirksam erwiesen haben, muss ihre Fähigkeit, jede relevante Sequenz zu erfassen, noch weiter untersucht werden. Es ist von entscheidender Bedeutung, die Grenzen der derzeitigen Suchmethoden zu erforschen und nach verbesserten Ansätzen zu streben, die keine potenzielle Zielsequenz unentdeckt lassen.
Spezielle Sequenzen in Patenten
Die Kombination von Suchen nach ähnlichen Sequenzen mit der Aggregation von Ergebnissen auf Basis von Schlüsselwörtern reduziert das Risiko, wichtige Informationen und FTO-Probleme zu übersehen, erheblich.
Sequenzen in Patenten unterscheiden sich jedoch von denen in anderen biologischen Datenbanken, da sie viele „patentspezifische“ Merkmale aufweisen. Um den Umfang des Patentschutzes zu erweitern und Suchbarrieren für Wettbewerber zu schaffen, verwenden Patentverfasser häufig eine Beschreibungsmethode, die der in der Chemie verwendeten„Markush-Struktur“ähnelt. Durch die Einführung von degenerierten Symbolen, Platzhaltern, Operatoren und anderen Informationen zwischen Positionen in der Elternsequenz und die Beschreibung der spezifischen Parameter dieser Symbole durch erläuternde Dokumente bezeichnen wir diese als „degenerierte Sequenzen“.
Das folgende Bild veranschaulicht eine in den Patentansprüchen beschriebene degenerierte Sequenz:

Degenerierte Sequenzen selbst haben keine biologische Bedeutung; sie dienen ausschließlich dem Zweck des Patents. In Kombination mit der Beschreibung des Homologiebereichs schützt ein solcher Ansatz jedoch nicht nur innovative Errungenschaften umfassend, sondern wird auch zu einem „entscheidenden Schlag“ gegen die derzeitigen herkömmlichen Methoden zur Suche nach Sequenzhomologie. Schauen wir uns dazu das folgende Beispiel an.
Abfragefolge:
„EVGSYPAPSDACPSDYFYCDASGRSAGGGGTENLYFQGSGGS“
Zielsequenz:
„EVGSYXXXXXXCXXXXXXCXXSGRSAGGGG TENLYFQGSG GS“
Der vom BLAST-Algorithmus ermittelte Ähnlichkeitswert beträgt nur 67 %, aber die tatsächliche Ähnlichkeit liegt bei 100 %.
Dies geschieht, weil herkömmliche Algorithmen zum Abgleich von Sequenzhomologien bei ihrer ursprünglichen Entwicklung Szenarien mit degenerierten Sequenzen nicht berücksichtigen . Ohne spezielle Verarbeitung würde der Ausschluss degenerierter Sequenzen daher bei der Verwendung herkömmlicher Algorithmen zu zwei Situationen führen:
1) Unfähigkeit, nach der Sequenz zu suchen
2) Ausschluss von Sequenzen aufgrund von Ähnlichkeitswerten, die unter dem Schwellenwert liegen.
Beide Szenarien stellen Sequenzsuchende vor erhebliche Herausforderungen, da sie nicht nur den Vergleich von Sequenzen mit Patentansprüchen erschweren, sondern auch die Wahrscheinlichkeit erhöhen, dass wichtige Sequenzinformationen übersehen werden.
Die Lösung von Patsnap
Die Statistiken der biologischen Sequenzdatenbank (Bio) von Patsnap zeigen, dass das Vorkommen solcher speziellen Sequenzen in der globalen Patentliteratur nicht unerheblich ist. Es gibt etwa 7,4 Millionen Nukleotidsequenzen, die 7,12 % der Gesamtzahl der Nukleotide ausmachen, und 1,31 Millionen Proteinsequenzen, die 7,55 % ausmachen. Dies deutet auf eine erhebliche Anzahl generischer Sequenzen hin, die aufgrund des Vorhandenseins spezieller Symbole die Suchergebnisse beeinflussen können und somit erhebliche Risiken für FTO-Analysen darstellen.
Um das Risiko zu minimieren, dass diese kritischen Sequenzen übersehen werden, hat das Algorithm Engineering Team von Patsnap ein Deep-Learning-Modell entwickelt, das interne NLP-, CV-, Entitätserkennungs- und Koreferenzauflösungstechnologien nutzt.
Dieses Modell wurde entwickelt, um degenerierte Sequenzen und deren Substitutionen in Sequenzlisten und Volltextpatenten zu identifizieren und zu analysieren. Es hat eine Suchdatenbank für degenerierte Sequenzen als Teil unseres Bio Professional-Pakets eingerichtet.
Mithilfe eines speziellen Algorithmus zur Sequenzalignierung ermöglicht diese Datenbank nicht nur das Abrufen solcher Sequenzen, sondern liefert auch einen echten Ähnlichkeitswert. Durch die Suche in der degenerierten Sequenzdatenbank können wir daher das Risiko, bei der Recherche zur Ausübungsfreiheit (FTO) und Neuheit versehentlich wichtige Informationen zu übersehen, wirksam mindern.

Angesichts des potenziellen Ausmaßes der Variationen in degenerierten Sequenzen, die mehrere zehn Milliarden erreichen können, sind herkömmliche Sequenzalignment-Algorithmen nicht in der Lage, die Anforderungen an die Echtzeit-Suche zu erfüllen. Patsnap begegnet dieser Herausforderung mit einem tiefgreifend angepassten Sequenzalignment-Algorithmus, der während des Suchvorgangs dynamisch Substitutionsinformationen für degenerierte Sequenzen lädt und so eine präzise Suche innerhalb eines angemessenen Zeitrahmens gewährleistet.
Während der Scanphase führt Patsnap einen Komprimierungsalgorithmus ein, um eine Seed-Wort-Tabelle für heuristische Suchen zu erstellen, wodurch unnötige Vergleiche erheblich reduziert und die Effizienz der Suche verbessert werden. Bei der Ausrichtung von Abfrage-Sequenzen mit Zielsequenzen berücksichtigt der proprietäre Algorithmus von Patsnap degenerierte Substitutionsinformationen, was zu einer genaueren Ausrichtung und genaueren Abfrageergebnissen sowie zu intuitiveren und visuell ansprechenderen Ausrichtungsergebnissen für verschiedene Varianten der Abfrage-Sequenz und der Zielsequenz führt.
Erleben Sie jetzt die Suche nach degenerierten Sequenzen
Im Juni 2023 führte die Bio-Datenbank für biologische Sequenzen von Patsnap eine leistungsstarke Suchfunktion für degenerierte Sequenzen ein, die einen Paradigmenwechsel im Patentbereich bewirkte. Diese bahnbrechende Weiterentwicklung bietet Forschern ein äußerst robustes Tool mit einer umfangreichen Sammlung degenerierter Sequenzen, mit dem Benutzer mühelos die genauesten und relevantesten Informationen für ihre Suche erhalten.
Um eine Demo zu vereinbaren oder mehr zu erfahren, besuchen Sie patsnap.com/solutions/bio.
Über Patsnap: Patsnap wurde 2007 gegründet und ist das Unternehmen hinter der weltweit führenden KI-gestützten Innovationsinformationsplattform. Patsnap bietet globalen Unternehmen eine vernetzte, benutzerfreundliche Plattform, die ihnen hilft, bessere Entscheidungen im Innovationsprozess zu treffen. Zu den Kunden zählen Innovatoren aus verschiedenen Branchen, darunter Landwirtschaft und Chemie, Konsumgüter, Lebensmittel und Getränke, Biowissenschaften, Automobilindustrie, Öl und Gas, professionelle Dienstleistungen, Luft- und Raumfahrt sowie Bildung.
Medienkontakt:
Antasha Durbin
E-Mail: [email protected]