Réserver une démonstration

Vérifiez les brevets de nouveauté et les brevets provisoires en quelques minutes avec Patsnap Eureka AI !

Essayer maintenant

Amélioration de la recherche FTO grâce à la recherche de séquences dégénérées

Les séquences biologiques constituent le fondement même de l'innovation dans le domaine des biotechnologies, avec d'innombrables avancées tournant autour de ces séquences. Cependant, la nature unique des séquences biologiques pose un défi aux méthodes conventionnelles de recherche d'informations basées sur des mots-clés, conduisant souvent à négliger des informations cruciales et des risques potentiels.

Les séquences présentées dans les revendications de brevet englobent un large éventail de variations, décrivant non seulement les séquences elles-mêmes, mais exigeant également un niveau spécifique d'homologie. Par conséquent, les chercheurs s'appuient fortement sur des algorithmes d'alignement de séquences homologues pour explorer les bases de données de séquences, en utilisant des seuils d'homologie prédéfinis afin de garantir des résultats complets. Cette approche est largement utilisée dans les recherches actuelles dans les bases de données de séquences biologiques.

Néanmoins, une question urgente demeure : ces recherches de séquences similaires permettent-elles réellement d'identifier toutes les séquences cibles potentielles ? Bien que ces méthodes se soient avérées efficaces, leur capacité à capturer toutes les séquences pertinentes mérite d'être examinée plus en détail. Il est essentiel d'étudier les limites des méthodologies de recherche actuelles et de s'efforcer de mettre au point des approches améliorées qui ne laissent aucune séquence cible potentielle inconnue.  

Séquences spéciales dans les brevets  

La combinaison de recherches de séquences similaires et d'agrégation de résultats basée sur des mots-clés réduit considérablement le risque de passer à côté d'informations cruciales et de problèmes liés à la liberté d'exploitation.

Cependant, les séquences contenues dans les brevets diffèrent de celles que l'on trouve dans d'autres bases de données biologiques, car elles présentent de nombreuses caractéristiques « spécifiques aux brevets ». Afin d'élargir la portée de la protection par brevet et de créer des obstacles à la recherche pour les concurrents, les rédacteurs de brevets utilisent souvent une méthode de description similaire à la «structure Markush »utilisée en chimie. En introduisant des symboles dégénérés, des caractères génériques, des opérateurs et d'autres informations entre les positions de la séquence parentale, et en décrivant les paramètres spécifiques de ces symboles à travers des documents explicatifs, nous les appelons « séquences dégénérées ».

L'image ci-dessous illustre une séquence dégénérée décrite dans les revendications du brevet :  

Séquence dégénérée décrite dans les revendications du brevet.

Les séquences dégénérées n'ont en elles-mêmes aucune signification biologique ; elles servent uniquement à des fins de brevet. Cependant, lorsqu'elles sont associées à la description de la plage d'homologie, une telle approche permet non seulement de protéger de manière exhaustive les réalisations innovantes, mais aussi de porter un « coup décisif » aux méthodes conventionnelles actuelles de recherche d'homologie de séquences.  Examinons un exemple ci-dessous.

Séquence de requêtes :

« EVGSYPAPSDACPSDYFYCDASGRSAGGGGTENLYFQGSGGS »  

Séquence cible :  

« EVGSYXXXXXXCXXXXXXCXXSGRSAGGGG TENLYFQGSG GS »  

Le score de similarité obtenu à partir de l'algorithme BLAST n'est que de 67 %, mais la similarité réelle est de 100 %.  

Cela s'explique par le fait que les algorithmes classiques d'alignement par homologie de séquences ne prennent pas en compte les scénarios impliquant des séquences dégénérées lors de leur développement initial. Par conséquent, sans traitement spécial, l'exclusion des séquences dégénérées conduirait à deux situations lors de l'utilisation d'algorithmes classiques :  

1) Impossibilité de rechercher la séquence 

2) Exclusion des séquences dont les scores de similarité sont inférieurs au seuil.  

Ces deux scénarios posent des défis importants aux chercheurs de séquences, car ils empêchent non seulement la comparaison des séquences avec les revendications de brevet, mais augmentent également le risque de négliger des informations cruciales sur les séquences.  

La solution de Patsnap 

Les statistiques de la base de données de séquences biologiques (Bio) de Patsnap montrent que la présence de ces séquences spéciales dans la littérature mondiale sur les brevets n'est pas négligeable. On dénombre environ 7,4 millions de séquences nucléotidiques, représentant 7,12 % du nombre total de nucléotides, et 1,31 million de séquences protéiques, représentant 7,55 %. Cela indique un nombre important de séquences génériques qui peuvent affecter les résultats de recherche en raison de la présence de symboles spéciaux, ce qui pose des risques importants pour les analyses FTO.  

Par conséquent, afin d'atténuer le risque de négliger ces séquences critiques, l'équipe d'ingénierie algorithmique de Patsnap a développé un modèle d'apprentissage profond utilisant des technologies internes de NLP, CV, reconnaissance d'entités et résolution de coréférence.

Ce modèle est conçu pour identifier et analyser les séquences dégénérées et leurs substitutions dans les listes de séquences et les brevets en texte intégral. Il a permis de créer une base de données de recherche de séquences dégénérées dans le cadre de notre offre Bio Professional.

Grâce à un algorithme spécialisé d'alignement de séquences, cette base de données permet non seulement de récupérer ces séquences, mais aussi de fournir un score de similarité réel. Ainsi, en effectuant des recherches dans la base de données de séquences dégénérées, nous pouvons réduire efficacement le risque de passer à côté d'informations cruciales lors des recherches de liberté d'exploitation (FTO) et de nouveauté. 

L'équipe d'ingénierie algorithmique de Patsnap a développé un modèle d'apprentissage profond utilisant des technologies internes de NLP, CV, reconnaissance d'entités et résolution de coréférence.

Compte tenu de l'ampleur potentielle des variations dans les séquences dégénérées, qui peuvent atteindre des dizaines de milliards, les algorithmes traditionnels d'alignement de séquences ne parviennent pas à répondre aux exigences de recherche en temps réel. Patsnap relève ce défi en utilisant un algorithme d'alignement de séquences profondément personnalisé qui charge dynamiquement les informations de substitution pour les séquences dégénérées pendant le processus de recherche, garantissant ainsi une recherche précise dans des délais raisonnables.

Pendant la phase d'analyse, Patsnap utilise un algorithme de compression pour créer un tableau de mots clés pour les recherches heuristiques, ce qui réduit considérablement les comparaisons inutiles et améliore l'efficacité de la recherche. Lors de l'alignement des séquences de requêtes avec les séquences cibles, l'algorithme propriétaire de Patsnap intègre des informations de substitution dégénérées, ce qui permet d'obtenir un alignement et des résultats de requête plus précis, ainsi que des résultats d'alignement plus intuitifs et visuellement attrayants pour différentes variantes de la séquence de requête et de la séquence cible. 

Découvrez dès maintenant la recherche de séquences dégénérées 

En juin 2023, la base de données biologique Bio de Patsnap a introduit une puissante fonctionnalité de recherche de séquences dégénérées, provoquant un changement de paradigme dans le domaine des brevets. Cette avancée révolutionnaire offre aux chercheurs un outil extrêmement robuste qui propose une vaste collection de séquences dégénérées, permettant aux utilisateurs d'obtenir sans effort les informations les plus précises et les plus pertinentes dans leurs recherches.  

Pour planifier une démonstration ou en savoir plus, rendez-vous sur patsnap.com/solutions/bio.

À propos de Patsnap: Fondée en 2007, Patsnap est la société à l'origine de la première plateforme mondiale d'intelligence en matière d'innovation basée sur l'IA. Patsnap fournit aux entreprises internationales une plateforme connectée et facile à utiliser qui les aide à prendre de meilleures décisions dans le processus d'innovation. Ses clients sont des innovateurs issus de nombreux secteurs, notamment l'agriculture et la chimie, les biens de consommation, l'alimentation et les boissons, les sciences de la vie, l'automobile, le pétrole et le gaz, les services professionnels, l'aviation et l'aérospatiale, ainsi que l'éducation.    

Contact médias :   

Antasha Durbin  

Courriel : [email protected]  

  

Votre partenaire en IA agentique
pour une innovation plus intelligente

Patsnap fusionne la plus grande base de données propriétaire au monde sur l'innovation avec une IA de pointe pour booster l'
, la R&D, la stratégie en matière de propriété intellectuelle, la science des matériaux et la découverte de médicaments.

Réserver une démonstration