IA analyse omics — priorisation cibles thérapeutiques drug

Un criblage protéomique ou transcriptomique rend son verdict : 800 protéines différentiellement exprimées, 200 hits actifs, 40 cibles candidates. Laquelle mérite la suite ? Répondre à cette question sérieusement prend aujourd'hui plusieurs semaines de consultation de bases, de croisements et de rédaction manuelle. Un agent d'interprétation omics fait ce travail en quelques heures — et vous rend un tableau priorisé, chiffré, sourcé.

En bref
Pour qui : équipes R&D discovery, bio-informatique, biologie translationnelle
Le problème : après un criblage, annoter et hiérarchiser des centaines de hits mobilise des semaines d'interrogation manuelle de bases hétérogènes
Le résultat : une fiche de priorisation par hit — score composite, annotations croisées, sources citées — prête pour la revue scientifique
Le gain : 2 à 3 semaines d'annotation compressées en quelques heures, sans perte de traçabilité

Le quotidien aujourd'hui

Un criblage rend ses résultats. La liste de hits atterrit dans un tableur. C'est là que le vrai travail commence — et qu'il ralentit.

Pour chaque candidat, il faut consulter UniProt (fonction, structure, expression tissulaire, isoformes), ChEMBL (activité des composés connus sur cette cible, données ADMET), KEGG (voies métaboliques impliquées, positionnement dans la signalisation), GeneCards, peut-être Open Targets ou OMIM si l'on cherche des liens maladie. Chaque base a son interface, sa logique, ses lacunes. On exporte, on colle dans Excel, on recopie des valeurs à la main. Sur 200 hits, personne ne fait ça exhaustivement — on se concentre sur les 20 premiers noms reconnus, les autres attendent.

Résultat : la priorisation est biaisée par la notoriété, pas par les données. Une cible prometteuse mais peu publiée glisse sous le radar. Une cible connue monte en tête parce qu'on en a entendu parler au dernier congrès.

Comptez 2 à 3 semaines pour annoter sérieusement cent hits entre deux scientifiques expérimentés. Et ce travail se recommence à chaque nouveau criblage, sur chaque nouvelle indication.

Ce que change l'automatisation

L'agent ne « devine » rien. Il interroge les bases publiques par des requêtes déterministes — API UniProt, ChEMBL REST, KEGG DBGET — et consolide les réponses dans une structure fixe. Ce que le LLM fait, c'est lire et synthétiser les données retournées, pas les inventer. Chaque annotation est reliée à sa requête. Si la base ne répond pas, le champ reste vide plutôt qu'inventé.

Vous soumettez votre liste de hits. L'agent interrprète, croise, calcule un score composite (druggabilité, liens maladie, disponibilité d'un outil pharmacologique), et vous rend une fiche par cible — plus un tableau de synthèse trié par priorité.

flowchart LR
  H[Votre liste de hits<br>protéines / gènes / composés] --> A[Agent d'annotation<br>requêtes API déterministes]
  A --> B1[UniProt<br>fonction · expression · structure]
  A --> B2[ChEMBL<br>composés connus · ADMET]
  A --> B3[KEGG<br>voies · signalisation]
  B1 & B2 & B3 --> S[Score de priorité<br>composite + justification]
  S --> R[Fiche de hits priorisés<br>prête pour revue scientifique]
  R --> H2[Vous décidez<br>quelles cibles entrent en phase suivante]

Ce que vous recevez, concrètement

L'agent rend une fiche de hits priorisés. Voici à quoi ressemble la sortie pour un criblage protéomique sur une indication oncologique :

Fiche de priorisation — Criblage proteomique KRAS-pathway · Indication : NSCLC

Cible / Gène	Score de priorité	Pourquoi (annotation croisée)	Sources
SOS1	★★★★★	GEF de KRAS ; plusieurs inhibiteurs allostériques en phase 1/2 (BI-3406, BAY-293) ; expression élevée dans NSCLC (GTEx / TCGA) ; voie RAS-MAPK (KEGG hsa04010) ; druggabilité confirmée (ChEMBL)	UniProt Q07889 · ChEMBL CHEMBL3883319 · KEGG hsa04010
LZTR1	★★★★☆	Régulateur ubiquitine-ligase de KRAS/HRAS ; mutations perte de fonction dans schwannomatose et NSCLC rare ; cible émergente, 0 inhibiteur clinique disponible ; opportunité first-in-class	UniProt Q8N653 · OMIM #600574 · Open Targets ENSG00000104963
SHOC2	★★★☆☆	Scaffold RAS-RAF ; inhibiteur préclinique (exemple) ; pas encore de données Phase I publiées ; expression tissu-spécifique à confirmer sur la cohorte	UniProt Q9UQ13 · ChEMBL CHEMBL4523034 · KEGG hsa04010
CNKSR1	★★☆☆☆	Co-activateur RAS ; peu publié en oncologie thoracique ; aucun outil pharmacologique répertorié dans ChEMBL ; à surveiller, pas à prioriser maintenant	UniProt Q969H4 · UniProt annotation « function : RAS effector scaffold »

Score composite : druggabilité ChEMBL (composé phase ≥ 1) × expression TCGA/GTEx × liens maladie Open Targets × nouveauté compétitive estimée. Chaque critère est documenté, pas calculé par le LLM.

La liste complète (200 hits) est exportée dans le même format. Vous filtrez, triez, discutez — les données sont là, traçables.

Le gain, chiffré

	Avant	Après
Temps d'annotation	2 à 3 semaines (100 hits, 2 scientifiques)	Quelques heures de traitement + 1 demi-journée de revue
Couverture	20 à 30 hits les plus connus, les autres ignorés	100 % des hits annotés sur les mêmes critères
Biais de notoriété	Élevé — les cibles célèbres montent, les inconnues attendent	Neutralisé — chaque hit part du même tableau de bord
Traçabilité	Valeurs recopiées à la main, source perdue	Chaque annotation reliée à l'ID de la requête API
Temps scientifique libéré	Passé à consulter des bases	Concentré sur la décision de go/no-go

Pour que ça marche chez vous

Trois points font la différence entre un prototype impressionnant en démo et un outil sur lequel une équipe discovery s'appuie vraiment :

Vos structures et séquences restent dans votre périmètre. Un criblage propriétaire révèle votre programme avant dépôt de brevet. Les données qui entrent dans l'agent ne doivent jamais transiter par un LLM grand public avec réutilisation. On travaille sur des modèles entreprise à non-réutilisation contractuelle garantie, avec les bases publiques interrogées en sortie, pas en entrée.
L'agent requête, il n'invente pas. La robustesse du système tient à une règle simple : chaque valeur dans la fiche (IC50, lien KEGG, score druggabilité) provient d'une requête API retournant une réponse structurée. Aucune valeur n'est générée par le LLM sans source. Si la base ne renvoie rien, le champ est « données insuffisantes » — pas un chiffre plausible.
Le scientifique priorise, l'agent prépare le faisceau d'indices. La fiche rend la décision plus rapide et mieux documentée, elle ne la prend pas. C'est le PI ou le responsable discovery qui arbitre quelles cibles entrent en phase suivante — avec, désormais, un tableau complet devant lui plutôt que vingt onglets ouverts.

Envie de transformer ce cas d'usage en agent qui tourne vraiment, dans les règles ?

Réserver un échange de 30 min

Vous préférez d'abord situer votre organisation sur l'IA ?

Faites le diagnostic (5 min)

De 800 hits de criblage à 5 cibles à tester — sans passer deux semaines dans les bases

Le quotidien aujourd'hui

Ce que change l'automatisation

Ce que vous recevez, concrètement

Le gain, chiffré

Pour que ça marche chez vous