De 800 hits de criblage à 5 cibles à tester — sans passer deux semaines dans les bases
Un criblage protéomique ou transcriptomique rend son verdict : 800 protéines différentiellement exprimées, 200 hits actifs, 40 cibles candidates. Laquelle mérite la suite ? Répondre à cette question sérieusement prend aujourd'hui plusieurs semaines de consultation de bases, de croisements et de rédaction manuelle. Un agent d'interprétation omics fait ce travail en quelques heures — et vous rend un tableau priorisé, chiffré, sourcé.
En bref
Pour qui : équipes R&D discovery, bio-informatique, biologie translationnelle
Le problème : après un criblage, annoter et hiérarchiser des centaines de hits mobilise des semaines d'interrogation manuelle de bases hétérogènes
Le résultat : une fiche de priorisation par hit — score composite, annotations croisées, sources citées — prête pour la revue scientifique
Le gain : 2 à 3 semaines d'annotation compressées en quelques heures, sans perte de traçabilité
Le quotidien aujourd'hui
Un criblage rend ses résultats. La liste de hits atterrit dans un tableur. C'est là que le vrai travail commence — et qu'il ralentit.
Pour chaque candidat, il faut consulter UniProt (fonction, structure, expression tissulaire, isoformes), ChEMBL (activité des composés connus sur cette cible, données ADMET), KEGG (voies métaboliques impliquées, positionnement dans la signalisation), GeneCards, peut-être Open Targets ou OMIM si l'on cherche des liens maladie. Chaque base a son interface, sa logique, ses lacunes. On exporte, on colle dans Excel, on recopie des valeurs à la main. Sur 200 hits, personne ne fait ça exhaustivement — on se concentre sur les 20 premiers noms reconnus, les autres attendent.
Résultat : la priorisation est biaisée par la notoriété, pas par les données. Une cible prometteuse mais peu publiée glisse sous le radar. Une cible connue monte en tête parce qu'on en a entendu parler au dernier congrès.
Comptez 2 à 3 semaines pour annoter sérieusement cent hits entre deux scientifiques expérimentés. Et ce travail se recommence à chaque nouveau criblage, sur chaque nouvelle indication.
Ce que change l'automatisation
L'agent ne « devine » rien. Il interroge les bases publiques par des requêtes déterministes — API UniProt, ChEMBL REST, KEGG DBGET — et consolide les réponses dans une structure fixe. Ce que le LLM fait, c'est lire et synthétiser les données retournées, pas les inventer. Chaque annotation est reliée à sa requête. Si la base ne répond pas, le champ reste vide plutôt qu'inventé.
Vous soumettez votre liste de hits. L'agent interrprète, croise, calcule un score composite (druggabilité, liens maladie, disponibilité d'un outil pharmacologique), et vous rend une fiche par cible — plus un tableau de synthèse trié par priorité.
flowchart LR H[Votre liste de hits<br>protéines / gènes / composés] --> A[Agent d'annotation<br>requêtes API déterministes] A --> B1[UniProt<br>fonction · expression · structure] A --> B2[ChEMBL<br>composés connus · ADMET] A --> B3[KEGG<br>voies · signalisation] B1 & B2 & B3 --> S[Score de priorité<br>composite + justification] S --> R[Fiche de hits priorisés<br>prête pour revue scientifique] R --> H2[Vous décidez<br>quelles cibles entrent en phase suivante]
Ce que vous recevez, concrètement
L'agent rend une fiche de hits priorisés. Voici à quoi ressemble la sortie pour un criblage protéomique sur une indication oncologique :
| Cible / Gène | Score de priorité | Pourquoi (annotation croisée) | Sources |
|---|---|---|---|
| SOS1 | ★★★★★ | GEF de KRAS ; plusieurs inhibiteurs allostériques en phase 1/2 (BI-3406, BAY-293) ; expression élevée dans NSCLC (GTEx / TCGA) ; voie RAS-MAPK (KEGG hsa04010) ; druggabilité confirmée (ChEMBL) | UniProt Q07889 · ChEMBL CHEMBL3883319 · KEGG hsa04010 |
| LZTR1 | ★★★★☆ | Régulateur ubiquitine-ligase de KRAS/HRAS ; mutations perte de fonction dans schwannomatose et NSCLC rare ; cible émergente, 0 inhibiteur clinique disponible ; opportunité first-in-class | UniProt Q8N653 · OMIM #600574 · Open Targets ENSG00000104963 |
| SHOC2 | ★★★☆☆ | Scaffold RAS-RAF ; inhibiteur préclinique (exemple) ; pas encore de données Phase I publiées ; expression tissu-spécifique à confirmer sur la cohorte | UniProt Q9UQ13 · ChEMBL CHEMBL4523034 · KEGG hsa04010 |
| CNKSR1 | ★★☆☆☆ | Co-activateur RAS ; peu publié en oncologie thoracique ; aucun outil pharmacologique répertorié dans ChEMBL ; à surveiller, pas à prioriser maintenant | UniProt Q969H4 · UniProt annotation « function : RAS effector scaffold » |
Score composite : druggabilité ChEMBL (composé phase ≥ 1) × expression TCGA/GTEx × liens maladie Open Targets × nouveauté compétitive estimée. Chaque critère est documenté, pas calculé par le LLM.
La liste complète (200 hits) est exportée dans le même format. Vous filtrez, triez, discutez — les données sont là, traçables.
Le gain, chiffré
| Avant | Après | |
|---|---|---|
| Temps d'annotation | 2 à 3 semaines (100 hits, 2 scientifiques) | Quelques heures de traitement + 1 demi-journée de revue |
| Couverture | 20 à 30 hits les plus connus, les autres ignorés | 100 % des hits annotés sur les mêmes critères |
| Biais de notoriété | Élevé — les cibles célèbres montent, les inconnues attendent | Neutralisé — chaque hit part du même tableau de bord |
| Traçabilité | Valeurs recopiées à la main, source perdue | Chaque annotation reliée à l'ID de la requête API |
| Temps scientifique libéré | Passé à consulter des bases | Concentré sur la décision de go/no-go |
Pour que ça marche chez vous
Trois points font la différence entre un prototype impressionnant en démo et un outil sur lequel une équipe discovery s'appuie vraiment :
- Vos structures et séquences restent dans votre périmètre. Un criblage propriétaire révèle votre programme avant dépôt de brevet. Les données qui entrent dans l'agent ne doivent jamais transiter par un LLM grand public avec réutilisation. On travaille sur des modèles entreprise à non-réutilisation contractuelle garantie, avec les bases publiques interrogées en sortie, pas en entrée.
- L'agent requête, il n'invente pas. La robustesse du système tient à une règle simple : chaque valeur dans la fiche (IC50, lien KEGG, score druggabilité) provient d'une requête API retournant une réponse structurée. Aucune valeur n'est générée par le LLM sans source. Si la base ne renvoie rien, le champ est « données insuffisantes » — pas un chiffre plausible.
- Le scientifique priorise, l'agent prépare le faisceau d'indices. La fiche rend la décision plus rapide et mieux documentée, elle ne la prend pas. C'est le PI ou le responsable discovery qui arbitre quelles cibles entrent en phase suivante — avec, désormais, un tableau complet devant lui plutôt que vingt onglets ouverts.
Envie de transformer ce cas d'usage en agent qui tourne vraiment, dans les règles ?
Vous préférez d'abord situer votre organisation sur l'IA ?