• Hanns J. Neubert

La génomique, c'était hier, la protéomique, c'est demain.

(Temps de lecture: 6 - 11 minutes)

Proteomics aufmacherScience. Il y a 20 ans, le décodage des 3,2 milliards de lettres du génome humain a fait sensation. Les chercheurs passent maintenant à l'étape suivante : le décryptage des protéines, véritables supports de la vie.

Lorsque le besoin était grand, les choses ont soudainement évolué très rapidement. Fin mars 2020, après seulement six semaines de développement, Bosch a présenté le premier test rapide Corona. Grâce aux anticorps, les protéines du système immunitaire, des fragments du virus SRAS-CoV-2 ont pu être détectés après une maladie de Corona.

Ceci est un exemple de l'importance de l'élucidation de la fonction des protéines. "Si l'on examine la composition protéique exacte des différentes cellules des patients, leur protéome, on obtient des informations détaillées sur les protéines qui jouent un rôle dans certaines maladies", explique Jürgen Cox, chef de groupe de recherche à l'Institut Max Planck de biochimie de Martinsried, près de Munich.

Les protéines sont les véritables supports de la vie. Ce sont à la fois des matériaux de construction et des outils. Les muscles, les nerfs, les organes et les cheveux sont tous constitués de protéines. Tout comme les corps sanguins à hémoglobine rouge pour le transport de l'oxygène, les enzymes pour l'accélération des réactions chimiques dans le corps, les hormones comme messagers de messages ou les anticorps de la défense immunitaire.

Ce que presque personne ne sait, c'est que la plupart des maladies non infectieuses sont causées par des protéines mal programmées. Et de nombreuses thérapies modernes sont basées sur les protéines, comme l'insuline, médicament contre le diabète, ou les médicaments les plus efficaces contre le cancer.

S'il était possible de décoder le protéome individuel de chaque patient, la science serait beaucoup plus proche du rêve de la médecine personnalisée. Toutefois, cela est beaucoup plus difficile que de découvrir des segments de gènes défectueux dans l'ADN. En effet, l'ADN existe sous la forme d'un double brin sur lequel les gènes s'enchaînent comme une suite de lettres. Chaque cellule de l'organisme possède le même patrimoine génétique dans son noyau, qui reste inchangé tout au long de la vie.

Il en va tout autrement avec les protéines. Chaque cellule des organes du corps contient toujours le même génome, mais la composition protéique d'une cellule du foie n'est pas comparable à celle des cellules nerveuses ou cérébrales.

De plus, la séquence des acides aminés dans les chaînes change au cours de la vie. Ainsi, le protéome des jeunes est différent de celui des personnes âgées. Un exemple tiré du règne des insectes l'illustre. Même si sa vie commence comme une chenille et se termine comme un papillon, les gènes de l'insecte restent les mêmes dans chaque cellule. Les types de protéines dans les cellules, cependant, changent fondamentalement. "Il existe donc des combinaisons possibles presque innombrables. Il est donc crucial que nous développions à l'avenir des méthodes permettant d'analyser très rapidement des milliers de protéines", explique M. Cox.

La structure des macromolécules protéiques présente un intérêt particulier pour les chercheurs. Contrairement à l'ADN, ils sont repliés dans l'espace. Cette tridimensionnalité peut être utilisée pour trouver des médicaments qui s'insèrent comme une clé dans la serrure d'une molécule de protéine et ainsi la déverrouiller ou la verrouiller. Cela se produit lorsque, au cours de la défense immunitaire, un anticorps se fixe sur la contrepartie antigénique de l'enveloppe d'une bactérie ou d'un virus à l'origine de la maladie, la rendant ainsi inoffensive.

Démêler une telle structure n'est pas une tâche facile. Cela nécessite des outils de recherche à grande échelle tels que l'anneau de stockage de 2,3 kilomètres de long de PETRA III au centre de recherche électronique DESY à Hambourg. Il génère le rayonnement X le plus brillant du monde avec des faisceaux lumineux de très courte longueur d'onde. Cela permet d'observer les structures les plus minuscules, comme le pliage des protéines individuelles.

Récemment, un groupe de chercheurs a réussi, dans le cadre d'un "dépistage par rayons X", à examiner en peu de temps 7000 substances pour voir si l'une d'entre elles possède une structure tridimensionnelle qui pourrait être incorporée à une enzyme importante du virus SRAS-CoV-2 et ainsi la bloquer. Ils ont découvert que 37 composés étaient des candidats anti-coronaires qui pourraient maintenant être développés plus avant.

"Une autre façon d'obtenir de meilleures informations sur la fonction des protéines est le séquençage, c'est-à-dire la décomposition des protéines en leurs différents acides aminés constitutifs. Il s'agit d'identifier combien de protéines de certaines espèces sont présentes", explique Cox. Une des approches de la recherche consiste à introduire une molécule étrangère dans une cellule, comme un polluant ou un médicament potentiel. "Nous pouvons alors chercher à voir quelles protéines sont maintenant présentes dans la cellule en plus ou moins grand nombre, et les comparer aux cellules saines." Cela permet de déterminer quelles protéines jouent un rôle dans certaines maladies, comme le cancer.

L'outil de prédilection des chercheurs est ce que l'on appelle la spectrométrie de masse. Au cours de cette procédure, l'analyseur enlève des électrons aux molécules, ce qui les rend chargées positivement et donc mesurables électriquement. Le résultat est un spectrogramme qui ressemble à une courbe en dents de scie lorsqu'il est imprimé. La longueur et la position des différentes dents fournissent des informations sur le nombre de molécules de protéines d'une certaine taille présentes dans un échantillon.

La tâche herculéenne consiste ensuite à comparer les données avec d'autres échantillons. La quantité de données générées est si importante que seul un ordinateur extrêmement rapide est capable de les trier. Le groupe de recherche de M. Cox à l'Institut Max Planck de biochimie a mis au point un puissant logiciel appelé MaxQuant, spécialement conçu à cet effet. A l'aide de ce logiciel, il est possible de comparer les données des cellules analysées entre elles, mais aussi avec les données des bases de données.

Protenostics

La plus grande de ces bases de données sur les protéines s'appelle UniProt et est gérée et entretenue depuis 2002 par l'Institut européen de bioinformatique, l'Institut suisse de bioinformatique et le Protein Information Resource de l'université de Georgetown à Washington, D.C. Des informations sur plus de 100 000 protéines y sont désormais stockées et peuvent être consultées librement et gratuitement. "C'est un énorme trésor. De nouvelles découvertes sont ajoutées presque quotidiennement, en particulier concernant des organismes qui n'ont pas été aussi bien étudiés scientifiquement", explique M. Cox. Les informations stockées ici permettent de tirer des conclusions sur les fonctions des protéines en biologie.

Comme les protéines sont également de plus en plus importantes en tant qu'outils et substances actives dans les processus et produits industriels, leur séquençage devient encore plus important pour le développement des produits. L'économie s'oriente de plus en plus vers une bioéconomie plus respectueuse de l'environnement. Les enzymes et les agents de surface contenus dans les détergents sont donc depuis longtemps produits à partir de protéines. Entre-temps, les chaînes d'acides aminés sont même utilisées dans les adhésifs, les lubrifiants haute performance ou comme accélérateurs de réaction dans l'industrie chimique.

Cependant, pour faire progresser le développement industriel sur la base des protéines, des centaines de milliers de protéines doivent être étudiées et déterminées quant à leurs propriétés. Cela ne peut être réalisé qu'avec des méthodes dites "à haut débit".

La société américaine Quantum-Si, fondée par Jonathan M. Rothberg, semble avoir trouvé un moyen particulièrement rapide de séquencer les protéines plus facilement et à moindre coût. Son invention repose sur une puce à semi-conducteurs qui peut apparemment être utilisée pour analyser et numériser des centaines d'échantillons de protéines en un temps très court. Rothberg appelle ce processus "séquençage des protéines de nouvelle génération". En tout état de cause, il ne devrait pas manquer de capitaux pour poursuivre le développement de la technologie. À la mi-février 2021, la société a réussi à entrer en bourse sous l'égide de la société d'acquisition SPAC HighCape Capital. Après la transaction, la société dispose de plus de 500 millions de dollars de liquidités. "Nous voulons démocratiser la médecine en utilisant le domaine de la protéomique pour comprendre non seulement ce qui pourrait se passer dans le corps, mais aussi ce qui se passe réellement en ce moment", a annoncé Jonathan M. Rothberg à l'occasion de l'introduction en bourse de cet ambitieux objectif.

Juergen Cox, lui, est sceptique. "Quantum-Si est assez méfiant à ce sujet. On n'apprend pas grand-chose sur le fonctionnement exact de la technologie", commente le chercheur de Max Planck, même si le principe de base lui paraît clair. "Il semble y avoir quelque chose dans cette puce de silicium qui peut mesurer les protons, les molécules chargées positivement dans les chaînes d'acides aminés".

Il pense que l'expression "séquençage des protéines de nouvelle génération" est plus marketing. "Le système américain, après tout, est basé sur l'organisation d'une grande quantité de capital-risque afin de pouvoir pousser des technologies dont personne ne sait encore si elles auront même du succès." Mais le nouveau processus de séquençage de Quantum-Si ne doit pas seulement fonctionner, souligne M. Cox. "Après tout, il doit fonctionner au moins aussi bien que la spectrométrie de masse, tout en étant moins cher, pour remplacer les méthodes standard établies." L'analyse pure des protéines ne suffit pas non plus. L'industrie, en particulier, a de plus en plus besoin de nouvelles combinaisons d'acides aminés sur mesure, aux propriétés très spécifiques. Ceux-ci ne sont pas toujours d'origine naturelle. Dans la plupart des cas, les séquences protéiques naturelles ont été modifiées afin de les rendre plus efficaces, plus stables et adaptées à des applications spécifiques, par exemple pour des températures particulièrement élevées ou particulièrement basses.

Par le passé, cela nécessitait de longues analyses basées sur le principe d'essais et d'erreurs. Il s'agissait d'expériences de laboratoire extrêmement coûteuses et longues, destinées à tester des millions de variantes de protéines pour en déterminer les propriétés utiles. Bientôt, cette tâche pourrait être accomplie par une intelligence artificielle, telle que celle récemment développée à l'université de technologie Chalmers de Göteborg.

"Accélérer la vitesse à laquelle nous développons des protéines sur l'ordinateur, c'est

est très importante pour réduire le coût des catalyseurs enzymatiques, par exemple", a déclaré Martin Engqvist, l'un des chercheurs impliqués du département de biologie et de bio-ingénierie de Chalmers. "C'est la clé pour réaliser des processus industriels et des produits de consommation respectueux de l'environnement."

Aller de l'avant. Il est certain que la compréhension du protéome humain dans toutes ses interactions prendra encore une ou deux décennies. Mais des applications telles que MaxQuant, l'intelligence artificielle des chercheurs en protéines de Chalmers, ou peut-être des méthodes basées sur des puces telles que celles de Quantum-Si, combinées à des ordinateurs toujours plus rapides et plus puissants, pourraient placer la recherche et l'utilisation des protéines sur une voie exponentielle. "À terme, nous pourrions être en mesure d'utiliser des méthodes à haut débit, comme la spectrométrie de masse, directement dans les diagnostics. Et ainsi mesurer simultanément l'ensemble du protéome d'un patient", explique Jürgen Cox. Ce serait en effet une révolution. ®

–––––––––––––––––––––––––––

La protéine - le secret de la vie.

Les protéines - qu'on appelait autrefois les protides - sont des macromolécules constituées de longues chaînes. Les 23 acides aminés différents sont alignés dans des séquences différentes, comme des lettres.

La séquence des acides aminés et la longueur d'une telle chaîne sont déterminées dans le code génétique. De nombreux gènes représentent plus d'une protéine, de sorte qu'il y a beaucoup plus de protéines dans le corps humain que de gènes. En théorie, cependant, les 23 acides aminés qui peuvent former des chaînes de protéines peuvent être combinés pour former 26 quadrillions de combinaisons - un 26 avec 21 zéros. Si le Sahara, qui s'étend sur neuf millions de kilomètres carrés, contenait autant de grains de sable, il serait entièrement recouvert d'une couche de sable de trois mètres d'épaisseur.

"Au-delà, il y a beaucoup plus d'acides aminés qui ne sont pas incorporés dans les protéines", explique Jürgen Cox. "Celles-ci, comme d'autres petites molécules, flottent également dans les cellules et y effectuent des tâches très spécifiques".

Comme si cela n'était pas assez complexe, le plan des protéines donné par les gènes peut également être modifié plusieurs fois dans les cellules par une réaction chimique appelée phosphorylation. "Il s'agit, pour ainsi dire, d'un code supplémentaire propre qui précise à quels endroits d'une protéine cette réaction commence. Cela se passe de manière très dynamique et rapide", explique M. Cox. "En protéomique, cette information est extrêmement importante car le changement se produit après, alors que ces protéines sont déjà assemblées." De cette façon, les signaux sont envoyés très rapidement dans une cellule afin qu'elle puisse, par exemple, faire entrer une molécule importante et nécessaire dans la cellule depuis l'extérieur ou éliminer les "déchets" vers l'extérieur.

–––––––––––––––––––––––––––

Auteur : Hanns-J. Neubert