DIAGNOSTIC NASH, QUELQUES BASES SUR LES TESTS ET BIOMARQUEURS

diagnosis-2352652 1280




Au vu des dernières news publiées et après avoir pris connaissance des commentaires de certains actionnaires visiblement peu au fait des subtilités des méthodes de diagnostic de la NASH, il m’a semblé utile d’essayer de faire un petit texte récapitulant les principes régissant un système de diagnostic, les objectifs recherchés et les méthodes de validation utilisées.


 

 

A la recherche d’une méthode fiable de diagnostic

 

La méthode de référence présente des faiblesses

 

Actuellement, le golden standard du diagnostic de la NASH est l’analyse histologique d’une biopsie hépatique. Cette méthode est la seule reconnue a ce jour comme fiable alors que, comme l’a démontré Vlad Ratziu dans une étude publiée en 2008 :

(http://www.gastrojournal.org/article/S0016-5085(05)00630-X/pdf)

Cette méthode, du fait de la très faible taille de la biopsie au regard de la masse du foie, présente intrinsèquement une faiblesse majeure.

Dans la conclusion de son étude il écrit que : ‘La valeur prédictive négative d'une seule biopsie pour le diagnostic de NASH est au mieux de 0,74’

Cela veut dire que la méthode actuellement considérée comme la référence génère en moyenne 25% de faux négatifs. Ce taux doit varier selon l’avancement de la maladie, il est logiquement plus faible pour les patients les plus avancés et plus élevé pour les patients peu atteints.

Dans un précèdent article, co-rédigé avec Albert Wright, Nous démontrions l’impact de la faiblesse de la seule biopsie comme end point des études cliniques.

http://www.nashbiotechs.com/analyse-des-biotechs-dans/points-de-vue/faux-negatifs-faux-positifs.html


Que cherche à prouver une méthode de diagnostic

En quelques mots, quelle est la cible que l’on veut trouver ?

Ce point est primordial car un test est par définition le plus précis si il discrimine au mieux une catégorie de patients ciblés.

Sa précision a peu d’intérêt si la population discriminée est  trop large.

A titre d’exemple la cible ci dessous symbolise approximativement les proportions populations de patients souffrant de NAFLD – NASH F0 à F4 au sein de la population globale dans les pays industrialisés.

 

Or l’objet principal d’un outil de diagnostic est d’identifier précisément la population à soigner ( en anglais population ITT , Intent to treat ).

Il existe actuellement une position consensuelle sur les patients NASH à traiter qui précise que cela devrait être des patients ayant un NAS score supérieur ou égal à 4 et un grade de fibrose supérieur ou égal à F2 auquel il faut ajouter une petite partie des patients ayant un grade de Fibrose F1 mais étant considérés à risque , ( poids, diabète , etc)

Cette population est approximativement représentée ci dessous dans la population ITT

 

On constate que cette population est réduite et, selon les études, correspond seulement à 3 % à 7,5% de la population globale

Pour la suite de cet article nous retiendrons une valeur moyenne de prévalence pour la NASH ( de F0 a F4) de 7,5% de la population globale ce qui correspondrait environ  à une population ITT d’environ 4,7%, cette valeur mérite débat mais elle est proche de la moyenne de différentes publications

On comprend alors qu’il est important de bien préciser, pour un outil de diagnostic, ce qu’il permet de discriminer au regard de la population à traiter.

Un outil qui permet de détecter 98% des patients ayant une NAFLD aura une faible utilité étant donné que les patients à traiter ne correspondent qu’à 13% des patients ayant une NAFLD. 

Au delà des critères de ‘sensibilité’ et de ‘spécificité’ que nous allons présenter plus loin, il faut donc avant tout conserver à l’esprit un critère complémentaire essentiel, la ‘pertinence’ d’un outil de diagnostic.

 

 

Comment est mesuré la fiabilité d’une méthode de diagnostic

Deux critères sont importants dans l’évaluation d’un test diagnostic : la sensibilité et la spécificité.

Ces deux valeurs varient en fonction des valeurs seuils choisies par le test

Si le test s’appuie sur un taux plasmatique  particulier les valeurs seuils seront différent taux plasmatiques, si le test s’appuie sur un système de scoring multicritères, les valeurs test seront les seuils retenus sur le score pour discriminer un positif d’un négatif.

  • La sensibilité correspond au nombre de cas de malades détectés positifs pour un seuil donné.
  • La spécificité correspond au taux de patients sains correctement détectés comme négatifs avec ce même seuil.

 

Exemple : pour un système de score donnant des valeurs entre 0 et 1, on va tester différentes valeurs du score pour lesquels on considère qu’un patient ayant un score supérieur au seuil est considéré comme malade.

On peut tester par exemple toutes les valeurs entre 0 et 1 avec un intervalle de 0.05 ce qui fait 20 seuils à tester.

Pour chacun de ces 20 seuils on compare le nombre de patients ayant un score supérieur au seuil (sensés être malades) et  le nombre de patients ayant un score inférieur au seuil (sensés ne pas être malades) leur véritable état obtenu par une autre méthode connue comme fiable (dans le cas de la NASH la lecture histologique d’une biopsie par exemple).

Le ratio entre le nombre total de patients réellement malades de l’échantillon et ceux ayant un score supérieur au seuil est la sensibilité.

Le ratio entre le nombre total de patients réellement sains de l’échantillon et ceux ayant un score inferieur au seuil est la spécificité.

La méthode la plus utilisée pour évaluer la fiabilité d’une méthode de diagnostic comme une technique d’imagerie, un système de scoring ou des bio-marqueurs est la courbe ROC. (« receiver operating characteristic »)

La courbe ROC représente en ordonnée la proportion de tests positifs parmi la population malade (la sensibilité) en fonction de la proportion de tests positifs parmi la population non-malade en abscisse ( 1 moins la spécificité), pour toutes les valeurs-seuil envisageables du test. Pour un test qui discriminerait parfaitement entre malades et non-malades, il est possible de trouver une valeur seuil ayant une sensibilité et une spécificité de 100 %, qui correspond au coin supérieur gauche du graphique.

Dans ce cas la courbe ROC longe l'axe des ordonnées et le haut du graphique.

En revanche, si un test a une capacité de discrimination nulle, la proportion de positifs parmi les malades sera égale à la proportion de positifs parmi les non-malades, quelle que soit la valeur-seuil.

Dans ce cas la courbe ROC est une droite à 45 degrés

La plupart des tests se trouvent entre ces deux extrêmes. Un test est d'autant meilleur que sa courbe ROC se rapproche du coin supérieur gauche du graphique.

La courbe ROC permet de déterminer visuellement facilement la valeur seuil pour laquelle le ratio Sensibilité/ Spécificité est le meilleur en mesurant l’écart entre la courbe et la diagonale

roc

 


Par facilité, pour donner un indicateur unique sur le facteur discriminant d’un test on utilise souvent un seul chiffre,  l’AUROC (Area under ROC) qui est l’aire présente sous la courbe.

Si le test présente une sensibilité et une spécificité parfaite, l’AUROC est de 1 si il présente une discrimination nulle, la valeur de l’aire sous la courbe est de 0,5.


 

 

L’ensemble des techniques de bio-marqueurs, diagnostics d’imagerie, scores est généralement associé dans les publications à leur score AUROC.

Une petite grille de lecture de cette valeur est généralement proposée pour évaluer la qualité d’un test:

 

Voila pour résumer les principes des chiffres et courbes publiées sur les diagnostics.

 

 

Pertinence de la cible, de la méthode de référence et de l’échantillon de patients.

Comme déjà expliqué plus haut, la pertinence de la cible est évidemment un critère essentiel dans un outil de diagnostic !

Il faut que l’outil permette de discriminer précisément la population cible et non une population plus large ou une sous population.

Il faut aussi s’assurer de la pertinence de la méthode de référence ayant permis de déterminer dans l’échantillon ceux qui étaient réellement malades ou pas.

Par exemple, dans la NASH,  Le golden standard du diagnostic est la lecture histologique d’une biopsie hépatique !  On pourrait se dire que les tests et autres scores sont donc validés ou comparées sur des patients dont on connaît le diagnostic histologique de référence.

Et bien ce n’est curieusement pas toujours le cas, on trouve des méthode de scoring qui sont étalonnée non pas avec une biopsie mais avec un technique d’imagerie (US ou IRM), méthode dont on évalue par ailleurs sa fiabilité relative par rapport à la biopsie.

Ce faisant on cumule les imprécisions et on rend les comparaisons des tests difficiles.

Le dernier point dans les études sur les méthodes de scoring ou les bio marqueurs est la pertinence et la similitude des échantillons de patients.

Certains scores annoncés récemment comme très prometteurs ( AUROC de 1) ont été testés sur une population de moins de 20 patients qui de plus présentaient des caractéristiques de recrutement très particulières.  Les résultats sont donc à prendre avec des pincettes et méritent des investigations particulières

Il faut donc s’assurer que la taille de l’échantillon est significative et que la population testée n’est pas une sous population de la cible recherchée.

 

NASH quel outil de diagnostic pour quel usage.

Nonobstant la lecture histologique d’une biopsie hépatique qui reste encore la référence, il existe plusieurs familles d’outils de diagnostique en cours d’étude et de validation.

 -       Les méthodes d’imagerie basée sur les ultrasons comme l’échographie classique et l’élastographie qui permettent d’évaluer la stéatose et en partie la fibrose du foie, sachant que plus le patient est obèse ou a une stéatose avancée, moins l’évaluation de la fibrose est facile.

-       Les méthodes d’imagerie basées sur la résonance magnétique nucléaire. Permettant d évaluer la stéatose et la fibrose.

-       Les méthode de scoring basées sur les paramètres multiples comme le poids et l’âge du patient, associés à des paramètres sanguins courants comme l’ALT, les gamma GT, l’hémoglobine glyquée, etc. Ces scores permettent un premier filtrage des patients car leur cible est souvent large, mais sont annoncés comme un premier test qui permet d’orienter les patients vers des examens complémentaires dont souvent une biopsie hépatique.

-       Les méthodes de scoring qui, outre les paramètres sérologiques courants, utilisent des composants sanguins plus spécifiques comme des Micro RNA ou les metabolomics. Ces scores sont calibrés pour cibler au plus près la population à traiter et sont donc destinés à pouvoir être utilisés sur une large population sans nécessiter d’investigations cliniques complémentaires pour lancer un traitement. 


De nombreux scores ont été proposés dans la littérature et nous n’en ferons pas ici une présentation exhaustive, toutefois nous avons isolé un panel de scores historiquement utilisés par les spécialistes et de scores publiés plus récemment. Nous présenterons aussi les tests diagnostics commerciaux disponibles ou en fin de développement.

le tableau suivant montre certains de ces outils de diagnostics basés sur un score composite en essayent de mettre en evidence leur cibles


 


Il y a des dizaines d’autres scores en cours d’étude et de développement qui ne sont pas cités ici, faute de temps. Certaines publications donnent des scores différents sur le même test pour des populations différentes, nous alors avons essayé de préciser ces valeurs hautes et basses quand elles étaient publiées.

Ce que l’on constate  en lisant les études c’est que les typologies de patients choisis sont très différents en Baseline selon les études, certains scores très performant partent sur une base de patients très spécifique et déjà identifiée comme ayant une NAFLD ou plus ce qui fausse les résultats. 

Le seul test commercial disponible permettant de distinguer une NALF d’une NASH avec un score AUROC notable est le OWLiver test de OWL mais il ne permet pas de distinguer la population ITT de la population NASH à ce jour.

Le test spécifiquement développé par GENFIT qui reste en phase de développement est le seul à cibler spécifiquement la Population ITT ce qui montre leur volonté de fournir un outil de diagnostic de terrain performant si l’on considère, au delà du score AUROC, son facteur de pertinence.

La société à même déclaré que son test pourrait, en modifiant des paramètres, s’adapter à une population cible différente si cela s’avérait utile.



CONCLUSION SUR LE DEVENIR DE CES SYSTEMES DE DIAGNOSTIC

Selon moi, il va se dégager dans les prochaines années une batterie de tests de criblage qui permettront à un médecin généraliste d’identifier les patients à risque, sur la base d’un score comportant des critères simples qu’il maitrise déjà, pour les orienter alors vers un test spécifique afin de confirmer ou pas le diagnostic de NASH nécessitant un traitement.


 

 

 

 



WWW.NASHBIOTECHS.COM  -  Copyright G DIVRY 2015-2016  - Contact and TERMS OF USE