Âge et longueur des CAG dans l'analyse des données MH
Comment prendre en compte l'âge et le CAG dans l'analyse statistique des données MH.
Contexte
La MH se développe avec le temps, avec des signes et symptômes apparaissant généralement vers la quarantaine (Ross et al. 2014). Le moment où apparaissent les signes et symptômes de la MH est fortement lié à la longueur du CAG (Figure 1), les plus grandes longueurs étant associées à un âge de début plus précoce (Lee et al. 2012). Par conséquent, age et Longueur du CAG sont des considérations clés dans presque toutes les analyses HD. Cet article aborde plusieurs problèmes liés à l'âge et au CAG qu'un chercheur pourrait vouloir prendre en compte avant de commencer l'analyse d'ensembles de données observationnelles sur la MH, tels que Enroll-HD (Landwehrmeyer et al. 2016).
La relation entre l'âge et le CAG est prise en compte dans presque toutes les analyses MH, mais les détails de la façon dont l'âge et le CAG sont pris en compte/ traités dans les modèles statistiques dépend du contexte. Nous nous concentrons ici sur les contextes d’une analyse transversale et d’une analyse longitudinale.
Figure 1. L'association entre la longueur du CAG et l'âge au moment du diagnostic moteur.
Analyse transversale
L'analyse transversale utilise des variables collectées à un moment donné ou lors d'une seule visite. Un moment unique couramment utilisé est la visite au début de l'étude (c'est-à-dire la visite de baseline).
Lorsqu'il y a plusieurs moments par participant, comme dans la base de données Enroll-HD, toutes les visites sauf celle au moment d'intérêt sont ignorées. Même si certaines données ne sont pas utilisées, l’avantage d’une analyse transversale est la simplicité. La plupart des méthodes statistiques standards, telles que la régression multiple conventionnelle, sont destinées à une analyse transversale.
Se concentrer sur un seul moment tel que l'entrée dans l'étude évite le problème de l'abandon au fil du temps, ce qui signifie souvent que l'analyse maximise le nombre d'observations (participants). L'analyse transversale est également appropriée pour examiner les effets à long terme de la MH (en fonction des caractéristiques de l'échantillon de l'étude). La progression de la MH est relativement lente, avec une moyenne de 15 ans entre l'apparition du moteur et la mort (Keum et al. 2017), de sorte que le temps écoulé pour les HDGEC jusqu'à l'entrée dans l'étude est souvent beaucoup plus long que le temps pendant lequel les personnes sont observées dans le cadre de l'étude. Cela signifie que les informations sur la progression à long terme sont souvent tirées des variables mesurées au début de l’étude et dans une moindre mesure des changements à court terme au sein de l’étude.
Des recherches récentes suggèrent que la longueur de répétition du CAG est dynamique, continue de s'étendre au niveau cellulaire et déclenche finalement un mécanisme qui provoque la mort cellulaire (Hong et al. 2020). Les études transversales sont importantes pour cette expansion somatique parce que la seule comparaison à faire est entre personnes, et les différences dans l’ampleur et la durée de l’exposition aux effets toxiques du mHTT doivent être prises en compte dans de telles comparaisons. Les personnes entrent dans une étude avec une variété de temps d'exposition indexés par l'âge à l'entrée, et une variété d'ampleurs de maladies indexées par la longueur héritée du CAG. Il est crucial de tenir compte de ces différences entre les personnes afin d’éviter toute confusion et de fournir des règles du jeu équitables pour la comparaison des variables d’intérêt.
L’un des objectifs courants d’une analyse transversale est d’examiner dans quelle mesure une variable est liée à la progression de la maladie. Par exemple, dans la recherche de nouveaux biomarqueurs fluides (par exemple, une substance mesurée dans le LCR), il est courant d'examiner comment les niveaux d'un biomarqueur varient en fonction de l'âge et de la longueur du CAG au début de l'étude (Leoni et al. 2013). L'âge et la durée du CAG sont utilisés comme indicateurs de progression et sont intégrés dans les modèles statistiques de diverses manières. L'interaction de l'âge et de la longueur du CAG est importante pour la progression de l'indexation (Langbehn, Hayden et Paulsen 2010), et donc le terme produit :CAP- est souvent saisi comme prédicteur (comme dans une régression multiple) avec les principaux effets (variables individuelles).
Produit CAG-Âge (CAP)
Pour simplifier la modélisation, l'effet combiné de l'âge et du CAG a été saisi dans le Produit CAG-Age (CAP) (Penney et al. 1997 ; Langbehn, Hayden et Paulsen 2010 ; Zhang et al. 2011). Le CAP a la forme générale de CAP = (Âge à l’entrée dans l'étude) ⋅ (CAG – L) / K, où L est une constante de centrage et K est une constante d'échelle.
Sur la base de l'analyse approfondie de Warner et al. (2020), la PAC privilégiée a L = 30 et K = 6,49, donnant CAP = (Âge à l'entrée dans l'étude) ⋅ (CAG-30) / 6,49. Cette formule est standardisée de telle sorte que CAP = 100 à l'âge prévu du diagnostic. Cependant, différentes valeurs de constante et d'échelle ont été et sont utilisées dans diverses analyses. Plus précisément, le CAP développé avec la base de données PREDICT-HD par Zhang et al. (2011) utilise L = 33,66 et K = 1, de sorte que CAP = (Âge à l’entrée dans l'étude) ⋅ (CAG – 33,66). Le CAP développé par Penney et al. utilise L = 35,5 et K = 1, de sorte que CAP = (Âge à l’entrée dans l'étude) ⋅ (CAG – 35,5).
L'avantage du CAP est qu'il s'agit d'un score de progression unique et qu'il peut être inclus comme prédicteur dans un modèle de régression multiple avec des variables d'ajustement, telles que le sexe, que l'analyste juge important de contrôler. Par exemple, un analyste pourrait estimer le coefficient de régression du CAP prédisant un biomarqueur fluide en tenant compte du sexe. Un coefficient CAP significatif dans cet exemple suggère une relation statistiquement fiable entre la progression et le biomarqueur s'adaptant au fait d'être une femme ou un homme.
L'utilisation du CAP comme score continu dans l'exemple ci-dessus n'est applicable que lorsque les participants ont une séquence CAG étendue (principalement 40 répétitions ou plus). Le CAP n’est pas pertinent pour les personnes se trouvant dans la plage normale de répétitions CAG et n’est pas défini. Néanmoins, il existe plusieurs analyses publiées sur la MH dans lesquelles les personnes ayant un CAG étendu sont comparées à celles qui ne l'ont pas (par exemple, les membres de la famille non affectés ou les témoins communautaires). L’une des raisons de cette comparaison est de déterminer le moment où apparaissent les premiers signes et symptômes de la MH (Paulsen et al. 2014 ; Tabrizi et al. 2013).
La durée de la maladie signifie que les individus manifestes peuvent être regroupés dans des catégories de scores CAP qui reflètent les stades précoce, intermédiaire et avancé de la maladie.
Par exemple, Zhang et al. (2011) utilisent les seuils suivants pour catégoriser les stades de la maladie à l'aide de leur version du CAP : Débutant = 367.
Lors de l'utilisation du modèle préféré de Warner et al. (2020) PAC (L = 30, K = 6,49) l'analyste peut utiliser les quartiles de la distribution Enroll-HD pour les participants entièrement pénétrants (CAG ≥ 40), qui sont les 25ème et 75ème percentiles de 88 et 119 (Enroll-HD PDS4 ; version v2018-10-R3). Par conséquent, les groupes seraient définis comme 119. Des travaux supplémentaires doivent être effectués pour établir des lignes de démarcation optimales.
Analyse longitudinale
La plupart des bases de données observationnelles MH comportent des visites répétées pour au moins une partie des participants ; la disponibilité des données longitudinales dans Enroll-HD est illustrée (Figure 2). Lorsque la même personne est évaluée au fil du temps lors de visites récurrentes, nous appelons ses données longitudinales.
L’analyse longitudinale présente l’avantage distinctif par rapport à l’analyse transversale d’examiner comment les processus évoluent au fil du temps au sein des participants. L'analyse transversale typique est rétrospective en ce qui concerne la progression dans la mesure où elle ne peut déduire les résultats de la progression que jusqu'au point temporel d'intérêt (par exemple, l'entrée à l'étude). Une analyse longitudinale est prospective, car nous pouvons examiner la progression au fil du temps. Les données longitudinales sont considérées comme cruciales pour fournir des preuves à l’appui de la cause et de l’effet, c’est pourquoi les essais cliniques pivots sont de nature longitudinale (voir «Utiliser des données d'observation pour éclairer la conception des essais cliniques» pour plus d'informations). De plus, une analyse longitudinale englobe une analyse transversale car la première visite de la trajectoire longitudinale est la visite au début de l'étude. Par conséquent, tous les résultats de l’analyse transversale sont disponibles ainsi que les résultats prospectifs uniques de l’analyse longitudinale.
Figure 2. Disponibilité des données longitudinales dans Enroll-HD PDS5 (version 2020-10-R1). Les participants comptent par nombre maximum de visites Enroll-HD (visites de référence et de suivi uniquement ; visites non programmées et contacts téléphoniques exclus). Échantillon complet représenté (N = 21 116 ; N manquant = 0).
Dans la recherche sur la MH, l'analyse longitudinale a été utilisée pour décrire l'histoire naturelle de la maladie, en particulier le schéma (ou la trajectoire) des variables cliniques clés au fil du temps (Langbehn et al. 2019 ; Long et al. 2014 ; Paulsen, Smith et Long 2013). L'analyse longitudinale a également été utilisée pour examiner le timing d'événements marquants, tels que l'âge au moment du diagnostic moteur pour différentes extensions de CAG (Long et Mills 2018).
L’apport prospectif supplémentaire d’une analyse longitudinale s’accompagne d’une complexité accrue. Les observations répétées de la même personne seront corrélées et le nombre d'observations variera en raison du fait que les personnes ont rejoint l'étude à différents moments de l'histoire (inclusion lointaine ou récente). Ces caractéristiques doivent être prises en compte à l'aide de méthodes statistiques avancées, telles que des modèles mixtes linéaires pour les données longitudinales (Verbeke et Molenberghs 2009).
Semblable à une analyse transversale, une analyse longitudinale peut utiliser des CAP continus ou des groupes de CAP. Par exemple, un analyste pourrait vouloir examiner comment un biomarqueur fluide évolue au fil du temps en fonction du CAP au début de l’étude. Les informations rétrospectives transversales sur le biomarqueur et la progression peuvent être examinées avec une analyse d'interception (analyse du point de départ), qui se concentre sur la première visite au début de l'étude. De plus, des informations prospectives sur le biomarqueur et la progression peuvent être obtenues grâce à une analyse de pente (analyse du changement), qui se concentre sur le changement au cours des visites répétées.
La sélection d’une métrique temporelle dans l’analyse longitudinale est importante. Diverses études ont montré que la trajectoire de nombreuses variables cliniques de la MH tout au long de la vie adulte n'est pas linéaire. La figure 3 montre un exemple d'UHDRS composite (cUHDRS) suivi au fil du temps. Comme autre exemple, les signes moteurs moyens d'une cohorte avec CAG = 42 commenceront à 0 ou très près de 0 (normal) lorsque les personnes sont au début de la vingtaine, puis augmenteront légèrement au cours des années suivantes, puis augmenteront fortement juste avant le diagnostic moteur (Langbehn et al. 2019 ; Long et al. 2014 ; Paulsen et al. 2014). Si l’âge est utilisé comme mesure du temps, des méthodes permettant de traiter les trajectoires non linéaires doivent être utilisées, telles que les polynômes d’âge (Long et Ryoo 2010) ou les termes splines (Long et Mills 2018).
Figure 3. Modification des scores composites UHDRS (cUHDRS) au fil du temps chez les HDGEC et les individus témoins sains. Données dérivées de Enroll-HD PDS4 ; version v2018-10-R3.
Il est intéressant de noter que lorsque le changement est examiné pour le CAP ou les groupes CAP, il suffit souvent d'utiliser un modèle linéaire. Rappelons le cloisonnement des groupes de CAP en débutant-intermédiaire-avancé. Au sein de chaque section du CAP, l'évolution sur quelques années est relativement linéaire. Ainsi, chaque groupe CAP peut être traité comme une pièce linéaire, et lorsque toutes les pièces sont concaténées côte à côte, le changement entre tous les stades sera non linéaire, mais le changement au sein d'un stade sera linéaire.
Dans l'analyse longitudinale avec des CAP ou des groupes de CAP, il est recommandé d'utiliser le temps écoulé depuis l'entrée dans l'étude (en années ou en mois) comme mesure du temps. Le temps 0 est la visite à l'entrée, qui reconnaît que le CAP prend en compte la progression jusqu'à l'entrée dans l'étude. La progression examinée dans l’analyse longitudinale est uniquement la progression observée au cours de l’étude et non la progression depuis la naissance.
Enfin, l’analyse du timing d’événements marquants repose souvent sur l’utilisation d’un sous-ensemble particulier de participants, comme un sous-ensemble qui n’a pas encore reçu de diagnostic moteur. L'analyse de survie est souvent utilisée pour examiner si la durée entre l'entrée dans l'étude et un événement marquant tel qu'un diagnostic moteur peut être prédite par le CAP ou d'autres variables mesurées au début de l'étude (Long et Paulsen 2015 ; Long et al. 2017).
Les informations variables utilisées dans une analyse de survie correspondent au moment de l'événement, ou au dernier moment consigné dans l'étude pour ceux qui n'ont pas vécu l'événement, et la variable prédictive au début de l'étude. Bien que toutes les variables essentielles soient collectées lors de toutes les visites, les informations supplémentaires ne sont souvent pas utilisées. De plus, les participants qui ont déjà eu l'événement d'intérêt (tel qu'un diagnostic moteur) avant leur inclusion dans l'étude sont généralement exclus de l'analyse. Un tel filtrage peut être justifié si des personnes et/ou des observations sont exclues de manière aléatoire afin que les informations restantes soient représentatives des informations omises. Mais il existe des scénarios dans lesquels le filtrage peut conduire à un biais dans les résultats. Des méthodes statistiques visant à maximiser l'utilisation de toutes les données disponibles continuent d'être développées (voir Long et Mills 2018), et l'analyste est encouragé à réfléchir aux implications de tout filtrage de la base de données.
Les références
Hong, PE, ME MacDonald, VC Wheeler, L. Jones, P. Holmans, M. Orth, DG Monckton et coll. 2020. « Pathogenèse de la maladie de Huntington : deux composantes séquentielles ». Journal de la maladie de Huntington.
Keum, JW, A. Shin, T. Gillis, JS Mysore, KA Elneel, D. Lucente, T. Hadzi et al. 2017. «La mutation HTT Cag-Expansion détermine l'âge au décès mais pas la durée de la maladie de Huntington.» Le Journal américain de génétique humaine 98 : 287-98.
Landwehrmeyer, BG, C. Fitter-Attas, J. Giuliano et et al. 2016. « Analyse des données de Enroll-HD, une plateforme mondiale de recherche clinique sur la maladie de Huntington. » Pratique clinique des troubles du mouvement 4 : 212-224.
Langbehn, DR, MR Hayden et JS Paulsen. 2010. « Durée de répétition CAG et âge d'apparition de la maladie de Huntington (HD), une étude d'examen et de validation des approches statistiques. » Journal américain de génétique médicale, partie B 153 : 397-408.
Langbehn, DR, JC Stout, S. Gregory, JA Mills, A. Durr, BR Leavitt, RAC Roos et al. 2019. « Association des répétitions CAG avec une progression à long terme de la maladie de Huntington ». JAMA Neurologie 76 : 1375-1385.
Lee, JM, EM Ramos, JH Lee, T. Gillis, JS Mysore, MR Hayden, SC Warby et al. 2012. « L’expansion des répétitions CAG dans la maladie de Huntington détermine l’âge d’apparition de manière entièrement dominante. » Neurologie 78 : 690-95.
Leoni, V., JD Long, JA Mills, S. Di Donato et JS Paulsen. 2013. « Corrélation plasmatique 24S-hydroxycholestérol avec les marqueurs de la progression de la maladie de Huntington ». Neurobiologie des maladies 55 : 37-43.
Long, JD et JA Mills. 2018. « Modélisation conjointe de données longitudinales multivariées et de données de survie dans plusieurs études observationnelles sur la maladie de Huntington ». Méthodologie de recherche médicale 18 : 138-53.
Long, JD, JA Mills, BR Leavitt, A. Durr, RA Roos, JC Stout, R. Reilmann et al. 2017. « Points finaux de survie pour les essais sur la maladie de Huntington avant un diagnostic moteur. » JAMA Neurologie 74 : 1-9.
Long, JD et JS Paulsen. 2015. « Prédiction multivariée du diagnostic moteur dans la maladie de Huntington : 12 ans de PREDICT-HD. » Troubles du mouvement 12 : 1664-1672.
Long, JD, JS Paulsen, K. Marder, Y. Zhang, J. Kim et JA Mills. 2014. « Suivi des déficiences motrices dans la progression de la maladie de Huntington. » Troubles du mouvement 29 : 311-19.
Long, JD et J. Ryoo. 2010. « Utilisation de polynômes fractionnaires pour modéliser des tendances non linéaires dans les données longitudinales ». Journal britannique de psychologie mathématique et statistique 63 : 177-203.
Paulsen, JS, JD Long, CA Ross, DL Harrington, CJ Erwin, JK Williams, HJ Westervelt et al. 2014. « Prédiction de la maladie de Huntington manifeste avec des mesures cliniques et d'imagerie : une étude observationnelle prospective. » Neurologie Lancet 13 : 1193-1201.
Paulsen, JS, MM Smith et JD Long. 2013. « Déclin cognitif des implications de la maladie prodromique de Huntington pour les essais cliniques. » Journal de neurologie, neurochirurgie et psychiatrie 84 : 1233–9.
Penney, JB, JP Vonsattel, ME MacDonald, JF Gusella et RH Myers. 1997. « Le nombre de répétitions CAG régit le taux de développement de la pathologie dans la maladie de Huntington. » Annales de neurologie 41 : 689-92.
Ross, CA, EH Aylward, EJ Wild, DR Langbehn, JD Long, JH Warner, RI Scahill et al. 2014. «Histoire naturelle de la maladie de Huntington, biomarqueurs et perspectives thérapeutiques». Nature Reviews Neurologie 10 : 204-16.
Tabrizi, SJ, RI Scahill, G. Owen, A. Durr, BR Leavitt, RA Roos, B. Borowsky et al. 2013. « Prédicteurs de la progression phénotypique et de l'apparition de la maladie dans la maladie de Huntington prémanifeste et à un stade précoce dans l'analyse de l'étude TRACK-HD de données d'observation sur 36 mois. » Neurologie Lancet 12 : 637-649.
Verbeke, G. et G. Molenberghs. 2009. Modèles mixtes linéaires pour les données longitudinales. New York : Springer-Verlag.
Warner, JH, JD Long, JA Mills, DR Langbehn, J. Ware, A. Mohan et C. Sampaio. 2020. « Standardisation du score CAP dans la maladie de Huntington I : Prédire l'âge au début. »
Zhang, Y., JD Long, JA Mills, JH Warner, W. Lu et JS Paulsen. 2011. « Indexation de la progression de la maladie au début de l'étude auprès des personnes à risque de développer la maladie de Huntington. » American Journal of Medical Genetics Partie B Génétique neuropsychiatrique 156 : 751-63.