Età e lunghezza CAG nell'analisi dei dati HD
Come tenere conto dell'età e del CAG nell'analisi statistica dei dati MH.
Introduzione
La MH si sviluppa nel tempo con segni e sintomi che compaiono tipicamente nella mezza età (Ross et al. 2014). La tempistica dei segni e dei sintomi della MH è fortemente correlata alla lunghezza del CAG (Figura 1), con lunghezze maggiori associate all'età di esordio più giovane (Lee et al. 2012). Di conseguenza, età e Lunghezza CAG sono considerazioni chiave in quasi tutte le analisi MH. Questo articolo discute diverse questioni relative all'età e alla CAG che un ricercatore potrebbe voler prendere in considerazione prima di iniziare l'analisi dei set di dati osservativi sulla MH, come Enroll-HD (Landwehrmeyer et al. 2016).
La relazione tra età e CAG è una considerazione in quasi tutte le analisi sulla MH, ma i dettagli su come età e CAG sono trattato nei modelli statistici dipende dal contesto. Qui ci concentriamo sui contesti di un'analisi trasversale e di un'analisi longitudinale.
Figura 1. L'associazione tra lunghezza CAG ed età alla diagnosi motoria.
Analisi trasversale
L'analisi trasversale utilizza variabili raccolte in un singolo momento o visita. Un singolo momento comunemente utilizzato è la visita all'ingresso nello studio (cioè la Baseline).
Quando sono presenti più punti temporali per partecipante, come nel database Enroll-HD, tutte le visite tranne quella al punto temporale di interesse vengono ignorate. Sebbene alcuni dati non vengano utilizzati, ciò che si ottiene in un'analisi trasversale è la semplicità. La maggior parte dei metodi statistici standard, come la regressione multipla convenzionale, sono destinati all'analisi trasversale.
Concentrarsi su un singolo momento temporale, come l'ingresso nello studio, evita il problema dell'abbandono nel tempo, il che spesso significa che l'analisi massimizza il numero di osservazioni (partecipanti). L'analisi trasversale è appropriata anche per esaminare gli effetti a lungo termine della MH (a seconda delle caratteristiche del campione di studio). La progressione dell'MH è relativamente lenta, con una media di 15 anni dall'esordio motorio alla morte (Keum et al. 2017), quindi il tempo trascorso per gli HDGEC fino all'ingresso nello studio è spesso molto maggiore del tempo in cui le persone vengono osservate nello studio. Ciò significa che le informazioni sulla progressione a lungo termine vengono spesso raccolte dalle variabili misurate all’ingresso nello studio e meno dal cambiamento a breve termine all’interno dello studio.
Ricerche recenti suggeriscono che la lunghezza della ripetizione CAG è dinamica, continua ad espandersi a livello cellulare e alla fine innesca un meccanismo che causa la morte cellulare (Hong et al. 2020). A questo scopo sono importanti gli studi trasversali espansione somatica perché l'unico paragone da fare è fra persone, e in tali confronti devono essere prese in considerazione le differenze nell’entità e nella durata dell’esposizione agli effetti tossici dell’mHTT. Le persone entrano in uno studio con una varietà di tempi di esposizione indicizzati in base all'età all'ingresso e una varietà di entità della malattia indicizzate in base alla lunghezza CAG ereditata. È fondamentale tenere conto di queste differenze tra le persone per evitare confusione e fornire condizioni di parità per il confronto delle variabili di interesse.
Un obiettivo comune di un’analisi trasversale è esaminare la misura in cui una variabile è correlata alla progressione della malattia. Ad esempio, nella ricerca di nuovi biomarcatori fluidi (ad esempio, una sostanza misurata nel liquido cerebrospinale), è comune esaminare come i livelli di un biomarcatore variano in base all'età e alla lunghezza della CAG all'ingresso nello studio (Leoni et al. 2013). L’età e la durata della CAG vengono utilizzati come indicatori di progressione e vengono inseriti nei modelli statistici in vari modi. L’interazione tra età e lunghezza CAG è importante per l’indicizzazione della progressione (Langbehn, Hayden e Paulsen 2010), e quindi il termine prodotto—CAP—viene spesso inserito come predittore (come in una regressione multipla) insieme agli effetti principali (variabili individuali).
Prodotto CAG-età (CAP)
Per semplificare la modellazione, l'effetto combinato di età e CAG è stato catturato nel file Prodotto CAG-Età (CAP) (Penney et al. 1997; Langbehn, Hayden e Paulsen 2010; Zhang et al. 2011). CAP ha la forma generale di CAP = (Età all'ingresso nello studio) ⋅ (CAG – L) / K, Dove l è una costante di centratura e K è una costante di scala.
Sulla base dell'ampia analisi di Warner et al. (2020), la CAP preferita ha L = 30 e K = 6,49, dando CAP = (Età all'ingresso nello studio) ⋅ (CAG-30) / 6,49. Questa formula è standardizzata in modo tale che CAP = 100 all'età prevista per la diagnosi. Tuttavia, in varie analisi sono stati e vengono utilizzati valori costanti e di scala diversi. Nello specifico, il CAP sviluppato con il database PREDICT-HD da Zhang et al. (2011) utilizza L = 33,66 e K = 1, affinché CAP = (Età all'ingresso nello studio) ⋅ (CAG – 33,66). La CAP sviluppata da Penney et al. usi L = 35,5 e K = 1, affinché CAP = (Età all'ingresso nello studio) ⋅ (CAG – 35,5).
Il vantaggio del CAP è che si tratta di un punteggio di progressione singolo e può essere incluso come predittore in un modello di regressione multipla insieme a variabili di aggiustamento, come il sesso, che l'analista ritiene importante controllare. Ad esempio, un analista potrebbe stimare il coefficiente di regressione del CAP prevedendo un biomarcatore fluido che controlla il sesso. Un coefficiente CAP significativo in questo esempio suggerisce una relazione statisticamente affidabile tra la progressione e l'aggiustamento del biomarcatore per essere di sesso femminile o maschile.
L'uso della CAP come punteggio continuo nell'esempio sopra è applicabile solo quando i partecipanti hanno un tratto CAG espanso (principalmente 40 o più ripetizioni). Il CAP è irrilevante per le persone che rientrano nel normale intervallo di ripetizioni CAG e non è definito. Tuttavia, sono state pubblicate diverse analisi sulla MH in cui le persone che hanno un CAG espanso vengono confrontate con quelle che non lo hanno (ad es., membri della famiglia non affetti o controlli della comunità). Uno dei motivi di questo confronto è determinare la tempistica dei primi segni e sintomi della MH (Paulsen et al. 2014; Tabrizi et al. 2013).
La durata della malattia significa che gli individui manifesti possono essere raggruppati in categorie di punteggio CAP che riflettono gli stadi precoce, medio e tardivo della malattia.
Ad esempio, Zhang et al. (2011) utilizzano le seguenti soglie per classificare gli stadi della malattia utilizzando la loro versione del CAP: Precoce = <290; Metà = 290-367; Fine = >367.
Quando si utilizza il metodo preferito di Warner et al. (2020) CAP (L = 30, K = 6,49) l'analista può utilizzare i quartili per la distribuzione Enroll-HD per i partecipanti a piena penetrazione (CAG ≥ 40), che sono i 25th e 75th percentili di 88 e 119 (Enroll-HD PDS4; versione v2018-10-R3). Pertanto i gruppi verrebbero definiti come <88, 88-119, >119. È necessario svolgere ulteriore lavoro per stabilire punti di taglio ottimali.
Analisi longitudinale
La maggior parte dei database di osservazione della MH prevedono visite ripetute per almeno una parte dei partecipanti; è illustrata la disponibilità dei dati longitudinali in Enroll-HD (Figura 2). Quando la stessa persona viene misurata nel tempo in visite ricorrenti, ci riferiamo ai suoi dati come longitudinali.
L’analisi longitudinale ha il netto vantaggio rispetto all’analisi trasversale di esaminare come i processi si evolvono nel tempo su base interna al partecipante. La tipica analisi trasversale è retrospettiva per quanto riguarda la progressione in quanto può solo dedurre i risultati della progressione fino al momento di interesse (ad esempio, l'ingresso nello studio). Un'analisi longitudinale è prospettica, poiché possiamo esaminare la progressione mentre si svolge nel tempo. I dati longitudinali sono considerati cruciali per fornire prove a sostegno di causa ed effetto, motivo per cui gli studi clinici cardine sono di natura longitudinale (vedi “Utilizzo dei dati osservazionali per la progettazione di studi clinici" per ulteriori informazioni). Inoltre, un'analisi longitudinale presuppone un'analisi trasversale perché la prima visita della traiettoria longitudinale è la visita all'ingresso nello studio. Pertanto, sono disponibili tutti i risultati dell'analisi trasversale più i risultati prospettici unici dell'analisi longitudinale.
Figura 2. Disponibilità dei dati longitudinali in Enroll-HD PDS5 (versione 2020-10-R1). I partecipanti contano in base al numero massimo di visite Enroll-HD (solo visite di riferimento e di follow-up; visite non programmate e contatti telefonici esclusi). Campione completo rappresentato (N = 21.116; N mancante = 0).
Nella ricerca sulla MH, l’analisi longitudinale è stata utilizzata per descrivere la storia naturale della malattia, in particolare il modello (o la traiettoria) delle variabili cliniche chiave nel tempo (Langbehn et al. 2019; Long et al. 2014; Paulsen, Smith e Long 2013). L’analisi longitudinale è stata utilizzata anche per esaminare la tempistica di eventi fondamentali, come l’età alla diagnosi motoria per diverse espansioni CAG (Long e Mills 2018).
Insieme all’ulteriore visione prospettica di un’analisi longitudinale arriva una maggiore complessità. Le osservazioni ripetute della stessa persona saranno correlate e il numero di osservazioni varierà a causa delle persone che si uniranno allo studio in momenti diversi nella storia (iscrizione distante rispetto a quella recente). Queste caratteristiche devono essere prese in considerazione con metodi statistici avanzati, come i modelli misti lineari per dati longitudinali (Verbeke e Molenberghs 2009).
Similmente a un'analisi trasversale, un'analisi longitudinale può utilizzare gruppi CAP o CAP continui. Ad esempio, un analista potrebbe voler esaminare come un biomarcatore fluido cambia nel tempo in base alla CAP all'ingresso nello studio. Le informazioni retrospettive trasversali sul biomarcatore e sulla progressione possono essere esaminate con un'analisi dell'intercetta (analisi del punto di partenza), che si concentra sulla prima visita all'ingresso nello studio. Inoltre, informazioni future sul biomarcatore e sulla progressione possono essere apprese con un'analisi della pendenza (analisi del cambiamento), che si concentra sul cambiamento nel corso delle visite ripetute.
La selezione di una metrica temporale nell'analisi longitudinale è importante. Vari studi hanno dimostrato che la traiettoria di molte variabili cliniche della MH nell’intero arco della vita adulta non è lineare. La Figura 3 mostra un esempio dell'UHDRS composito (cUHDRS) tracciato nel tempo. Come altro esempio, i segni motori medi di una coorte con CAG = 42 inizieranno a 0 (normale) o molto vicino quando le persone hanno circa 20 anni, poi aumenteranno leggermente nel corso degli anni successivi, e poi aumenteranno bruscamente appena prima dell’inizio della diagnosi motoria (Langbehn et al. 2019; Long et al. 2014; Paulsen et al. 2014). Se si utilizza l’età come metrica temporale, allora dovrebbero essere utilizzati metodi per gestire traiettorie non lineari, come i polinomi dell’età (Long e Ryoo 2010) o i termini spline (Long e Mills 2018).
Figura 3. Variazione dei punteggi compositi UHDRS (cUHDRS) nel tempo negli HDGEC e negli individui sani di controllo. Dati derivati da Enroll-HD PDS4; rilasciare v2018-10-R3.
È interessante notare che quando si esamina il cambiamento per la CAP o per i gruppi CAP, spesso è sufficiente utilizzare un modello lineare. Ricordiamo che i gruppi CAP iniziale-medio-tardivo suddividono l'intervallo CAP. All’interno di ciascuna ripartizione della CAP, il cambiamento nell’arco di pochi anni è relativamente lineare. Pertanto ciascun gruppo CAP può essere trattato come un pezzo lineare e quando tutti i pezzi sono concatenati fianco a fianco il cambiamento in tutte le fasi sarà non lineare, ma il cambiamento all'interno di una fase sarà lineare.
Nell'analisi longitudinale con CAP o gruppi CAP si raccomanda di utilizzare come metrica temporale il tempo trascorso dall'ingresso nello studio (in anni o mesi). Il tempo 0 è la visita all'ingresso, che riconosce che il CAP tiene conto della progressione fino all'ingresso nello studio. La progressione esaminata nell'analisi longitudinale è solo la progressione osservata durante lo studio e non la progressione dalla nascita.
Infine, l’analisi della tempistica degli eventi fondamentali spesso si basa sull’utilizzo di un particolare sottoinsieme di partecipanti, come ad esempio un sottoinsieme che non ha ancora ricevuto una diagnosi motoria. L'analisi della sopravvivenza viene spesso utilizzata per esaminare se la durata dall'ingresso nello studio a un evento fondamentale come la diagnosi motoria può essere prevista dal CAP o da altre variabili misurate all'ingresso nello studio (Long e Paulsen 2015; Long et al. 2017).
Le informazioni variabili utilizzate in un'analisi di sopravvivenza sono l'ora dell'evento, o l'ultima ora registrata nello studio per coloro che non hanno vissuto l'evento, e la variabile predittrice all'ingresso nello studio. Sebbene tutte le variabili fondamentali vengano raccolte in tutte le visite, le informazioni aggiuntive spesso non vengono utilizzate. Inoltre, vengono solitamente esclusi dall’analisi i partecipanti che hanno già avuto l’evento di interesse (come la diagnosi motoria) prima di arruolarsi nello studio. Tale filtraggio può essere giustificato se le persone e/o le osservazioni vengono escluse in modo casuale in modo che le informazioni rimanenti siano rappresentative delle informazioni omesse. Ma esistono scenari in cui il filtraggio può portare a distorsioni nei risultati. I metodi statistici per massimizzare l’uso di tutti i dati disponibili continuano a essere sviluppati (vedi Long e Mills 2018) e l’analista è incoraggiato a riflettere sulle implicazioni di qualsiasi filtraggio del database.
Riferimenti
Hong, PE, ME MacDonald, VC Wheeler, L. Jones, P. Holmans, M. Orth, DG Monckton, et al. 2020. "Patogenesi della malattia di Huntington: due componenti sequenziali". Giornale della malattia di Huntington.
Keum, JW, A. Shin, T. Gillis, JS Mysore, KA Elneel, D. Lucente, T. Hadzi, et al. 2017. "La mutazione di espansione della cag dell'HTT determina l'età alla morte ma non la durata della malattia nella malattia di Huntington". Il giornale americano di genetica umana 98: 287–98.
Landwehrmeyer, BG, C. Fitter-Attas, J. Giuliano et al. 2016. “Analisi dei dati da Enroll-HD, una piattaforma di ricerca clinica globale per la malattia di Huntington”. Pratica clinica sui disturbi del movimento 4: 212–24.
Langbehn, DR, MR Hayden e JS Paulsen. 2010. “La lunghezza della ripetizione CAG e l’età di esordio nella malattia di Huntington (HD), uno studio di revisione e validazione degli approcci statistici”. American Journal of Medical Genetics, parte B 153: 397–408.
Langbehn, DR, JC Stout, S. Gregory, JA Mills, A. Durr, BR Leavitt, RAC Roos, et al. 2019. "Associazione di ripetizioni CAG con progressione a lungo termine nella malattia di Huntington". JAMA Neurologia 76: 1375–85.
Lee, JM, EM Ramos, JH Lee, T. Gillis, JS Mysore, MR Hayden, SC Warby, et al. 2012. “L’espansione ripetuta del CAG nella malattia di Huntington determina l’età all’esordio in modo completamente dominante”. Neurologia 78: 690–95.
Leoni, V., JD Long, JA Mills, S. Di Donato e JS Paulsen. 2013. "Correlazione del plasma 24S-idrossicolesterolo con i marcatori della progressione della malattia di Huntington". Neurobiologia della malattia 55: 37–43.
Lungo, JD e JA Mills. 2018. "Modellazione congiunta di dati longitudinali multivariati e dati di sopravvivenza in diversi studi osservazionali sulla malattia di Huntington". Metodologia della ricerca medica 18: 138–53.
Long, JD, JA Mills, BR Leavitt, A. Durr, RA Roos, JC Stout, R. Reilmann, et al. 2017. "Endpoint di sopravvivenza per le sperimentazioni sulla malattia di Huntington prima di una diagnosi motoria". JAMA Neurologia 74: 1–9.
Lungo, JD e JS Paulsen. 2015. "Previsione multivariata della diagnosi motoria nella malattia di Huntington: 12 anni di PREDICT-HD". Disturbi del movimento 12: 1664–72.
Lungo, JD, JS Paulsen, K. Marder, Y. Zhang, J. Kim e JA Mills. 2014. "Monitoraggio dei disturbi motori nella progressione della malattia di Huntington". Disturbi del movimento 29: 311–19.
Lungo, JD e J. Ryoo. 2010. "Utilizzo di polinomi frazionari per modellare tendenze non lineari nei dati longitudinali". British Journal di psicologia matematica e statistica 63: 177–203.
Paulsen, JS, JD Long, CA Ross, DL Harrington, CJ Erwin, JK Williams, HJ Westervelt, et al. 2014. "Previsione della malattia di Huntington manifesta con misure cliniche e di imaging: uno studio osservazionale prospettico". Neurologia della lancetta 13: 1193–1201.
Paulsen, JS, MM Smith e JD Long. 2013. “Declino cognitivo nelle implicazioni prodromiche della malattia di Huntington per gli studi clinici”. Giornale di neurologia, neurochirurgia e psichiatria 84: 1233–9.
Penney, JB, JP Vonsattel, ME MacDonald, JF Gusella e RH Myers. 1997. “Il numero di ripetizioni CAG governa il tasso di sviluppo della patologia nella malattia di Huntington”. Annali di neurologia 41: 689–92.
Ross, CA, EH Aylward, EJ Wild, DR Langbehn, JD Long, JH Warner, RI Scahill, et al. 2014. “Storia naturale della malattia di Huntington, biomarcatori e prospettive terapeutiche”. La natura rivede la neurologia 10: 204–16.
Tabrizi, SJ, RI Scahill, G. Owen, A. Durr, BR Leavitt, RA Roos, B. Borowsky, et al. 2013. "Predittori della progressione fenotipica e dell'insorgenza della malattia nella malattia di Huntington premanifesta e in stadio iniziale nell'analisi dello studio TRACK-HD di dati osservazionali a 36 mesi". Neurologia della lancetta 12: 637–49.
Verbeke, G. e G. Molenberghs. 2009. Modelli misti lineari per dati longitudinali. New York: Springer-Verlag.
Warner, JH, JD Long, JA Mills, DR Langbehn, J. Ware, A. Mohan e C. Sampaio. 2020. “Standardizzazione del punteggio CAP nella malattia di Huntington I: previsione dell'età all'esordio”.
Zhang, Y., JD Long, JA Mills, JH Warner, W. Lu e JS Paulsen. 2011. “Indicizzazione della progressione della malattia all’ingresso nello studio con individui a rischio di malattia di Huntington”. American Journal of Medical Genetics Parte B Genetica neuropsichiatrica 156: 751–63.