Edad y longitud CAG en análisis de datos HD
Cómo tener en cuenta la edad y el CAG en el análisis estadístico de datos de EH.
Antecedentes
La EH se desarrolla con el tiempo y los signos y síntomas suelen aparecer en la mediana edad (Ross et al. 2014). El momento de aparición de los signos y síntomas de la EH está fuertemente relacionado con la longitud del CAG (Figura 1), y las longitudes más largas se asocian con una edad de inicio más temprana (Lee et al. 2012). Como consecuencia, edad e Longitud del CAG son consideraciones clave en casi todos los análisis de HD. Este artículo analiza varias cuestiones relacionadas con la edad y el CAG que un investigador podría querer considerar antes de comenzar el análisis de conjuntos de datos observacionales de HD, como Enroll-HD (Landwehrmeyer et al. 2016).
La relación entre la edad y el CAG es una consideración en casi todos los análisis de EH, pero los detalles de cómo se relacionan la edad y el CAG tratado en los modelos estadísticos depende del contexto. Aquí nos centramos en los contextos de un análisis transversal y un análisis longitudinal.
Figura 1. La asociación entre la longitud del CAG y la edad en el momento del diagnóstico motor.
Análisis transversal
El análisis transversal utiliza variables que se recopilan en un único momento o visita. Un momento único comúnmente utilizado es la visita al inicio del estudio (es decir, la visita inicial).
Cuando hay múltiples momentos por participante, como en la base de datos Enroll-HD, se ignoran todas las visitas excepto la del momento de interés. Aunque algunos datos no se utilizan, lo que se gana con un análisis transversal es la simplicidad. La mayoría de los métodos estadísticos estándar, como la regresión múltiple convencional, están destinados al análisis transversal.
Centrarse en un único momento, como el ingreso al estudio, evita el problema del abandono con el tiempo, lo que a menudo significa que el análisis maximiza el número de observaciones (participantes). El análisis transversal también es apropiado para examinar los efectos a largo plazo de la HD (dependiendo de las características de la muestra del estudio). La progresión de la EH es relativamente lenta, con un promedio de 15 años desde el inicio motor hasta la muerte (Keum et al. 2017), por lo que el tiempo transcurrido para los HDGEC hasta el ingreso en el estudio suele ser mucho mayor que el tiempo que las personas son observadas en el estudio. Esto significa que la información sobre la progresión a largo plazo a menudo se obtiene de variables medidas al inicio del estudio y menos del cambio a corto plazo dentro del estudio.
Investigaciones recientes sugieren que la longitud de las repeticiones de CAG es dinámica, continúa expandiéndose a nivel celular y, finalmente, desencadena un mecanismo que causa la muerte celular (Hong et al. 2020). Para ello son importantes los estudios transversales de expansión somática porque la única comparación que se puede hacer es entre personas, y en dichas comparaciones se deben tener en cuenta las diferencias en la magnitud y duración de la exposición a los efectos tóxicos del mHTT. Las personas ingresan a un estudio con una variedad de tiempos de exposición indexados por la edad al ingresar, y una variedad de magnitudes de enfermedades indexadas por la longitud CAG heredada. Es fundamental tener en cuenta estas diferencias entre las personas para evitar confusiones y proporcionar igualdad de condiciones para la comparación de variables de interés.
Un objetivo común de un análisis transversal es examinar hasta qué punto una variable está relacionada con la progresión de la enfermedad. Por ejemplo, en la búsqueda de nuevos biomarcadores líquidos (p. ej., una sustancia medida en el LCR), es común examinar cómo varían los niveles de un biomarcador según la edad y la longitud del CAG al ingresar al estudio (Leoni et al. 2013). La edad y la longitud del CAG se utilizan como indicadores de progresión y se introducen en los modelos estadísticos de diversas formas. La interacción de la edad y la longitud del CAG es importante para indexar la progresión (Langbehn, Hayden y Paulsen 2010), por lo que el término del producto:CAP—a menudo se ingresa como un predictor (como en una regresión múltiple) junto con los efectos principales (variables individuales).
Producto CAG-Edad (CAP)
Para simplificar el modelado, el efecto combinado de la edad y CAG se ha capturado en el Producto CAG-Edad (CAP) (Penney et al. 1997; Langbehn, Hayden y Paulsen 2010; Zhang et al. 2011). La CAP tiene la forma general de CAP = (Edad de ingreso al estudio) ⋅ (CAG – L) / K, dónde L es una constante de centrado y k es una constante de escala.
Basado en el extenso análisis de Warner et al. (2020), la PAC preferida ha L = 30 e K = 6,49, donación CAP = (Edad de ingreso al estudio) ⋅ (CAG-30) / 6,49. Esta fórmula está estandarizada de modo que CAP = 100 a la edad esperada de diagnóstico. Sin embargo, en diversos análisis se han utilizado y se utilizan diferentes valores constantes y de escala. En concreto, CAP desarrollado con la base de datos PREDICT-HD por Zhang et al. (2011) usos L = 33,66 e k = 1, de modo que CAP = (Edad de ingreso al estudio) ⋅ (CAG – 33,66). El CAP desarrollado por Penney et al. usos L = 35,5 e k = 1, de modo que CAP = (Edad de ingreso al estudio) ⋅ (CAG – 35,5).
La ventaja de CAP es que es una puntuación de progresión única y puede incluirse como predictor en un modelo de regresión múltiple junto con variables de ajuste, como el sexo, que el analista considere importante controlar. Por ejemplo, un analista podría estimar el coeficiente de regresión de CAP prediciendo un biomarcador fluido controlando el sexo. Un coeficiente CAP significativo en este ejemplo sugiere una relación estadísticamente confiable entre la progresión y el ajuste del biomarcador por ser mujer o hombre.
El uso de CAP como puntuación continua en el ejemplo anterior solo se aplica cuando los participantes tienen un tramo CAG ampliado (principalmente 40 o más repeticiones). CAP es irrelevante para personas en el rango normal de repetición CAG y no está definido. Sin embargo, hay varios análisis publicados de la EH en los que se compara a las personas que tienen un CAG ampliado con aquellas que no lo tienen (p. ej., familiares no afectados o controles comunitarios). Una razón para esta comparación es determinar el momento en que aparecen los primeros signos y síntomas de la EH (Paulsen et al. 2014; Tabrizi et al. 2013).
La duración de la enfermedad significa que los individuos manifiestos pueden agruparse en categorías de puntuación CAP que reflejan las etapas temprana, media y tardía de la enfermedad.
Por ejemplo, Zhang et al. (2011) utilizan los siguientes umbrales para categorizar las etapas de la enfermedad utilizando su versión de CAP: Temprano = <290; Medio = 290-367; Tarde = >367.
Cuando se utiliza el método preferido de Warner et al. (2020) PAC (L = 30, K = 6,49) el analista puede utilizar los cuartiles de la distribución Enroll-HD para participantes con penetración total (CAG ≥ 40), que son los 25th y 75th percentiles de 88 y 119 (Enroll-HD PDS4; versión v2018-10-R3). Por tanto los grupos se definirían como <88, 88-119, >119. Es necesario realizar trabajo adicional para establecer puntos de corte óptimos.
Análisis longitudinal
La mayoría de las bases de datos de observación de EH tienen visitas repetidas para al menos una parte de los participantes; Se ilustra la disponibilidad de datos longitudinales en Enroll-HD (Figura 2). Cuando se mide a la misma persona a lo largo del tiempo en visitas recurrentes, nos referimos a sus datos como longitudinales.
El análisis longitudinal tiene la clara ventaja sobre el análisis transversal de examinar cómo evolucionan los procesos a lo largo del tiempo dentro de los participantes. El análisis transversal típico es retrospectivo con respecto a la progresión en el sentido de que sólo puede inferir los resultados de la progresión hasta el momento de interés (p. ej., el ingreso al estudio). Un análisis longitudinal es prospectivo, ya que podemos examinar la progresión a medida que se desarrolla a lo largo del tiempo. Los datos longitudinales se consideran cruciales para proporcionar evidencia que respalde la causa y el efecto, razón por la cual los ensayos clínicos fundamentales son de naturaleza longitudinal (ver “Uso de datos observacionales como base del diseño de ensayos clínicos" para más información). Además, un análisis longitudinal incluye un análisis transversal porque la primera visita de la trayectoria longitudinal es la visita al ingreso al estudio. Por lo tanto, todos los resultados del análisis transversal están disponibles más los resultados prospectivos únicos del análisis longitudinal.
Figura 2. Disponibilidad de datos longitudinales en Enroll-HD PDS5 (versión 2020-10-R1). El participante cuenta por número máximo de visitas Enroll-HD (solo visitas iniciales y de seguimiento; visitas no programadas y contactos telefónicos excluidos). Muestra completa representada (N = 21,116; N faltante = 0).
En la investigación de la EH, se ha utilizado el análisis longitudinal para describir la historia natural de la enfermedad, especialmente el patrón (o trayectoria) de variables clínicas clave a lo largo del tiempo (Langbehn et al. 2019; Long et al. 2014; Paulsen, Smith y Long 2013). El análisis longitudinal también se ha utilizado para examinar el momento de eventos históricos, como la edad en el momento del diagnóstico motor para diferentes expansiones de CAG (Long y Mills 2018).
Junto con la perspectiva prospectiva adicional de un análisis longitudinal, viene una complejidad adicional. Las observaciones repetidas de la misma persona se correlacionarán y el número de observaciones variará debido a que las personas se unen al estudio en diferentes momentos de la historia (inscripción distante versus reciente). Estas características deben tenerse en cuenta con métodos estadísticos avanzados, como modelos lineales mixtos para datos longitudinales (Verbeke y Molenberghs 2009).
De manera similar a un análisis transversal, un análisis longitudinal puede utilizar grupos CAP o CAP continuos. Por ejemplo, un analista podría querer examinar cómo un biomarcador líquido cambia con el tiempo según el CAP al ingresar al estudio. La información retrospectiva transversal sobre el biomarcador y la progresión se puede examinar con un análisis de intersección (análisis del punto de partida), que se centra en la primera visita al inicio del estudio. Además, se puede obtener información prospectiva sobre el biomarcador y la progresión con un análisis de pendiente (análisis de cambio), que se centra en el cambio a lo largo de las visitas repetidas.
La selección de una métrica de tiempo en el análisis longitudinal es importante. Varios estudios han demostrado que la trayectoria de muchas variables clínicas de la EH a lo largo de toda la vida adulta no es lineal. La Figura 3 muestra un ejemplo de UHDRS compuesto (cUHDRS) rastreado a lo largo del tiempo. Como otro ejemplo, los signos motores medios de una cohorte con CAG = 42 comenzarán en o muy cerca de 0 (normal) cuando las personas tienen poco más de 20 años, luego aumentarán ligeramente durante los próximos años y luego aumentarán bruscamente justo antes de los signos motores. diagnóstico (Langbehn et al. 2019; Long et al. 2014; Paulsen et al. 2014). Si se utiliza la edad como métrica del tiempo, entonces se deben utilizar métodos para abordar trayectorias no lineales, como polinomios de edad (Long y Ryoo 2010) o términos spline (Long y Mills 2018).
Figura 3. Cambio en las puntuaciones compuestas de UHDRS (cUHDRS) a lo largo del tiempo en HDGEC e individuos de control sanos. Datos derivados de Enroll-HD PDS4; lanzamiento v2018-10-R3.
Curiosamente, cuando se examina el cambio para CAP o grupos de CAP, a menudo es suficiente utilizar un modelo de línea recta. Recuerde que los grupos de CAP tempranos, medios y tardíos dividen el rango de CAP. Dentro de cada partición de la PAC, el cambio a lo largo de unos pocos años es relativamente lineal. Por lo tanto, cada grupo CAP puede tratarse como una pieza lineal, y cuando todas las piezas se concatenan de lado a lado, el cambio en todas las etapas no será lineal, pero el cambio dentro de una etapa será lineal.
En el análisis longitudinal con CAP o grupos CAP, se recomienda utilizar como métrica de tiempo el tiempo desde el ingreso al estudio (en años o meses). El tiempo 0 es la visita al ingreso, que reconoce que CAP representa la progresión hasta el ingreso al estudio. La progresión examinada en el análisis longitudinal es sólo la progresión observada durante el estudio y no la progresión desde el nacimiento.
Finalmente, el análisis del momento de eventos históricos a menudo se basa en el uso de un subconjunto particular de participantes, como un subconjunto que aún no ha recibido un diagnóstico motor. El análisis de supervivencia se utiliza a menudo para examinar si la duración desde el ingreso al estudio hasta un evento histórico, como el diagnóstico motor, puede predecirse mediante CAP u otras variables medidas al inicio del estudio (Long y Paulsen 2015; Long et al. 2017).
La información variable que se utiliza en un análisis de supervivencia es el momento del evento, o el último momento registrado en el estudio para aquellos que no experimentan el evento, y la variable predictiva al ingresar al estudio. Aunque todas las variables principales se recopilan en todas las visitas, la información adicional a menudo no se utiliza. Además, los participantes que ya tuvieron el evento de interés (como un diagnóstico motor) antes de inscribirse en el estudio generalmente quedan excluidos del análisis. Dicho filtrado puede estar justificado si se excluyen personas y/u observaciones de forma aleatoria de modo que la información restante sea representativa de la información omitida. Pero hay escenarios en los que el filtrado puede provocar sesgos en los resultados. Se siguen desarrollando métodos estadísticos para maximizar el uso de todos los datos disponibles (ver Long y Mills 2018), y se alienta al analista a pensar en las implicaciones de cualquier filtrado de la base de datos.
Referencias
Hong, PE, ME MacDonald, VC Wheeler, L. Jones, P. Holmans, M. Orth, DG Monckton y otros. 2020. “Patogenia de la enfermedad de Huntington: dos componentes secuenciales”. Revista de la enfermedad de Huntington.
Keum, JW, A. Shin, T. Gillis, JS Mysore, KA Elneel, D. Lucente, T. Hadzi, et al. 2017. "La mutación HTT Cag-Expansion determina la edad de muerte pero no la duración de la enfermedad en la enfermedad de Huntington". La revista americana de genética humana 98: 287–98.
Landwehrmeyer, BG, C. Fitter-Attas, J. Giuliano y et al. 2016. "Análisis de datos de Enroll-HD, una plataforma global de investigación clínica para la enfermedad de Huntington". Práctica clínica del trastorno del movimiento 4: 212–24.
Langbehn, DR, MR Hayden y JS Paulsen. 2010. “Duración de las repeticiones CAG y edad de aparición en la enfermedad de Huntington (EH), un estudio de revisión y validación de enfoques estadísticos”. Revista Estadounidense de Genética Médica, Parte B 153: 397–408.
Langbehn, DR, JC Stout, S. Gregory, JA Mills, A. Durr, BR Leavitt, RAC Roos, et al. 2019. "Asociación de repeticiones CAG con progresión a largo plazo en la enfermedad de Huntington". Neurología JAMA 76: 1375–85.
Lee, JM, EM Ramos, JH Lee, T. Gillis, JS Mysore, MR Hayden, SC Warby, et al. 2012. "La expansión repetida de CAG en la enfermedad de Huntington determina la edad de inicio de una manera totalmente dominante". Neurología 78: 690–95.
Leoni, V., JD Long, JA Mills, S. Di Donato y JS Paulsen. 2013. “Correlación del 24S-hidroxicolesterol plasmático con marcadores de progresión de la enfermedad de Huntington”. Neurobiología de la enfermedad 55: 37–43.
Long, JD y JA Mills. 2018. “Modelado conjunto de datos longitudinales multivariados y datos de supervivencia en varios estudios observacionales de la enfermedad de Huntington”. Metodología de la investigación médica 18: 138–53.
Long, JD, JA Mills, BR Leavitt, A. Durr, RA Roos, JC Stout, R. Reilmann y otros. 2017. "Puntos finales de supervivencia para los ensayos de la enfermedad de Huntington antes de un diagnóstico motor". Neurología JAMA 74: 1–9.
Long, JD y JS Paulsen. 2015. "Predicción multivariada del diagnóstico motor en la enfermedad de Huntington: 12 años de PREDICT-HD". Trastornos del movimiento 12: 1664–72.
Long, JD, JS Paulsen, K. Marder, Y. Zhang, J. Kim y JA Mills. 2014. "Seguimiento de las deficiencias motoras en la progresión de la enfermedad de Huntington". Trastornos del movimiento 29: 311–19.
Long, JD y J. Ryoo. 2010. "Uso de polinomios fraccionarios para modelar tendencias no lineales en datos longitudinales". Revista británica de psicología matemática y estadística 63: 177–203.
Paulsen, JS, JD Long, CA Ross, DL Harrington, CJ Erwin, JK Williams, HJ Westervelt y otros. 2014. "Predicción de la enfermedad de Huntington manifiesta con medidas clínicas y de imagen: un estudio observacional prospectivo". Neurología de lancetas 13: 1193–1201.
Paulsen, JS, MM Smith y JD Long. 2013. “Implicaciones del deterioro cognitivo en los ensayos clínicos de la enfermedad de Huntington prodrómica”. Revista de Neurología, Neurocirugía y Psiquiatría 84: 1233–9.
Penney, JB, JP Vonsattel, ME MacDonald, JF Gusella y RH Myers. 1997. "El número de repeticiones de CAG rige la tasa de desarrollo de patología en la enfermedad de Huntington". Anales de neurología 41: 689–92.
Ross, CA, EH Aylward, EJ Wild, DR Langbehn, JD Long, JH Warner, RI Scahill, et al. 2014. “Historia natural de la enfermedad de Huntington, biomarcadores y perspectivas terapéuticas”. Naturaleza Reseñas Neurología 10: 204–16.
Tabrizi, SJ, RI Scahill, G. Owen, A. Durr, BR Leavitt, RA Roos, B. Borowsky, et al. 2013. “Predictores de la progresión fenotípica y la aparición de la enfermedad en la enfermedad de Huntington premanifiesta y en etapa temprana en el análisis del estudio TRACK-HD de datos de observación de 36 meses”. Neurología de lancetas 12: 637–49.
Verbeke, G. y G. Molenberghs. 2009. Modelos lineales mixtos para datos longitudinales. Nueva York: Springer-Verlag.
Warner, JH, JD Long, JA Mills, DR Langbehn, J. Ware, A. Mohan y C. Sampaio. 2020. "Estandarización de la puntuación CAP en la enfermedad de Huntington I: predicción de la edad de inicio".
Zhang, Y., JD Long, JA Mills, JH Warner, W. Lu y JS Paulsen. 2011. “Indexación de la progresión de la enfermedad al ingresar al estudio con personas en riesgo de padecer la enfermedad de Huntington”. Revista Estadounidense de Genética Médica Parte B Genética Neuropsiquiátrica 156: 751–63.