Consejos de gestión y manejo de datos Enroll-HD

Una breve introducción al manejo y gestión de datos del Enroll-HD (no reemplaza la lectura de la documentación del conjunto de datos, ¡pero es un buen lugar para comenzar!)

Introducción

Enroll-HD es una plataforma de estudio observacional e investigación clínica que comenzó en 2012 y ha reclutado a ~24 000 participantes de ~160 centros en cuatro de los continentes del mundo. Está diseñado para mejorar nuestra comprensión de la EH, mejorar y respaldar el diseño y la realización de ensayos clínicos y mejorar la atención clínica de los pacientes con EH.

Los datos del estudio Enroll-HD se ponen a disposición de investigadores verificados para su análisis a través del sitio web de Enroll-HD de dos maneras: conjuntos de datos periódicos (PDS) y conjuntos de datos específicos (SPS). Los conjuntos de datos periódicos son cortes con marca de tiempo del conjunto de datos clínicos Enroll-HD preparados cada 1 o 2 años e incluyen la gran mayoría de las variables recopiladas (ciertas variables se suprimen, agregan o transforman para minimizar el riesgo de identificación de los participantes). Cada participante dentro del conjunto de datos ha completado una visita de referencia y la mayoría tiene datos longitudinales de visitas de seguimiento anuales. El acceso al PDS Enroll-HD es rápido y sencillo. Los detalles completos se proporcionan en el Pagina de acceso.

Las versiones del PDS Enroll-HD contienen once conjuntos de datos distintos, algunos de los cuales se basan en participantes mientras que otros se basan en visitas. Los conjuntos de datos basados en participantes tienen una fila (u observación) para cada participante e incluyen datos demográficos que no son específicos de una visita. Por el contrario, los conjuntos de datos basados en visitas contienen datos que se recopilan en cada visita y tienen varias filas para los participantes con más de una visita. Por ejemplo, el sexo de un participante y la longitud del CAG (es decir, caghigh) se incluyen en un conjunto de datos basado en participantes en una sola fila (como en la Tabla 1), mientras que la puntuación motora total (es decir, motscore) es parte de un conjunto de datos basado en visitas con una fila para cada visita de un participante (como en la Tabla 2). En general, una fila en el PDS corresponde a un participante (o una visita de un participante) y una columna corresponde a una variable, como sexo, caghigh, o motscore. Por favor refiérase a Explorar la estructura del conjunto de datos para obtener información más detallada sobre la estructura del conjunto de datos.


Gestión de conjuntos de datos Enroll-HD

Es importante comprender la estructura del conjunto de datos para que los datos se puedan combinar adecuadamente para el análisis. Se utilizan dos variables clave para combinar los datos; la identificación del participante (es decir, subjid), que es único y vincula sus datos entre conjuntos de datos basados en participantes y visitas (Tablas 1 y 2), y el número de días en el estudio (es decir, visdy), que se utiliza en conjuntos de datos basados en visitas (Tabla 2) y tiene un valor de cero en la visita inicial y el número de días transcurridos desde entonces en las visitas posteriores (por ejemplo, un valor de 370 representa 370 días después de la primera visita). La combinación de subjid e visdy es necesario fusionar datos.


Tabla 1.
Ejemplo de datos basados en participantes

subjid

sexo

caghigh

1

F

39

2

m

44

3

F

18

 

Tabla 2. Ejemplo de datos basados en visitas

subjid

visdy

motscore

1

0

8

1

370

9

2

0

14

2

345

17

3

0

1

 

Fusionar es integrar datos de un conjunto de datos en otro (agregar columnas) y es necesario cuando los datos que se van a analizar se encuentran dentro de varios conjuntos de datos. El número de filas es generalmente el mismo que el mayor de los conjuntos de datos originales. Por ejemplo, la mayoría de los análisis requieren datos tanto demográficos como clínicos, pero estos están contenidos en dos conjuntos de datos diferentes (perfil e inscribirse respectivamente). El conjunto de datos de análisis se puede obtener fusionando los conjuntos de datos demográficos y clínicos mediante subjid e visdy. La Tabla 3 muestra el resultado después de fusionar la Tabla 1 y la Tabla 2.


Tabla 3.
Resultado después de fusionar conjuntos de datos basados en participantes y visitas

subjid

sexo

caghigh

visdy

motscore

1

F

39

0

8

1

F

39

370

9

2

m

44

0

14

2

m

44

345

17

3

F

18

0

1

El subconjunto es otra técnica importante en la gestión de conjuntos de datos, que consiste en filtrar un conjunto de datos para incluir solo a los participantes que cumplen con un determinado criterio (eliminando filas). Después de crear subconjuntos, el número de filas en el nuevo conjunto de datos es menor que en el conjunto de datos original. Por ejemplo, algunos análisis podrían centrarse en HDGEC, lo que requiere eliminar del conjunto de datos aquellos que no tienen la expansión genética. La Tabla 4 muestra el resultado después de subconjuntos de la Tabla 3 para HDGEC.


Tabla 4.
Resultado después del subconjunto del conjunto de datos para HDGEC

subjid

sexo

caghigh

visdy

motscore

1

F

39

0

8

1

F

39

370

9

2

m

44

0

14

2

m

44

345

17

Una tercera técnica en la gestión de conjuntos de datos es la creación de variables derivadas, que se definen mediante una función o agrupación en términos de otras variables. Una categoría de variables derivadas es la puntuación total; Muchas puntuaciones totales están incluidas en los PDS, incluidas motscore y medidas funcionales TFC (es decir, puntuación tfc) y FAS (es decir, fascore). Una segunda categoría de variables derivadas es la puntuación compuesta, que a menudo se crea para su uso en un análisis o como resultado de él. La puntuación CAP (descrita en otros artículos de esta serie; Warner et al. 2020) se genera utilizando edad e caghigh. El índice de pronóstico (Long et al. 2017) utiliza edad, caghigh, y motscore junto con una medida cognitiva, la prueba de modalidades de dígitos y símbolos (es decir, sdmt1). La UHDRS compuesta (cUHDRS; Schobel et al. 2017) se calcula a partir de motscore, puntuación tfc, y sdmt1 además de una medida cognitiva diferente, la prueba de lectura de palabras de Stroop (es decir, swrt1). Estas puntuaciones compuestas son importantes para comprender la progresión de la EH.


Enroll-HD Datos ausentes

Los valores de datos ausentes son inevitables en grandes estudios observacionales, y dos categorías generales de datos faltantes son relevantes para las publicaciones de PDS: definido por el sistema datos ausentes (indicados por valores de variables en blanco), y usuario definido datos ausentes (indicados por códigos específicos que indican el motivo de la ausencia). Los datos faltantes definidos por el usuario ocurren cuando un campo de variable obligatorio, según lo determinado por el sistema EDC, no está completo o cuando se sabe que el valor ingresado en el EDC es incorrecto. El PDS proporciona información adicional sobre cuatro posibles motivos por los que faltan datos definidos por el usuario; se sabe que el valor de los datos es "incorrecto" o muy cuestionable, lo que puede deberse a un error de administración o de instrumentación; el ítem es 'no aplicable', que es el caso cuando el ítem no puede ser respondido por el participante o no aplica debido a ciertas circunstancias; un 'valor faltante' que resulta de la negativa del participante a compartir o de la omisión accidental de los datos; los datos son 'desconocidos' por el participante y/o el administrador (solo se aplica a campos variables específicos). Los códigos de valor faltantes por estos cuatro motivos se muestran en la Tabla 5. 


Tabla 5.
Códigos de valor faltantes

 

Missing value

Wrong

Not applicable

Missing

Unknown

Numeric values

9996

9997

9998

9999

Text values

WRONG

NOTAPPL

MISSING

UNKNOWN

Enroll-HD Documentos de respaldo

Soporte de datos Enroll-HD documentación incluye documentación general del estudio (p. ej., protocolo del estudio, diccionario de datos, CRF anotados), guías del sistema de codificación y documentos específicos del conjunto de datos, incluida nueva orientación sobre cómo comprender e interpretar los datos. Estos documentos ayudarán a los investigadores en sus análisis y animamos a todos los usuarios a revisar esta documentación antes de realizar el análisis de datos.


Referencias

Landwehrmeyer BG, Fitzer-Attas CJ, Giuliano JD, et al. Análisis de datos de Enroll-HD, una plataforma global de investigación clínica para la enfermedad de Huntington. Práctica clínica del trastorno del movimiento 2016;4: 212–24.

Warner JH, Long JD, Mills JA, Langbehn DR, Ware JJ, Mohan A y Sampaio C. Estandarización de la puntuación CAP en la enfermedad de Huntington I: predicción de la edad de inicio. 2020.

Long JD, Langbehn DR, Tabrizi SJ, et al. Validación de un índice pronóstico para la enfermedad de Huntington. Trastorno Mov 2017;32(2):256–263.

Schobel SA, Palermo G, Auinger P, et al. Los deterioros motores, cognitivos y funcionales contribuyen a un único factor progresivo en la EH temprana. Neurología 2017;89(24):2495–2502.

es_ESES

Plataforma de investigación clínica

Enroll-HD es una plataforma de investigación clínica y el estudio observacional más grande del mundo para familias con enfermedad de Huntington.

Para centros de estudio

¡Muy pronto! Recursos operativos para sitios de estudio, incluido el acceso al portal de capacitación.