Enroll-HD Data Handling and Management Tips

Una breve introduzione alla gestione e gestione dei dati Enroll-HD (non sostituisce la lettura della documentazione del set di dati, ma è un buon punto di partenza!)

introduzione

Enroll-HD è uno studio osservazionale e una piattaforma di ricerca clinica iniziata nel 2012 e che ha reclutato circa 24.000 partecipanti da circa 160 centri in quattro continenti del mondo. È progettato per far avanzare la nostra comprensione della MH, migliorare e supportare la progettazione e la conduzione di studi clinici e migliorare l'assistenza clinica per i pazienti con MH.

I dati dello studio Enroll-HD sono resi disponibili per l'analisi ai ricercatori verificati attraverso il sito web Enroll-HD in due modi: set di dati periodici (PDS) e set di dati specificati (SPS). I set di dati periodici sono tagli con timestamp del set di dati clinici Enroll-HD preparati ogni 1-2 anni e includono la grande maggioranza delle variabili raccolte (alcune variabili vengono soppresse, aggregate o trasformate per ridurre al minimo il rischio di identificazione dei partecipanti). Ogni partecipante all'interno del set di dati ha completato una visita di riferimento e la maggior parte dispone di dati longitudinali provenienti da visite di follow-up annuali. L'accesso al PDS Enroll-HD è rapido e semplice. I dettagli completi sono forniti su Accedi alla pagina.

Le versioni PDS Enroll-HD contengono undici set di dati distinti, alcuni dei quali sono basati sui partecipanti mentre altri sono basati sulle visite. I set di dati basati sui partecipanti hanno una riga (o osservazione) per ciascun partecipante e includono dati demografici non specifici per una visita. Al contrario, i set di dati basati sulle visite contengono dati raccolti a ogni visita e hanno più righe per i partecipanti con più di una visita. Ad esempio, il sesso di un partecipante e la lunghezza CAG (ovvero, caghigh) sono inclusi in un set di dati basato sui partecipanti in un'unica riga (come nella Tabella 1), mentre il punteggio motorio totale (ovvero, motscore) fa parte di un set di dati basato sulle visite con una riga per la visita di ciascun partecipante (come nella Tabella 2). In generale, una riga nel PDS corrisponde a un partecipante (o una visita per un partecipante) e una colonna corrisponde a una variabile, come sesso, caghigh, O motscore. Per favore riferisci a Esplora la struttura del set di dati per informazioni più dettagliate sulla struttura del set di dati.

Gestione del set di dati Enroll-HD

È importante comprendere la struttura del set di dati in modo che i dati possano essere combinati correttamente per l'analisi. Per combinare i dati vengono utilizzate due variabili chiave; l'ID del partecipante (ovvero, subjid), che è unico e collega i suoi dati tra i set di dati basati sui partecipanti e sulle visite (tabelle 1 e 2) e il numero di giorni nello studio (ovvero, visdy), che viene utilizzato nei set di dati basati sulle visite (Tabella 2) e ha un valore pari a zero alla visita di base e il numero di giorni trascorsi da allora alle visite successive (ad esempio, un valore di 370 rappresenta 370 giorni dopo la prima visita). La combinazione di subjid e visdy è necessario unire i dati.

Tabella 1. Esempio di dati basati sui partecipanti

subjid	sesso	caghigh
1	F	39
2	M	44
3	F	18

Tavolo 2. Esempio di dati basati sulle visite

subjid	visdy	motscore
1	0	8
1	370	9
2	0	14
2	345	17
3	0	1

L'unione consiste nell'integrazione dei dati da un set di dati in un altro (aggiunta di colonne) ed è necessaria quando i dati da analizzare si trovano all'interno di più set di dati. Il numero di righe è generalmente uguale al più grande dei set di dati originali. Ad esempio, la maggior parte delle analisi richiedono sia dati demografici che clinici, ma questi sono contenuti in due diversi set di dati (profilo e iscriversi rispettivamente). Il set di dati di analisi può essere ottenuto unendo i set di dati demografici e clinici da subjid e visdy. La Tabella 3 mostra il risultato dopo aver unito la Tabella 1 e la Tabella 2.

Tabella 3. Risultato dopo l'unione dei set di dati basati sui partecipanti e sulle visite

subjid	sesso	caghigh	visdy	motscore
1	F	39	0	8
1	F	39	370	9
2	M	44	0	14
2	M	44	345	17
3	F	18	0	1

Il sottoinsieme è un'altra tecnica importante nella gestione del set di dati, che consiste nel filtrare un set di dati per includere solo i partecipanti che soddisfano un determinato criterio (rimuovendo le righe). Dopo aver creato il sottoinsieme, il numero di righe nel nuovo set di dati è inferiore a quello del set di dati originale. Ad esempio, alcune analisi potrebbero concentrarsi sugli HDGEC, il che richiede la rimozione dal set di dati di quelli senza l’espansione genetica. La Tabella 4 mostra il risultato dopo aver sottoimpostato la Tabella 3 per gli HDGEC.

Tabella 4. Risultato dopo il sottoinsieme del set di dati per HDGEC

subjid	sesso	caghigh	visdy	motscore
1	F	39	0	8
1	F	39	370	9
2	M	44	0	14
2	M	44	345	17

Una terza tecnica nella gestione dei set di dati consiste nella creazione di variabili derivate, definite da una funzione o raggruppamento in termini di altre variabili. Una categoria di variabili derivate è il punteggio totale; molti punteggi totali sono inclusi nei PDS, inclusi motscore e misure funzionali TFC (ovvero, tfcscore) e FAS (ovvero, fascore). Una seconda categoria di variabili derivate è costituita dai punteggi compositi, spesso creati per essere utilizzati all'interno o come risultato di un'analisi. Il punteggio CAP (descritto in altri articoli di questa serie; Warner et al. 2020) viene generato utilizzando età e caghigh. L'indice prognostico (Long et al. 2017) utilizza età, caghigh, E motscore insieme a una misura cognitiva, il Symbol Digit Modalities Test (ovvero, sdmt1). L'UHDRS composito (cUHDRS; Schobel et al. 2017) è calcolato da motscore, tfcscore, E sdmt1 più una diversa misura cognitiva, lo Stroop Word Reading Test (cioè, swrt1). Questi punteggi compositi sono importanti per comprendere la progressione della MH.

Enroll-HD Dati mancanti

I valori dei dati mancanti sono inevitabili nei grandi studi osservazionali e due categorie generali di dati mancanti sono rilevanti per i rilasci PDS: definito dal sistema dati mancanti (indicati da valori di variabile vuoti) e definito dall'utente dati mancanti (indicati da codici specifici che indicano il motivo della mancanza). I dati mancanti definiti dall'utente si verificano quando un campo variabile obbligatorio, come determinato dal sistema EDC, non è completato o quando è noto che il valore immesso nell'EDC è errato. Il PDS fornisce informazioni aggiuntive su quattro possibili ragioni per i dati mancanti definiti dall'utente; è noto che il valore dei dati è "sbagliato" o altamente discutibile, il che può essere dovuto a errori di amministrazione o di strumentazione; la domanda è "non applicabile", ovvero quando il partecipante non può rispondere alla domanda o non si applica a causa di determinate circostanze; un "valore mancante" derivante dal rifiuto del partecipante di condividere o dall'omissione accidentale dei dati; i dati sono "sconosciuti" al partecipante e/o all'amministratore (si applica solo a campi variabili specifici). I codici dei valori mancanti per questi quattro motivi sono mostrati nella Tabella 5.

Tabella 5. Codici valore mancanti

Missing value	Wrong	Not applicable	Missing	Unknown
Numeric values	9996	9997	9998	9999
Text values	WRONG	NOTAPPL	MISSING	UNKNOWN

Documenti di supporto Enroll-HD

Supporto dati Enroll-HD documentazione include documentazione generale dello studio (ad es. protocollo di studio, dizionario dei dati, CRF annotate), guide al sistema di codifica e documenti specifici del set di dati, comprese nuove indicazioni su come comprendere e interpretare i dati. Questi documenti aiuteranno i ricercatori nelle loro analisi e incoraggiamo tutti gli utenti a rivedere questa documentazione prima dell'analisi dei dati.

Riferimenti

Landwehrmeyer BG, Fitzer-Attas CJ, Giuliano JD, et al. Analisi dei dati da Enroll-HD, una piattaforma globale di ricerca clinica per la malattia di Huntington. Pratica clinica sui disturbi del movimento 2016;4: 212–24.

Warner JH, Long JD, Mills JA, Langbehn DR, Ware JJ, Mohan A e Sampaio C. Standardizzazione del punteggio CAP nella malattia di Huntington I: previsione dell'età all'esordio. 2020.

Lungo JD, Langbehn DR, Tabrizi SJ, et al. Validazione di un indice prognostico per la malattia di Huntington. Disordine mov 2017;32(2):256–263.

Schobel SA, Palermo G, Auinger P, et al. Il declino motorio, cognitivo e funzionale contribuisce a un unico fattore progressivo nella MH precoce. Neurologia 2017;89(24):2495–2502.

Suggerimenti per la gestione di Enroll-HD e dei suoi dati

Una breve introduzione alla gestione e gestione dei dati Enroll-HD (non sostituisce la lettura della documentazione del set di dati, ma è un buon punto di partenza!)

Iscriviti alla nostra mailing list e ricevi maggiori informazioni

Link veloci

Altre pagine

Informazioni di contatto

Enroll-HD

© Copyright Fondazione CHDI, Inc.

Piattaforma di ricerca clinica

Per le famiglie MH

Per i ricercatori

Per gli sponsor degli studi clinici

Per i centri dello studio