Conseils de traitement et de gestion des données Enroll-HD
Une brève introduction à la manipulation et à la gestion des données Enroll-HD (ne remplace pas la lecture de la documentation de l'ensemble de données – mais un bon point de départ !)
Introduction
Enroll-HD est une plateforme d'étude observationnelle et de recherche clinique qui a débuté en 2012 et qui a recruté environ 24 000 participants sur environ 160 sites sur quatre continents du monde. Il est conçu pour faire progresser notre compréhension de la MH, améliorer et soutenir la conception et la conduite d'essais cliniques, et améliorer les soins cliniques pour les patients MH.
Les données de l'étude Enroll-HD sont mises à la disposition des chercheurs vérifiés pour analyse via le site Web Enroll-HD de deux manières : des ensembles de données périodiques (PDS) et des ensembles de données spécifiés (SPS). Les ensembles de données périodiques sont des coupes horodatées de l'ensemble de données cliniques Enroll-HD préparées tous les 1 à 2 ans et incluent la grande majorité des variables collectées (certaines variables sont supprimées, agrégées ou transformées pour minimiser le risque d'identification des participants). Chaque participant de l'ensemble de données a effectué une visite de référence et la plupart disposent de données longitudinales provenant de visites de suivi annuelles. L'accès au PDS Enroll-HD est simple et rapide. Tous les détails sont fournis sur la page Accès.
Les versions des PDS Enroll-HD contiennent onze ensembles de données distincts, dont certains sont basés sur les participants tandis que d'autres sont basés sur les visites. Les ensembles de données basés sur les participants comportent une ligne (ou observation) pour chaque participant et incluent des données démographiques qui ne sont pas spécifiques à une visite. En revanche, les ensembles de données basés sur les visites contiennent des données collectées à chaque visite et comportent plusieurs lignes pour les participants ayant effectué plusieurs visites. Par exemple, le sexe d'un participant et la longueur du CAG (c.-à-d. caghigh) sont inclus dans un ensemble de données basé sur les participants sur une seule ligne (comme dans le tableau 1), tandis que le score moteur total (c'est-à-dire motscore) fait partie d'un ensemble de données basé sur les visites avec une ligne pour chaque visite de participant (comme dans le tableau 2). En général, une ligne dans le PDS correspond à un participant (ou une visite pour un participant) et une colonne correspond à une variable, telle que sex, caghigh, ou motscore. Prière de se référer à Explorer la structure de l'ensemble de données pour des informations plus détaillées sur la structure de l’ensemble de données.
Gestion des ensembles de données Enroll-HD
Il est important de comprendre la structure de l'ensemble de données afin que les données puissent être combinées correctement pour l'analyse. Deux variables clés sont utilisées pour combiner les données ; l'identifiant du participant (c'est-à-dire, subjid), qui est unique et relie ses données entre les ensembles de données basés sur les participants et les visites (Tableaux 1 et 2), et le nombre de jours dans l'étude (c'est-à-dire visdy), qui est utilisé dans les ensembles de données basés sur les visites (Tableau 2) et a une valeur de zéro lors de la visite de référence et le nombre de jours écoulés depuis lors des visites ultérieures (par exemple, une valeur de 370 représente 370 jours après la première visite). La combinaison de subjid et visdy est nécessaire pour fusionner les données.
Tableau 1. Exemple de données basées sur les participants
subjid | sex | caghigh |
1 | F | 39 |
2 | m | 44 |
3 | F | 18 |
Tableau 2. Exemple de données basées sur les visites
subjid | visdy | motscore |
1 | 0 | 8 |
1 | 370 | 9 |
2 | 0 | 14 |
2 | 345 | 17 |
3 | 0 | 1 |
La fusion consiste à intégrer les données d'un ensemble de données dans un autre (ajout de colonnes) et est nécessaire lorsque les données à analyser se trouvent dans plusieurs ensembles de données. Le nombre de lignes est généralement le même que celui du plus grand des ensembles de données d'origine. Par exemple, la plupart des analyses nécessitent à la fois des données démographiques et cliniques, mais celles-ci sont contenues dans deux ensembles de données différents (profile et enroll respectivement). L'ensemble de données d'analyse peut être obtenu en fusionnant les ensembles de données démographiques et cliniques en subjid et visdy. Le tableau 3 montre le résultat après fusion du tableau 1 et du tableau 2.
Tableau 3. Résultat après fusion des ensembles de données basés sur les participants et les visites
subjid | sex | caghigh | visdy | motscore |
1 | F | 39 | 0 | 8 |
1 | F | 39 | 370 | 9 |
2 | m | 44 | 0 | 14 |
2 | m | 44 | 345 | 17 |
3 | F | 18 | 0 | 1 |
Le sous-ensemble est une autre technique importante dans la gestion des ensembles de données, qui consiste à filtrer un ensemble de données pour inclure uniquement les participants qui répondent à un certain critère (suppression de lignes). Après avoir sous-défini, le nombre de lignes dans le nouvel ensemble de données est inférieur à celui de l'ensemble de données d'origine. Par exemple, certaines analyses peuvent se concentrer sur les HDGEC, ce qui nécessite de supprimer de l’ensemble de données celles sans expansion génétique. Le tableau 4 montre le résultat après extraction du tableau 3 pour les HDGEC.
Tableau 4. Résultat après extraction de l'ensemble de données pour HDGEC
subjid | sex | caghigh | visdy | motscore |
1 | F | 39 | 0 | 8 |
1 | F | 39 | 370 | 9 |
2 | m | 44 | 0 | 14 |
2 | m | 44 | 345 | 17 |
Une troisième technique de gestion des ensembles de données consiste à créer des variables dérivées, qui sont définies par une fonction ou un regroupement en termes d'autres variables. Une catégorie de variables dérivées est un score total ; de nombreux scores totaux sont inclus dans les PDS, notamment motscore et les mesures fonctionnelles TFC (c.-à-d. tfcscore) et FAS (c.-à-d. fascore). Une deuxième catégorie de variables dérivées est un score composite, qui est souvent créé pour être utilisé dans ou comme résultat d'une analyse. Le score CAP (décrit dans d'autres articles de cette série ; Warner et al. 2020) est généré à l'aide de age et caghigh. L'indice pronostique (Long et al. 2017) utilise age, caghigh, et motscore ainsi qu'une mesure cognitive, le test des modalités des chiffres-symboles (c'est-à-dire sdmt1). L'UHDRS composite (cUHDRS ; Schobel et al. 2017) est calculé à partir de motscore, tfcscore, et sdmt1 plus une mesure cognitive différente, le test de lecture de mots Stroop (c.-à-d. swrt1). Ces scores composites sont importants pour comprendre la progression de la MH.
Données manquantes Enroll-HD
Les valeurs de données manquantes sont inévitables dans les grandes études observationnelles, et deux grandes catégories de données manquantes sont pertinentes pour les publications PDS : défini par le système données manquantes (indiquées par des valeurs de variables vides), et défini par l'utilisateur données manquantes (indiquées par des codes spécifiques indiquant la raison de l'absence). Les données manquantes définies par l'utilisateur se produisent lorsqu'un champ de variable obligatoire, tel que déterminé par le système EDC, n'est pas rempli, ou lorsque la valeur saisie dans l'EDC est connue pour être erronée. Le PDS fournit des informations supplémentaires sur quatre raisons possibles pour les données manquantes définies par l'utilisateur ; la valeur des données est connue pour être « fausse » ou très douteuse, ce qui peut être dû à une erreur d'administration ou d'instrumentation ; l'élément est « non applicable », ce qui est le cas lorsque le participant ne peut pas y répondre ou ne s'applique pas en raison de certaines circonstances ; une « valeur manquante » résultant soit du refus du participant de partager, soit de l'omission accidentelle des données ; les données sont « inconnues » du participant et/ou de l'administrateur (ne s'applique qu'à des champs de variables spécifiques). Les codes de valeurs manquantes pour ces quatre raisons sont présentés dans le tableau 5.
Tableau 5. Codes des valeurs manquantes
Missing value | Wrong | Not applicable | Missing | Unknown |
Numeric values | 9996 | 9997 | 9998 | 9999 |
Text values | WRONG | NOTAPPL | MISSING | UNKNOWN |
Documents de support Enroll-HD
La documentation de support de données Enroll-HD Documentation comprend la documentation générale de l'étude (par exemple, le protocole d'étude, le dictionnaire de données, les CRF annotés), les guides du système de codage et les documents spécifiques aux ensembles de données, y compris de nouvelles orientations sur la façon de comprendre et d'interpréter les données. Ces documents aideront les chercheurs dans leurs analyses, et nous encourageons tous les utilisateurs à consulter cette documentation avant leur analyse de données.
Les références
Landwehrmeyer BG, Fitzer-Attas CJ, Giuliano JD et al. Analyse des données de Enroll-HD, une plateforme mondiale de recherche clinique sur la maladie de Huntington. Pratique clinique des troubles du mouvement 2016 ; 4 : 212-24.
Warner JH, Long JD, Mills JA, Langbehn DR, Ware JJ, Mohan A et Sampaio C. Standardisation du score CAP dans la maladie de Huntington I : Prédire l'âge d'apparition. 2020.
Long JD, Langbehn DR, Tabrizi SJ et al. Validation d'un indice pronostique de la maladie de Huntington. Mov Disord 2017;32(2):256-263.
Schobel SA, Palermo G, Auinger P et al. Les déclins moteurs, cognitifs et fonctionnels contribuent à un seul facteur progressif de la MH précoce. Neurologie 2017;89(24):2495-2502.