Enroll-HD Tipps zur Datenverarbeitung und -verwaltung
Eine kurze Einführung in die Enroll-HD-Datenverarbeitung und -verwaltung (kein Ersatz für das Lesen der Datensatzdokumentation – aber ein guter Anfang!)
Einführung
Enroll-HD ist eine Plattform für Beobachtungsstudien und klinische Forschung, die 2012 ins Leben gerufen wurde und rund 24.000 Teilnehmer aus rund 160 Standorten auf vier Kontinenten der Welt rekrutiert hat. Es soll unser Verständnis der Huntington-Krankheit erweitern, die Konzeption und Durchführung klinischer Studien verbessern und unterstützen sowie die klinische Versorgung von Huntington-Patienten verbessern.
Daten aus der Enroll-HD-Studie werden verifizierten Forschern über die Enroll-HD-Website auf zwei Arten zur Analyse zur Verfügung gestellt: periodische Datensätze (PDS) und spezifizierte Datensätze (SPS). Periodische Datensätze sind zeitgestempelte Ausschnitte des klinischen Enroll-HD-Datensatzes, der alle 1–2 Jahre erstellt wird und den Großteil der erfassten Variablen umfasst (bestimmte Variablen werden unterdrückt, aggregiert oder transformiert, um das Risiko einer Teilnehmeridentifizierung zu minimieren). Jeder Teilnehmer im Datensatz hat einen Basisbesuch absolviert und die meisten verfügen über Längsschnittdaten von jährlichen Nachuntersuchungen. Der Zugriff auf das Enroll-HD PDS ist schnell und unkompliziert. Ausführliche Informationen finden Sie auf der Zugriffsseite.
Die Enroll-HD PDS-Releases enthalten elf verschiedene Datensätze, von denen einige teilnehmerbasiert und andere besuchsbasiert sind. Die teilnehmerbasierten Datensätze verfügen über eine Zeile (oder Beobachtung) für jeden Teilnehmer und enthalten demografische Daten, die nicht spezifisch für einen Besuch sind. Im Gegensatz dazu enthalten die besuchsbasierten Datensätze Daten, die bei jedem Besuch erfasst werden, und verfügen über mehrere Zeilen für Teilnehmer mit mehr als einem Besuch. Zum Beispiel das Geschlecht und die CAG-Länge eines Teilnehmers (d. h. caghigh) sind in einem teilnehmerbasierten Datensatz in einer einzelnen Zeile enthalten (wie in Tabelle 1), während der Gesamtmotor-Score (d. h. Motscore) ist Teil eines besuchsbasierten Datensatzes mit einer Zeile für jeden Teilnehmerbesuch (wie in Tabelle 2). Im Allgemeinen entspricht eine Zeile im PDS einem Teilnehmer (oder einem Besuch für einen Teilnehmer) und eine Spalte entspricht einer Variablen, z Sex, caghigh, oder Motscore. Bitte beziehen Sie sich auf Erkunden Sie die Datensatzstruktur Weitere Informationen zur Datensatzstruktur finden Sie hier.
Enroll-HD Datensatzverwaltung
Es ist wichtig, die Datensatzstruktur zu verstehen, damit die Daten für die Analyse richtig kombiniert werden können. Zur Kombination der Daten werden zwei Schlüsselvariablen verwendet; die Teilnehmer-ID (d. h. subjid), das einzigartig ist und seine/ihre Daten sowohl über teilnehmer- als auch besuchsbasierte Datensätze (Tabellen 1 und 2) und die Anzahl der Tage in der Studie (d. h. visdy), das in besuchsbasierten Datensätzen verwendet wird (Tabelle 2) und beim Basisbesuch den Wert Null und bei nachfolgenden Besuchen die Anzahl der Tage seitdem hat (z. B. steht ein Wert von 370 für 370 Tage nach dem ersten Besuch). Die Kombination von subjid Und visdy ist notwendig, um Daten zusammenzuführen.
Tabelle 1. Beispiel für teilnehmerbasierte Daten
subjid | Sex | caghigh |
1 | F | 39 |
2 | M | 44 |
3 | F | 18 |
Tabelle 2. Beispiel für besuchsbasierte Daten
subjid | visdy | Motscore |
1 | 0 | 8 |
1 | 370 | 9 |
2 | 0 | 14 |
2 | 345 | 17 |
3 | 0 | 1 |
Beim Zusammenführen werden Daten aus einem Datensatz in einen anderen integriert (Spalten hinzugefügt) und ist erforderlich, wenn sich die zu analysierenden Daten in mehreren Datensätzen befinden. Die Anzahl der Zeilen entspricht im Allgemeinen dem größeren der Originaldatensätze. Beispielsweise erfordern die meisten Analysen sowohl demografische als auch klinische Daten, diese sind jedoch in zwei verschiedenen Datensätzen enthalten (Profil Und einschreiben jeweils). Der Analysedatensatz kann durch Zusammenführen der demografischen und klinischen Datensätze erhalten werden subjid Und visdy. Tabelle 3 zeigt das Ergebnis nach der Zusammenführung von Tabelle 1 und Tabelle 2.
Tisch 3. Ergebnis nach Zusammenführung teilnehmer- und besuchsbasierter Datensätze
subjid | Sex | caghigh | visdy | Motscore |
1 | F | 39 | 0 | 8 |
1 | F | 39 | 370 | 9 |
2 | M | 44 | 0 | 14 |
2 | M | 44 | 345 | 17 |
3 | F | 18 | 0 | 1 |
Unterteilung ist eine weitere wichtige Technik in der Datensatzverwaltung, bei der ein Datensatz so gefiltert wird, dass er nur Teilnehmer enthält, die ein bestimmtes Kriterium erfüllen (Zeilen entfernen). Nach der Unterteilung ist die Anzahl der Zeilen im neuen Datensatz geringer als im ursprünglichen Datensatz. Einige Analysen könnten sich beispielsweise auf HDGECs konzentrieren, was erfordert, dass diejenigen ohne Generweiterung aus dem Datensatz entfernt werden. Tabelle 4 zeigt das Ergebnis nach Unterteilung von Tabelle 3 für HDGECs.
Tabelle 4. Ergebnis nach Unterteilung des Datensatzes für HDGEC
subjid | Sex | caghigh | visdy | Motscore |
1 | F | 39 | 0 | 8 |
1 | F | 39 | 370 | 9 |
2 | M | 44 | 0 | 14 |
2 | M | 44 | 345 | 17 |
Eine dritte Technik bei der Datensatzverwaltung ist die Erstellung abgeleiteter Variablen, die durch eine Funktion oder Gruppierung in Bezug auf andere Variablen definiert werden. Eine Kategorie abgeleiteter Variablen ist eine Gesamtpunktzahl; Viele Gesamtpunktzahlen sind in den PDSs enthalten, darunter Motscore und funktionale Maßnahmen TFC (d. h. tfcscore) und FAS (d. h. fascore). Eine zweite Kategorie abgeleiteter Variablen ist ein zusammengesetzter Score, der häufig zur Verwendung in oder als Ergebnis einer Analyse erstellt wird. Der CAP-Score (in anderen Artikeln dieser Reihe beschrieben; Warner et al. 2020) wird mithilfe generiert Alter Und caghigh. Der Prognostic Index (Long et al. 2017) verwendet Alter, caghigh, und Motscore zusammen mit einem kognitiven Maß, dem Symbol Digit Modalities Test (d. h. sdmt1). Das zusammengesetzte UHDRS (cUHDRS; Schobel et al. 2017) wird aus berechnet Motscore, tfcscore, und sdmt1 plus ein anderes kognitives Maß, der Stroop Word Reading Test (d. h. swrt1). Diese zusammengesetzten Ergebnisse sind wichtig für das Verständnis des Verlaufs der Huntington-Krankheit.
Enroll-HD Fehlende Daten
Fehlende Datenwerte sind in großen Beobachtungsstudien unvermeidlich, und zwei übergreifende Kategorien fehlender Daten sind für PDS-Veröffentlichungen relevant: systemdefiniert fehlende Daten (angezeigt durch leere Variablenwerte) und benutzerdefinierte fehlende Daten (angezeigt durch spezifische Codes, die den Grund für das Fehlen angeben). Benutzerdefinierte fehlende Daten treten auf, wenn ein vom EDC-System festgelegtes obligatorisches Variablenfeld nicht ausgefüllt ist oder wenn der in das EDC eingegebene Wert bekanntermaßen falsch ist. Das PDS bietet zusätzliche Informationen zu vier möglichen Gründen für benutzerdefinierte fehlende Daten; Es ist bekannt, dass der Datenwert „falsch“ oder höchst fragwürdig ist, was auf einen Verwaltungs- oder Instrumentierungsfehler zurückzuführen sein kann. das Item ist „nicht anwendbar“, was der Fall ist, wenn das Item vom Teilnehmer nicht beantwortet werden kann oder aufgrund bestimmter Umstände nicht zutrifft; ein „fehlender Wert“, der aus der Weigerung eines Teilnehmers, die Daten weiterzugeben, oder aus versehentlichem Weglassen der Daten resultiert; die Daten sind dem Teilnehmer und/oder dem Administrator „unbekannt“ (gilt nur für bestimmte Variablenfelder). Die fehlenden Wertcodes aus diesen vier Gründen sind in Tabelle 5 aufgeführt.
Tabelle 5. Fehlende Wertcodes
Missing value | Wrong | Not applicable | Missing | Unknown |
Numeric values | 9996 | 9997 | 9998 | 9999 |
Text values | WRONG | NOTAPPL | MISSING | UNKNOWN |
Enroll-HD Unterstützende Dokumente
Enroll-HD-Datenunterstützung Dokumentation umfasst allgemeine Studiendokumentation (z. B. Studienprotokoll, Datenwörterbuch, kommentierte CRFs), Leitfäden für Kodierungssysteme und datensatzspezifische Dokumente, einschließlich neuer Anleitungen zum Verständnis und zur Interpretation der Daten. Diese Dokumente werden Forschern bei ihren Analysen helfen, und wir empfehlen allen Benutzern, diese Dokumentation vor ihrer Datenanalyse zu lesen.
Verweise
Landwehrmeyer BG, Fitzer-Attas CJ, Giuliano JD, et al. Datenanalyse von Enroll-HD, einer globalen klinischen Forschungsplattform für die Huntington-Krankheit. Klinische Praxis für Bewegungsstörungen 2016;4: 212–24.
Warner JH, Long JD, Mills JA, Langbehn DR, Ware JJ, Mohan A und Sampaio C. Standardisierung des CAP-Scores bei der Huntington-Krankheit I: Vorhersage des Erkrankungsalters. 2020.
Long JD, Langbehn DR, Tabrizi SJ, et al. Validierung eines prognostischen Index für die Huntington-Krankheit. Mov Disord 2017;32(2):256–263.
Schobel SA, Palermo G, Auinger P, et al. Motorische, kognitive und funktionelle Rückgänge tragen zu einem einzigen progressiven Faktor bei der frühen Huntington-Krankheit bei. Neurologie 2017;89(24):2495–2502.