Écrit par Jen Ware et Jeff Long
Avant que vous commenciez…
Une brève liste d'éléments que nous pensons importants à prendre en compte avant de vous lancer dans votre analyse.
Êtes-vous au « dos d’une enveloppe » de votre étude ? Fantastique. C'est le moment idéal pour lire ceci. Plus loin ? Ça va aussi. J'espère qu'il y aura des conseils utiles ici, pour l'instant ou la prochaine fois. Pensez-vous que vous savez déjà tout cela ? Génial! Aucune des réponses ci-dessus? Eh bien, nous promettons que cette introduction durera moins de trois minutes.
D'accord, voici donc notre liste de éléments que nous pensons importants à prendre en compte avant de vous lancer dans votre analyse :
Tout d’abord, assurez-vous de définir clairement votre question de recherche et vos objectifs . Cela peut paraître évident, mais même les professionnels chevronnés peuvent avoir du mal à répondre à des questions et à des objectifs vaguement définis. Cela peut ouvrir la porte à toutes sortes de problèmes plus tard (continuez à lire).
Ensuite, recherchez la littérature. Cette question a-t-elle déjà été abordée ? Adéquatement ? Qu’ajoute la recherche que vous proposez ? Toutes les bonnes choses à présenter clairement dès le départ (et utiles à avoir sous la main lors de la rédaction de votre partie « Research in Context » pour des revues comme Lancet Neurology).
Ensuite : quel est votre population d'intérêt? Sur quel type ou groupe d’individus souhaitez-vous pouvoir tirer des conclusions ? Par exemple, les personnes au début/à la fin de la maladie ? Et comment allez-vous opérationnaliser (c'est-à-dire définir pratiquement) cette population cible ? Votre population d'intérêt peut être très restreinte (par exemple, tous les violonistes français pré-symptomatiques, ambidextres avec une longueur de répétition CAG de 47) ou très large (par exemple, tous les porteurs de l'expansion du gène MH).
Et donc, les données ! Mais attendez, existe-t-il : a) des données appropriées, et b) suffisamment de données, pour vous permettre de répondre de manière robuste et rigoureuse à votre question de recherche ? C'est ce qu'on appelle une étude de faisabilité. Vous voudrez vous assurer que le nombre d'individus d'intérêt dans votre ensemble de données (c'est-à-dire la taille de votre échantillon) est suffisamment grand pour générer des résultats significatifs (pas toujours faciles à définir !). Vos analyses doivent être correctement alimentées pour détecter l’effet qui vous intéresse. Si une analyse de puissance n'est pas appropriée (par exemple, si l'étude est exploratoire et qu'aucune statistique inférentielle ne sera rapportée), cela doit être explicitement indiqué dans votre plan d'analyse statistique.
En parlant d’analyses… nous recommandons fortement travailler avec un statisticien tout au long du processus de recherche (pas seulement lorsque vous voulez que quelqu'un exécute votre modèle mixte linéaire). Un statisticien peut travailler avec vous pour formuler des objectifs de recherche clairement définis, concevoir un plan d'analyse statistique, effectuer des analyses de puissance/taille d'échantillon et aider à la communication et à l'interprétation des résultats, ainsi qu'au traitement et à l'analyse de vos données.
Avons-nous mentionné un plan d'analyse statistique? Oui. Et nous allons en parler davantage ici car ils constituent un élément essentiel de toute étude rigoureusement menée. Votre plan d’analyse statistique (SAP) – que vous pourriez envisager pré-enregistré – devrait clairement aborder les points suivants :
Objectifs: Quels sont vos objectifs d’études (primaire, secondaire, exploratoire) ?
Base de données: Quel(s) ensemble(s) de données utiliserez-vous et comment votre population d'intérêt sera-t-elle définie opérationnellement ?
Mesures d'intérêt: Quelles sont vos mesures d'intérêt (résultat, exposition, covariables) ? Êtes-vous sûr que les variables capturent les mesures d’intérêt que vous envisagez ? Nous vous recommandons de vous lier d'amitié avec le support de données Documentation.
Nettoyage des données: En quoi consisteront votre nettoyage de données et votre contrôle qualité ? Par exemple, comment allez-vous identifier les valeurs aberrantes dans votre ensemble de données ? Pré-spécifiez votre méthode et envisagez de rapporter les résultats avec et sans valeurs aberrantes.
Données manquantes: Comment allez-vous gérer les données manquantes ?
Méthodes statistiques: Quelles méthodes statistiques utiliserez-vous pour votre analyse ? Les caractéristiques de votre variable de résultat dictent souvent la méthode statistique (par exemple, résultat continu ou binaire), tout comme le moment des mesures (par exemple, transversales ou longitudinales), ou l'atteinte d'un événement marquant (par exemple, le temps écoulé entre la naissance et le diagnostic moteur).
Variables modificatrices et de confusion: Quels modificateurs importants et/ou variables confusionnelles devriez-vous inclure dans votre analyse ? La terminologie varie, mais les modificateurs sont des variables qui interagissent les unes avec les autres (par exemple, la longueur des répétitions CAG et l'âge peuvent interagir de telle sorte que la combinaison d'un CAG long et d'un âge avancé est associée à une progression bien plus importante que ne peuvent l'expliquer les variables individuelles, c'est-à-dire les principaux effets). L'interaction entre la longueur des CAG et l'âge est généralement modélisée, alors que l'interaction des variables avec le sexe peut être importante dans certains contextes, et l'interaction des variables avec l'éducation pour les variables cognitives. Les facteurs de confusion sont des variables qui affectent à la fois un résultat et un prédicteur pour provoquer une association fausse entre les deux (par exemple, les participants au programme Enroll-HD qui ont des antécédents de consommation de drogues présentent des signes moteurs plus légers que ceux qui n'ont pas d'antécédents, mais l'association est fausse parce que les premiers ont tendance à avoir des expansions CAG plus courtes. Dans ce cas, la longueur du CAG est un facteur de confusion dans la relation fausse entre les antécédents de consommation de drogues et les signes moteurs). N'oubliez pas de considérer, le cas échéant, le moment auquel les valeurs des covariables seront tirées.
Traitement de la multiplicité. Si vous étudiez plusieurs résultats/associations, procéderez-vous à des ajustements pour tenir compte de plusieurs comparaisons ? Décrivez si une correction du taux d'erreur par famille ou du taux de fausses découvertes sera effectuée, et à quel niveau (et assurez-vous de signaler toutes les analyses effectuées).
Assurer la reproductibilité. Considérer le pré-enregistrement de votre plan d'analyse et l'archivage des scripts d'analyse.
Enfin, un petit merci à notre Ressources d'analyse section. Découvrez les nouvelles données Documentation hub, et vous pouvez également en savoir plus sur les ressources de conseil statistique disponibles, telles que le l'Independent Statistical Standing Committee..