Analyse de données longitudinales avec données manquantes

ANALYSE DE DONN´EES LONGITUDINALES AVEC DONN´EES MANQUANTES.

Hélène Jacqmin-Gadda

INSERM U330,

146 rue Léo Saignat

33076 Bordeaux cedex

France

e-mail: helene.jacqmin-gadda@bordeaux.inserm.fr

L'analyse longitudinale de données issues d'enquêtes de cohortes permet d'étudier l'évolution d'une variable en fonction du temps en distinguant le facteur ``âge'' du facteur ``cohorte''. Ces méthodes sont indispensables pour l'étude de la détérioration intellectuelle du sujet âgé. En effet, les enquêtes transversales permettent de décrire l'association entre l'âge et le fonctionnement cognitif mais cette mesure est la résultante de l'effet vieillissement proprement dit, d'un facteur ``cohorte'' et d'éventuels biais liés à la sélection différentielle des sujets selon leur âge.

L'analyse des données longitudinales soulève des problèmes statistiques importants dus à la non-indépendance des observations répétées sur les mêmes sujets et aux données manquantes induites par l'absence de réponse de certains sujets à certains suivis. Des extensions du modèle linéaire ont été proposés pour tenir compte de la non-indépendance des observations (Diggle, 1988; Jones et Boadi-Boateng, 1991) et la méthode du maximum de vraisemblance permet de traiter des données comportant des données manquantes ignorables. Plus récemment, des méthodes ont été proposées pour traiter les données manquantes informatives (Little 1995; Wu et Caroll, 1988; Diggle et Kenward 1994).

Nous présentons une étude par simulations de la méthode d'analyse proposée par Diggle et Kenward (1994) et son application à l'étude de l'évolution du score à un test de raisonnement logique simple, le test des codes de Wechsler, dans une cohorte de personnes âgées.

Modèle linéaire pour données longitudinales

Le modèle de base retenu est un modèle linéaire à effets aléatoires. Soit

, l'ensemble des réponses pour le sujet i; le modèle proposé par Jones et Boadi-Boateng (1991) est défini par :

où

sont des matrices de variables explicatives,

est un vecteur d'effets fixes et

est un vecteur d'effets aléatoires de distribution normale, de moyenne 0 et de matrice de covariance

. Le vecteur

suit une distribution normale, de moyenne 0 et de matrice de covariance

, qui peut présenter une structure autorégressive.

Le vieillissement est modélisé par un polynôme en t où t est le temps écoulé depuis le début de l'étude (T0); l'âge à T0 et le niveau d'études permettent d'évaluer le facteur ``cohorte''.

Classification des données manquantes

Little et Rubin (1987) ont proposé une classification des données manquantes en 3 catégories. Soit Y l'ensemble des réponses partitionné en

, où

représente les réponses réellement observées et

les réponses non observées. Soit R la variable indicatrice de non-réponse: R(t)=0 si Y(t) est observée, R(t)=1 sinon. Lorsque R est indépendante de Y, les réponses sont dites manquantes complètement aléatoirement (missing completely at random, MCAR). Lorsque R dépend des réponses observées

, les réponses sont manquantes aléatoirement (missing at random, MAR). Enfin, les données manquantes sont dites informatives lorsque R dépend des réponses non-observées

Les estimateurs obtenus par la méthode du maximum de vraisemblance ne sont pas biaisés si les données manquantes sont MAR et si les paramètres du modèle pour l'espérance de Y sont distincts des paramètres du processus de non-réponses R: dans ce cas, les données manquantes sont dites ignorables.

Pour des données manquantes non-ignorables, le processus de non-réponse doit être modélisé et la vraisemblance conjointe de

et R est maximisée. Little (1995) propose une intéressante revue des différentes approches. Wu et Caroll (1988) supposent que la distribution de R dépend des paramètres aléatoires

tandis que Diggle et Kenward (1994) définissent la distribution de R directement en fonction de

. Ces deux approches sont proposées pour un processus de non-réponse monotone (si R(t)=1, R(t')=1

Modélisation des données manquantes

Diggle et Kenward ont proposé de modéliser la probabilité de non-réponse en t par un modèle logistique dont les variables explicatives sont Y(s) pour s=1,...,t. Nous proposons de généraliser ce modèle pour inclure d'autres variables explicatives. Notons

l'historique du processus Y jusqu'en j-1 et

, k=1,...,K, les K variables explicatives; la probabilité de non-réponse est donnée par :

où

est la vecteur de paramètres intervenant dans la modélisation du processus Y. On peut tester l'hypothèse de données MAR versus informatives en testant

Etude par simulations

L'objectif était de comparer les estimateurs obtenus sous l'hypothèse MAR et par la méthode de Diggle et Kenward en fonction de la proportion de données manquantes et de la structure de covariance et d'étudier la robustesse des estimateurs et tests à des écarts à l'hypothèse de normalité. Les programmes ont été réalisés en Fortran sous UNIX.

Les résultats montre que lorsque le processus de données manquantes est informatif, l'estimateur du maximum de vraisemblance de la pente est biaisé, d'autant plus que la proportion de données manquantes ou la corrélation entre les réponses sont importantes. Le modèle de Diggle et Kenward permet de corriger le biais sur la pente sans augmenter l'erreur carrée moyenne des autres paramètres. Conformément à notre hypothèse, le test de l'hypothèse d'un processus MAR versus un processus informatif est biaisé si l'hypothèse de normalité n'est pas vérifiée et peut conduire à tort à utiliser le modèle pour données informatives. Dans ce cas, le biais sur l'estimateur de la pente peut être légèrement plus fort comparé au modèle pour données ignorables.

Application

Nous avons étudié l'évolution sur 5 ans du score au test des codes de Wechsler. Il s'agit d'un test de raisonnement logique simple qui consiste à faire correspondre des signes graphiques à des chiffres selon un modèle donné en haut de la feuille. Le score étudié est le nombre de signes correctement associés en 90 secondes.

L'échantillon est composé de 2303 sujets non déments âgés de 65 ans et plus au début de l'étude et vivant à leur domicile en Gironde. Le protocole prévoyait une réévaluation des sujets 1 an et 5 ans après la visite initiale mais 36% des sujets seulement ont été testés trois fois. Les non-réponses sont dues aux refus de participer à certains suivis, à l'interruption de l'interview en cours de questionnaire ou au décés du sujet. Nous avons comparé les résultats obtenus sous l'hypothèse de données manquantes ignorables (méthode du maximum de vraisemblance) et avec la méthode étudiée pour les données manquantes informatives.

La probabilité de non-réponse au temps t dépend du score au test des codes en t et de l'âge initial du sujet et elle est plus élevée à 5 ans qu'à 1 an. Le score au test des codes décroit au cours des 5 années de suivi malgré une légère augmentation entre T0 et T1. La pente dépend de l'âge au début de l'étude. Le niveau d'étude semble expliquer l'essentiel de l'effet cohorte initialement observé.

Diggle P.J. et Kenward M.G. (1994). Informative Drop-out in Longitudinal Data Analysis. Applied Statistics, 43, 49-93.

Jones R.H. et Boadi-Boateng F. (1991). Unequally spaced longitudinal data with AR(1) serial correlation, Biometrics, 47,161-175.

Little R.J.A. (1995). Modeling the drop-out mechanism in repeated-measures studies, Journal of the American Statistical Association.

Little R.J.A. et Rubin D.B. (1987). Statistical Analysis with Missing Data, New York: John Wiley & Sons.

Wu M.C. et Caroll R.J. (1988). Estimation and Comparison of Changes in the Presence of Informative Right Censoring by Modeling the Censoring Process. Biometrics, 44, 175-188.

Introduction

Modèle linéaire pour données longitudinales

Classification des données manquantes

Modélisation des données manquantes

Etude par simulations

Application