https://simri.it/
2017 21 DIC

Dati mancanti: come agire?

Avere dati mancanti è un fenomeno frequente in quasi tutte le ricerche.

Ad esempio negli studi longitudinali, i soggetti spesso abbandonano prima che lo studio sia completato o perché hanno cambiato zona di residenza, o perché sono morti o per eventi avversi legati al farmaco così come nelle indagini da questionario può accadere che i partecipanti non conoscano una risposta o ne saltino qualcuna accidentalmente.
Una possibile domanda in presenza di dati mancanti potrebbe essere: cosa sarebbe accaduto sei dati fossero stati completi?
Lo scopo del ricercatore è trovare metodi di analisi o di imputazione dei dati mancanti appropriati al caso sotto studio. La scelta di metodi appropriati dipende dal pattern dei dati mancanti e soprattutto dal meccanismo generatore dei dati mancanti.

La classificazione standard del meccanismo generatore dei dati mancanti (Rubin, 1976) è:
-          missing completely at random (MCAR), cioè il motivo per cui i dati sono mancanti non dipende dai dati osservati o non osservati;
-          missing at random(MAR), ovvero la ragione dei dati mancanti può essere spiegata dai dati osservati;
-          missing not at random(MNAR), cioè il motivo delle osservazioni mancanti è da attribuire ad osservazioni non osservate.

Come agire allora in presenza di dati mancanti? Le strade possono essere:
1.      Analisi dei casi completi / disponibili: una possibilità è quella di scartare le unità le cui informazioni sono incomplete; tuttavia, l'eliminazione di tutte le unità con dati incompleti dall'analisi può essere inefficace e problematica poiché vengono considerate variazioni della dimensione del campione o dimensioni del campione molto ridotte; inoltre, quando il meccanismo dei dati mancanti è MNAR un’ analisi dei casi completi fornirà stime distorte e l’inferenza non sarà valida.

2.      Imputazione dei dati mancanti: una possibilità consiste nell’imputare i valori mancanti in modo che il set di dati risultante sia completo; questo caso è più efficace della cancellazione poiché non vengono sacrificati dati. I metodi disponibili per l'imputazione dei dati mancanti possono essere suddivisi in due categorie principali:
-       Imputazione singola: attribuisce un valore per ogni mancante
-       Imputazione multipla: genera più valori simulati per il valore mancante considerando l'incertezza legata ai dati mancanti.

In conclusione, a meno che la proporzione del problema non sia incerta, l'imputazione singola dovrebbe essere evitata.

Referenze
Little, R. J. A. Rubin, D. B., (2002) Statistical analysis with missing data, 2nd ed.
Wiley.Rubin DB (1976) Inference and missing data. Biometrika, 72:359-364. 

Articolo a cura di Giovanna Cilluffo