Come trattare con valori di dati mancanti in R

La funzione cor () in R può trattare con valori mancanti di dati in più modi. Per questo, è possibile impostare l'uso argomento uno dei possibili valori di testo. Il valore per l'argomento utilizzo è particolarmente importante se si calcolano le correlazioni delle variabili in un frame di dati. Impostando questo argomento per valori diversi, è possibile

  • Utilizzare tutte le osservazioni impostando uso = 'tutto'. Questo significa che se un valore NA thereâ € s in una delle variabili, la correlazione risultante è NA pure. Questa è l'impostazione predefinita.
  • Escludere tutte le osservazioni che hanno NA per almeno una variabile. Per questo, si imposta usare = 'complete.obs'. Si noti che questo può lasciare con poche osservazioni se i valori mancanti si diffondono attraverso il set di dati completo.
  • Escludi osservazioni con NA valori per ogni coppia di variabili si esamina. Per questo, è possibile impostare l'uso argomento = 'a coppie'. Questo assicura che è possibile calcolare la correlazione per ogni coppia di variabili, senza perdere informazioni a causa di valori mancanti nelle altre variabili.

In realtà, è possibile calcolare diverse misure di correlazione. Per impostazione predefinita, R calcola il coefficiente di correlazione di Pearson standard. Per i dati che non è distribuita normalmente, è possibile utilizzare la funzione di cor () per calcolare la correlazione di Spearman, o tau Kendallâ € s. Per questo, è necessario impostare l'argomento metodo per il valore appropriato.