Come per analizzare i dati in tabelle con R

È possibile utilizzare la funzione di R prop.test () per i dati in matrici e tabelle. Per prop.test (), queste tabelle necessario avere due colonne con il numero di conteggi per i due possibili risultati.

Come testare contingenza di tabelle

In alternativa, è possibile utilizzare la funzione chisq.test () per analizzare le tabelle con chi-quadrato (χ 2) prova di contingenza. Per fare questo sulla matrice con i dati delle cinture di sicurezza, è sufficiente effettuare le seguenti operazioni:

> Chisq.test (seatbelt.table)

Questo restituisce il seguente output:

Test chi-quadrato di Pearson con correzione di continuità Yates '
dati: i sopravvissuti
X-squared = 24,3328, df = 1, p-value = 8.105e-07

I valori per la statistica (X-squared), i gradi di libertà, e il valore p sono esattamente le stesse con la funzione prop.test (). È prevedibile, perché - in questo caso, almeno - entrambi i test sono equivalenti.

Come testare tabelle con più di due colonne

A differenza della funzione prop.test (), la funzione chisq.test () può trattare con tabelle con più di due colonne e anche con più di due dimensioni. Per illustrare questo, diamo un'occhiata alla HairEyeColor tavolo. Potete vedere la struttura con il seguente codice:

> Str (HairEyeColor)
Tabella [1: 4, 1: 4, 1: 2] 32 53 10 3 11 50 10 30 10 25 ...
- Attr (*, "dimnames") = Elenco di 3
.. $ Capelli: chr [1: 4] "Black" "Brown" "Red" "Blond"
.. $ Occhi: chr [1: 4] "Brown" "Blue" "Hazel" "Green"
.. $ Sesso: chr [1: 2] "Maschio" "Femmina"

Quindi, la tabella HairEyeColor ha tre dimensioni: una per il colore dei capelli, uno per il colore degli occhi, e uno per il sesso. La tabella rappresenta la distribuzione di queste tre funzioni tra 592 studenti.

I nomi delle dimensioni di una tabella vengono memorizzati in un attributo denominato dimnames. Come si può vedere dalla uscita della funzione str (), questo è in realtà una lista con i nomi per le righe / colonne di ogni dimensione. Se questa lista è una lista di nome, i nomi sono usati per etichettare le dimensioni. È possibile utilizzare i dimnames () per estrarre o modificare i nomi delle dimensioni.

Per verificare se il colore dei capelli e colore degli occhi sono correlati, è possibile comprimere la tabella per i primi due dimensioni utilizzando la funzione margin.table () per riassumere i capelli e colore degli occhi per entrambi i sessi. Questa funzione somma i valori in alcune dimensioni per darvi una tabella riassuntiva con meno dimensioni. Per questo, è necessario specificare che i margini si desidera conservare.

Quindi, per ottenere la tabella di colore dei capelli e degli occhi, si utilizza il seguente:

> HairEyeMargin <- margin.table (HairEyeColor, margine = c (1,2))
> HairEyeMargin
Occhio
Capelli Marrone Blu Nocciola Verde
Nero 68 20 15 5
Brown 119 84 54 29
Red 26 17 14 14
Biondi 7 94 10 16

Ora si può semplicemente verificare se i capelli e colore degli occhi sono legati da test su questa tabella:

> Chisq.test (HairEyeMargin)
Test chi-quadrato di Pearson
Dati: HairEyeMargin
X-squared = 138.2898, df = 9, p-value <2.2e-16

Come previsto, l'uscita di questo test indica che alcune combinazioni di colore dei capelli e degli occhi sono più comuni di altri. Non è una grande sorpresa, ma è possibile utilizzare queste tecniche su altre questioni di ricerca più interessanti,.