Come definire la modalità di visualizzazione dei dati in R

Un geom ggplot2 in R racconta la trama come si desidera visualizzare i dati. Ad esempio, si utilizza geom_bar () per fare un grafico a barre. In ggplot2, è possibile utilizzare una varietà di GEOMs predefiniti per fare tipi standard di trama.

Un geom definisce il layout di uno strato ggplot2. Ad esempio, ci sono GEOMs per creare grafici a barre, grafici a dispersione e diagrammi di linea (così come una varietà di altri terreni).

Ogni geom ha una statistica di default, e ogni stat ha un geom default. In pratica, è necessario specificare solo uno di questi.

Geom Descrizione Stat Predefinito
geom_bar () Grafico a barre stat_bin ()
geom_point () Dispersione stat_identity ()
geom_line () Schema di Linea, collegando le osservazioni in ordinato da x -value stat_identity ()
geom_boxplot Box-and-whisker plot stat_boxplot ()
geom_path Schema di Linea, osservazioni di collegamento in modo originale stat_identity ()
geom_smooth Aggiungi un media condizionato lisciato stat_smooth ()
geom_histogram Un alias per geom_bar () e stat_bin () stat_bin ()

Come creare un grafico a barre utilizzando ggplot2 in R

Per fare un grafico a barre si utilizza la funzione geom_bar (). Si noti tuttavia che la stat di default è stat_bin (), che viene utilizzato per tagliare i dati in bidoni. Pertanto, il comportamento predefinito di geom_bar () è quello di creare un istogramma.

Ad esempio, per creare un istogramma della profondità dei terremoti nel terremoti dataset, effettuare le seguenti operazioni:

> Ggplot (terremoti, aes (x = profondità)) + geom_bar ()
> Ggplot (terremoti, aes (x = profondità)) + geom_bar (binwidth = 50)

Si noti che la mappatura definisce solo la variabile asse x (in questo caso, tremiti $ profondità). Un argomento utile per geom_bar () è binwidth, che controlla la dimensione dei bidoni che i vostri dati è tagliato in.

Quindi, se geom_bar () fa un istogramma di default, come si fa a fare un grafico a barre? La risposta è che bisogna prima di aggregare i dati, e quindi specificare il stat argomento = "identità" nella chiamata a geom_bar ().

Nel prossimo esempio, si utilizza aggregato () per calcolare il numero di terremoti in diversi strati di profondità:

> Quakes.agg <- aggregato (mag ~ round (profondità, -1), dati = terremoti,
+ FUN = lunghezza)
> Nomi (quakes.agg) <- c ("profondità", "mag")

Ora è possibile tracciare il quakes.agg oggetto con geom_bar (stat = "identità"):

> Ggplot (quakes.agg, aes (x = profondità, y = mag)) +
+ Geom_bar (stat = "identità")

In sintesi, è possibile utilizzare geom_bar () per creare un istogramma e lasciate ggplot2 riepilogare i dati, o è possibile pre-riepilogare i dati e quindi utilizzare stat = "identità" per tracciare un grafico a barre.

Come definire la modalità di visualizzazione dei dati in R

Come fare un grafico a dispersione in ggplot2

Per creare un grafico a dispersione, si utilizza la funzione geom_point (). Un grafico a dispersione crea punti (o, talvolta, bolle o altri simboli) sul grafico. Ogni punto corrisponde a una osservazione nei dati.

Youâ € ve probabilmente visto o ha creato questo tipo di grafici un milione di volte, così sai già che utilizzano il sistema a dispersione, in cui una variabile è mappata la asse x e una seconda variabile è mappata la asse y di coordinate cartesiane.

Esattamente nello stesso modo, in ggplot2 si crea una mappatura tra asse x ed asse y variabili. Quindi, per creare un grafico dei dati tremiti, di mappare terremoti $ lungo la asse x e terremoti $ lat al asse y:

Come definire la modalità di visualizzazione dei dati in R

> Ggplot (terremoti, aes (x = lunghezza, y = lat)) + geom_point ()

Come creare grafici a linee ggplot2

Per creare un grafico a linee, si utilizza la funzione geom_line (). È possibile utilizzare questa funzione in un modo molto simile a geom_point (), con la differenza che geom_line () disegna una linea tra punti consecutivi nei dati.

Questo tipo di grafico è utile per i dati di serie temporali di frame di dati, come ad esempio i dati sulla popolazione del built-in Longley dataset. Per creare un grafico a linee di dati sulla disoccupazione, si utilizza il seguente:

Come definire la modalità di visualizzazione dei dati in R

> Ggplot (Longley, aes (x = Anno, y = Disoccupato)) + geom_line ()