Visualisasi data kategorik

Visualisasi data Kategorik Multivariat
Selamat malam sobat!
Pada kesempatan ini saya akan mencoba berbagi cara visualisasi data kategori. Sebelumnya sobat dapat intip materi R Dasar untuk visualisasi data. (Sambil promo :D)

Load package

Load package yang diperlukan diantaranya: ggplot2, ggpubr. Silahkan ikuti perintah dibawah ini pada lembar kerja R.
library(ggplot2)
library(ggpubr)
## Loading required package: magrittr
theme_set(theme_pubr())

Diagram Batang

Pada kasus ini menggunakan data simulasi bawaan package ggplot2 yaitu data HairEyeColor. Kumpulan data rambut, warna mata, dan jenis kelamin pada 592 mahasiswa statistika. Siapkan dan periksa data menggunakan perintah berikut:
data("HairEyeColor")
df <- as.data.frame(HairEyeColor)
head(df)
##    Hair   Eye  Sex Freq
## 1 Black Brown Male   32
## 2 Brown Brown Male   53
## 3   Red Brown Male   10
## 4 Blond Brown Male    3
## 5 Black  Blue Male   11
## 6 Brown  Blue Male   50
  • Membuat diagram batang:
  • variabel Hair color pada sumbu x
  • Ubah perintah fill dengan eye color
  • Bagi grafik menjadi dua bagian berdasarkan sex
ggplot(df, aes(x = Hair, y = Freq))+
  geom_bar(
    aes(fill = Eye), stat = "identity", color = "white",
    position = position_dodge(0.9)
    )+
  facet_wrap(~Sex) + 
  fill_palette("jco")

Balloon plot

Diagram balon atau balloon plot merupakan alternatif dari diagram batang untuk visualisasi data kategori yang besar. Kali ini menggunakan fungsi ggballoonplot() untuk menggambarkan grafik dari tabel kontigensi. Dimana masing-masing sel mengandung titik yang ukurannya merupakan refleksi dari besarnya komponen yang ada.
Pada simulasi ini menggunakan dataset: data.Silahkan di Unduh :D
data = read.csv("E://BLOG/MATERI/VISUALISASI DATA KATEGORIK MULTIVARIATE/book1.csv", sep = ";", header = TRUE, row.names = 1)
head(data)
##          Ikan Invertrebata Reptil Burung Lain
## Hancock    30            4      3      5   16
## Oklawa     18           19      7      1    3
## Trafford   13           18      8      4   10
## George     33           20      1      3    6
  • Perintah membuat balloon plot sederhana dari tabel kontigensi.
library(viridis)
## Loading required package: viridisLite
ggballoonplot(data, fill = "value")+
  scale_fill_viridis(option = "C")

  • Dengan menggunakan dataset HairEyeColor ciptakan plot berganda berdasarkan jenis kelamin.
df <- as.data.frame(HairEyeColor)
ggballoonplot(df, x = "Hair", y = "Eye", size = "Freq",
              fill = "Freq", facet.by = "Sex",
              ggtheme = theme_bw()) +
  scale_fill_viridis(option = "C")

Mosaic Plot

Mosaic plot pada dasarnya adalah visualisasi proporsi area dari frekuensi variabel observasi, yang berbentuk horizontal dan vertikal persegi panjang. Luas masing-masing tile sebanding dengan data yang diberikan.
Mosaic plot dapat dibuat dengan menggunakan funsgi mosaicplot(). Contohnya seperti berikut:
library(vcd)
## Loading required package: grid
mosaic(HairEyeColor, shade = TRUE, legend = TRUE) 

Sekian, semoga bermanfaat!

Menyimpan data dalam bentuk file

Pada kesempatan ini, saya akan berbagi sedikit pengetahuan bagaimana cara menyimpan data ke bentuk file sesuai keinginan. Sebelumnya, sobat tentukan dulu lokasi direktori untuk menyimpan datanya. Caranya seperti pada bab sebelumnya:


pada kasus ini, saya mengatur lokasi direktori di folder BLOG > CONTOH. Sobat dapat menyesuaikan dengan lokasi folder yang diinginkan pada pc sobat. Pada contoh ini akan digunakan simulasi iris dataset yang terdapat pada package bawaan R.


Command write.csv() digunakan untuk menulis file yang berisi nilai-nilai yang dipisahkan oleh koma. Untuk menyimpan dataset iris ke lokasi direktori yang telah ditentukan, maka sobat dapat menuliskan sintaks seperti diatas. Uraian penjelasan sintaks diatas yaitu sobat ingin mengubah iris (objek yang ingin disimpan) dengan nama "contoh1.csv".  Mudah bukan? mari kita lihat hasilnya setelah di eksekusi. 




Command write.table betujuan untuk menulis file yang nilai-nilainya dipisahkan oleh tab. Sebagai contoh diatas, maka saya akan menyimpan data iris kedalam file bernama "contoh2.txt".



Direktori Kerja program R

Working directory??


Working directory atau direktori kerja adalah folder aktif pada suatu sesi kerja pada R. Pengguna hanya dapat mengakses file script R dan data file yang hanya berada pada direktori kerja. Jika pengguna ingin mengakses data diluar direktori kerja, maka harus menuliskan lokasi folder dengan nama file yang spesifik.


Dibawah ini adalah contoh untuk memanggil data yang berada pada working directory.



Kemudian dibawah ini adalah contoh mengakses data yang berada di luar working directory.


perintah diatas mempunya arti, penulis ingin mengakses data yang berada dilokasi folder Blog > Materi > Working Directory > dan nama file yang ingin diakses adalah contoh.csv. Perintah sep = ";" berarti penulis memberikan identifikasi pemisah antara kata dengan tanda ";".


Mengetahui lokasi working directory


Untuk mendapatkan informasi direktori kerja yang terbaru dapat menggunakan fungsi getwd(). Dibawah ini adalah contoh penggunaan perintah dan hasil keluarannya




Mengubah/Menentukan working directory

Jika sobat ingin membaca file dari lokasi spesifik atau membuat file dan menyimpannya di lokasi spesifik maka sobat perlu menentukan lokasi direktori kerja di R. Contoh dibawah ini memperlihatkan bagaimana menentukan direktori kerja di R ke dalam folder "SETDW" diantara folder Blog pada direktori E. 


Ingat bahwa sobat harus menggunakan forward slash / atau double backlash \\ pada R. Jika menggunakan single backlash akan mengalami error.

Sekian, semoga bermanfaat. Sampai jumla lagi!

----
Referensi
  1. Anon. 2016. How to set working directory  in R. Diakses daring pada  http://rprogramming.net/set-working-directory-in-r/ tanggal 8 November 2017.
  2. Reza, M. Faisal.  2016. Seri Belajar Data Science Klasifikasi dengan Bahasa Pemrograman R.


Terpopuler