Statistika deskriptif: pengertian, fungsi, perbedaan statistik deskriptif dan inferensial, dan contoh perhitungannya

statistika deskriptif

Statistika deskriptif digunakan untuk mendeskripsikan, meringkas dan membuat summary data agar lebih mudah dibaca dan digunakan.

Statistika deskriptif dibedakan dengan statistik inferensial. Statistika deskriptif bertujuan untuk memberikan ringkasan dari sampel data dan tidak menggunakan data untuk membuat kesimpulan atas populasi.

Di dalam tulisan ini, akan dijelaskan mengenai statistika deskriptif, meliputi pengertian, perbedaannya dengan statistika inferensial, fungsi statistika deskriptif, hingga bagaimana melakukan analisis statistika deskriptif menggunakan tabel, grafis dan numerik, berikut contohnya.

Namun sebelumnya, mari kita kembali melihat statistika itu apa.

Pengertian statistika
definisi statistika
Photo by Lukas from Pexels

Pengertian statistika

Statistika adalah cabang dari ilmu matematika yang berhubungan dengan bagaimana cara merencanakan, mengumpulkan, menganalisis, menginterpretasikan, dan mempresentasikan data.

Statistika sangat bermanfaat untuk banyak hal.

Memahami statistika sangat membantu kita memahami banyak informasi yang semakin ke sini semakin banyak ditampilkan menggunakan statistika.

Memahami statistika membuat pemahaman kita terhadap data dan informasi lebih terstruktur.

Kita juga bisa memanfaatkan statistika dalam berbagai hal, misalnya, kita bisa menyampaikan informasi dengan lebih jelas dengan menggunakan statistika deskriptif terutama menggunakan grafik.

Statistika digunakan untuk mengukur parameter dari populasi berdasarkan sampel dan menghitung ketidakpatian dalam pengukuran tersebut. 

Dengan menghitung aspek ketidakpastian ini, statistik memungkinkan kita untuk melihat seberapa jauh hasil pengukuran kita jika dibandingkan dengan keadaan aslinya.

Perhitungan-perhitungan ini dapat dimanfaatkan untuk menyelesaikan masalah dalam sebuah penelitian, pengembangan bisnis, manajemen resiko dan berbagai hal lainnya.

Statistika sendiri dapat dibedakan menjadi dua jenis yaitu statistika deskriptif dan statistika inferensial.

Perbedaan statistika deskriptif vs statistika inferensial

Sesuai namanya, statistika deskriptif merupakan proses melakukan kategorisasi dan pendeskripsian informasi. Sedangkan statistika inferensial mencakup proses analisis pada sampel data dan digunakan untuk membuat pendugaan populasi di mana sampel diambil.

Statistika deskriptif kurang lebih merupakan metode untuk merangkum informasi yang telah kita kumpulkan. Rangkuman informasi biasa ditampilkan dalam bentuk grafik atau dalam bentuk nilai rata-rata, persentase dan yang lainnya.

Statistika inferensial dilakukan dengan membuat kesimpulan tentang suatu populasi berdasarkan sampel yang terbatas. Proses ini berkaitan erat dengan proses pendugaan estimasi terhadap parameter.

Statistika deskriptif bertujuan untuk memberikan ringkasan dari sampel data dan tidak menggunakan data untuk membuat kesimpulan atas populasi.

Berikut ringkasan perbedaan statistika deskriptif dan statistika inferensial:

Tabel perbedaan statistika deskriptif dan statistika inferensial

KunciDeskriptifInferensial
TujuanMenyajikan dataMenarik kesimpulan dari populasi berdasarkan data
Bentuk hasil akhirTabel, grafik, koefisienKemungkinan/ probabilitas
Tabel perbedaan statistika deskriptif dan statistika inferensial
perbedaan statistika deskriptif dan statistika inferensial
statistika deskriptif vs inferensial
Statistika deskriptif vs inferensial

Adapun dalam tulisan ini, sesuai judul, akan dibahas lebih lanjut mengenasi statistika deskriptif.

Pengertian statistika deskriptif

Secara ringkas, statistika deskriptif merupakan cara-cara untuk mendeskripsikan data kita.

Statistika deskriptif adalah metode-metode yang berkaitan dengan pengumpulan dan penyajian data sehingga memberikan informasi yang berguna.

pengertian statistika deskriptif
Statistika deskriptif
Photo by Lukas from Pexels

Statistika deskriptif memberikan ringkasan sederhana dari sampel dan pengamatan yang kita sudah lakukan.

Ringkasan ini dapat berbentuk angka (kuantitatif) seperti ringkasan statistik (mean, median, dll) dan secara visual misalnya dengan diagram batang atau diagram garis.

Saya berikan contoh.

Bayangkan kita punya dataset yang berisi nilai Ujian Nasional dari semua siswa kelas 6 di sebuah sekolah dasar A.

Daripada kita menyebutkan nilai setiap siswa satu per satu, untuk menceritakan datanya, kita dapat menyebutkan statistiknya saja, misal nilai tertinggi, nilai terendah dan nilai rata-rata.

Alternatif yang lain, kita dapat menggunakan diagram batang untuk menampilkan distribusi nilai UN, atau menggunakan pie diagram untuk melihat proporsi datanya.

Nah, sesuai dengan penjelasan-penjelasan sebelumnya, angka-angka dan grafik yang dibuat hanya untuk mendeskripsikan data dari siswa kelas 6 di SD A, dan tidak boleh digunakan untuk menyimpulkan nilai UN untuk populasi yang lebih besar, misal untuk tingkat provinsi.

Dari contoh tersebut, kumpulan data kita akan tersaji dengan ringkas dan rapi serta dapat memberikan informasi inti dari data yang kita miliki dengan menggunakan statistika deskriptif.

BACA JUGA:  Cara Download dan Install R dan R Studio

Fungsi statistika deskriptif

Pertanyaan selanjutnya adalah, apa pentingnya statistika deskriptif dan mengapa kita memerlukannya?

Fungsi statistika deskriptif
Photo by fauxels from Pexels

Statistika deskriptif sangat bermanfaat untuk dua hal:

  1. menyediakan informasi dasar tentang variabel dalam dataset, dan
  2. menonjolkan potensi hubungan antar variabel.

Statistika deskriptif sangat penting karena jika kita hanya memunculkan data asli yang kita miliki, informasi dan insight dari data tersebut sangat sulit didapatkan, apalagi jika datanya memiliki record yang sangat besar.

Dalam hal ini, statistika deskriptif memungkinkan kita untuk menampilkan data dengan lebih jelas dan bermakna, sehingga interpretasi terhadap data tersebut mudah dilakukan.

Sebagai contoh, kita memiliki data tentang nilai UN matematika dari pelajar SMU di Provinsi Aceh. Kita akan lebih tertarik dengan nilai rata-rata, nilai tertinggi, dan distribusi datanya.

Dalam konteks data science dan machine learning, setelah mendapatkan data, kita tidak bisa langsung menerapkan algoritma dan membuat prediksi begitu saja.

Tentu, pertama kali kita perlu memahami data yang kita miliki. Tahap ini biasa disebut dengan Exploratory Data Analysis (EDA). Dalam EDA, pengetahuan mengenai statistika deskriptif akan sangat membantu.

Tipe atau jenis data

Tipe data
tipe data numerikal
tipe data kategorikal
tipe data diskrit
tipe data kontinyu

Data dapat kita bagi menjadi:

  • data kategorikal
  • data numerikal

Data kategorikal

Data kategorikal merupakan data yang menggambarkan data yang terklasifikasi berdasarkan kategori atau kelas tertentu.

Data kategorikal tidak bisa dihitung secara kuantitatif sehingga tidak dapat menerima operasi matematik seperti penjumlahan dan perkalian.

Contoh data kategorikal:

  • jenis kelamin
  • pendapat setuju vs tidak setuju
  • warna

Data numerikal

Data numerikal adalah kelompok data yang menunjukkan nilai atau kuantitas.

Data ini dapat menerima operasi matematik.

Kelompok data numerikal memiliki dua sub kelompok yaitu:

  • Data diskrit (discrete)
  • Data kontinyu (continue)

Data Numerikal Diskrit

Data diskret merupakan data dengan nilai bilangan bulat, biasanya didapatkan dari proses pencacahan (pembilangan).

Contoh dari data diskrit:

  • Jumlah penduduk
  • Jumlah kejadian kecelakan lalu lintas
  • Jumlah temuan jejak harimau

Data Numerikal Kontinyu

Data kontinyu adalah kumpulan data yang didapatkan melalui proses pengukuran, sehingga memungkinkan adanya nilai negatif dan bilangan pecahan.

Contoh data kontinu:

  • Panjang jalan
  • Berat badan
  • Tinggi badan

Penyajian data

Data yang sudah kita kumpulkan atau yang kita dapatkan dari sumber lain biasanya berupa matriks data.

Atau bahasa sederhananya, dalam bentuk tabel.

Mari kita ingat kembali, matriks data terdiri atas variabel, case, observation

penyajian data

Data dalam matriks data, biasanya berupa data yang sangat banyak sehingga sulit dibaca.

Data tersebut perlu dirangkum dan ditampilkan dalam bentuk yang lebih sederhana.

Penyajian data dapat dibagi menjadi

  1. Tabel
  2. Grafis
  3. Numerik

Untuk memahami penyajian data menggunakan statistik deskriptif, setelah ini kita akan gunakan contoh data di bawah ini.

Contoh data: Nilai UN SDN Wano

Dengan menggunakan contoh data ini, kita akan membedah penyajian dan visualisasi data, mulai dari penjelasannya, hingga perhitungan dan cara membuatnya.

Perlu dicatat bahwa metode penyajian data statistika deskriptif pada tulisan ini hanya dasar saja, dan tentu masih ada metode-metode turunannya.

1. Penyajian data: tabel

Kunci dalam membuat tabel adalah tabel harus memberikan informasi yang dapat dimengerti oleh pembaca. Informasi dalam tabel ini harus diusahakan seringkas mungkin.

Terdapat perbedaan penyajian berdasarkan jenis datanya: kategorik vs numerik.

a. Tabel: kategorikal

Tabel frekuensi

Tabel frekuensi memuat data kualitatif (kategorikal) dalam bentuk frekuensi. Jika jumlah data banyak, biasanya ditampilkan pula frekuensi dalam persen.

Menggunakan contoh data yang sudah diberikan, berikut adalah contoh tabel frekuensi yang menunjukkan frekuensi siswa berdasarkan jenis kelamin.

Tabel Kontingensi

Tabel kontingensi digunakan untuk melihat distribusi dari dua data kategorikal atau lebih.

Nilai yang ditampilkan dapat berupa persen baris, persen kolom, sesuai kebutuhan.

Menggunakan contoh data yang sudah diberikan, berikut adalah contoh tabel frekuensi yang menunjukkan frekuensi siswa berdasarkan jenis kelamin dan desa asal.

b. Tabel: numerikal

Tabel distribusi frekuensi kelompok

Tabel distribusi frekuensi kelompok digunakan untuk membuat pengelompokkan data numerik.

Tabel ini berisi nilai yang telah dikelaskan, frekuensi masing-masing kelas, serta frekuensi relatif masing-masing kelas.

Cara membuat tabel distribusi frekuensi kelompok

  • Tentukan jumlah kelas (misal gunakan Sturges’ rule ): k =3.3 log (n)+1)
  • Tentukan lebar kelas : l = (Xmax- Xmin)/k
  • Tentukan batas atas dan batas bawah dari masing-masing kelas
  • Tentukan tepi batas kelas
  • List jumlah pengamatan pada masing-masing kelas
  • Frekuensi Relatif : cari proporsi dari masing-masing kelas

Tabel Ringkasan

Tabel ringkasan statistik memuat statistik data, diantaranya jumlah data, rataan, median, simpangan baku, minimum, dan maksimum.

BACA JUGA:  Analisis deforestasi dengan R menggunakan Hansen dataset dan gfcanalysis package

Selalu hindari memberikan terlalu banyak informasi dalam tabel ringkasan ini.

2. Penyajian data: grafis

Grafik lebih cepat mengungkapkan informasi dibandingkan
dengan tulisan dan tabel.

Penyajian data dengan grafik juga dibagi berdasarkan tipe datanya.

a. Grafis: kategorikal

Pie Chart

Pie chart atau diagram pie digunakan untuk menampilkan data kategorik khususnya data nominal.

Penyajian ini menunjukkan distribusi data dalam group (total 100%).

Setiap kelas data disajikan dalam bentuk %, terkadang perlu menyajikan pula jumlah data.

Cara membuatnya adalah membuat tabel frekuensi terlebih dahulu, lalu membuat diagramnya.

Contoh: Grafik siswa berdasarkan jenis kelamin

cara membuat diagram pie
cara membuat pie diagram

Informasi mengenai pie chart dapat dibaca di sini dan di sana.

Jika jumlah kelas terlalu banyak, pie chart dihindari karena akan sangat sulit dibaca.

Ketika jumlah kelas banyak, jangan gunakan pie chart.

Gunakan bar chart.

Bar Chart

Bar chart berguna untuk menampilkan data kategorikal.

Meskipun demikian, dapat pula digunakan untuk menyajikan data dari tabel kontingensi / tabel ringkasan data

Contoh: Grafik siswa berdasarkan jenis kelamin

cara membuat diagram batang

Informasi mengenai bar chart dapat dibaca di sini dan di sana.

b. Grafis: numerikal

Histogram

Histogram digunakan untuk menunjukkan sebaran frekuensi dari data numerikal. Bisa distribusi dari frekuensi-nya atau frekuensi relatif-nya

Histogram dapat digunakan untuk melihat:

  • Ukuran penyebaran dan ukuran pemusatan data
  • Adanya data outlier
  • Mendeteksi ada bimodus/tidak

Contoh: Histogram untuk nilai B. Inggris

cara membuat histogram

Oke mungkin datanya kurang ideal untuk contoh.

Hal yang dapat dimodifikasi dalam pembuatan histogram adalah ukuran bin atau ukuran interval yang digunakan dalam klasifikasi nilai di sumbu x.

Perbedaan bin size dapat membuat perbedaan histogram seperti ini.

Lebih lanjut mengenai histogram dapat dibaca di sini dan di sana.

Boxplot

Boxplot digunakan untuk menunjukkan pemusatan dan penyebaran data dengan menggunakan kuartil, bentuk sebaran, dan outlier atau data ekstrim.

Anatomi boxplot adalah sebagai berikut: (sumber)

apa itu box plot

Jika kita gunakan data contoh kita:

Contoh:

cara membuat box plot

Lebih lanjut mengenai boxplot dapat dibaca di sini dan di sana.

Penyajian data: numerik

Penyajian data secara numerik dilakukan dengan menggunakan ringkasan dari data.

Hal ini bertujuan untuk mendeskripsikan data dan mengetahui karakteristik data secara sesederhana tetapi memiliki tetap
dapat menjelaskan data secara keseluruhan

Penyajian data secara numerik secara umum dapat dibagu menjadi dua yaitu:

  1. Ukuran pemusatan (measurement of central tendency)
  2. Ukuran penyebaran (measurement of spread)

Namun, ada juga yang melakukan pengelompokan dengan lebih rinci, meliputi:

  1. Ukuran frekuensi (measurement of frequency)
  2. Ukuran pemusatan (measurement of central tendency)
  3. Ukuran penyebaran (measurement of spread)
  4. Ukuran posisi (measurement of position)

Mari kita bedah satu-persatu.

Ukuran frekuensi

Ukuran frekuensi menunjukkan seberapa sering suatu kejadian terjadi.

Frekuensi biasa ditunjukkan dengan jumlah rekaman dan persentase.

Cara menghitung presentase adalah jumlah rekaman/ jumlah keseluruhan data x 100%.

Data frekuensi sering ditampilkan menggunakan tabel frekuensi, juga diagram baik diagram batang maupun pie.

Ukuran pemusatan

Ukuran pemusatan merupakan gambaran (informasi) yang menunjukkan bahwa data mungkin memiliki satu (atau lebih) titik di mana data-data terkumpul atau terpusat.Ukuran pemusatan digunakan untuk menunjukkan suatu nilai

Ukuran pemusatan dinyatakan dalam bentuk:

  • mean (rata-rata)
  • modus (mode)
  • median

Mean (rata-rata)

Mean merupakan nilai rata-rata dari dataset kita.

Cara menghitungnya adalah dengan menjumlahkan semua data yang terdapat dalam dataset, dibagi dengan banyaknya data.

Misal kita hitung rata-rata nilai B.Ing dari data contoh kita.

Caranya seperti ini:

  • Jumlahkan semua data= 3+8+8+9+9+6+7+8+9+4= 71.
  • Lalu bagi dengan total pengamatan = 71/10 = 7.1

Hasilnya, mean dari nilai B.Ing = 7.1

Modus (mode)

Modus atau mode merupakan nilai pengamatan yang paling sering muncul.

Dalam satu dataset, dapat pula terdapat lebih dari satu modus.

Cara mencarinya dapat dengan menggunakan tabel frekuensi.

Misal kita hitung modus dari data nilai Mtk = 5 (4 kali muncul).

Median

Median merupakan nilai yang membagi dua sama banyak kumpulan data yang sudah diurutkan.

Untuk penjelasan cara menghitungnya, kita gunakan data nilai Mtk dari data contoh kita.

Caranya seperti ini.

  • Urutkan data dari kecil ke besar

3, 5, 5, 5, 6, 6, 7, 8, 9, 9

  • Lihat banyak data (ganjil vs genap) –> 10
  • Cari posisi median ((n+1)/2) — > 6 dan 6
  • Tentukan nilai median

Karena nilainya tidak bulat (5,5) maka kita gunakan rata-rata data uurtan no 5 (X5= 6) dan 6 (X6= 6).

Berarti nilai median adalah = (6+6)/2 = 6.

Ukuran penyebaran

Ukuran penyebaran menyatakan sebaran dataset.

Ukuran penyebaran dinyatakan dengan:

  • Jangkauan/Rentang (range)
  • Variansi (variance)
  • Standar deviasi (standard deviation)
BACA JUGA:  Belajar R langsung dari ahlinya: Kopdar useR Indonesia, Bogor

Jangkauan

Jangkauan menunjukkan interval dari data kita.

Jangkauan merupakan suatu ukuran yang dihitung dari selisih pengamatan terkecil dengan pengamatan terbesar.

Jangkauan merupakan ukuran untuk mengukur penyebaran data yang simetris, di mana nilai pengamatannya menyebar merata.

Namun, ukuran ini dapat menjadi tidak relevan jika pengataman maksimum dan minimum merupakan outlier atau data-data yang ekstrim.

Contoh perhitungan jangkauan kita lakukan dengan menggunakan kolom nilai MTK.

Jangkauan dapat dihitung dengan mudah yaitu:

  • Pertama, urutkan data dari kecil ke yang paling besar.

3, 5, 5, 5, 6, 6, 7, 8, 9, 9

  • Ambil nilai minimum (3) dan nilai maksimum (9).
  • Kemudian hitung jangkauan dengan rumus nilai maksimum-nilai minimum.

9-3=6

Ragam/ Variansi

Ragam menunjukkan perbedaan antara data dengan rata-ratanya.

Ragam atau variansi merupakan ukuran penyebaran data yang
mengukur rata-rata jarak kuadrat semua titik pengamatan
terhadap titik rata-rata.

Kita menggunakan nilai ragam untuk menunjukkan bagaimana persebaran data. Nilai ini berguna untuk melihat bagaimana penyebaran data mempengaruhi nilai rata-rata (mean).

Standar deviasi

Standar deviasi atau simpangan baku merupakan akar dari ragam.

Standar deviasi biasa digunakan untuk mengukur sebaran dari distribusi.

Seperti ragam, standar deviasi menunjukkan seberapa jauh data dengan rata-ratanya.

Standar deviasi semakin besar jika jarak antar pengamatan dengan rata-ratanya semakin besar. Sebaliknya, standar deviasi semakin kecil jika jarak antara pengamatan dengan rata-ratanya semakin kecil.

Standar deviasi lebih sering digunakan daripada variansi (ragam), meskipun pada beberapa kasus, ragam lebih berguna.

Cara menghitung ragam dan simpangan baku

Mari kita kembali pada tabel data kita.

Contoh data

Kita akan hitung ragam dan simpangan baku untuk kolom nilai B,Ing.

Pertama, kita hitung mean. Mean atau rata-rata nilai B.Ing adalah 7,1 (lihat contoh perhitungan mean di atas).

Selanjutnya, kita hitung simpangan (deviasi). Simpangan merupakan perbedaan antara pengamatan dengan rata-rata.

Angka ini didapatkan dengan menghitung nilai pengamatan-nilai rata-rata.

Kemudian, kita hitung nilai kuadrat (pangkat dua) dari setiap simpangan.

Buat tabel seperti ini untuk memudahkan perhitungan.

Selanjutnya, gunakan rumus ini untuk menghitung ragam:

rumus menghitung ragam
rumus menghitung variasi

Maka ragam dari data kita adalah= 40,90/(10-1) = 40,90/9 = 4,54.

Sedangkan simpangan baku merupakan akar dari ragam. Sehingga nilai akar dari 4,54 = 2,13.

Ukuran posisi

Persentil

Persentil adalah pembagian data terurut menjadi 100 buah bagian sama banyak.

Dari 100 buah bagian yang dibagi sama banyak tersebut, dibatasi oleh 99 buah nilai persentil.

Kuartil

Kuartil adalah membagi data terurut menjadi empat sama banyak.

Dari 4 buah bagian yang dibagi sama banyak tersebut, dibatasi oleh 3 buah nilai persentil.

Jarak antar kuartil (Interquartile
Range)

Jarak antar kuartil mengukur penyebaran 50% data
di tengah-tengah setelah data diurut.

Ukuran penyebaran ini merupakan ukuran penyebaran data
yang terpangkas 25% yaitu dengan membuang 25% data yang
terbesar dan 25% data terkecil.

Cara menghitung jarak antar kuartil

Langkah-langkah ini diambil dari website Biostatistic.

  • Mengurutkan data dari terkecil hingga tertinggi, lalu membaginya menjadi dua sama besar, atau pada mediannya.
cara menghitung jarak antar kuartil
  • Cari median dari bagian 50% bawah. Nilai ini disebut kuartil pertama (Q1). Q1 membagi data menjadi 2, yaitu 25% pertama dan 25% kedua.
cara menghitung IQR
  • Ulangi langkah kedua pada bagian 50% atas. Nilai ini disebut kuartil ketiga (Q3). Q3 membagi data menjadi 2, yaitu 25% ketiga dan 25% keempat.
cara menghitung interquartile range
  • Sejumlah 50% data antara Q1 hingga Q3 merupakan jarak antar kuartil.
cara menghitung jarak kuartil

Cara terbaik untuk menampilkan IQR adalah dengan menggunakan boxplot.

Wrap up

Mean, median, atau modus?

Nilai ukuran pusat yang tepat untuk digunakan tergantung pada sifat data, sifat distribusi frekuensi dan tujuan.

Jika data kualitatif, hanya modus yang dapat digunakan.

Sebagai contoh, apabila kita tertarik untuk mengetahui jenis tanah yang khas di suatu lokasi, atau pola tanam di suatu daerah, kita dapat menggunakan modus.

Di sisi lain, jika data bersifat kuantitatif, kita dapat menggunakan salah satu dari ukuran nilai pusat tersebut. Jika data bersifat kuantitatif, kita harus mempertimbangkan sifat distribusi frekuensi gugus data tersebut.

Apabila distribusi data normal, semua dapat digunakan.

Namun, mean lebih sering digunakan dibanding yang lainnya.

Bila distribusi frekuensi data tidak normal, median atau modus merupakan ukuran pusat yang tepat.

Demikian juga jika terdapat nilai-nilai ekstrim, maka nilai mean tidak tepat digunakan, sehingga bisa menggunakan nilai modus atau median.

Standar deviasi vs Jarak antar kuartil

Standar deviasi dihitung menggunakan kuadrat dari simpangan, sehingga standar deviasi lebih sensitif terhadap data ekstrim (outlier) daripada nilai mean.

Jika terdapat nilai ekstrim, atau terdapat kemencengan baik menceng ke kiri maupun ke kanan, maka jarak antar kuartil lebih tepat untuk digunakan.

Bagikan ke temanmu:
Share on facebook
Share on twitter
Share on linkedin
Share on whatsapp
Share on telegram
Tentang penulis:

Leave a Comment

Your email address will not be published. Required fields are marked *

CONTENT

Artikel terkait:
Sedang belajar R di RStudio? Pelajari di sini:Pelajari lebih lanjut..
Scroll to Top