Analisis Cluster: Pengertian,Contoh dan Metodenya

Dalam artikel ini, kita akan membahas banyak hal mengenai analisis cluster, meliputi pengretian, contoh, tujuan dan alasan mengapa menggunakan analisis klaster. Selain itu, juga akan dijelaskan jenis-jenis analisis cluster, meliputi analisis cluster hirarki dan non hirarki.

Analisis cluster adalah analisis yang digunakan untuk mengklasifikasikan objek atau observasi yang berbeda ke dalam kelompok (klaster) sehingga kesamaan antara objek dalam kelompok maksimal dan kesamaan antar kelompok minimal. Analisis ini merupakan teknik analisis statistik multivariat yang mengelompokkan observasi berdasarkan beberapa variabel atau feature. Analisis klaster juga merupakan salah satu teknik dalam machine learning yang termasuk ke dalam kelompok unsupervised learning.

Sebelum melanjutkan membaca, artikel ini merupakan bagian dari seri artikel yang menjelaskan tentang Algoritma Machine Learning.

Jika kamu sedang belajar mengenai algoritma machine learning meliputi pengertian, jenis dan macamnya, bagaimana cara kerjanya, silahkan mulai dari artikel ini dan menelusuri tautan-tautan di dalamnya:

Algoritma Machine Learning: Jenis-jenis dan Contoh Algoritmanya.

Daftar Isi Klik untuk lihat

Apa itu cluster analysis?

Analisis klaster atau Cluster analysis adalah analisis yang digunakan untuk mengklasifikasikan objek atau observasi yang berbeda ke dalam kelompok (klaster) sehingga kesamaan antara objek dalam kelompok maksimal dan kesamaan antar kelompok minimal. Analisis ini merupakan teknik analisis statistik multivariat yang mengelompokkan observasi berdasarkan beberapa variabel atau feature.

Analisis klaster juga merupakan salah satu teknik dalam machine learning yang termasuk ke dalam kelompok unsupervised learning.

Tujuan dari cluster analysis adalah membuat kelompok (klaster) dengan memaksimalkan kemiripan dalam kelompok dan memaksimalkan perbedaan antar kelompok.

Dengan demikian, cluster yang baik akan memiliki kriteria:

Homogenitas dalam kelompok (cluster) yang besar/ tinggi
Heterogenitas antar kelompok (cluster) yang besar/ tinggi

Contoh analisis klaster

Analisis sangat berguna untuk mengelompokkan data-data yang belum terlabel.

Beberapa contoh aplikasi cluster analysis adalah:

Segmentasi pasar: memahami karakteristik konsumen/ calon konsumen, misal berdasarkan usia dan pengeluaran.
Segmentasi gambar: untuk aplikasi pengenalan objek
Social Network Analysis (SNA): mengelompokkan tweet atau profile berdasarkan opininya terhadap suatu kasus.
Taksonomi: dalam biologi, analisis klaster adalah alat yang penting untuk klasifikasi organisme.
Medis: identifikasi pasien yang memiliki penyakit dengan penyebab yang sama atau pasien yang harus menerima pengobatan yang sama.

Mengapa melakukan analisis klaster

Kita melakukan analisis cluster karena dengan membagi data atau observasi ke dalam klaster berbeda dapat menunjukkan pola-pola dan informasi serta insight yang mungkin akan berguna.

Untuk lebih memahami data dan fenomena yang kita analisis, kita dapat melakukan klastering berdasarkan variabel atau feature yang berbeda dan menghasilkan klaster-klaster yang berbeda.

Kita harus mampu menginterpretasikan hasil analisis klaster berdasarkan pemahaman mereka tentang data untuk menentukan apakah hasil yang dihasilkan oleh analisis tersebut benar-benar bermakna dan berguna.

Kapan menggunakan analisis klaster

Ada beberapa waktu yang tepat kapan kita menggunakan cluster analysis, antara lain:

Exploratory Data Analysis (EDA): pengelompokkan data ke dalam klaster-klaster akan memberikan insight terkait objek atau fenomena yang dianalisis
Unlabeled data: ketika data kita tidak memiliki label atau keterangan yang menjadi variabel dependent (Y), maka kita bisa gunakan cluster analysis.

Secara umum, kapan pun kita perlu mengklasifikasikan sejumlah besar data ke dalam kategori-kategori yang bermakna, analisis klaster mungkin dapat kita gunakan.

Clustering vs Classification

Clustering adalah peengelompokan data berdasarkan kesamaan dan perbedaannya dengan yang lain berdasarkan variabel atau feature tertentu.

Sedangkan classification atau klasifikasi merupakan proses prediksi data menjadi kelas atau kategori sesuai dengan kelas input yang diberikan.

Meskipun sama-sama melakukan pengelompokkan data berdasarkan kriteria, terdapat beberapa perbedaan dalam hal metode pemelajaran, data yang digunakan, output proses, berikut pengaplikasiannya.

Perbedaan	Clustering	Classification
Metode pembelajaran	Unsupervised	Supervised
Jenis data	Unlabelled data	Labelled data
Output	Tidak ada kelas output tertentu, biasanya berupa nomor klaster, analis melakukan interpretasi.	Kelas output sama dengan input
Contoh aplikasi	Segmentasi pasar, segmentasi gambar, Social Network Analysis (SNA)	Deteksi spam email, Persetujuan Pinjaman Bank.

Perbandingan Clustering dan Classification

Metode analisis klaster

Metode analisis klaster dapat dibagi menjadi dua jenis:

Analisis klaster non hirarki (tidak bertingkat)
Analisis klaster hirarki (bertingkat)

Non hierarchical clustering

Analisis klaster non hirarki melakukan proses pengklasteran secara langsung pada semua observasi yang ada di dataset, sehingga pengklasteran hanya terjadi dalam satu level atau tidak bertingkat.

Beberapa algoritma yang termasuk jenis non hierarchical clustering antara lain:

K-means clustering
K-medoids
DBSCAN

Hierarchical clustering

Sebaliknya, hierarchical clustering atau analisis cluster hirarki menggunakan proses klasterisasi bertingkat.

Hierarchical clustering merupakan analisis yang lebih dahulu digunakan, misal dalam proses pembagian taksonomi hewan di bidang biologi.

Analisis klaster bertingkat dapat dibagi menjadi dua tipe:

Divisive (top-down): dimulai dari klaster yang besar lalu dipisah, dibagi menjadi klaster-klaster yang lebih kecil. Contoh: taksonomi tumbuhan.
Agglomerative (bottom-up): dimulai dari setiap observasi dan dikelompokkan melalui penggabungan klaster secara bertahap, sampai didapatkan satu klaster yang mencakup semuanya.

Analisis cluster hirarki pendekatan agglomeratif dan divisif. Sumber: Quantdare

Berikut ini merupakan ilustrasi pembagian taksonomi yang merupakan contoh dari pendekatan divisif.

Contoh analisis klaster hirarki pendekatan divisif — Contoh analisis klaster hirarki pendekatan divisive: taksonomi kingdom animalia. Sumber: Zenius Blog.

Adapun analisis klaster hirarki dengan pendekatan aglomeratif lebih banyak digunakan karena secara matematis, metode ini lebih akurat dan konsisten.

Logika proses hieararchical clustering

Berikut ini merupakan langkah-langkah proses analisis cluster hirarki menggunakan pendekatan aglomeratif:

Menentukan perhitungan jarak yang akan digunakan sebagai dasar penggabungan klaster. Penentuan kesamaan (similarity) dan jarak (distance) dapat dibaca pad sub bab setelah ini.
Mendefinisikan setiap titik data (observasi) menjadi satu klaster sendiri. Artinya jumlah klaster awal sama dengan jumlah titik data.
Gabungkan 2 klaster terdekat atau memiliki kesamaan paling tinggi menjadi 1 klaster.
Mengulangi langkah 2 secara bertahap, hingga menyisakan satu klaster besar yang berisikan seluruh titik data yang ada.

Untuk lebih memudahkan pemahaman mengenai proses ini, silakan menyimak ilustrasi di bawah ini.

Langkah-langkah proses hierarchical clustering — Langkah-langkah proses analisis klaster hirarki

Dasar penggabungan klaster

Analisis klaster hirarki aglomeratif melakukan penggabungan klaster dengan menghitung jarak terdekat antar klaster.

Jarak (distance) dan kesaman (similarity) memiliki hubungan sebagai berikut:

Jarak = 1 – kesamaan.

Jarak dalam analisis cluster dapat ditentukan dengan menggunakan beberapa metode perhitungan jarak, seperti dengan euclidean distance atau manhattan distance.

Penggabungan klaster menggunakan jarak terdekat ini dapat ditentukan dengan beberapa pendekatan sebagai berikut:

Complete linkage: penentuan jarak antar klaster didasarkan pada jarak dua titik terjauh dari masing-masing klaster.
Single linkage: penentuan jarak antar klaster didasarkan pada jarak dua titik terdekat dari masing-masing klaster.
Average: penentuan jarak antar klaster didasarkan pada jarak rata-rata semua titik dalam satu klaster dengan jarak rata-rata semua titik klaster lainnya.
Centroid: penentuan jarak antar klaster didasarkan pada jarak antar titik tengah (centroid) klaster.
Ward’s method: penentuan jarak antar klaster didasarkan pada perbedaan total sum of square dua klaster.

Untuk lebih jelasnya, silakan simak visualisasi di bawah ini.

Distance between clusters in hierarchical cluster analysis — Penentuan jarak antar klaster dalam analisis cluster hirarki

Hal yang perlu kita perhatikan adalah perbedaan metode penentuan jarak akan sangat mempengaruhi hasil analisis klaster yang dilakukan.

Dengan demikian, kita sebagai analis harus menyesuaikan metode penentuan jarak ini dengan data dan kasus yang kita analisis.

Menentukan jumlah klaster

Salah satu perbedaan antara analisis klaster hirarki dengan non hirarki adalah pada analisis klaster hirarki, penentuan jumlah klaster dilakukan ketika analisis selesai dilakukan.

Melalui proses seperti ini, kesalahan yang disebabkan oleh ketidaktepatan pemilihan jumlah klaster dapat ditekan.

Pertanyaan selanjutnya adalah, bagaimana kita menentukan jumlah klaster optimal pada analisis klaster hirarki?

Salah satu caranya adalah dengan menggunakan dendogram.

Dendogram adalah diagram yang menunjukkan hubungan bertingkat antar objek. Dalam kasus ini, dendogram dapat digunakan untuk visualisasi dari hasil analisis klaster hirarki.

Contoh dendogram. Sumber: Wikipedia by Jacub al13.

Sumbu Y menunjukkan angka kesamaan antara klaster. Artinya jarak vertikal atau tinggi dendogram menunjukkan jarak antara dua klaster. Semakin tinggi, semakin berbeda dua klaster tersebut.

Jumlah garis vertikal menunjukkan jumlah klaster pada setiap tahap penggabungan kelas.

Sebenarnya tidak ada aturan spesifik mengenai penentuan jumlah klaster.

Namun, sebagai panduan, kita dapat menentukannya dengan melihat jarak vertikal antar penggabungan klaster. Semakin panjang garis tersebut, perbedaan klaster semakin besar, maka mungkin itu adalah batas yang tepat untuk jumlah klaster kita.

Meskipun demikian, kita tetap harus sangat berhati-hati dalam menentukan jumlah klaster ini, dan tidak hanya berdasarkan informasi dari dendogram saja.

Kelebihan dan kekurangan analisis cluster

Secara umum, analisis cluster memiliki keunggulan atau kelebihan meliputi pemrosesan yang relatif cepat, algoritma yang sederhana, mudah diterapkan dan tersedia di banyak software, serta dapat digunakan pada data yang belum memiliki label.

Untuk lebih lengkapnya, kita akan bagi sesuai dengan tipe analisis klasternya.

Kelebihan dan kekurangan analisis cluster non hirarki

Beberapa kelebihan non hierarchical clustering antara lain:

Waktu pemrosesan relatif cepat
Algoritma mudah diterapkan
Banyak tersedia di dalam software standar statistika seperti SPSS, SAS, matlab, serta R dan Python

Sedangkan beberapa kelemahannya adalah:

Penentuan jumlah cluster: kita harus menentukan jumlah klaster yang tepat. Perbedaan jumlah klaster dapat memberikan hasil yang berbeda.
Sensitif terhadap pencilan atau outlier. Solusi untu masalah ini adalah dengan menghapus outlier dengan hati-hati dan berbagai pertimbangan.

Kelebihan dan kekurangan analisis cluster hirarki

Analisis klaster hirarki memiliki beberapa kelebihan jika dibandingkan dengan analisis klaster non hirarki. Beberapa kelebihan atau keunggulan tersebut adalah:

Menunjukkan keterhubungan: Analisis klaster hirarki dapat menunjukkan keterhubungan (linkage) antar klaster. Hubungan ini dapat dilihat secara visual dengan menggunakan dendogram.
Memahami data lebih dalam: Adanya informasi mengenai linkage ini membuat kita menjadi lebih mudah lagi dalam memahami data yang kita miliki.
Tidak membutuhkan input variabel jumlah klaster: Pembuatan klaster dilakukan secara bertahap mulai dari jumlah klaster paling besar (sejumlah data) ke yang paling kecil (semua data dalam satu klaster). Hal ini akan mengurangi kesalahan atau bias dalam hal menentukan jumlah klaster.
Banyak metode yang bisa digunakan: Ada banyak metode yang bisa kita gunakan dalam proses menggabungkan klaster. Metode ini dapat kita sesuaikan dengan tipe data dan kasus yang kita analisis.

Sedangkan kekurangan atau kelemahan dari analisis klaster non hirarki adalah dibutuhkan proses komputasi yang tinggi (dan waktu yang lebih lama) untuk menangani data dalam jumlah besar.

Kesimpulan

Melalui artikel ini, kita telah bersama-sama belajar mengenai apa itu analisis cluster, meliputi tujuan, kegunaan, contoh, hingga penjelasan mengenai jenis-jenis metode analisis cluster.

Secara singkat, dapat kita simpulkan bahwa analisis klaster dilakukan untuk mendapatkan kelompok-kelompok yang memiliki kesamaan maksimal dalam kelompok dan perbedaan maksimal antara kelompok.

Analisis cluster merupakan teknik statistika yang juga banyak digunakan dalam machine learning dan data science.

Analisis cluster dapat dibagi menjadi dua:

Analisis klaster non hirarki yang dapat dilakukan dengan algoritma k-means, k-medoids.
Analisis klaster hirarki yang dapat dibedakan berdasarkan metode penentuan jaraknya: complete linkage, single linkage, average, centroid, dan ward method.

Selamat! Kamu telah belajar mengenai Analisis Cluster, baik hirarki maupun non hirarki.

Artikel ini merupakan bagian dari seri artikel yang menjelaskan tentang Algoritma Machine Learning.