Dalam artikel ini, kita akan membahas banyak hal mengenai analisis cluster, meliputi pengretian, contoh, tujuan dan alasan mengapa menggunakan analisis klaster. Selain itu, juga akan dijelaskan jenis-jenis analisis cluster, meliputi analisis cluster hirarki dan non hirarki.
Analisis cluster adalah analisis yang digunakan untuk mengklasifikasikan objek atau observasi yang berbeda ke dalam kelompok (klaster) sehingga kesamaan antara objek dalam kelompok maksimal dan kesamaan antar kelompok minimal. Analisis ini merupakan teknik analisis statistik multivariat yang mengelompokkan observasi berdasarkan beberapa variabel atau feature. Analisis klaster juga merupakan salah satu teknik dalam machine learning yang termasuk ke dalam kelompok unsupervised learning.
Sebelum melanjutkan membaca, artikel ini merupakan bagian dari seri artikel yang menjelaskan tentang Algoritma Machine Learning.
Jika kamu sedang belajar mengenai algoritma machine learning meliputi pengertian, jenis dan macamnya, bagaimana cara kerjanya, silahkan mulai dari artikel ini dan menelusuri tautan-tautan di dalamnya:
Algoritma Machine Learning: Jenis-jenis dan Contoh Algoritmanya.
Apa itu cluster analysis?
Analisis klaster atau Cluster analysis adalah analisis yang digunakan untuk mengklasifikasikan objek atau observasi yang berbeda ke dalam kelompok (klaster) sehingga kesamaan antara objek dalam kelompok maksimal dan kesamaan antar kelompok minimal. Analisis ini merupakan teknik analisis statistik multivariat yang mengelompokkan observasi berdasarkan beberapa variabel atau feature.
Analisis klaster juga merupakan salah satu teknik dalam machine learning yang termasuk ke dalam kelompok unsupervised learning.
Tujuan dari cluster analysis adalah membuat kelompok (klaster) dengan memaksimalkan kemiripan dalam kelompok dan memaksimalkan perbedaan antar kelompok.
Dengan demikian, cluster yang baik akan memiliki kriteria:
- Homogenitas dalam kelompok (cluster) yang besar/ tinggi
- Heterogenitas antar kelompok (cluster) yang besar/ tinggi
Contoh analisis klaster
Analisis sangat berguna untuk mengelompokkan data-data yang belum terlabel.
Beberapa contoh aplikasi cluster analysis adalah:
- Segmentasi pasar: memahami karakteristik konsumen/ calon konsumen, misal berdasarkan usia dan pengeluaran.
- Segmentasi gambar: untuk aplikasi pengenalan objek
- Social Network Analysis (SNA): mengelompokkan tweet atau profile berdasarkan opininya terhadap suatu kasus.
- Taksonomi: dalam biologi, analisis klaster adalah alat yang penting untuk klasifikasi organisme.
- Medis: identifikasi pasien yang memiliki penyakit dengan penyebab yang sama atau pasien yang harus menerima pengobatan yang sama.
Mengapa melakukan analisis klaster
Kita melakukan analisis cluster karena dengan membagi data atau observasi ke dalam klaster berbeda dapat menunjukkan pola-pola dan informasi serta insight yang mungkin akan berguna.
Untuk lebih memahami data dan fenomena yang kita analisis, kita dapat melakukan klastering berdasarkan variabel atau feature yang berbeda dan menghasilkan klaster-klaster yang berbeda.
Kita harus mampu menginterpretasikan hasil analisis klaster berdasarkan pemahaman mereka tentang data untuk menentukan apakah hasil yang dihasilkan oleh analisis tersebut benar-benar bermakna dan berguna.
Kapan menggunakan analisis klaster
Ada beberapa waktu yang tepat kapan kita menggunakan cluster analysis, antara lain:
- Exploratory Data Analysis (EDA): pengelompokkan data ke dalam klaster-klaster akan memberikan insight terkait objek atau fenomena yang dianalisis
- Unlabeled data: ketika data kita tidak memiliki label atau keterangan yang menjadi variabel dependent (Y), maka kita bisa gunakan cluster analysis.
Secara umum, kapan pun kita perlu mengklasifikasikan sejumlah besar data ke dalam kategori-kategori yang bermakna, analisis klaster mungkin dapat kita gunakan.
Clustering vs Classification
Clustering adalah peengelompokan data berdasarkan kesamaan dan perbedaannya dengan yang lain berdasarkan variabel atau feature tertentu.
Sedangkan classification atau klasifikasi merupakan proses prediksi data menjadi kelas atau kategori sesuai dengan kelas input yang diberikan.
Meskipun sama-sama melakukan pengelompokkan data berdasarkan kriteria, terdapat beberapa perbedaan dalam hal metode pemelajaran, data yang digunakan, output proses, berikut pengaplikasiannya.
Perbedaan | Clustering | Classification |
Metode pembelajaran | Unsupervised | Supervised |
Jenis data | Unlabelled data | Labelled data |
Output | Tidak ada kelas output tertentu, biasanya berupa nomor klaster, analis melakukan interpretasi. | Kelas output sama dengan input |
Contoh aplikasi | Segmentasi pasar, segmentasi gambar, Social Network Analysis (SNA) | Deteksi spam email, Persetujuan Pinjaman Bank. |
Metode analisis klaster
Metode analisis klaster dapat dibagi menjadi dua jenis:
- Analisis klaster non hirarki (tidak bertingkat)
- Analisis klaster hirarki (bertingkat)
Non hierarchical clustering
Analisis klaster non hirarki melakukan proses pengklasteran secara langsung pada semua observasi yang ada di dataset, sehingga pengklasteran hanya terjadi dalam satu level atau tidak bertingkat.
Beberapa algoritma yang termasuk jenis non hierarchical clustering antara lain:
- K-means clustering
- K-medoids
- DBSCAN
Hierarchical clustering
Sebaliknya, hierarchical clustering atau analisis cluster hirarki menggunakan proses klasterisasi bertingkat.
Hierarchical clustering merupakan analisis yang lebih dahulu digunakan, misal dalam proses pembagian taksonomi hewan di bidang biologi.
Analisis klaster bertingkat dapat dibagi menjadi dua tipe:
- Divisive (top-down): dimulai dari klaster yang besar lalu dipisah, dibagi menjadi klaster-klaster yang lebih kecil. Contoh: taksonomi tumbuhan.
- Agglomerative (bottom-up): dimulai dari setiap observasi dan dikelompokkan melalui penggabungan klaster secara bertahap, sampai didapatkan satu klaster yang mencakup semuanya.
Berikut ini merupakan ilustrasi pembagian taksonomi yang merupakan contoh dari pendekatan divisif.
Adapun analisis klaster hirarki dengan pendekatan aglomeratif lebih banyak digunakan karena secara matematis, metode ini lebih akurat dan konsisten.
Logika proses hieararchical clustering
Berikut ini merupakan langkah-langkah proses analisis cluster hirarki menggunakan pendekatan aglomeratif:
- Menentukan perhitungan jarak yang akan digunakan sebagai dasar penggabungan klaster. Penentuan kesamaan (similarity) dan jarak (distance) dapat dibaca pad sub bab setelah ini.
- Mendefinisikan setiap titik data (observasi) menjadi satu klaster sendiri. Artinya jumlah klaster awal sama dengan jumlah titik data.
- Gabungkan 2 klaster terdekat atau memiliki kesamaan paling tinggi menjadi 1 klaster.
- Mengulangi langkah 2 secara bertahap, hingga menyisakan satu klaster besar yang berisikan seluruh titik data yang ada.
Untuk lebih memudahkan pemahaman mengenai proses ini, silakan menyimak ilustrasi di bawah ini.
Dasar penggabungan klaster
Analisis klaster hirarki aglomeratif melakukan penggabungan klaster dengan menghitung jarak terdekat antar klaster.
Jarak (distance) dan kesaman (similarity) memiliki hubungan sebagai berikut:
Jarak = 1 – kesamaan.
Jarak dalam analisis cluster dapat ditentukan dengan menggunakan beberapa metode perhitungan jarak, seperti dengan euclidean distance atau manhattan distance.
Penggabungan klaster menggunakan jarak terdekat ini dapat ditentukan dengan beberapa pendekatan sebagai berikut:
- Complete linkage: penentuan jarak antar klaster didasarkan pada jarak dua titik terjauh dari masing-masing klaster.
- Single linkage: penentuan jarak antar klaster didasarkan pada jarak dua titik terdekat dari masing-masing klaster.
- Average: penentuan jarak antar klaster didasarkan pada jarak rata-rata semua titik dalam satu klaster dengan jarak rata-rata semua titik klaster lainnya.
- Centroid: penentuan jarak antar klaster didasarkan pada jarak antar titik tengah (centroid) klaster.
- Ward’s method: penentuan jarak antar klaster didasarkan pada perbedaan total sum of square dua klaster.
Untuk lebih jelasnya, silakan simak visualisasi di bawah ini.
Hal yang perlu kita perhatikan adalah perbedaan metode penentuan jarak akan sangat mempengaruhi hasil analisis klaster yang dilakukan.
Dengan demikian, kita sebagai analis harus menyesuaikan metode penentuan jarak ini dengan data dan kasus yang kita analisis.
Menentukan jumlah klaster
Salah satu perbedaan antara analisis klaster hirarki dengan non hirarki adalah pada analisis klaster hirarki, penentuan jumlah klaster dilakukan ketika analisis selesai dilakukan.
Melalui proses seperti ini, kesalahan yang disebabkan oleh ketidaktepatan pemilihan jumlah klaster dapat ditekan.
Pertanyaan selanjutnya adalah, bagaimana kita menentukan jumlah klaster optimal pada analisis klaster hirarki?
Salah satu caranya adalah dengan menggunakan dendogram.
Dendogram adalah diagram yang menunjukkan hubungan bertingkat antar objek. Dalam kasus ini, dendogram dapat digunakan untuk visualisasi dari hasil analisis klaster hirarki.
Sumbu Y menunjukkan angka kesamaan antara klaster. Artinya jarak vertikal atau tinggi dendogram menunjukkan jarak antara dua klaster. Semakin tinggi, semakin berbeda dua klaster tersebut.
Jumlah garis vertikal menunjukkan jumlah klaster pada setiap tahap penggabungan kelas.
Sebenarnya tidak ada aturan spesifik mengenai penentuan jumlah klaster.
Namun, sebagai panduan, kita dapat menentukannya dengan melihat jarak vertikal antar penggabungan klaster. Semakin panjang garis tersebut, perbedaan klaster semakin besar, maka mungkin itu adalah batas yang tepat untuk jumlah klaster kita.
Meskipun demikian, kita tetap harus sangat berhati-hati dalam menentukan jumlah klaster ini, dan tidak hanya berdasarkan informasi dari dendogram saja.
Kelebihan dan kekurangan analisis cluster
Secara umum, analisis cluster memiliki keunggulan atau kelebihan meliputi pemrosesan yang relatif cepat, algoritma yang sederhana, mudah diterapkan dan tersedia di banyak software, serta dapat digunakan pada data yang belum memiliki label.
Untuk lebih lengkapnya, kita akan bagi sesuai dengan tipe analisis klasternya.
Kelebihan dan kekurangan analisis cluster non hirarki
Beberapa kelebihan non hierarchical clustering antara lain:
- Waktu pemrosesan relatif cepat
- Algoritma mudah diterapkan
- Banyak tersedia di dalam software standar statistika seperti SPSS, SAS, matlab, serta R dan Python
Sedangkan beberapa kelemahannya adalah:
- Penentuan jumlah cluster: kita harus menentukan jumlah klaster yang tepat. Perbedaan jumlah klaster dapat memberikan hasil yang berbeda.
- Sensitif terhadap pencilan atau outlier. Solusi untu masalah ini adalah dengan menghapus outlier dengan hati-hati dan berbagai pertimbangan.
Kelebihan dan kekurangan analisis cluster hirarki
Analisis klaster hirarki memiliki beberapa kelebihan jika dibandingkan dengan analisis klaster non hirarki. Beberapa kelebihan atau keunggulan tersebut adalah:
- Menunjukkan keterhubungan: Analisis klaster hirarki dapat menunjukkan keterhubungan (linkage) antar klaster. Hubungan ini dapat dilihat secara visual dengan menggunakan dendogram.
- Memahami data lebih dalam: Adanya informasi mengenai linkage ini membuat kita menjadi lebih mudah lagi dalam memahami data yang kita miliki.
- Tidak membutuhkan input variabel jumlah klaster: Pembuatan klaster dilakukan secara bertahap mulai dari jumlah klaster paling besar (sejumlah data) ke yang paling kecil (semua data dalam satu klaster). Hal ini akan mengurangi kesalahan atau bias dalam hal menentukan jumlah klaster.
- Banyak metode yang bisa digunakan: Ada banyak metode yang bisa kita gunakan dalam proses menggabungkan klaster. Metode ini dapat kita sesuaikan dengan tipe data dan kasus yang kita analisis.
Sedangkan kekurangan atau kelemahan dari analisis klaster non hirarki adalah dibutuhkan proses komputasi yang tinggi (dan waktu yang lebih lama) untuk menangani data dalam jumlah besar.
Kesimpulan
Melalui artikel ini, kita telah bersama-sama belajar mengenai apa itu analisis cluster, meliputi tujuan, kegunaan, contoh, hingga penjelasan mengenai jenis-jenis metode analisis cluster.
Secara singkat, dapat kita simpulkan bahwa analisis klaster dilakukan untuk mendapatkan kelompok-kelompok yang memiliki kesamaan maksimal dalam kelompok dan perbedaan maksimal antara kelompok.
Analisis cluster merupakan teknik statistika yang juga banyak digunakan dalam machine learning dan data science.
Analisis cluster dapat dibagi menjadi dua:
- Analisis klaster non hirarki yang dapat dilakukan dengan algoritma k-means, k-medoids.
- Analisis klaster hirarki yang dapat dibedakan berdasarkan metode penentuan jaraknya: complete linkage, single linkage, average, centroid, dan ward method.
Selamat! Kamu telah belajar mengenai Analisis Cluster, baik hirarki maupun non hirarki.
Artikel ini merupakan bagian dari seri artikel yang menjelaskan tentang Algoritma Machine Learning.
Jika kamu sedang belajar mengenai algoritma machine learning meliputi pengertian, jenis dan macamnya, bagaimana cara kerjanya, silahkan mulai dari artikel ini dan menelusuri tautan-tautan di dalamnya:
Algoritma Machine Learning: Jenis-jenis dan Contoh Algoritmanya.
Terimakasih artikelnya pa Saddam Hussein. Sy masih belajar Machine Learning menggunakan Orange.
Terima kasih appresiasinya. Sukses selalu ya proses belajarnya.