Supervised dan Unsupervised Learning: Penjelasan, Perbedaan dan Contoh

supervised learning dan unsupervised learning

Dalam ranah machine learning dan data science, istilah supervised learning dan unsupervised learning kerap terdengar. Apa pengertian dua istilah tersebut? Apa perbedaannya?

Perbedaan utama antara supervised learning dan unsupervised learning adalah penggunaan data. Supervised learning menggunakan data berlabel (labelled data), sedangkan unsupervised learning menggunakan data tanpa label (unlabeled data). Supervised learning digunakan untuk tugas-tugas klasifikasi dan regresi, misal dalam kasus object recognition, predictive analysis dan sentiment analysis. Unsupervised learning digunakan untuk kasus-kasus klastering, asosiasi dan dimensionality reduction.

Sebelum melanjutkan membaca, artikel ini merupakan bagian dari seri artikel yang menjelaskan tentang Algoritma Machine Learning.

Jika kamu sedang belajar mengenai algoritma machine learning meliputi pengertian, jenis dan macamnya, bagaimana cara kerjanya, silahkan mulai dari artikel ini dan menelusuri tautan-tautan di dalamnya:

Algoritma Machine Learning: Jenis-jenis dan Contoh Algoritmanya.

Pengertian supervised dan unsupervised learning

Untuk lebih memahami supervised dan unsupervised learning, kita perlu memahami jenis data yang dapat dibagi menjadi dua, yaitu data dengan label (labelled data) dan data tanpa label (unlabelled data).

Labelled vs unlabelled data

Data berlabel (labelled data) adalah data yang memiliki label berupa “tag”, atau kelas yang biasanya dijadikan output model. Sedangkan data yang tidak berlabel (unlabelled data) adalah data yang tidak memiliki label yang digunakan sebagai output pemodelan.

Misal kita memiliki dataset berupa kumpulan foto hewan. Jika setiap foto di tag dengan, misalnya nama hewan, maka ini merupakan data berlabel. Label ini bukan hanya berupa data kategori tetapi juga data numerik. Lihat ilustrasi yang saya ambil dariGrokking Machine Learning berikut ini.

Labeled dan unlabeled data. Sumber: Grokking Machine Learning

Apa itu supervised learning?

Supervised learning atau pembelajaran yang diawasi adalah pendekatan machine learning yang ditentukan berdasarkan penggunaan dataset berlabel (labeled dataset). Dalam dataset ini, terdapat sebuah “label”, yaitu satu kolom yang menjadi target output model.

Dalam supervised learning, model dilatih menggunakan dataset training dan diawasi (supervise) untuk melakukan klasifikasi atau prediksi sesuai dengan output berupa data berlabel yang sudah ditentukan sebelumnya, berdasarkan pola yang ada dalam data training.

Supervised machine learning dapat dibagi menjadi dua jenis, yaitu:

  • Klasifikasi
  • Regresi

Klasifikasi merupakan proses pembelajaran machine learning dengan menerapkan algoritme tertentu untuk secara akurat menetapkan data uji ke dalam kategori tertentu.

Sebagai contoh supervised learning, machine diberikan daftar gambar yang diberi label apel dan pisang. Kemudian model hasil pembelajaran ini digunakan untuk proses klasifikasi gambar-gambar buah untuk dikelaskan menjadi buah apel atau pisang.

Beberapa algoritma machine learning populer yang dapat digunakan untuk proses klasifikasi antara lain:

Sedangkan regresi adalah tipe lain dari metode supervised learning yang menggunakan algoritma untuk memahami hubungan antara variabel dependen dan independen, dan melakukan prediksi nilai numerik variabel dependen berdasarkan variabel independent.

Contoh proses ini adalah prediksi harga tanah berdasarkan lokasi dan luas tanah.

BACA JUGA:  Apa Itu R dan Apa Perbedaannya dengan RStudio

Beberapa algoritma populer yang dapat digunakan untuk proses klasifikasi antara lain:

  • linear regression,
  • Classification and Regression Tree (CART),
  • dan random forest regression.

Apa itu unsupervised learning?

Unsupervised learning merupakan metode pembelajaran dengan menggunakan algoritme machine learning untuk menganalisis dan mengelompokkan kumpulan data yang tidak berlabel (unlabelled data). Algoritme ini menemukan pola tersembunyi dalam data tanpa perlu campur tangan manusia, sehingga disebut dengan unsupervised (tanpa pengawasan).

Unsupervised learning digunakan untuk melakukan:

  • clustering
  • asosiasi
  • dimensionality reduction

Clustering adalah teknik machine learning untuk mengelompokkan data tidak berlabel (unlabelled data) berdasarkan persamaan atau perbedaannya. Contoh machine learning paling populer untuk analisis cluster adalah K-Means clustering yang sering digunakan dalam proses analisis kelompok konsumen.

Asosiasi adalah jenis unsupervised learning yang dilakukan dengan menerapkan aturan berbeda untuk menemukan hubungan antara variabel dalam sebuah dataset. Analisis asosiasi sering digunakan untuk pembangunan mesin rekomendasi, misal kolom rekomendasi barang berdasarkan pembelian atau pencarian sebelumnya.

Dimensionality reduction adalah teknik untuk mengurangi jumlah variabel atau feature data input atau data training. Proses ini dilakukan karena kita data dengan variabel yang sangat besar atau sering disebut dengan high dimensional data. Data seperti ini lebih menantang jika dilakukan pemodelan, sering disebut kutukan dimensionalitas (dimensionality curse).

Cara kerja supervised dan unsupervised learning

Terdapat perbedaan antara pendekatan atau cara kerja supervised learning dan unsupervised learning.

Supervised learning dan unsupervised learning dalam machine learning
Supervised learning dan unsupervised learning dalam machine learning. Sumber: Alex Knight

Cara kerja algoritma supervised learning

Baik dalam tugas klasifikasi maupun regresi, supervised learning di awali dengan pembangunan model melalui proses training.

Proses ini dilakukan dengan melatih model untuk melakukan klasifikasi atau regresi berdasarkan dataset training. Dataset training ini merupakan data berlabel. Model dilatih untuk mengenali pola-pola dalam data setiap kelas output.

Selanjutnya, model ini kemudian diterapkan pada dataset baru. Hasilnya dataset baru ini akan memiliki nilai yang baru (untuk proses regresi) atau terkelaskan dalam kelas yang baru (dalam proses klasifikasi).

Cara kerja algoritma unsupervised learning

Berbeda dengan supervised learning, metode unsupervised learning tidak melakukan pembangunan model melalui proses training.

Pada unsupervised learning, sebuah algoritma akan diterapkan pada dataset untuk kemudian didapatkan hasilnya. Pada tugas klastering, hasil dari proses ini adalah klaster-klaster atau kelompok data yang terpisah berdasarkan kesamaan atau ciri tertentu.

Ilustrasi metode supervised learning dan unsupervised learning

Untuk lebih memahami perbedaan cara kerja kedua proses pembelajaran, simak contoh di bawah ini.

Bayangkan kita akan memisahkan buah apel dengan buah pisang.

Pada supervised learning, buah dalam keranjang A sudah diberi label yaitu Pisang dan Apel.

Selanjutnya, model dilatih untuk membedakan Apel dan Pisang berdasarkan karakteristiknya (atau istilahnya: feature), misal berdasarkan warna, bentuk, dan beratnya.

Setelah model terbaik didapatkan, maka model ini akan diterapkan pada keranjang buah B, di mana buah-buah di dalamnya belum diberi label.

Hasilnya, buah-buah di dalam keranjang B ini kemudian akan diberikan label sesuai prediksi model, apakah itu buah Pisang atau Apel.

Sayangnya, kita hanya melakukan training model untuk membedakan Pisang dan Apel. Jadi jika ada buah Jeruk dalam keranjang kedual, maka Jeruk ini pasti akan salah terlabel Pisang, atau terlabel Apel.

Kita dapat menerapkan unsupervised learning pada keranjang di mana buah-buahnya belum diberi label.

Misal, kita menerapkan sebuah algoritma klaster seperti K-means clustering pada keranjang buah B. Kita hanya perlu menentukan jumlah kelas (atau dalam hal ini berapa jenis buah) yang ada dalam keranjang kita.

Jika kita tentukan ada 2 kelas, maka algoritma akan memisahkan buah-buah dalam keranjang menjadi dua klaster, misal Klaster X dan Klaster Y.

Tugas kita selanjutnya adalah memberi label pada setiap klaster.

Sayangnya, hasil pengklasteran ini bisa jadi tidak memberikan hasil pengelompokkan yang kita inginkan (misal Apel vs Pisang).

BACA JUGA:  Pengertian Big Data: Teknologi, Analisis, Kelebihan dan Kekurangannya

Bisa jadi juga kita bisa memisahkan Apel dan Pisang, tetapi ternyata kita baru tahu kalau ada Jeruk dalam keranjang kita, dan masuk ke dalam kelompok Apel (karena lebih mirip).

Lihat ilustrasi di gambar ini:

Cara kerja supervised dan unsupervised learning
Cara kerja supervised learning dan unsupervised learning. Sumber: Yan, dkk., 2018

Contoh penerapan supervised dan unsupervised learning

Supervised learning telah banyak diterapkan dalam banyak kasus. Berikut beberapa di antaranya:

  • Object recognition. Algoritma supervised learning dapat digunakan untuk menemukan, mengisolasi, dan mengkategorikan objek dari video atau gambar, menjadikannya berguna ketika diterapkan pada berbagai teknik computer vision dan analisis citra.
  • Predictive analysis. Algoritma supervised learning sangat populer digunakan untuk keperluan ini. Menggunakan data-data kejadian yang sudah terjadi di masa lalu, teknik supervised learning digunakan untuk memprediksi kondisi atau trend di masa depan.
  • Sentiment analysis: Menggunakan algoritma supervised learning, kita dapat mengekstrak dan mengklasifikasikan informasi penting dari data termasuk mendeteksi “emosi” manusia. Proses ini sangat berguna, misal untuk mengetahui persepsi konsumen terhadap produk tertentu, melalui sentiment analysis pada kolom review produk di sebuah toko online.

Beberapa algoritma yang termasuk dalam supervised learning adalah

Sedangkan contoh penerapan metode unsupervised learning antara lain:

  • Mesin Rekomendasi. Menggunakan data sebelumnya, unsupervised learning dapat membantu menemukan tren data yang dapat digunakan untuk memberikan rekomendasi produk, sehingga konsumen dapat tertarik untuk melakukan pembelian kembali.
  • Segmentasi pasar/ konsumen. Unsupervised learning dapat digunakan untuk membantu mendefinisikan persona konsumen. Proses ini membuat lebih mudah untuk memahami ciri-ciri umum dan kebiasaan pembelian oleh konsumen. Melalui proses ini, penyedia produk/ jasa dapat melakukan evaluasi strategi pemasaran yang tepat, seperti kapan waktu pemberian diskon yang paling menguntungkan.
  • Deteksi anomali. Unsupervised learning dapat digunakan untuk menyisir data dalam jumlah besar dan menemukan titik data yang “berbeda” atau “aneh” dalam kumpulan data. Deteksi anomali ini dapat bermanfaat untuk menemukan kemungkinan adanya kesalahan manusia atau kerusakan alat rekam yang menyebabkan datanya jauh berbeda dengan yang lain.

Beberapa contoh algoritma unsupervised learning adalah:

Alasan penggunaan supervised dan unsupervised learning

Selanjutnya, kita akan menjawab pertanyaan, mengapa kita menggunakan supervised atau unsupervised learning.

Supervised dan unsupervised learning memiliki kelebihan dan kelemahan masing-masing.

Simak kelebihan dan kelemahan kedua pendekatan pembelajaran di bawah ini.

Kelebihan dan kelemahan supervised learning

Kelebihan/ keunggulan
  • Output hasil model sesuai dengan input di dataset training,sehingga kita bisa mengatur kelas output (misal, jumlah kelas) dengan mudah
  • Hasil yang dihasilkan lebih akurat dan andal dibandingkan dengan hasil yang dihasilkan unsupervised learning
  • Secara logika lebih mudah dipahami dan dijelaskan prosesnya
  • Sangat berguna untuk melakukan analisis prediksi
Kelemahan/ kekurangan/ tantangan
  • Memerlukan tingkat keahlian tertentu untuk menyusun model secara akurat.
  • Proses training bisa sangat memakan waktu.
  • Hasilnya sangat bergantung pada dataset training.
  • Kesalahan dalam proses sampling akan sangat berpengaruh pada hasil model
  • Dataset input dengan label yang salah akan memberikan hasil yang salah, meskipun model memiliki akurasi tinggi
  • Tidak dapat mengelompokkan atau mengklasifikasikan data sendiri.
  • Tidak dapat memberikan informasi yang belum diketahui dari data

Kelebihan dan kelemahan unsupervised learning

Kelebihan/ keunggulan unsupervised learning
  • Tidak perlu label data, sehingga menghindari proses melabel data membutuhkan effort waktu dan tenaga yang tinggi,
  • Proses pelabelan dapat dilakukan saat data sudah terklaster, sehingga proses labeling lebih cepat
  • Sangat bermanfaat jika digunakan untuk memahami data yang masih raw (exploratori analysis) atau mencari pola di dalam data.
  • Tidak diperlukan atau sedikit diperlukan pengetahuan sebelumnya tentang data kita
  • Peluang kesalahan manusia diminimalkan.
  • Relatif mudah dan cepat untuk dilaksanakan.
  • Melalui dimensionality reduction, data yang kompleks dapat direduksi dimensionalitasnya.
BACA JUGA:  Tutorial Menggunakan RStudio untuk R Programming, Statistika dan Data science
Kelemahan/ kekurangan/ tantangan unsupervised learning
  • Kompleksitas komputasi karena volume data pelatihan yang tinggi
  • Risiko hasil yang tidak akurat lebih tinggi
  • Intervensi manusia dibutuhkan untuk memvalidasi variabel keluaran
  • Kurangnya transparansi dalam proses pengelompokan data

Kapan menggunakan supervised dan unsupervised learning?

Jawaban dari pertanyaan ini cukup sederhana. Dari sisi data, jika kita memiliki data berlabel, lebih baik kita gunakan supervised learning.

Sebaliknya, jika data kita ridak berlabel, kita bisa menggunakan unsupervised learning.

Selain itu, pemilihan supervised dan unsupervised learning itu juga sudah sangat jelas, bergantung pada tujuan dan “kasus” apa yang akan kita pecahkan dengan machine learning.

Jika kasus kita memerlukan proses klasifikasi atau regresi, kita gunakan supervised learning.

Kita bisa gunakan unsupervised learning untuk kasus atau masalah yang memerlukan proses clustering, asosiasi, dan dimensionality reduction.

Perbedaan supervised dan unsupervised learning

Perbedaan antara supervised learning dan unsupervised learning terletak pada data, tujuan, proses training, dan proses evaluasi hasil.

Data

Perbedaan utama antara supervised learning dan unsupervised learning adalah penggunaan data. Supervised learning menggunakan data berlabel (labelled data), sedangkan unsupervised learning menggunakan data tanpa label (unlabeled data).

Tujuan

Supervised machine learning dapat dibagi menjadi dua jenis tugas, yaitu:

  • Klasifikasi
  • Regresi

Unsupervised learning digunakan untuk melakukan tugas-tugas:

  • clustering
  • asosiasi
  • dimensionality reduction

Proses training

Supervised learning menggunakan dataset training untuk membangun model, yang kemudian diterapkan pada dataset baru.

Sedangkan pada unsupervised learning, pembangunan model melalui proses training tidak dilakukan, melainkan langsung menerapkan algoritma pada data kita.

Evaluasi

Perbedaan selanjutnya antara supervised learning dan unsupervised learning adalah proses evaluasi model.

Evaluasi model pada proses supervised learning dilakukan dengan melakukan perhitungan-perhitungan tertentu berdasarkan test data.

Supervised learning untuk proses klasifikasi, model dievaluasi dengan:

  • Confussion matrix (precision and recall)
  • ROC (Receiver Operating Characteristic)
  • AUC (Area Under ROC Curve)

Sedangkan untuk tugas regresi, model dapat dievaluasi dengan:

  • Mean Absolute Error,
  • Mean Squared Error,
  • Root Mean Squared Error

Evaluasi dalam proses unsupervised learning dilakukan dengan lebih subjektif. Kinerja metode unsupervised akan sangat bergantung pada mengapa kita melakukan pembelajaran, apakah metode tersebut berkinerja baik dalam konteks tujuan kita. Meskipun, ada juga penilaian kuantitatif yang dapat dilakukan, misal dengan menghitung indeks validitas yaitu indeks eksternal dan indeks internal pada proses clustering.

Selain empat perbedaan utama di atas, beberapa aspek pembeda antara keduanya adalah pada algoritma dan aplikasinya.

Untuk memudahkan, silahkan baca rangkuman perbedaannya dalam tabel berikut.

Aspek pembedaSupervisedUnsupervised
Label dataData berlabelData tanpa label
TujuanKlasifikasi, prediksi, regresiKlastering, asosiasi, dimensionality reduction
Proses training modelAdaTidak ada
Proses evaluasiMenggunakan test data Dievaluasi secara subjektif,
Contoh algoritmalinear regression, random forest, SVMK-means, hierarchical clustering, DBSCAN
Contoh aplikasiObject recognition, predictive analysisMesin rekomendasi, segmentasi pasar
Perbedaan supervised learning vs unsupervised learning

Semi-supervised learning

Semi-supervised learning adalah pendekatan machine learning dengan mengkombinasikan data berlabel dan data tidak berlabel dalam proses trainingnya. Dalam praktiknya, biasanya jumlah data yang tidak berlabel lebih banyak daripada data yang ada labelnya.

Semi-supervised learning dapat digunakan atau dapat membedakan menjadi induktive learning dan transductive learning.

Umumnya, pembelajaran induktif mengacu pada algoritme pembelajaran yang belajar dari dataset training berlabel dan diterapkan ke dataset baru.

Sedangkan pembelajaran transduktif mengacu pada pembelajaran dari data training berlabel dan generalisasi ke data tidak berlabel (pada dataset training) yang tersedia.

Kesimpulan

Perbedaan utama antara supervised learning dan unsupervised learning adalah penggunaan data. Supervised learning menggunakan data berlabel (labelled data), sedangkan unsupervised learning menggunakan data tanpa label (unlabeled data).

Selamat! Kamu telah belajar mengenai supervised learning dan unsupervised learning.

Artikel ini merupakan bagian dari seri artikel yang menjelaskan tentang Algoritma Machine Learning.

Jika kamu sedang belajar mengenai algoritma machine learning meliputi pengertian, jenis dan macamnya, bagaimana cara kerjanya, silahkan mulai dari artikel ini dan menelusuri tautan-tautan di dalamnya:

Algoritma Machine Learning: Jenis-jenis dan Contoh Algoritmanya.

About The Author

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top