Sabtu, 09 April 2022

Klasterisasi (Clustering)

Advanced Database - Clustering (Klasterisasi)


Larose, 2014 : Klasterisasi atau pengelompokan (Clustering) adalah clustering mengacu pada pengelompokan catatan, pengamatan, atau kasus ke dalam kelas objek yang sama. Klaster adalah kumpulan catatan yang mirip satu sama lain dan berbeda dengan catatan di kelompok lain.

Clustering berbeda dari klasifikasi karena tidak ada variabel target untuk clustering. 

Tugas pengelompokkan tidak mencoba untuk mengklasifikasikan, memperkirakan, atau memprediksi nilai variabel target.

Clustering sering dilakukan sebagai langkah awal dalam proses penambangan data, dengan cluster yang dihasilkan digunakan sebagai input lebih lanjut ke teknik hilir yang berbeda, seperti jaringan saraf.

Karena ukuran besar dari banyak basis data saat ini, seringkali bermanfaat untuk menerapkan analisis pengelompokan terlebih dahulu, untuk mengurangi ruang pencarian untuk algoritma hilir.

Analisis klaster menemukan banyak masalah, antara lain kita harus menentukan :
    1. Bagaimana mengukur kesamaan
    2. Bagaimana cara pengkodean ulang variabel kategori
    3. Bagaimana cara menstandarkan atau menormalkan variabel numerik
    4. Berapa banyak cluster yang kami perkirakan akan terungkap

Klasterisasi bisa digunakan pada tahap data preparation atau ekstraksi fitur sebelum dilanjutkan proses supervised learning.


0 Comments:

Posting Komentar