Pengertian, kekurangan dan kelebihan Algoritma K-Nearest Neighbour
Algortima K-Nearest Neighbour
Algortima KNN merupakan sebuah metode untuk melakukan klasifikasi terhadap obyek baru berdasarkan (K) tetangga terdekatnya (Gorunescu, 2011). KNN termasuk algoritma supervised learning, dimana hasil dari query instance yang baru, diklasifikasikan berdasarkan mayoritas dari kategori pada KNN. Kelas yang paling banyak muncul yang akan menjadi kelas hasil klasifikasi.
Urutan Algoritma KNN
1.Menentukan parameter K (jumlah tetangga paling dekat)
2.Menghitung kuadrat jarak euclidian (euclidean distance) masing-masing obyek terhadap data sampel yang diberikan
3.Mengurutkan objek-objek tersebut ke dalam kelompok yang mempunyai jarak euclid terkecil
4.Mengumpulkan kategori Y (klasifikasi nearest neighbor)
5.Dengan menggunakan kategori mayoritas,maka dapat diprediksikan nilai query instance yang telah dihitung
Kelebihan
Lebih efektif di data training yang besar
Dapat menghasilkan data yang lebih akurat
Kekurangan
Perlu ditentukan nilai k yang paling optimal yang menyatakan jumlah tetangga terdekat
Biaya komputasi cukup tinggi karena perhitungan jarak harus dilakukan pada setiap query instance bersama-sama dengan seluruh instan dari training sample
Referensi
Florin Gorunescu, Data Mining: Concepts, Models and Techniques, Springer, 2011.
Jiawei Han and Micheline Kamber, Data Mining:Concepts and TechniquesSecond Edition, Elsevier, 2006
Ian H. Witten, Frank Eibe, Mark A. Hall, Data mining: Practical Machine Learning Tools and Techniques3rd Edition, Elsevier, 2011.
Algortima KNN merupakan sebuah metode untuk melakukan klasifikasi terhadap obyek baru berdasarkan (K) tetangga terdekatnya (Gorunescu, 2011). KNN termasuk algoritma supervised learning, dimana hasil dari query instance yang baru, diklasifikasikan berdasarkan mayoritas dari kategori pada KNN. Kelas yang paling banyak muncul yang akan menjadi kelas hasil klasifikasi.
Urutan Algoritma KNN
1.Menentukan parameter K (jumlah tetangga paling dekat)
2.Menghitung kuadrat jarak euclidian (euclidean distance) masing-masing obyek terhadap data sampel yang diberikan
3.Mengurutkan objek-objek tersebut ke dalam kelompok yang mempunyai jarak euclid terkecil
4.Mengumpulkan kategori Y (klasifikasi nearest neighbor)
5.Dengan menggunakan kategori mayoritas,maka dapat diprediksikan nilai query instance yang telah dihitung
Kelebihan
Lebih efektif di data training yang besar
Dapat menghasilkan data yang lebih akurat
Kekurangan
Perlu ditentukan nilai k yang paling optimal yang menyatakan jumlah tetangga terdekat
Biaya komputasi cukup tinggi karena perhitungan jarak harus dilakukan pada setiap query instance bersama-sama dengan seluruh instan dari training sample
Referensi
Florin Gorunescu, Data Mining: Concepts, Models and Techniques, Springer, 2011.
Jiawei Han and Micheline Kamber, Data Mining:Concepts and TechniquesSecond Edition, Elsevier, 2006
Ian H. Witten, Frank Eibe, Mark A. Hall, Data mining: Practical Machine Learning Tools and Techniques3rd Edition, Elsevier, 2011.
like lah sama postingannya..ad referensinya..
BalasHapusterimakasih gan