Pengelompokkan Dokumen (Text Clustering)
Dokumen clustering (pengelompokan atau Text) adalah dokumen organisasi otomatis, ekstraksi topik dan pengambilan informasi yang cepat atau penyaringan. Hal ini terkait erat dengan pengelompokan data.
Sebuah mesin pencari web sering kembali ribuan halaman dalam menanggapi permintaan yang luas, sehingga sulit bagi pengguna untuk mencari atau mengidentifikasi informasi yang relevan. Metode Clustering dapat digunakan untuk secara otomatis mengelompokkan dokumen diambil ke dalam daftar kategori bermakna, seperti yang dicapai oleh Search engine Perusahaan seperti Northern Light dan Vivisimo, mesin pencari konsumen seperti PolyMeta dan Helioid, atau perangkat lunak open source seperti Carrot2.Contoh:
FirstGov.gov, portal web resmi untuk pemerintah AS, menggunakan pengelompokan dokumen untuk secara otomatis mengatur hasil pencarian ke dalam kategori. Misalnya, jika pengguna mengirimkan "imigrasi", di samping daftar mereka hasil yang mereka akan melihat kategori untuk "Reformasi Imigrasi", "Kewarganegaraan dan Layanan Imigrasi", "Kerja", "Departemen Keamanan Dalam Negeri", dan banyak lagi. Laten Analisis probabilistik Semantic (PLSA) juga dapat dilakukan untuk melakukan pengelompokan dokumen.
Pengelompokan Dokumen melibatkan penggunaan deskriptor dan ekstraksi deskriptor. Deskriptor merupakan set kata-kata yang menggambarkan isi dalam cluster. Pengelompokan Dokumen umumnya dianggap sebagai proses yang terpusat. Contoh pengelompokan dokumen termasuk web pengelompokan dokumen untuk pengguna pencarian.
Penerapan clustering dokumen dapat dikategorikan menjadi dua jenis, online dan offline. Aplikasi online biasanya dibatasi oleh masalah efisiensi jika dibandingkan aplikasi offline.
Secara umum, ada dua algoritma yang umum. Yang pertama adalah algoritma berbasis hirarkis, yang meliputi link tunggal, linkage lengkap, rata-rata kelompok dan metode Ward. Dengan menggabungkan atau membagi, dokumen dapat dikelompokkan ke dalam struktur hirarkis, yang cocok untuk browsing. Namun, seperti algoritma biasanya menderita dari masalah efisiensi. Algoritma lainnya dikembangkan dengan menggunakan algoritma K-sarana dan variannya. Biasanya, itu adalah efisiensi yang lebih besar, namun kurang akurat daripada algoritma hirarkis.
Algoritma lain melibatkan grafik clustering, pengelompokan berbasis ontologi didukung dan clustering agar sensitif.
Komentar
Posting Komentar