|
Data mining untuk
pencarian berdasarkan kata kunci dengan pengklasteran adalah suatu metode
pencarian dokumen dengan cara mengelompokkan atau mengklaster dokumen dari
dokumen-dokumen berdasarkan kata kuncinya. Volume informasi teks yang
berkembang eksponensial menyebabkan kesulitan dalam proses temu kembali
informasi. Ada beberapa model pembobotan yang pada prinsipnya bertujuan untuk
merubah nilai vector sampel dan formula similaritas vector sample dengan pusat
clusternya. Penerapan clustering dokumen
dipercaya dapat meningkatkan kinerja berdasarkan hypothesis bahwa dokumen yang
relevan terhadap suatu query cenderung berada dalam cluster yang sama.
Dalam makalah
review 3 paper perbandingan kinerja teknik klastering data mining dalam system
temu kembali, yaitu menggunakan kata kata yang muncul dalam kata kunci
(keyword) dan judul (title) dari suatu dokumen teks.
Perbandingan
teknik klastering data mining dalam system temu kembali menggunakan metode klastering
yaitu pembobotan sampel yaitu asumsi bahwa sampel atau objek yang berbeda
memiliki peran yang berbeda dalam proses clustering. Kriteria kinerja perolehan
informasi diukur dengan parameter F-measure yang diturunkan dari Precission dan
Recall dari retrieval. Koleksi dokumen yang digunakan adalah 1000 dokumen
berita yang telah diketahui struktur klusternya dan 3000 dokumen berita dengan
struktur kluster belum diketahui.
Hasil eksperimen
menunjukkan bahwa pembobotan sample dapat meningkatkan kinerja clustering
sebesar 12,8% untuk pembobotan dengan keyword dan title dan meningkatkan
kinerja clustering 9,8% untuk pembobotan dengan title saja
Penerapan teknologi digital dan jaringan computer telah menyebabkan
terjadinya “ledakan” informasi yang berkembang eksponensial. Hal ini
menyebabkan Sistem temu kembali informasi (information retrieval = IR)
mengalami kesulitan. Dalam bidang system temu kembali informasi (information
retrieval system), metode clustering juga telah diterapkan pada berbagai sisi,
misalnya dalam mempartisi corpus (Grossman and Fireder, 2004), mengekstrak
konsep (Karypis, 2000), atau meningkatkan kinerja clustering dengan membangun
system temu kembali berbasis konsep (Hamzah, 2009)
Pada strategi pencarian query berbasis kata (word-matching) kesulitan
yang dijumpai muncul dari aspek bahasa, yaitu factor sinonim pada kata telah
menyebabkan dokumen yang tidak relevan akan dipangginl hanya semata-mata karena
dokumen tersebut mengandung kata yang ada dalam query.
Salah satu kesulitan dalam clustering dokumen teks dengan model ruang
vector berbasis kata adalah bermula dari asumsi bahwa kata-kata dalam dokumen
saling independen sedemikian sehingga perhitungan jarak antar dokumen yang
diwakili oleh jarak antar vector dokumen dalam ruang vector dapat ditetapkan
menggunakan berbagai formula jarak. Jika asumsi ini tidak dipenuhi maka
perhitungan jarak sebenarnya menjadi kurang akurat. Meskipun pada clustering
dokumen ukuran kedekatan lebih sering digunakan ukuran similaritas daripada
fungsi jarak, tetapi efek tidak terpenuhinya asumsi independensi tetap terjadi.
Pada kenyataannya lebih sering antar kata dalam suatu dokumen adalah tidak
independen, justru kata yang satu terkait secara makna dengan kata yang lain.
|
0 komentar:
Posting Komentar