JADWAL PRIBADI

Statistik Blog

Pages

Kamis, 12 Juli 2012


ABSTRAK


  Data mining untuk pencarian berdasarkan kata kunci dengan pengklasteran adalah suatu metode pencarian dokumen dengan cara mengelompokkan atau mengklaster dokumen dari dokumen-dokumen berdasarkan kata kuncinya. Volume informasi teks yang berkembang eksponensial menyebabkan kesulitan dalam proses temu kembali informasi. Ada beberapa model pembobotan yang pada prinsipnya bertujuan untuk merubah nilai vector sampel dan formula similaritas vector sample dengan pusat clusternya. Penerapan  clustering dokumen dipercaya dapat meningkatkan kinerja berdasarkan hypothesis bahwa dokumen yang relevan terhadap suatu query cenderung berada dalam cluster yang sama.
Dalam makalah review 3 paper perbandingan kinerja teknik klastering data mining dalam system temu kembali, yaitu menggunakan kata kata yang muncul dalam kata kunci (keyword) dan judul (title) dari suatu dokumen teks.
Perbandingan teknik klastering data mining dalam system temu kembali menggunakan metode klastering yaitu pembobotan sampel yaitu asumsi bahwa sampel atau objek yang berbeda memiliki peran yang berbeda dalam proses clustering. Kriteria kinerja perolehan informasi diukur dengan parameter F-measure yang diturunkan dari Precission dan Recall dari retrieval. Koleksi dokumen yang digunakan adalah 1000 dokumen berita yang telah diketahui struktur klusternya dan 3000 dokumen berita dengan struktur kluster belum diketahui.
Hasil eksperimen menunjukkan bahwa pembobotan sample dapat meningkatkan kinerja clustering sebesar 12,8% untuk pembobotan dengan keyword dan title dan meningkatkan kinerja clustering 9,8% untuk pembobotan dengan title saja




Penerapan teknologi digital dan jaringan computer telah menyebabkan terjadinya “ledakan” informasi yang berkembang eksponensial. Hal ini menyebabkan Sistem temu kembali informasi (information retrieval = IR) mengalami kesulitan. Dalam bidang system temu kembali informasi (information retrieval system), metode clustering juga telah diterapkan pada berbagai sisi, misalnya dalam mempartisi corpus (Grossman and Fireder, 2004), mengekstrak konsep (Karypis, 2000), atau meningkatkan kinerja clustering dengan membangun system temu kembali berbasis konsep (Hamzah, 2009)

Pada strategi pencarian query berbasis kata (word-matching) kesulitan yang dijumpai muncul dari aspek bahasa, yaitu factor sinonim pada kata telah menyebabkan dokumen yang tidak relevan akan dipangginl hanya semata-mata karena dokumen tersebut mengandung kata yang ada dalam query.

Salah satu kesulitan dalam clustering dokumen teks dengan model ruang vector berbasis kata adalah bermula dari asumsi bahwa kata-kata dalam dokumen saling independen sedemikian sehingga perhitungan jarak antar dokumen yang diwakili oleh jarak antar vector dokumen dalam ruang vector dapat ditetapkan menggunakan berbagai formula jarak. Jika asumsi ini tidak dipenuhi maka perhitungan jarak sebenarnya menjadi kurang akurat. Meskipun pada clustering dokumen ukuran kedekatan lebih sering digunakan ukuran similaritas daripada fungsi jarak, tetapi efek tidak terpenuhinya asumsi independensi tetap terjadi. Pada kenyataannya lebih sering antar kata dalam suatu dokumen adalah tidak independen, justru kata yang satu terkait secara makna dengan kata yang lain.


 


0 komentar:

Posting Komentar

Site search