Wattiheluw, Fadli Husein
Indonesia Association of Computational Linguistics (INACL)

Published : 1 Documents
Articles

Found 1 Documents
Search

Pembobotan Kata berdasarkan Kluster untuk Peringkasan Otomatis Multi Dokumen Hakim, Lukman; Wattiheluw, Fadli Husein; Arifin, Agus Zainal; Wahib, Aminul
Jurnal Linguistik Komputasional (JLK) Vol 1 No 2 (2018): Vol. 1, No. 2
Publisher : Indonesia Association of Computational Linguistics (INACL)

Show Abstract | Download Original | Original Source | Check in Google Scholar | Full PDF (575.381 KB) | DOI: 10.26418/jlk.v1i2.7

Abstract

Peringkasan multi-dokumen merupakan teknik untuk mendapatkan informasi. Informasi tersebut terdiri dari beberapa baris kalimat yang bertujuan untuk menggambarkan isi dari keseluruhan dokumen secara relevan. Beberapa algoritma dengan berbagai macam kriteria telah dilakukan. Secara umum, kriteria tersebut yaitu tahap praproses, kluster, dan pemilihan kalimat yang representatif untuk menghasilkan ringkasan yang memiliki relevansi tinggi. Dalam beberapa kondisi, tahap kluster merupakan salah satu tahap yang penting untuk menghasilkan peringkasan. Penelitian yang ada tidak bisa menentukan jumlah kluster yang akan dibentuk. Oleh karena itu, kami mengusulkan teknik klusterisasi menggunaan hiraki kluster. Teknik ini mengukur kemiripan antar kalimat menggunakan cosine similarity. Kalimat-kalimat tersebut dikluster berdasarkan nilai kemiripannya. Kluster yang memiliki tingkat kemiripan tertinggi dengan kluster lain akan digabung menjadi satu kluster.  Proses penggabungan ini akan terus dilakukan sampai tersisa satu kluster. Hasil eksperimen pada dataset Document Understanding Document (DUC) 2004 dan menggunakan dua skenario yaitu menggunaan 132, 135, 137 dan 140 kluster menghasilkan nilai yang fluktuatif. Semakin kecil jumlah kluster tidak menjamin peningkatan nilai ROUGE-1. Metode yang diusulkan menggunakan jumlah kluster yang sama memiliki nilai ROUGE-1 lebih rendah dibandingkan metode sebelumnya. Hal ini dikarenakan pada kluster 140 nilai similarity pada masing-masing kluster banyak yang mengalami penurunan nilai similarity.