Aminul Wahib
Institut Teknologi Sepuluh Nopember

Published : 6 Documents
Articles

Found 6 Documents
Search

Perangkingan Dokumen Berbahasa Arab Menggunakan Latent Semantic Indexing Wahib, Aminul; Pasnur, Pasnur; Santika, Putu Praba; Arifin, Agus Zainal
Jurnal Buana Informatika Vol 6, No 2 (2015): Jurnal Buana Informatika Volume 6 Nomor 2 April 2015
Publisher : Universitas Atma Jaya Yogyakarta

Show Abstract | Download Original | Original Source | Check in Google Scholar | Full PDF (417.199 KB)

Abstract

Berbagai metode perangkingan dokumen dalam aplikasi InformationRetrieval telah dikembangkan dan diimplementasikan. Salah satu metode yangsangat populer adalah perangkingan dokumen menggunakan vector space modelberbasis pada nilai term weighting TF.IDF. Metode tersebut hanya melakukanpembobotan term berdasarkan frekuensi kemunculannya pada dokumen tanpamemperhatikan hubungan semantik antar term. Dalam kenyataannya hubungansemantik antar term memiliki peranan penting untuk meningkatkan relevansi hasilpencarian dokumen. Penelitian ini mengembangkan metode TF.IDF.ICF.IBFdengan menambahkan Latent Semantic Indexing untuk menemukan hubungansemantik antar term pada kasus perangkingan dokumen berbahasa Arab. Datasetyang digunakan diambil dari kumpulan dokumen pada perangkat lunak MaktabahSyamilah. Hasil pengujian menunjukkan bahwa metode yang diusulkanmemberikan nilai evaluasi yang lebih baik dibandingkan dengan metodeTF.IDF.ICF.IBF. Secara berurut nilai f-measure metode TF.IDF.ICF.IBF.LSIpada ambang cosine similarity 0,3, 0,4, dan 0,5 adalah 45%, 51%, dan 60%. Namun metode yang disulkan memiliki waktu komputasi rata-rata lebih tinggidibandingkan dengan metode TF.IDF.ICF.IBF sebesar 2 menit 8 detik.
Menghitung Bobot Sebaran Kalimat Berdasarkan Sebaran Kata Wahib, Aminul; Winoto, Witarto Adi
Prosiding Snatika (Seminar Nasional Teknologi, Informasi, Komunikasi dan Aplikasinya) Vol 4 (2017): Prosiding Snatika (Seminar Nasional Teknologi, Informasi, Komunikasi dan Aplikasinya)
Publisher : Prosiding Snatika (Seminar Nasional Teknologi, Informasi, Komunikasi dan Aplikasinya)

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

Algoritma pembobotan kalimat memiliki peranan penting dalam natural language processing(NLP) khususnya untuk menentukan topik dan ringkasan dokumen. Bobot kalimat dapat dihitung berdasarkan bobot unsur-unsur pembentuk kalimat yaitu bobot kata. Metode sebaran kata telah membuktikan bahwa kata tersebar merupakan factor utama yang dapat dijadikan ukuran untuk mengungkap kata-kata penting dalam sebuah dokumen. Jika kata penting merupakan kata tersebar maka kalimat penting dapat dihitung berdasarkan unsur-unsur sebarannya. Penelitian ini mengenalkan metode pembobotan kalimat menggunakan sebaran kalimat. Sebaran kalimat dihitung berdasarkan unsur-unsur pembentuknya yaitu sebaran kata. Metode ini telah di ujicobakan dalam peringkasan multi-dokumen. Data yang digunakan dalam penelitian adalah Document Understanding Conferences tahun 2004 dan evaluasi menggunakan metode ROUGE-1. Hasil Ujicoba pembobotan kalimat untuk peringkasan dokumen menunjukkan metode yang diusulkan memiliki performa lebih baik jika dibandingkan dengan metode LIGI. Hasil evaluasi menggunakan ROUGE-1 terbukti metode sebaran kalimat meningkat 5,1% dibanding dengan metode LIGI.
Peringkasan Dokumen Berbahasa Inggris Menggunakan Sebaran Local Sentence Wahib, Aminul; Arifin, Agus Zainal; Purwitasari, Diana
Jurnal Buana Informatika Vol 7, No 1 (2016): Jurnal Buana Informatika Volume 7 Nomor 1 Januari 2016
Publisher : Universitas Atma Jaya Yogyakarta

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.24002/jbi.v7i1.482

Abstract

Abstract. The number of digital documents grows very rapidly causing time waste in searching and reading the information. To overcome these problems, many document summary methods are developed to find important or key sentences from the source document. This study proposes a new strategy in summarizing English document by using local sentence distribution method to find and dig up hidden important sentence from the source document in an effort to improve quality of the summaries. Experiments are conducted on dataset DUC 2004 task 2. Measurement ROUGE-1 and ROUGE-2 are employed as a performance evaluation of the proposed method with sentence information density and sentence cluster keyword (SIDeKiCK). The experiment shows that the proposed method has better performance with an average achievement ROUGE-1 0.398, an increase of 1.5% compared to SIDeKiCK method and ROUGE-2 0.12, an increase 13% compared to SIDeKiCK method.Keywords: Summarize Document, Important Sentences, Distribution of Local Sentence, ROUGE. Abstrak. Jumlah dokumen digital yang berkembang sangat pesat menyebabkan banyaknya waktu terbuang dalam mencari dan membaca informasi. Untuk mengatasi permasalahan tersebut banyak dikembangkan metode peringkasan dokumen yang diharapkan mampu menemukan kalimat-kalimat penting dari dokumen sumber. Penelitian ini mengajukan strategi baru peringkasan dokumen berbahasa inggris menggunakan metode sebaran local sentence untuk mencari dan menggali kalimat penting yang tersembunyi dalam dokumen sumber sebagai upaya untuk meningkatkan kualitas hasil ringkasan. Uji coba dilakukan terhadap dataset task 2 DUC 2004. Pengukuran ROUGE-1 dan ROUGE-2 digunakan sebagai evaluasi performa metode yang diusulkan dengan metode lain yaitu metode sentence information density dan kata kunci cluster kalimat (SIDeKiCK). Hasil ujicoba didapatkan bahwa metode yang diusulkan memiliki performa lebih baik dengan capaian rata-rata ROUGE-1 0,398, meningkat 1,5% dibanding metode SIDeKiCK dan ROUGE-2 0,12 meningkat 13% dibanding metode SIDeKiCK.Kata Kunci: Peringkasan Dokumen, Kalimat Penting, Sebaran Local Sentence, ROUGE.
Peringkasan Dokumen Berdasarkan Metode Semantic Sebaran Kalimat Wahib, Aminul; Sari, Dita Lupita
Jurnal Buana Informatika Vol 8, No 1 (2017): Jurnal Buana Informatika Volume 8 Nomor 1 Januari 2017
Publisher : Universitas Atma Jaya Yogyakarta

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.24002/jbi.v8i1.1073

Abstract

Abstract. Sentence distribution method performs weighting based on the sentence distribution without taking the semantic meaning of the sentence spread into account. In fact, the semantic relation between sentences is believed to increase the relevance of the search results document. This study proposes new strategies to summarize documents using the semantic sentence distribution method in an effort to improve the quality of the summary. The experimental results show that the proposed method has better performance with the average performance ROUGE-1 0.412, an increase of 1,9% compared to "Sentence distribution method" and ROUGE-2 by 4,7% compared to 0.127 "sentence distribution method".Keywords: Semantic Sentence Distribution, Summarizing Document, ROUGE. Abstrak. Peringkasan dokumen menggunakan metode sebaran kalimat terbukti memiliki hasil yang lebih baik jika dibanding dengan penelitian-penelitian sebelumnya. Metode tersebut melakukan pembobotan kalimat berdasarkan sebaran kalimat tanpa memperhitungkan makna semantic kalimat yang tersebar. Faktanya hubungan semantic antar kalimat telah terbukti mampu meningkatkan relevansi hasil dalam pencarian dokumen. Penelitian ini mengajukan strategi baru dalam peringkasan dokumen yaitu menggunakan metode semantic sebaran kalimat sebagai upaya untuk meningkatkan kualitas hasil ringkasan. Hasil eksperimen didapatkan bahwa metode yang diusulkan memiliki performa lebih baik dengan capaian rata-rata ROUGE-1 0,412, meningkat 1,9% dibanding metode sebaran kalimat dan ROUGE-2 0,127 meningkat 4,7% dibanding metode sebaran kalimat.Kata Kunci: Semantic Sebaran Kalimat, Peringkasan Dokumen, ROUGE.
Pembobotan Kata berdasarkan Kluster untuk Peringkasan Otomatis Multi Dokumen Hakim, Lukman; Wattiheluw, Fadli Husein; Arifin, Agus Zainal; Wahib, Aminul
Jurnal Linguistik Komputasional (JLK) Vol 1 No 2 (2018): Vol. 1, No. 2
Publisher : Indonesia Association of Computational Linguistics (INACL)

Show Abstract | Download Original | Original Source | Check in Google Scholar | Full PDF (575.381 KB) | DOI: 10.26418/jlk.v1i2.7

Abstract

Peringkasan multi-dokumen merupakan teknik untuk mendapatkan informasi. Informasi tersebut terdiri dari beberapa baris kalimat yang bertujuan untuk menggambarkan isi dari keseluruhan dokumen secara relevan. Beberapa algoritma dengan berbagai macam kriteria telah dilakukan. Secara umum, kriteria tersebut yaitu tahap praproses, kluster, dan pemilihan kalimat yang representatif untuk menghasilkan ringkasan yang memiliki relevansi tinggi. Dalam beberapa kondisi, tahap kluster merupakan salah satu tahap yang penting untuk menghasilkan peringkasan. Penelitian yang ada tidak bisa menentukan jumlah kluster yang akan dibentuk. Oleh karena itu, kami mengusulkan teknik klusterisasi menggunaan hiraki kluster. Teknik ini mengukur kemiripan antar kalimat menggunakan cosine similarity. Kalimat-kalimat tersebut dikluster berdasarkan nilai kemiripannya. Kluster yang memiliki tingkat kemiripan tertinggi dengan kluster lain akan digabung menjadi satu kluster.  Proses penggabungan ini akan terus dilakukan sampai tersisa satu kluster. Hasil eksperimen pada dataset Document Understanding Document (DUC) 2004 dan menggunakan dua skenario yaitu menggunaan 132, 135, 137 dan 140 kluster menghasilkan nilai yang fluktuatif. Semakin kecil jumlah kluster tidak menjamin peningkatan nilai ROUGE-1. Metode yang diusulkan menggunakan jumlah kluster yang sama memiliki nilai ROUGE-1 lebih rendah dibandingkan metode sebelumnya. Hal ini dikarenakan pada kluster 140 nilai similarity pada masing-masing kluster banyak yang mengalami penurunan nilai similarity.
Menghitung Bobot Sebaran Kalimat Berdasarkan Sebaran Kata Wahib, Aminul; Winoto, Witarto Adi
Prosiding SNATIKA Vol 4 (2017): Prosiding Snatika (Seminar Nasional Teknologi, Informasi, Komunikasi dan Aplikasinya)
Publisher : LPPM STIKI Malang

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

Algoritma pembobotan kalimat memiliki peranan penting dalam natural language processing(NLP) khususnya untuk menentukan topik dan ringkasan dokumen. Bobot kalimat dapat dihitung berdasarkan bobot unsur-unsur pembentuk kalimat yaitu bobot kata. Metode sebaran kata telah membuktikan bahwa kata tersebar merupakan factor utama yang dapat dijadikan ukuran untuk mengungkap kata-kata penting dalam sebuah dokumen. Jika kata penting merupakan kata tersebar maka kalimat penting dapat dihitung berdasarkan unsur-unsur sebarannya. Penelitian ini mengenalkan metode pembobotan kalimat menggunakan sebaran kalimat. Sebaran kalimat dihitung berdasarkan unsur-unsur pembentuknya yaitu sebaran kata. Metode ini telah di ujicobakan dalam peringkasan multi-dokumen. Data yang digunakan dalam penelitian adalah Document Understanding Conferences tahun 2004 dan evaluasi menggunakan metode ROUGE-1. Hasil Ujicoba pembobotan kalimat untuk peringkasan dokumen menunjukkan metode yang diusulkan memiliki performa lebih baik jika dibandingkan dengan metode LIGI. Hasil evaluasi menggunakan ROUGE-1 terbukti metode sebaran kalimat meningkat 5,1% dibanding dengan metode LIGI.