Jurnal Linguistik Komputasional (JLK)
ISSN : -     EISSN : 26219336
Jurnal Linguistik Komputasional (JLK) menerbitkan makalah orisinil di bidang lingustik komputasional yang mencakup, namun tidak terbatas pada : Phonology, Morphology, Chunking/Shallow Parsing, Parsing/Grammatical Formalisms, Semantic Processing, Lexical Semantics, Ontology, Linguistic Resources, Statistical and Knowledge based methods, POS tagging, Discourse, Paraphrasing/Entailment/Generation, Machine Translation, Information Retrieval, Text Mining, Information Extraction, Summarization, Question Answering, Dialog Systems, Spoken Language Processing, Speech Recognition and Synthesis.
Articles 15 Documents
Sistem Pencarian Ayat Al-Quran Berdasarkan Kemiripan Ucapan Menggunakan Algoritma Soundex dan Damerau-Levenshtein Distance

Arsaningtyas, Puruhita Ananda, Bijaksana, Moch. Arif, Faraby, Said Al

Jurnal Linguistik Komputasional (JLK) Vol 1 No 2 (2018): Vol. 1, No. 2
Publisher : Indonesia Association of Computational Linguistics (INACL)

Show Abstract | Original Source | Check in Google Scholar | Full PDF (583.631 KB) | DOI: 10.26418/jlk.v1i2.10

Abstract

Penelitian ini mengimplementasikan dan analisis pencarian ayat Al-Quran dari kemiripan ucapan menggunakan algoritma Soundex dan Damerau-Levenshtein Distance.  Pada pengucapan kata, sering kali ditemukan pengucapan kata yang sama atau mirip tapi memiliki penulisan yang berbeda, hal itu menjadi masalah ketika kita melakukan pencarian ayat pada Al-Quran.  Dengan menggunakan algoritma Soundex query dan ayat dikodekan sesuai kemiripan fonetis tiap hurufnya, sehingga kata-kata yang memiliki pengucapan sama atau mirip dapat dianggap sama.  Kemudian nilai kesamaan query dan dataset dihitung menggunakan algoritma Damerau-Levenshtein Distance kemudian diurutkan dari skor terendah.  Berdasarkan pengujian yang dilakukan, didapatkan nilai MAP 0.78, recall 0.91, dan korelasi 0.82.

Penerapan Cosine Similarity dan Pembobotan TF-IDF untuk Mendeteksi Kemiripan Dokumen

Naf'an, Muhammad Zidny, Burhanuddin, Auliya, Riyani, Ade

Jurnal Linguistik Komputasional (JLK) Vol 2 No 1 (2019): Vol. 2, No. 1
Publisher : Indonesia Association of Computational Linguistics (INACL)

Show Abstract | Original Source | Check in Google Scholar | Full PDF (476.917 KB) | DOI: 10.26418/jlk.v2i1.17

Abstract

Plagiarism is the act of taking part or all of one's ideas in the form of documents or texts without including sources of information retrieval. This study aims to detect the similarity of text documents using the cosine similarity algorithm and weighting TF-IDF so that it can be used to determine the value of plagiarism. The document used for comparison of this text is an abstract of Indonesian. The results of the study, namely when stemming the similarity value is higher on average 10% than the stemming process is not done. This study produces a similarity value above 50% for documents with a high degree of similarity. Whereas documents with low similarity levels or no plagiarism produce similarity values ​​below 40%. With the method used in the preprocessing consisting of folding cases, tokenizing, removeal stopwords, and stemming. After the preprocessing process, the next step is to calculate the weighting of TF-IDF and the similarity value using cosine similarity so that it gets a percentage similarity value. Based on the experimental results of the cosine similarity algorithm and weighting TF-IDF, it can produce similarity values ​​from each comparative document

Analisis Penggabungan Korpus dari Hadits Nabi dan Alquran untuk Mesin Penerjemah Statistik

Ardhi, Hafidz, Sujaini, Herry, Putra, Arif Bijaksana

Jurnal Linguistik Komputasional (JLK) Vol 1 No 1 (2018): Vol. 1, No. 1
Publisher : Indonesia Association of Computational Linguistics (INACL)

Show Abstract | Original Source | Check in Google Scholar | Full PDF (649.03 KB) | DOI: 10.26418/jlk.v1i1.1

Abstract

Setiap daerah memiliki bahasa berbeda-beda yang digunakan dalam berkomunikasi. Suatu komunikasi dapat berjalan dengan baik jika kedua pihak yang terlibat dalam komunikasi, mengerti dengan bahasa yang digunakan selama proses interaksi berlangsung. Mesin penerjemah merupakan alat penerjemah otomatis pada sebuah teks dari satu bahasa ke bahasa lainnya. Pada mesin penerjemah akan dilakukan proses evaluasi yang dilakukan secara otomatis. Evaluasi secara otomatis diperlukan untuk mengukur kualitas dari terjemahan mesin penerjemah dengan menggunakan automatic metric. BLEU adalah metric yang paling sering digunakan peneliti untuk mengevaluasi mesin penerjemah. Pada penelitian ini peneliti menggunakan bahasa Arab. Korpus yang digunakan adalah korpus alquran, korpus hadits, dan korpus gabungan.  Korpus akan diuji dengan tipe kalimat dan 4 tingkat jumlah kalimat. Pengujian akan dilakukan dua kali. Pertama, pengujian terhadap korpus tanpa menggunakan MADAMIRA. Kedua, pengujian terhadap korpus menggunakan MADAMIRA. Hasil dari pengujian terhadap korpus tanpa menggunakan MADAMIRA menghasilkan nilai BLEU pada korpus alquran sebesar 10,56 %, korpus hadits sebesar 27,65%, dan korpus gabungan sebesar 15,41%. Sedangkan hasil dari pengujian yang dilakukan terhadap korpus yang menggunakan MADAMIRA diperoleh nilai BLEU pada korpus alquran sebesar  1,44%, korpus hadits sebesar 32,90%, dan korpus gabungan sebesar 41, 46%.

Corpus Quality Improvement to Improve the Quality of Statistical Translator Machines (Case Study of Indonesian Language to Java Krama)

Asparilla, Muhammad Gerdy, Sujaini, Herry, Nyoto, Rudy Dwi

Jurnal Linguistik Komputasional (JLK) Vol 1 No 2 (2018): Vol. 1, No. 2
Publisher : Indonesia Association of Computational Linguistics (INACL)

Show Abstract | Original Source | Check in Google Scholar | Full PDF (1019.163 KB) | DOI: 10.26418/jlk.v1i2.12

Abstract

Bahasa merupakan alat komunikasi yang dijadikan sarana untuk berinteraksi dengan masyarakat sekitar.Kemampuan akan penguasaan banyak bahasa tentunya akan mempermudah untuk berinteraksi dengan orang lain dari berbagai daerah yang berbeda. Oleh karena itu, diperlukan penerjemah untuk menambah pengetahuan akan berbagai bahasa yang ada. Mesin Penerjemah Statistik (Statistical Machine Translation) merupakan sebuah pendekatan mesin penerjemah dengan hasil terjemahan yang dihasilkan atas dasar model statistik yang parameter-parameternya diambil dari hasil analisis korpus paralel. Korpus paralel adalah pasangan korpus yang berisi kalimat-kalimat dalam suatu bahasa dan terjemahannya. Salah satu fitur yang digunakan untuk meningkatkan kualitas hasil terjemahan adalah dengan optimasi korpus. Tujuan yang ingin dicapai dalam penelitian ini adalah melakukan untuk melihat pengaruh kualitas korpus dengan memfilter pasangan kalimat-kalimat dengan terjemahan berkualitas. Filter yang digunakan adalah nilai minimal setiap kalimat yang di uji dengan metode Bilingual Evaluation Understudy (BLEU). Pengujian dilakukan dengan membandingkan nilai akurasi hasil terjemahan sebelum dan setelah optimasi korpus. Dari hasil penelitian, penggunaan optimasi korpus dapat meningkatkan kualitas terjemahan untuk mesin penerjemah bahasa Indonesia ke bahasa Jawa krama. Hal itu terlihat dari hasil pengujian dengan menambahkan optimasi korpus pada 15 kalimat uji diluar korpus terdapat peningkatan rata - rata nilai BLEU sebesar 10.53% dan dengan menggunakan 100 kalimat uji yang berasal dari korpus optimasi terdapat peningkatan rata-rata nilai BLEU sebesar 11.63%  pada pengujian otomatis serta 0.03% pada pengujian oleh ahli bahasa. Berdasarkan hal tersebut, mesin penerjemah statistik bahasa Indonesia ke bahasa Jawa krama dengan penggunaan fitur optimasi korpus dapat meningkatkan nilai akurasi hasil terjemahan.

Penjernihan Derau pada Suara Kanal Tunggal dengan Pembelajaran Faktorisasi Matriks Non-negatif tanpa Pengawasan

Manunggal, Tirtadwipa, Riandi, Oskar, Ma’arik, Ardhi, Suryantoro, Lalan, Putera, Achmad Satria, Al-Hakam, Izzul

Jurnal Linguistik Komputasional (JLK) Vol 1 No 1 (2018): Vol. 1, No. 1
Publisher : Indonesia Association of Computational Linguistics (INACL)

Show Abstract | Original Source | Check in Google Scholar | Full PDF (1684.625 KB) | DOI: 10.26418/jlk.v1i1.2

Abstract

Artikel ini mengulas pendekatan metode penjernihan derau pada suara kanal tunggal menggunakan Faktorisasi Matriks Non-negatif (NMF) dengan pembelajaran tanpa pengawasan. Teknik ini memanfaatkan sifat NMF yang mengurai matriks spektrogram suara terganggu derau dan suara derau itu sendiri menjadi komponen vektor penyusunnya. Sebagai penunjang NMF, filter Wiener diterapkan pada akhir tahapan. Penjernihan ini digunakan untuk sistem dengan latensi rendah, sehingga menyediakan model derau secara khusus di awal proses secara terpisah menjadi tidak praktis. Maka dari itu model derau diambil langsung dari suara yang akan dijernihkan. Kontribusi yang dicapai dalam penelitian ini adalah jenis pembelajaran NMF dengan perbandingan konstrain linier dan non-linier yang dilakukan tanpa secara eksplisit menyediakan model derau, sehingga penjernihan dapat digunakan secara lebih fleksibel untuk setiap kondisi derau

Employing Dependency Tree in Machine Learning Based Indonesian Factoid Question Answering System

Afif, Irfan, Purwarianti, Ayu

Jurnal Linguistik Komputasional (JLK) Vol 2 No 1 (2019): Vol. 2, No. 1
Publisher : Indonesia Association of Computational Linguistics (INACL)

Show Abstract | Original Source | Check in Google Scholar | Full PDF (577.209 KB) | DOI: 10.26418/jlk.v2i1.9

Abstract

We proposed the usage of dependency tree information to increase the accuracy of Indonesian factoid question answering. We employed MSTParser and Universal Dependency corpus to build the Indonesian dependency parser. The dependency tree information as the result of the Indonesian dependency parse is used in the answer finder component of Indonesian factoid question answering system. Here, we used dependency tree information in two ways: 1) as one of the features in machine learning based answer finder (classifying each term in the retrieved passage as part of a correct answer or not); 2) as an additional heuristic rule after conducting the machine learning technique. For the machine learning technique, we combined word based calculation, phrase based calculation and similarity dependency relation based calculation as the complete features. Using 203 data, we were able to enhance the accuracy for the Indonesian factoid QA system compared to related work by only using the phrase information. The best accuracy was 84.34% for the correct answer classification and the best MRR was 0.954.

Pembobotan Kata berdasarkan Kluster untuk Peringkasan Otomatis Multi Dokumen

Hakim, Lukman, Wattiheluw, Fadli Husein, Arifin, Agus Zainal, Wahib, Aminul

Jurnal Linguistik Komputasional (JLK) Vol 1 No 2 (2018): Vol. 1, No. 2
Publisher : Indonesia Association of Computational Linguistics (INACL)

Show Abstract | Original Source | Check in Google Scholar | Full PDF (575.381 KB) | DOI: 10.26418/jlk.v1i2.7

Abstract

Peringkasan multi-dokumen merupakan teknik untuk mendapatkan informasi. Informasi tersebut terdiri dari beberapa baris kalimat yang bertujuan untuk menggambarkan isi dari keseluruhan dokumen secara relevan. Beberapa algoritma dengan berbagai macam kriteria telah dilakukan. Secara umum, kriteria tersebut yaitu tahap praproses, kluster, dan pemilihan kalimat yang representatif untuk menghasilkan ringkasan yang memiliki relevansi tinggi. Dalam beberapa kondisi, tahap kluster merupakan salah satu tahap yang penting untuk menghasilkan peringkasan. Penelitian yang ada tidak bisa menentukan jumlah kluster yang akan dibentuk. Oleh karena itu, kami mengusulkan teknik klusterisasi menggunaan hiraki kluster. Teknik ini mengukur kemiripan antar kalimat menggunakan cosine similarity. Kalimat-kalimat tersebut dikluster berdasarkan nilai kemiripannya. Kluster yang memiliki tingkat kemiripan tertinggi dengan kluster lain akan digabung menjadi satu kluster.  Proses penggabungan ini akan terus dilakukan sampai tersisa satu kluster. Hasil eksperimen pada dataset Document Understanding Document (DUC) 2004 dan menggunakan dua skenario yaitu menggunaan 132, 135, 137 dan 140 kluster menghasilkan nilai yang fluktuatif. Semakin kecil jumlah kluster tidak menjamin peningkatan nilai ROUGE-1. Metode yang diusulkan menggunakan jumlah kluster yang sama memiliki nilai ROUGE-1 lebih rendah dibandingkan metode sebelumnya. Hal ini dikarenakan pada kluster 140 nilai similarity pada masing-masing kluster banyak yang mengalami penurunan nilai similarity.

Identifikasi Konten Kasar Pada Tweet Bahasa Indonesia

Hidayatullah, Ahmad Fathan, Fadila, Aufa Aulia, Juwairi, Kiki Purnama, Nayoan, Royan Abida

Jurnal Linguistik Komputasional (JLK) Vol 2 No 1 (2019): Vol. 2, No. 1
Publisher : Indonesia Association of Computational Linguistics (INACL)

Show Abstract | Original Source | Check in Google Scholar | Full PDF (497.009 KB) | DOI: 10.26418/jlk.v2i1.15

Abstract

Penelitian ini bertujuan untuk melakukan identifikasi tweet yang mengandung konten kasar atau ofensif. Untuk melakukan hal tersebut, ada lima tahap yang dilalui yaitu pengumpulan data, preprocessing, ekstraksi fitur, klasifikasi, dan evaluasi. Adapun algoritma klasifikasi yang digunakan adalah Multinomial Naïve Bayes dan Support Vector Machine dengan linear kernel. Berdasarkan eksperimen, diketahui bahwa performa algoritma Support Vector Machine dengan linear kernel lebih unggul secara keseluruhan dibandingkan dengan algoritma Multinomial Naïve Bayes. Hal tersebut dilihat dari perolehan nilai accuracy, precision, recall, dan F1-score untuk algoritma SVM berturut-turut adalah 0.9928; 0.9914; 0.9946; dan 0.9930. Sedangkan perolehan accuracy, precision, recall, dan F1-score algoritma Multinomial Naïve Bayes berturut-turut adalah 0.9834; 0.9912; 0.9762; dan 0.9836. Namun demikian, dapat disimpulkan bahwa algoritma Support Vector Machine dan Multinomial Naïve Bayes memiliki performa yang hampir sama baiknya. Hal tersebut dibuktikan dengan selisih capaian performa yang tidak terlalu mencolok dari keduanya.

Metode Pembobotan Berbasis Topik dan Kelas untuk Berita Online Berbahasa Indonesia

Maryamah, Maryamah, Subali, Made Agus Putra, Qolby, Lailly, Arifin, Agus Zainal, Fauzi, Ali

Jurnal Linguistik Komputasional (JLK) Vol 1 No 1 (2018): Vol. 1, No. 1
Publisher : Indonesia Association of Computational Linguistics (INACL)

Show Abstract | Original Source | Check in Google Scholar | Full PDF (840.487 KB) | DOI: 10.26418/jlk.v1i1.4

Abstract

Pengelompokan dokumen berita secara manual sangat tergantung pada kemampuan dan ketelitian manusia sehingga dapat menyebabkan terjadinya kesalahan dalam pengelompokan dokumen tersebut. Oleh karena itu, perlu dilakukan pengelompokan dokumen berita secara otomatis. Dalam pengelompokan tersebut diperlukan sebuah metode pembobotan yang meliputi TF.IDF.ICF. Pada paper ini kami mengusulkan sebuah algoritma pembobotan yang baru yaitu TF.IDF.ICF.ITF agar dapat mengelompokkan dokumen secara otomatis melalui pola data statistik sehingga kesalahan dalam pengelompokan dokumen secara manual dapat berkurang dan lebih efisien. K-Means++ merupakan algoritma untuk klasifikasi dan merupakan pengembangan dari algoritma K-Means pada tahap inisialisasi pusat cluster awal yang mudah untuk diimplementasikan serta memiliki hasil yang lebih stabil. K-Means++ mengelompokan dokumen pada tahap pembobotan kata Inverse Class Frequency (ICF). ICF dikembangakan dari penggunaan pembobotan berbasis kelas untuk term weighting term pada dokumen. Term yang sering muncul pada banyak kelas akan memiliki nilai yang kecil namun informatif. Pembobotan yang diusulkan dihitung . Pengujian dilakukan dengan menggunakan query tertentu pada beberapa jumlah fitur terbaik, hasil yang diperoleh dengan metode TF.IDF.ICF.ITF memberikan hasil yang kurang begitu optimal.

Uji Coba Korpus Data Wicara BPPT sebagai Data Latih Sistem Pengenalan Wicara Bahasa Indonesia

Gunawan, Made, Nurfadhilah, Elvira, Aini, Lyla Ruslana, Uliniansyah, M. Teduh, -, Gunarso, Santosa, Agung, Junde, Juliati

Jurnal Linguistik Komputasional (JLK) Vol 1 No 2 (2018): Vol. 1, No. 2
Publisher : Indonesia Association of Computational Linguistics (INACL)

Show Abstract | Original Source | Check in Google Scholar | Full PDF (555.048 KB) | DOI: 10.26418/jlk.v1i2.8

Abstract

Kami menyajikan hasil uji coba pengenalan wicara menggunakan Korpus Data Wicara BPPT yang dikembangkan tahun 2013 (KDW-BPPT-2013) dengan menggunakan anggaran DIPA tahun 2013. Korpus ini digunakan sebagai data latih dan data uji. Korpus ini berisi ujaran dari 200 pembicara yang terdiri dari 50 laki-laki dewasa, 50 laki-laki remaja, 50 perempuan dewasa, dan 50 perempuan remaja dengan masing-masing mengucapkan 250 kalimat. Total lama ujaran data wicara ini sekitar 92 jam.  Uji coba dilakukan dengan menggunakan Kaldi dan menghasilkan Word Error Rate (WER) GMM 2,52 % dan DNN 1,64%.

Page 1 of 2 | Total Record : 15