Jurnal Teknologi Informasi dan Ilmu Komputer
Vol 2, No 2: Oktober 2015

Pengklasifikasian Dokumen Berbahasa Indonesia Dengan Pengindeksan Berbasis LSI

Ridok, Achmad (Unknown)
., Indriati (Unknown)



Article Info

Publish Date
22 Jul 2015

Abstract

AbstrakKlasifikasi dokumen teks bertujuan untuk menentukan kategori suatu dokumen berdasarkan kesamaannya dengan kumpulan dokumen yang telah berlabel sebelumnya. Namun demikian kebanyakan metode klasifikasi yang ada saat ini dilakukan berdasarkan kata-kata kunci atau kata-kata yang dianggap penting dengan mengasumsikan masing-masing merepresentasikan konsep yang unik. Padahal pada kenyataanya beberapa kata yang mempunyai makna atau semantik sama seharusnya diwakili satu kata unik. Pada penelitian ini pendekatan berbasis LSI (Latent Semantic Indexing) digunakan pada KNN untuk mengklasifikasi dokumen berbahasa Indonesia. Pembobotan term dari dokumen-dokumen latih maupun uji menggunakan tf-idf,  yang direpresentasikan masing-masing dalam matrik term-dokumen A dan B. Selanjutnya matrik A didekomposisi menggunakan SVD untuk mendapatkan matrik U dan V yang tereduksi dengan k-rank. Kedua matrik U dan V digunakan untuk mereduksi B sebagai representasi dokumen uji.  Evaluasi kinerja sistem terbaik berdasarkan hasil  diperoleh pada klasifikasi KNN berbasis LSI tanpa stemming dengan threshould 2. Akan tetapi evaluasi kinerja terbaik berdasarkan waktu dicapai ketika KNN LSI dengan stemming pada threshould 5. Kinerja KNN berbasis LSI secara signifikan jauh lebih baik dibandingkan dengan KNN biasa baik dari sisi hasil maupun waktu.Kata kunci: KNN, LSI, K-Rank, SVD, Klasifikasi dokumen AbstractClassification of text documents aimed to determine the category of a document based on its similarity to set of documents which have been previously labeled. However, most existing methods of classification were conducted based on key words or words that are considered important by assuming each representing a unique concept. Whereas in fact some of the words that have the same meaning or semantics should be represented as a unique word. In this research LSI -based approach  used on KNN to classify documents in Indonesian language. Weighting the terms of the training documents or testing using tf-idf, which represented respectively in term-document matrix A and B. Furthermore, the matrix A is decomposed using SVD to obtain matrices U and V are reduced by k-rank. Both matrices U and V are used to reduce B as a representation of test documents. The best system performance evaluation based on the results obtained LSI-based in the KNN classification without stemming with threshould 2. However, the best performance evaluation based on the time achieved when KNN LSI with stemming the KNN with threshould 5. Performance-based LSI is significantly much better than the tradisional KNN in term both the outcome and timing.Keywords: KNN, LSI, K-Rank, SVD, Documents classification

Copyrights © 2015






Journal Info

Abbrev

JTIIK

Publisher

Subject

Computer Science & IT

Description

Naskah yang ditulis untuk JTIIK meliputi hasil-hasil penelitian di bidang Teknologi Informasi dan Ilmu ...