Vivensius Mitra, Vivensius
Unknown Affiliation

Published : 1 Documents
Articles

Found 1 Documents
Search

Rancang Bangun Aplikasi Web Scraping untuk Korpus Paralel Indonesia - Inggris dengan Metode HTML DOM Mitra, Vivensius; Sujaini, Herry; Negara, Arif Bijaksana Putra
Jurnal Sistem dan Teknologi Informasi (JUSTIN) Vol 5, No 1 (2017)
Publisher : Program Studi Informatika Universitas Tanjungpura

Show Abstract | Download Original | Original Source | Check in Google Scholar | Full PDF (1819.861 KB)

Abstract

Korpus paralel merupakan dua dokumen text yangsaling berhubungan dimana dokumen text pertama berisikumpulan kalimat sumber dan dokumen kedua berisi kumpulankalimat terjemahan. Korpus paralel berfungsi sebagai sumberutama dalam mengembangkan mesin penerjemah statistik.Pengumpulan korpus paralel secara manual memerlukan waktuyang lama dan biaya yang tidak sedikit. Web scraping adalahsuatu teknik penggalian informasi dari situs web. Pembuatanaplikasi web scraping dapat dikombinasikan dengan berbagaimetode, dalam penelitian ini metode yang digunakan adalahHTML DOM. Sistem ini dibangun untuk mengumpulkan korpusparalel Bahasa Indonesia dan Inggris. Pengujian dari aplikasi iniadalah menggunakan metode blackbox, serta beberaparangkaian pengujian secara manual untuk mengetahui tingkatkeberhasilan aplikasi ini dalam mengumpulkan data korpusparalel dan kecepatan sistem dalam mengumpulkan korpusparalel. Hasil implementasi dan pengujian akhir dari aplikasiweb scraping dengan metode HTML DOM adalah proses yangberjalan dalam aplikasi web scraping dengan metode HTMLDOM adalah proses scraping, tokenisasi, cleaning, danlowercased, semua proses tersebut berjalan secara otomatissehingga sangat menghemat waktu dan biaya dan menghasilkankorpus paralel Bahasa Indonesia dan Inggris.