PENERAPAN MODEL T5 UNTUK PENERJEMAHAN MESIN ACEH-INDONESIA

Authors

  • Ivander Perdana Mokhtar Program Studi Sains Data, Institut Teknologi Sumatera, Lampung Selatan
  • Aulia Wardani Program Studi Sains Data, Institut Teknologi Sumatera, Lampung Selatan
  • Hanna Sajidah Program Studi Sains Data, Institut Teknologi Sumatera, Lampung Selatan
  • M. Faqih Program Studi Sains Data, Institut Teknologi Sumatera, Lampung Selatan
  • Berliyana Kesuma Hati Program Studi Sains Data, Institut Teknologi Sumatera, Lampung Selatan
  • Ardika Satria Program Studi Sains Data, Institut Teknologi Sumatera, Lampung Selatan
  • Christyan Tamaro Nadeak
  • Ade Lailani Program Studi Sains Data, Institut Teknologi Sumatera, Lampung Selatan

Keywords:

penerjemahan mesin, model sequence-to-sequence, arsitektur T5, metrik evaluasi, pemrosesan teks

Abstract

Bahasa Aceh adalah salah satu bahasa daerah yang memiliki struktur dan kosakata khas, yang sering kali membedakan makna dan konteks dalam proses penerjemah. Penelitian ini bertujuan mengembangkan model terjemahan mesin berbasis sequence-to-sequence untuk penerjemahan dari Bahasa Aceh ke bahasa Indonesia dengan memanfaatkan arsitektur T5. Data diproses untuk menghasilkan fitur-fitur yang dapat digunakan dalam model, dengan analisis distribusi panjang kalimat, kata-kata paling umum, serta pembuatan n-grams (bigram dan trigram) untuk mengeksplorasi karakteristik teks lebih lanjut. Distribusi panjang kalimat dalam Bahasa Aceh dan bahasa Indonesia mengindikasikan variasi dalam struktur kalimat antara kedua bahasa. Analisis kata-kata yang paling sering muncul serta visualisasi word cloud memberikan gambaran tentang kata-kata dominan dalam kedua bahasa, yang penting untuk memahami konteks linguistik yang ada dalam data pelatihan. Model T5 dilatih dengan Seq2SeqTrainer, lalu dievaluasi menggunakan metrik BLEU dan METEOR. Metrik BLEU mengukur kesesuaian terjemahan yang dihasilkan dengan referensi, sementara METEOR mengevaluasi kualitas terjemahan dengan mempertimbangkan kesamaan makna dan struktur kalimat. Hasil evaluasi menunjukkan bahwa model T5 memperoleh skor BLEU sebesar 10.04 dan skor METEOR sebesar 0.31. Evaluasi METEOR menunjukkan adanya kesulitan model dalam menangkap kesamaan makna dan struktur kalimat, yang mengakibatkan pada perbedaan urutan dan pilihan kata. Model ini dapat menunjukkan potensi dalam menghasilkan terjemahan yang relevan dan mudah dipahami. Hasil penelitian ini dikembangkan menjadi aplikasi berbasis web yang bernama “AcehLingua” untuk penerjemahan kalimat dalam Bahasa Aceh ke bahasa Indonesia.

Downloads

Published

2025-02-21

Conference Proceedings Volume

Section

Prodi Statistika

Categories