PERBANDINGAN TF-IDF DAN BM25 UNTUK FEATURE EXTRACTION PADA DATA ULASAN BUKU

Authors

  • Sesillia Agustin Sains Data, UPN “Veteran” Jawa Timur, Surabaya, Indonesia
  • Wahyu Syaifullah J.S. Sains Data, UPN “Veteran” Jawa Timur, Surabaya, Indonesia
  • Alfan Rizaldy Pratama Sains Data, UPN “Veteran” Jawa Timur, Surabaya, Indonesia

Keywords:

TF-IDF, NLP, Text Preprocessing, BM25, Ulasan Buku

Abstract

Feature extraction atau ekstraksi fitur adalah salah satu langkah penting dalam data mining untuk Natural Language Processing (NLP), terutama dalam klasifikasi teks. Proses ini bertujuan mengubah dokumen menjadi suatu list fitur yang dapat diproses dengan lebih mudah dan akurat. Dalam penelitian ini, dilakukan studi komparatif antara dua metode feature extraction yaitu TF-IDF (Term Frequency-Inverse Document Frequency), dan BM25 pada data Ulasan Buku. Tujuan penelitian adalah mengevaluasi kemampuan kedua metode dalam mengekstraksi fitur yang paling relevan terhadap konten teks ulasan buku. Hasil analisis menunjukkan performa TF-IDF lebih baik dari BM25 dalam memberi nilai yang lebih tinggi pada kata-kata yang relevan terhadap data, dengan kata-kata yang mendapat nilai TF-IDF tertinggi seperti ‘book’, ‘story’, dan ‘read’, dibandingkan dengan BM25 yang mengekstraksi kata-kata umum seperti ‘the’, ‘i’, ‘a’, dan ‘and’. Temuan penelitian ini dapat menjadi pendukung penelitian selanjutnya, terutama dalam bidang text classification dan sentiment analysis

Downloads

Published

2026-02-21

Conference Proceedings Volume

Section

Artikel

Categories