PERBANDINGAN TF-IDF DAN BM25 UNTUK FEATURE EXTRACTION PADA DATA ULASAN BUKU
Keywords:
TF-IDF, NLP, Text Preprocessing, BM25, Ulasan BukuAbstract
Feature extraction atau ekstraksi fitur adalah salah satu langkah penting dalam data mining untuk Natural Language Processing (NLP), terutama dalam klasifikasi teks. Proses ini bertujuan mengubah dokumen menjadi suatu list fitur yang dapat diproses dengan lebih mudah dan akurat. Dalam penelitian ini, dilakukan studi komparatif antara dua metode feature extraction yaitu TF-IDF (Term Frequency-Inverse Document Frequency), dan BM25 pada data Ulasan Buku. Tujuan penelitian adalah mengevaluasi kemampuan kedua metode dalam mengekstraksi fitur yang paling relevan terhadap konten teks ulasan buku. Hasil analisis menunjukkan performa TF-IDF lebih baik dari BM25 dalam memberi nilai yang lebih tinggi pada kata-kata yang relevan terhadap data, dengan kata-kata yang mendapat nilai TF-IDF tertinggi seperti ‘book’, ‘story’, dan ‘read’, dibandingkan dengan BM25 yang mengekstraksi kata-kata umum seperti ‘the’, ‘i’, ‘a’, dan ‘and’. Temuan penelitian ini dapat menjadi pendukung penelitian selanjutnya, terutama dalam bidang text classification dan sentiment analysis
Downloads
Published
Conference Proceedings Volume
Section
Categories
License
Copyright (c) 2026 Prosiding Seminar Nasional Sains dan Teknologi "SainTek"

This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.
