Perbandingan metode lexical dan semantic retrieval : BM25, IndoSBERT baseline, dan IndoSBERT fine-tuned pada pencarian dokumen berbahasa Indonesia

Authors

  • Dela Puspita Lasminingrum Program Studi Informatika, Fakultas Ilmu Komputer, Universitas Pembangunan Nasional “Veteran” Jawa Timur
  • Eva Yulia Puspaningrum Program Studi Informatika, Fakultas Ilmu Komputer, Universitas Pembangunan Nasional “Veteran” Jawa Timur
  • Budi Mukhammad Mulyo Program Studi Informatika, Fakultas Ilmu Komputer, Universitas Pembangunan Nasional “Veteran” Jawa Timur

Keywords:

BM25, IndoSBERT, lexical retrieval, semantic retrieval, sistem pencarian

Abstract

Abstrak

Sistem pencarian skripsi pada repositori perguruan tinggi umumnya masih mengandalkan pendekatan lexical berbasis kata kunci, seperti BM25, yang efektif ketika terdapat kecocokan istilah antara query dan dokumen. Namun, pendekatan ini memiliki keterbatasan dalam menangkap kesamaan makna ketika istilah yang digunakan berbeda. Penelitian ini melakukan studi komparatif antara metode lexical BM25 dan metode semantic retrieval berbasis IndoSBERT, baik dalam kondisi pretrained (baseline) maupun setelah fine-tuning, pada repositori skripsi Program Studi Informatika UPN “Veteran” Jawa Timur. Dataset yang digunakan terdiri dari 1.146 dokumen skripsi, dengan evaluasi dilakukan menggunakan ground truth relevansi yang dilabeli secara manual melalui pendekatan pooling. Kinerja sistem dievaluasi menggunakan metrik Precision@5, Recall@5, Mean Average Precision (MAP), dan nDCG@5. Hasil eksperimen menunjukkan bahwa BM25 memiliki performa terbaik pada metrik presisi dan kualitas peringkat untuk query pendek dan eksplisit. Sementara itu, pendekatan semantic retrieval mampu menangkap hubungan makna antar dokumen, tetapi menunjukkan keterbatasan dalam menangani istilah spesifik dan frasa penting. Fine-tuning IndoSBERT memberikan peningkatan pada kualitas pemeringkatan secara keseluruhan, meskipun belum mampu melampaui performa BM25. Temuan ini menunjukkan bahwa efektivitas metode pencarian sangat dipengaruhi oleh karakteristik koleksi dokumen dan sifat query, sehingga pemilihan pendekatan perlu disesuaikan dengan konteks penggunaan sistem pencarian.

 

Downloads

Download data is not yet available.

Downloads

Published

2026-03-03

How to Cite

Lasminingrum, D. P., Puspaningrum, E. Y., & Mulyo, B. M. (2026). Perbandingan metode lexical dan semantic retrieval : BM25, IndoSBERT baseline, dan IndoSBERT fine-tuned pada pencarian dokumen berbahasa Indonesia. Prosiding Seminar Nasional Penelitian Dan Pengabdian Kepada Masyarakat LPPM Universitas ’Aisyiyah Yogyakarta, 4. Retrieved from https://proceeding.unisayogya.ac.id/index.php/prosemnaslppm/article/view/2088

Issue

Section

Penelitian