Perbandingan metode lexical dan semantic retrieval : BM25, IndoSBERT baseline, dan IndoSBERT fine-tuned pada pencarian dokumen berbahasa Indonesia
Keywords:
BM25, IndoSBERT, lexical retrieval, semantic retrieval, sistem pencarianAbstract
Abstrak
Sistem pencarian skripsi pada repositori perguruan tinggi umumnya masih mengandalkan pendekatan lexical berbasis kata kunci, seperti BM25, yang efektif ketika terdapat kecocokan istilah antara query dan dokumen. Namun, pendekatan ini memiliki keterbatasan dalam menangkap kesamaan makna ketika istilah yang digunakan berbeda. Penelitian ini melakukan studi komparatif antara metode lexical BM25 dan metode semantic retrieval berbasis IndoSBERT, baik dalam kondisi pretrained (baseline) maupun setelah fine-tuning, pada repositori skripsi Program Studi Informatika UPN “Veteran” Jawa Timur. Dataset yang digunakan terdiri dari 1.146 dokumen skripsi, dengan evaluasi dilakukan menggunakan ground truth relevansi yang dilabeli secara manual melalui pendekatan pooling. Kinerja sistem dievaluasi menggunakan metrik Precision@5, Recall@5, Mean Average Precision (MAP), dan nDCG@5. Hasil eksperimen menunjukkan bahwa BM25 memiliki performa terbaik pada metrik presisi dan kualitas peringkat untuk query pendek dan eksplisit. Sementara itu, pendekatan semantic retrieval mampu menangkap hubungan makna antar dokumen, tetapi menunjukkan keterbatasan dalam menangani istilah spesifik dan frasa penting. Fine-tuning IndoSBERT memberikan peningkatan pada kualitas pemeringkatan secara keseluruhan, meskipun belum mampu melampaui performa BM25. Temuan ini menunjukkan bahwa efektivitas metode pencarian sangat dipengaruhi oleh karakteristik koleksi dokumen dan sifat query, sehingga pemilihan pendekatan perlu disesuaikan dengan konteks penggunaan sistem pencarian.