Analisis klasifikasi popularitas film Indonesia berdasarkan metadata menggunakan catboost dan SHAP
Keywords:
film popularity, metadata, catboost, shap, classificationAbstract
Abstrak
Popularitas film sering kali dipersepsikan sebagai hasil dari faktor eksternal seperti promosi atau tren pasar, sementara karakteristik internal film yang tercermin dalam metadata pra-rilis belum banyak dianalisis secara sistematis, khususnya dalam konteks perfilman Indonesia. Penelitian ini bertujuan untuk menganalisis karakteristik film populer Indonesia berdasarkan metadata menggunakan pendekatan klasifikasi dan interpretabilitas model. Data yang digunakan berupa metadata film yang mencakup genre, aktor, sutradara, produser, durasi, dan tahun rilis. Popularitas diperlakukan sebagai variabel kategorikal dengan dua kelas, yaitu populer dan tidak populer. Model klasifikasi utama yang digunakan adalah CatBoost, dengan Decision Tree sebagai baseline. Evaluasi dilakukan menggunakan accuracy, precision, recall, F1-score, dan ROC-AUC. Hasil evaluasi menunjukkan bahwa model CatBoost mampu membedakan kedua kelas dengan baik, dengan nilai ROC-AUC sebesar 0,79 dan F1-score sebesar 0,81, yang mengindikasikan bahwa metadata film mengandung informasi yang relevan untuk membedakan film populer dan tidak populer. Untuk memahami kontribusi setiap fitur, digunakan metode SHapley Additive exPlanations (SHAP). Hasil analisis SHAP menunjukkan bahwa sutradara dan produser merupakan fitur dengan pengaruh paling dominan terhadap popularitas film, diikuti oleh durasi film, genre, dan tahun rilis, sementara aktor dan penulis memiliki kontribusi yang relatif lebih kecil secara global. Temuan ini menunjukkan bahwa popularitas film Indonesia lebih dipengaruhi oleh faktor kreatif dan produksi dibandingkan faktor individual semata. Penelitian ini menegaskan bahwa integrasi CatBoost dan SHAP tidak hanya efektif untuk klasifikasi, tetapi juga memberikan pemahaman yang interpretatif mengenai karakteristik film populer di Indonesia.
Downloads
References
Daftar Pustaka
Bramantia, A. C., Hutahaean, J., & Ambarsari, E. W. (2025). Film Popularity Analysis through Combined K-Means Clustering and Gradient Boosted Trees. 2(2), 46–54.
Chen, S., Liu, C.-H., Hao, X., Nie, X., Arap, M., & Hamid, R. (2023). Movies2Scenes : Using Movie Metadata to Learn Scene Representation.
Choi, H., & Abdirayimov, S. (2024). Demonstrating the Power of SHAP Values in AI-Driven Classification of Marvel Characters. 11(2), 167–172.
Filom, K., Miroshnikov, A., Kotsiopoulos, K., & Kannan, A. R. (2024). On marginal feature attributions of tree-based models. 1–64.
Leem, S., Oh, J., So, D., & Moon, J. (2023). Towards Data-Driven Decision-Making in the Korean Film Industry : An XAI Model for Box Office Analysis Using.
Linardatos, P., & Papastefanopoulos, V. (2021). Explainable AI : A Review of Machine Learning Interpretability Methods.
Lundberg, S. M., & Lee, S. (2017). A Unified Approach to Interpreting Model Predictions. Section 2, 1–10.
Oyewola, D. O., & Dada, E. G. (2022). Machine Learning Methods for Predicting the Popularity of Movies. Journal of Artificial Intelligence and Systems, 4(1), 65–82. https://doi.org/10.33969/ais.2022040105
Rantini, D., Inas, R., Purnami, W., Statistika, D., Matematika, F., & Data, S. (2019). Predicting Popularity of Movie UsingSupport Vector Machines. 2(March).
Sianipar, F. D., Irya, A., Syukron, S., Defiyanti, A., Komputer, P. I., Mipa, F., Negeri, U., Jl, M., Iskandar, W., & Estate, M. (2025). Analisis Popularitas Genre Film di Indonesia Menggunakan Algoritma Decision Tree. Jurnal Mahasiswa Teknik Informatika, 9(4), 5555–5563.
Siddharth, A. V, Rakshitha, P., Mazher, S., & Reddy, V. S. (2025). Movie Genre Classification Using Machine Learning. 11(12), 4489–4499.
Syamkalla, M. T., Khomsah, S., Setiya, Y., & Nur, R. (2024). Implementasi Algoritma CatBoost dan SHAPley Additive Explanations (SHAP) dalam Memprediksi Popularitas Game Indie pada Platform STEAM. Jurnal Teknologi Informasi Dan Ilmu Komputer, 11(4). https://doi.org/10.25126/jtiik.1148503
Victoria, A., Vanessa, P.-B., Mensing, S., Stodtmann, S., & Maier, C. S. (2024). Practical guide to SHAP analysis : Explaining supervised machine learning model predictions in drug development Mathematical background. October, 1–15. https://doi.org/10.1111/cts.70056
Zhang, Q. (2024). Predicting popularity : Machine learning insights into movie team patterns and online ratings. 25(3), 386–398.
Zhang, Y., & Bai, Z. (2023). Prediction of movies popularity in supervised learning techniques. Applied and Computational Engineering, 29(1), 142–147. https://doi.org/10.54254/2755-2721/29/20230742