Analisis Pengelompokan Data Kriminalitas dan Kejahatan di Indonesia dari Portal Berita Online Menggunakan Metode Latent Dirichlet Allocation
DOI:
https://doi.org/10.38035/jemsi.v6i3.4107Keywords:
Kriminalitas, Portal Berita Online, Web Scraping, Topic Modelling, LDAAbstract
Kriminalitas dan kejahatan merupakan fenomena sosial yang melanggar norma hukum dan berdampak serius pada stabilitas negara serta struktur sosial dan ekonomi. Dalam era digital, portal berita online mempermudah akses informasi terkait kejahatan. Namun, tingginya volume dan keberagaman data sering menyulitkan masyarakat memahami tren kejahatan. Tujuan dari penelitian ini adalah untuk mengidentifikasi pola atau tema utama dan mengelompokkan data kejahatan yang terjadi di Indonesia dari situs berita detik.com dan cnnindonesia.com pada lima tahun terakhir. Penelitian ini menggunakan metode Latent Dirichlet Allocation (LDA) untuk mengelompokkan berita kriminal ke dalam beberapa kategori. Pengumpulan data menggunakan web scraping dari portal berita online untuk mendapatkan dataset yang representatif. Data yang telah dikumpulkan akan diolah melalui tahap text preprocessing dan topic modelling menggunakan metode LDA. Dari 20 topik yang dilakukan pengujian, model terbaik ditemukan pada 9 topik dengan coherence score sebesar 0,538163893830327 dan perplexity sebesar -7,85722881473597, menunjukkan topik yang interpretatif dan distribusi data yang baik. Topik utama meliputi isu sosial, kekerasan, investigasi polisi, kasus hukum, peradilan, penipuan, hingga pencurian. Tema dominan adalah kekerasan terhadap anak dan perempuan (21,59%) dengan jumlah sebanyak 5.060 dokumen serta pencurian (23,26%) dengan jumlah sebanyak 5.241 dokumen. Hasil penelitian ini memberikan wawasan mengenai tren kriminalitas di Indonesia dalam konteks sosial dan hukum.
References
Alghamdi, R., & Alfalqi, K. (2015). A Survey of Topic Modeling in Text Mining. International Journal of Advanced Computer Science and Applications, 6(1), 147-153.
Astuti, A. R., & Cahyono, N. (2023). Analisis Topic Modelling Persepsi Pengguna Internet Menggunakan Metode Latent Dirichlet Allocation. Indonesian Journal of Computer Science, 326-334.
Ayani, D. D., Pratiwi, H. S., & Muhardi, H. (2019). Implementasi Web Scraping untuk Pengambilan Data pada Situs Marketplace. Jurnal Sistem dan Teknologi Informasi, 7(4), 257-262.
Blei, D. M. (2012). Probabilistic Topic Models. Communications of the ACM, 55(4), 77-84.
Blei, D. M., Ng, A. Y., & Jordan, M. I. (2003). Latent Dirichlet Allocation. Journal of Machine Learning Research, 993-1022.
Chang, J., Gerrish, S., Wang, C., Blei, D. M., & Boyd-Graber, J. (2009). Reading Tea Leaves: How Humans Interpret Topic Models. Advances in Neural Information Processing Systems, 32, 288-296.
Guo, Y., Han, S., Li, Y., Zhang, C., & Bai, Y. (2018). K-Nearest Neighbor combined with guided filter for hyperspectral image classification. Procedia Computer Science, 159-165.
Hickman, L., Thapa, S., Tay, L., Cao, M., & Srinivasan, P. (2020). Text Preprocessing for Text Mining in Organizational Research: Review and Recommendations. Organizational Research Methods, 25(1), 114-146.
Hidayatullah, A. F., Ma’arif, M. R., Habibie, M., & Khomsah, S. (2020). Indonesia Infrastructure Development Topic Discovery on Online News with Latent Dirichlet Allocation. IOP Conf. Series: Materials Science and Engineering, 1077.
Jelodar, H., Wang, Y., Yuan, C., Feng, X., Jiang, X., Li, Y., & Zhao, L. (2019). Latent Dirichlet allocation (LDA) and topic modeling: models, applications, a survey. Multimedia Tools and Application, 78(11), 15169-15211.
Julianto, I. T., Kurniadi, D., & Jr, B. B. (2023). Enhancing Sentiment Analysis With Chatbots:a Comparative Study Of Text Pre-processing. Jurnal Teknik Informatika (JUTIF), 1419-1430.
Puspitarani, Y., & Zulpratita, U. S. (2020). Preparatory Document Structuring Technique. International Journal of Psychosocial Rehabilitation, 24(2), 3293-3302.
Ridwansyah, T. (2022). Implementasi Text Mining Terhadap Analisis Sentimen Masyarakat Dunia Di Twitter Terhadap Kota Medan Menggunakan K-Fold Cross Validation Dan Naïve Bayes Classifie. Kajian Ilmiah Informatika dan Komputer, 178-185.
Röder, M., Both, A., & Hinneburg, A. (2015). Exploring the Space of Topic Coherence Measures. Proceedings of the Eighth ACM International Conference on Web Search and Data Mining (WSDM), 399-408.
Rohman, M. S., Santoso, H. A., Saraswati, G. W., & Winarsih, N. A. (2019). Pemanfaatan Topic-Focused Crawler untuk Pembangunan Corpus Berita Bencana menggunakan Teknik Scrapy CSS Selector. Seminar Nasional APTIKOM (SEMNASTIK), 250-258.
Sari, W. A., & Purnomo, H. D. (2022). Topic Modeling Using The Latent Dirichlet Allocation Method On Wikipedia Pandemic Covid-19 Data In Indonesia . Jurnal Teknik Informatika (JUTIF), 3(5), 1223-1230 .
Satriajati, S., Panuntun, S. B., & Pramana, S. (2020). Implementasi Web Scraping Dalam Pengumpulan Berita Kriminal Pada Masa Pandemi COVID-19. Seminar Nasional Official Statistics, 300-308.
Setiawan, G. H., Adnyana, I. M., Sugiartha, I. G., & Budiarta, K. (2023). Ekstraksi Topik Pada Aduan Mahasiswa Dengan Pendeketan Model Latent Dirichlet Allocation (LDA). Seminar Nasional Corisindo, 145-150.
Shevendrakumar, D. (2023). Clustering and Retrieval of News articles using Natural Language Processing. INTERANTIONAL JOURNAL OF SCIENTIFIC RESEARCH IN ENGINEERING AND MANAGEMENT, 7, 1-5.
Tapsai, C. (2018). Information Processing and Retrieval from CSV File by Natural Language. 2018 IEEE 3rd International Conference on Communication and Information Systems (ICCIS), 212-216.
Tong, Z., & Zhang, H. (2016). A Text Mining Research Based On LDA Topic Modelling. Computer Science & Information Technology, 6, 201–210.
Tresnasari, N. A., Adji, T. B., & Permanasari, A. E. (2020). Social-Child-Case Document Clustering based on Topic Modeling using Latent Dirichlet Allocation. IJCCS (Indonesian Journal of Computing and Cybernetics Systems), 14(2), 179-188.
Turland, M. (2010). Php-Architect's Guide to Web Scraping. Marco Tabini & Associates.
Wardhani, D., Astuti, R., & Saputra, D. D. (2024). Optimasi Feature Selection Text Mining: Stemming dan Stopword untuk Sentimen Analisis Aplikasi SatuSehat. Journal Of Social Science Research.
Downloads
Published
How to Cite
Issue
Section
License
Copyright (c) 2025 Adi Widyanto, Yan Puspitarani, Adi Purnama

This work is licensed under a Creative Commons Attribution 4.0 International License.
Hak cipta :
Penulis yang mempublikasikan manuskripnya di jurnal ini menyetujui ketentuan berikut:
- Hak cipta pada setiap artikel adalah milik penulis.
- Penulis mengakui bahwa Jurnal Ekonomi Manajemen Sistem Informasi (JEMSI) berhak menjadi yang pertama menerbitkan dengan lisensi Creative Commons Attribution 4.0 International (Attribution 4.0 International CC BY 4.0) .
- Penulis dapat mengirimkan artikel secara terpisah, mengatur distribusi non-eksklusif manuskrip yang telah diterbitkan dalam jurnal ini ke versi lain (misalnya, dikirim ke repositori institusi penulis, publikasi ke dalam buku, dll.), dengan mengakui bahwa manuskrip telah diterbitkan pertama kali di Jurnal Ekonomi Manajemen Sistem Informasi (JEMSI).