Komparasi Algoritma Random Forest, Naïve Bayes, dan Bert Untuk Multi-Class Classification Pada Artikel Cable News Network (CNN)
Abstract
Pertukaran informasi melalui media digital terjadi dalam waktu singkat dan jumlah yang besar. Salah satu dampaknya adalah kemudahan dalam mengakses artikel berita melalui media internet, seperti media Cable News Network (CNN). Artikel berita CNN dikelompokkan ke dalam beberapa kategori. Jumlah kategori yang beragam ini tidak dapat diselesaikan dengan binary classification apabila ingin dikelompokkan. Oleh karena itu, pengelompokkan dapat dilakukan menggunakan metode multi-class classification. Multi-class classification adalah klasifikasi dengan lebih dari dua kelas dengan masing-masing sampel ditugaskan untuk satu label. Algoritma yang digunakan dalam penelitian ini yaitu Random Forest, Naïve Bayes, dan BERT. Random Forest dan Naïve Bayes merupakan algoritma Machine Learning sedangkan BERT merupakan algoritma Deep Learning. Data yang digunakan pada penelitian ini berjumlah 37904 artikel berita CNN dengan 6 kategori, yakni news, business, health, entertainment, sports, dan politics. Penelitian ini bertujuan untuk membandingkan performa dari ketiga algoritma tersebut pada klasifikasi artikel berita CNN. Dari hasil penelitian, diketahui bahwa algoritma BERT memiliki performa lebih baik dari Random Forest dan Naïve Bayes dengan akurasi 0.92 dan macro average f1 score 0.92.