E-commerce's transformation of consumer behavior has increased the importance of understanding customer emotions, especially in the transition from traditional retail models to online platforms. The proliferation of online shopping has fundamentally changed not only shopping habits but also consumer interactions and purchase decisions. This research aims to compare and analyze the performance of various text mining and machine learning algorithms in the context of sentiment analysis and online review data. For this purpose, analyses were performed with a total of five supervised classification algorithms including Logistic Regression, Naive Bayes, Support Vector Machine, Random Forest, AdaBoost, and a deep learning model, CNN Model. The dataset used in the study includes customer reviews obtained from a women's clothing e-commerce platform. The missing data were completed by pre-processing the dataset. Count Vectorizer and TF-IDF vectorization were performed to transform the textual data. In addition, various text preprocessing steps were applied. According to the findings obtained from the research, AdaBoost and Naive Bayes algorithms were the most effective algorithms in terms of classifying customer sentiments. No significant difference was detected in terms of the vectorization method used. Although the CNN Model showed high performance, the generalizability of the model was considered low because overfitting was detected during the training of the model.
Geleneksel perakende modellerinden çevrimiçi platformlara geçişte e-ticaretin tüketici davranışlarını dönüştürücü etkisi müşteri duygularını anlamanın önemini artırmıştır. Bu araştırma, çeşitli metin madenciliği ve makine öğrenmesi algoritmalarının duygu analizi ve çevrimiçi değerlendirme verileri bağlamında performanslarını karşılaştırmayı amaçlamaktadır. Bu amaç doğrultusunda Lojistik Regresyon, Naive Bayes, Destek Vektör Makinesi, Rastgele Orman ve AdaBoost olmak üzere toplam beş denetimli sınıflandırma algoritması ve bir derin öğrenme modeli olan CNN Model ile analizler gerçekleştirilmiştir. Çalışmada kullanılan veri seti, bir kadın giyim e-ticaret platformundan elde edilen müşteri değerlendirmelerini içermektedir. Veri setinde ön işlemeler gerçekleştirilerek eksik veriler tamamlanmıştır. Count Vectorizer ve TF-IDF vektörizasyonları yapılarak metinsel verilerin dönüşümü sağlanmıştır. Bunlara ek olarak çeşitli metin ön işleme adımları uygulanmıştır. Araştırmadan elde edilen bulgulara göre müşteri duygularını sınıflandırma bağlamında en etkili algoritmalar AdaBoost ve Naive Bayes algoritmaları olmuştur. Kullanılan vektörizasyon yöntemi açısından önemli bir farklılık tespit edilmemiştir. CNN Model yüksek performans gösterse de modelin eğitimi sırasında aşırı öğrenme tespit edildiği için modelin genellenebilirliği düşük kabul edilmiştir.
Primary Language | English |
---|---|
Subjects | Data Mining and Knowledge Discovery, Natural Language Processing |
Journal Section | Computer Engineering |
Authors | |
Publication Date | September 3, 2024 |
Submission Date | January 16, 2024 |
Acceptance Date | July 31, 2024 |
Published in Issue | Year 2024 |