DİYABET RİSK DURUMUNUN BELİRLENMESİNDE SINIFLANDIRMA ALGORİTMALARININ PERFORMANSLARININ KAPSAMLI BİR ŞEKİLDE KARŞILAŞTIRILMASI

Rukiye Uzun Arslan; İrem Şenyer Yapıcı; Okan Erkaymaz

doi:10.17780/ksujes.1465177

Research Article

A COMPREHENSIVE COMPARISON OF THE PERFORMANCE OF CLASSIFICATION ALGORITHMS IN DETERMINING DIABETES RISK STATUS

Year 2024, Volume: 27 Issue: 4, 1320 - 1333, 03.12.2024

Rukiye Uzun Arslan , İrem Şenyer Yapıcı , Okan Erkaymaz

https://doi.org/10.17780/ksujes.1465177

Cited By: 3

https://izlik.org/JA42UD79SM

Abstract

Diabetes is a metabolic public health problem with an increasing prevalence worldwide. If untreated, it can cause irreversible effects on many tissues and organs. Therefore, early diagnosis and effective management of diabetes is critical to improve patients' quality of life and reduce potential health risks. In the healthcare industry, machine learning (ML) based decision support systems (DSS) are widely used for disease diagnosis. In this study, a proposed ML-based CDS for diabetes diagnosis is presented. Within the scope of the study, the dataset is randomly split five times in a ratio of 80:20 and the performances of five different ML algorithms (k-nearest neighbor, ridge, extreme gradient boosting, extra tree and gradient boosting) are evaluated. For this purpose, the features in the dataset are evaluated with the RO algorithm and the most significant features are determined by the SelectKBest method based on the Chi-square test. In addition, the effects of resampling techniques (synthetic minority oversampling technique, Near Miss) on the performance of the proposed system were analyzed. As a result of the analysis, it was found that the gradient boosting algorithm performed best when the Near Miss resampling technique was applied to the dataset. In this case, the F-score, precision, accuracy and sensitivity values were calculated as 99.44%, 98.89%, 99.45% and 100%, respectively, based on the analysis with the test data.

Keywords

Diabetes , classification , decision support system , sampling techniques.

References

Alehegn, M., Raghvendra Joshi, R., & Mulay, P. (2019). Diabetes Analysis And Prediction Using Random Forest, KNN, Naïve Bayes, And J48: An Ensemble Approach. International Journal of Scientific & Technology Research, 8(9), 1346-1354.
Akyol, K., & Şen, B. (2018). Diabetes Mellitus Data Classification by Cascading of Feature Selection Methods and Ensemble Learning Algorithms. International Journal of Modern Education and Computer Science, 10(6), 10-16. https://doi.org/10.5815/ijmecs.2018.06.02
Dal, A., Gümüş, İ. H., Güldal, S. & Yavaş, M. (2021). Dengesiz Veriler İçin Ağırlıklı Geometrik Ortalama Tabanlı Yeni Bir Yeniden Örnekleme Yaklaşımı, Adıyaman Üniversitesi Mühendislik Bilimleri Dergisi, 8 (15), 343-352. https://doi.org/10.54365/adyumbd.940539
Daghistani, T., & Alshammari, R. (2020). Comparison of statistical logistic regression and randomforest machine learning techniques in predicting diabetes. Journal of Advances in Information Technology, 11(2), 78-83. https://doi.org/10.12720/jait.11.2.78-83
Das, H., Naik, B., & Behera, H. S. (2018). Classification of diabetes mellitus disease (DMD): A data mining (DM) approach. Advances in Intelligent Systems and Computing, 710, 539-549. Springer Verlag. https://doi.org/10.1007/978-981-10-7871-2_52
Hacıbeyoglu, M., Çelik, M., & Erdaş Çiçek, Ö. (2023). En Yakın Komşu Algoritması ile Binalarda Enerji Verimliliği Tahmini. Necmettin Erbakan Üniversitesi Fen ve Mühendislik Bilimleri Dergisi, 5(2), 28-37. https://doi.org/10.47112/neufmbd.2023.10
Harman, G. (2021). Destek vektör makineleri ve naive bayes sınıflandırma algoritmalarını kullanarak diabetes mellitus tahmini. Avrupa Bilim ve Teknoloji Dergisi, (32), 7-13. https://doi.org/ 10.31590/ejosat.1041186
IDF Diabetes Atlas. Diabetes around the world in 2021. https://diabetesatlas.org/ Accessed 04.04.2024
Jakka, A., & Vakula Rani, J. (2019). Performance evaluation of machine learning models for diabetes prediction. International Journal of Innovative Technology and Exploring Engineering, 8(11), 1976-1980. https://doi.org/10.35940/ijitee.K2155.0981119
Kaggle. Pakistani Diabetes Dataset. (2024). https://www.kaggle.com/datasets/mshoaibishaaq/pakistani-diabetes-dataset Accessed 04.04.2024
Korkmaz, M., & Kaplan, K. (2023). Şeker hastalığı teşhisi ve önerilen modellerinin karşılaştırılması. Niğde Ömer Halisdemir Üniversitesi Mühendislik Bilimleri Dergisi, 12(1), 1-1.
Mesquita, F., aurício, J., & Marques, G. (2021). Oversampling techniques for diabetes classification: A comparative study. In 2021 International Conference on e-Health and Bioengineering (EHB) (pp. 1-6). IEEE.
Mqadi, N. M., Naicker, N., & Adeliyi, T. (2021). Solving misclassification of the credit card imbalance problem using near miss. Mathematical Problems in Engineering, 2021, 1-16. https://doi.org/10.1155/2021/7194728
Mohammed, R., Rawashdeh, J., & Abdullah, M. (2020). Machine learning with oversampling and undersampling techniques: overview study and experimental results. In 2020 11th international conference on information and communication systems (ICICS) (pp. 243-248). IEEE.
Özüler Başer, B., Yangın, M., & Sarıdaş, E. S. (2021). Makine Öğrenmesi Teknikleriyle Diyabet Hastalığının Sınıflandırılması. Süleyman Demirel Üniversitesi Fen Bilimleri Enstitüsü Dergisi, 25(1), 112-120. doi: 10.19113/sdufenbed.842460
Özoğur, H. N., & Orman, Z. (2023). Sağlık Verilerinin Analizinde Veri Ön işleme Adımlarının Makine Öğrenmesi Yöntemlerinin Performansına Etkisi. Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi, 16(1), 23-33.
Öztürk, H. (2022). Dengesiz veri setlerinde farklı dengeleme algoritmalarının optimum denge oranlarının sınıflandırma ve regresyon ağaçları yöntemi ile incelenmesi: simülasyon çalışması. Doktora Tezi. Aydın Adnan Menderes Üniversitesi Sağlık Bilimleri Enstitüsü Biyoistatistik, Aydın 88s.
Özkan, Y., Yürekli, B. S., & Suner, A. (2022). Diyabet tanısının tahminlenmesinde denetimli makine öğrenme algoritmalarının performans karşılaştırması. Gümüşhane Üniversitesi Fen Bilimleri Dergisi, 12(1), 211-226. https://doi.org/10.17714/gumusfenbil.820882
Sungur, F., & Bakır, H. (2024). Hiperparametre ayarlama ve veri dengelemenin kalp hastalığı tahmini için kullanılan makine öğrenimi algoritmaları üzerindeki etkilerinin incelenmesi. Bilişim Teknolojileri Dergisi, 17(1), 45-58. https://doi.org/10.17671/gazibtd.1399813
Sevli, O. (2022). Diyabet hastalığının farklı sınıflandırıcılar kullanılarak teşhisi. Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi, 38(2), 989-1002. https://doi.org/10.17341/gazimmfd.880750
Shuja, M., Mittal, S., & Zaman, M. (2020). Effective prediction of type ii diabetes mellitus using data mining classifiers and SMOTE. In Advances in Computing and Intelligent Systems: Proceedings of ICACM 2019 (pp. 195-211). Springer Singapore.
Turan, T. (2023). Makine Öğrenmesi Algoritmaları İle Su Kalitesi Ve İçilebilirlik Tahmini. Uluborlu Mesleki Bilimler Dergisi, 6(2), 65-80.
Türkmenoğlu, B. K., & Yildiz, O. (2021). Predicting the survival of heart failure patients in unbalanced data sets. In 2021 29th Signal Processing and Communications Applications Conference (SIU) (pp. 1-4). IEEE.
Turhan S., Özkan, Y., Yürekli, B. S., Suner, A., & Doğu, E. (2020). Comparison of Ensemble Learning Methods for Disease Diagnosis in Presence of Class Unbalanced: Case of Diabetes. Turkiye Klinikleri Journal of Biostatistics, 12(1), 16-26. https://doi.org/10.5336/biostatic.2019-66816
Uğurgöl, E., Batbat, T., Yeşilbas, D., Altınkaynak, M., Güven, A., Demirci, E., & Dolu, N. (In press) Doğrusal olmayan EEG dinamikleri ile anksiyete tespiti. Niğde Ömer Halisdemir Üniversitesi Mühendislik Bilimleri Dergisi, 13(2), 1-1. https://doi.org/10.28948/ngumuh.1359809
WHO. Diabets. (2024). https://www.who.int/health-topics/diabetes#tab=tab_1 Accessed 04.04.2024
Yılmaz, H., Buldu, A., Kaya, Y., & Kuncan, F. (2023). Yapay Zeka Yöntemleriyle Erken Evre Diyabet Risk Tahmini. Journal of Scientific Reports-B, (007), 59-71.
Yakut, G., Çay, R. İ., & Öztürk, H. H. (2023). Makine Öğrenimi Teknikleri Kullanılarak Isparta İli İçin Tarımsal Ürün Önerme Sistemi. Gazi Mühendislik Bilimleri Dergisi, 9(4-ICAIAME 2023), 174-185. https://doi.org/10.30855/gmbd.0705S17
Yavaş, M., Güran, A., & Uysal, M. (2020). Covid-19 veri kümesinin SMOTE tabanlı örnekleme yöntemi uygulanarak sınıflandırılması. Avrupa Bilim ve Teknoloji Dergisi, 258-264. https://doi.org/10.31590/ejosat.779952

DİYABET RİSK DURUMUNUN BELİRLENMESİNDE SINIFLANDIRMA ALGORİTMALARININ PERFORMANSLARININ KAPSAMLI BİR ŞEKİLDE KARŞILAŞTIRILMASI

Year 2024, Volume: 27 Issue: 4, 1320 - 1333, 03.12.2024

Rukiye Uzun Arslan , İrem Şenyer Yapıcı , Okan Erkaymaz

https://doi.org/10.17780/ksujes.1465177

Cited By: 3

https://izlik.org/JA42UD79SM

Abstract

Diyabet, dünya çapında prevelansı her geçen gün artan metabolik bir halk sağlığı sorunudur. Bu hastalık kontrol altına alınmaması durumunda birçok doku ve organ üzerinde geri dönüşümü olmayan hasarlara neden olabilmektedir. Bu nedenle, diyabet hastalığının erken teşhisi ve etkili bir şekilde yönetilmesi, hastaların yaşam kalitesinin arttırılması ve potansiyel sağlık risklerinin azaltılması açısından kritik bir öneme sahiptir. Sağlık sektöründe, hastalıkların teşhisinde yaygın olarak kullanılan makine öğrenimi (MÖ) tabanlı karar destek sistemleri (KDS) önem arz etmektedir. Bu çalışmada, diyabet teşhisi için önerilen MÖ tabanlı bir KDS sunulmuştur. Çalışma kapsamında, veri seti rasgele 80:20 oranında beş kez bölünmüş ve beş farklı MÖ algoritmasıyla (k-en yakın komşu, ridge, aşırı gradyan arttırma, ekstra ağaç ve gradyan arttırma) performansları değerlendirilmiştir. Bunun için veri setindeki özellikler RO algoritmasıyla değerlendirilerek Ki-kare testine dayalı SelectKBest yöntemiyle en anlamlı özellikler belirlenmiştir. Ayrıca önerilen sistem performansı üzerinde yeniden örnekleme tekniklerinin (sentetik azınlık aşırı örnekleme tekniği, Near Miss) etkileri analiz edilmiştir. Yapılan analizler sonucunda, Near Miss yeniden örnekleme tekniğinin veri setine uygulanmasıyla gradyan arttırma algoritmasının en iyi performansı sergilediği tespit edilmiştir. Bu durumda, test verileriyle yapılan analizlere göre göre F-skor, kesinlik, doğruluk ve duyarlılık değerleri sırasıyla %99.44, %98.89, %99.45 ve %100 olarak hesaplanmıştır.

Keywords

Diyabet , sınıflandırma , karar destek sistemi , örnekleme teknikleri.

References

Alehegn, M., Raghvendra Joshi, R., & Mulay, P. (2019). Diabetes Analysis And Prediction Using Random Forest, KNN, Naïve Bayes, And J48: An Ensemble Approach. International Journal of Scientific & Technology Research, 8(9), 1346-1354.
Akyol, K., & Şen, B. (2018). Diabetes Mellitus Data Classification by Cascading of Feature Selection Methods and Ensemble Learning Algorithms. International Journal of Modern Education and Computer Science, 10(6), 10-16. https://doi.org/10.5815/ijmecs.2018.06.02
Dal, A., Gümüş, İ. H., Güldal, S. & Yavaş, M. (2021). Dengesiz Veriler İçin Ağırlıklı Geometrik Ortalama Tabanlı Yeni Bir Yeniden Örnekleme Yaklaşımı, Adıyaman Üniversitesi Mühendislik Bilimleri Dergisi, 8 (15), 343-352. https://doi.org/10.54365/adyumbd.940539
Daghistani, T., & Alshammari, R. (2020). Comparison of statistical logistic regression and randomforest machine learning techniques in predicting diabetes. Journal of Advances in Information Technology, 11(2), 78-83. https://doi.org/10.12720/jait.11.2.78-83
Das, H., Naik, B., & Behera, H. S. (2018). Classification of diabetes mellitus disease (DMD): A data mining (DM) approach. Advances in Intelligent Systems and Computing, 710, 539-549. Springer Verlag. https://doi.org/10.1007/978-981-10-7871-2_52
Hacıbeyoglu, M., Çelik, M., & Erdaş Çiçek, Ö. (2023). En Yakın Komşu Algoritması ile Binalarda Enerji Verimliliği Tahmini. Necmettin Erbakan Üniversitesi Fen ve Mühendislik Bilimleri Dergisi, 5(2), 28-37. https://doi.org/10.47112/neufmbd.2023.10
Harman, G. (2021). Destek vektör makineleri ve naive bayes sınıflandırma algoritmalarını kullanarak diabetes mellitus tahmini. Avrupa Bilim ve Teknoloji Dergisi, (32), 7-13. https://doi.org/ 10.31590/ejosat.1041186
IDF Diabetes Atlas. Diabetes around the world in 2021. https://diabetesatlas.org/ Accessed 04.04.2024
Jakka, A., & Vakula Rani, J. (2019). Performance evaluation of machine learning models for diabetes prediction. International Journal of Innovative Technology and Exploring Engineering, 8(11), 1976-1980. https://doi.org/10.35940/ijitee.K2155.0981119
Kaggle. Pakistani Diabetes Dataset. (2024). https://www.kaggle.com/datasets/mshoaibishaaq/pakistani-diabetes-dataset Accessed 04.04.2024
Korkmaz, M., & Kaplan, K. (2023). Şeker hastalığı teşhisi ve önerilen modellerinin karşılaştırılması. Niğde Ömer Halisdemir Üniversitesi Mühendislik Bilimleri Dergisi, 12(1), 1-1.
Mesquita, F., aurício, J., & Marques, G. (2021). Oversampling techniques for diabetes classification: A comparative study. In 2021 International Conference on e-Health and Bioengineering (EHB) (pp. 1-6). IEEE.
Mqadi, N. M., Naicker, N., & Adeliyi, T. (2021). Solving misclassification of the credit card imbalance problem using near miss. Mathematical Problems in Engineering, 2021, 1-16. https://doi.org/10.1155/2021/7194728
Mohammed, R., Rawashdeh, J., & Abdullah, M. (2020). Machine learning with oversampling and undersampling techniques: overview study and experimental results. In 2020 11th international conference on information and communication systems (ICICS) (pp. 243-248). IEEE.
Özüler Başer, B., Yangın, M., & Sarıdaş, E. S. (2021). Makine Öğrenmesi Teknikleriyle Diyabet Hastalığının Sınıflandırılması. Süleyman Demirel Üniversitesi Fen Bilimleri Enstitüsü Dergisi, 25(1), 112-120. doi: 10.19113/sdufenbed.842460
Özoğur, H. N., & Orman, Z. (2023). Sağlık Verilerinin Analizinde Veri Ön işleme Adımlarının Makine Öğrenmesi Yöntemlerinin Performansına Etkisi. Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi, 16(1), 23-33.
Öztürk, H. (2022). Dengesiz veri setlerinde farklı dengeleme algoritmalarının optimum denge oranlarının sınıflandırma ve regresyon ağaçları yöntemi ile incelenmesi: simülasyon çalışması. Doktora Tezi. Aydın Adnan Menderes Üniversitesi Sağlık Bilimleri Enstitüsü Biyoistatistik, Aydın 88s.
Özkan, Y., Yürekli, B. S., & Suner, A. (2022). Diyabet tanısının tahminlenmesinde denetimli makine öğrenme algoritmalarının performans karşılaştırması. Gümüşhane Üniversitesi Fen Bilimleri Dergisi, 12(1), 211-226. https://doi.org/10.17714/gumusfenbil.820882
Sungur, F., & Bakır, H. (2024). Hiperparametre ayarlama ve veri dengelemenin kalp hastalığı tahmini için kullanılan makine öğrenimi algoritmaları üzerindeki etkilerinin incelenmesi. Bilişim Teknolojileri Dergisi, 17(1), 45-58. https://doi.org/10.17671/gazibtd.1399813
Sevli, O. (2022). Diyabet hastalığının farklı sınıflandırıcılar kullanılarak teşhisi. Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi, 38(2), 989-1002. https://doi.org/10.17341/gazimmfd.880750
Shuja, M., Mittal, S., & Zaman, M. (2020). Effective prediction of type ii diabetes mellitus using data mining classifiers and SMOTE. In Advances in Computing and Intelligent Systems: Proceedings of ICACM 2019 (pp. 195-211). Springer Singapore.
Turan, T. (2023). Makine Öğrenmesi Algoritmaları İle Su Kalitesi Ve İçilebilirlik Tahmini. Uluborlu Mesleki Bilimler Dergisi, 6(2), 65-80.
Türkmenoğlu, B. K., & Yildiz, O. (2021). Predicting the survival of heart failure patients in unbalanced data sets. In 2021 29th Signal Processing and Communications Applications Conference (SIU) (pp. 1-4). IEEE.
Turhan S., Özkan, Y., Yürekli, B. S., Suner, A., & Doğu, E. (2020). Comparison of Ensemble Learning Methods for Disease Diagnosis in Presence of Class Unbalanced: Case of Diabetes. Turkiye Klinikleri Journal of Biostatistics, 12(1), 16-26. https://doi.org/10.5336/biostatic.2019-66816
Uğurgöl, E., Batbat, T., Yeşilbas, D., Altınkaynak, M., Güven, A., Demirci, E., & Dolu, N. (In press) Doğrusal olmayan EEG dinamikleri ile anksiyete tespiti. Niğde Ömer Halisdemir Üniversitesi Mühendislik Bilimleri Dergisi, 13(2), 1-1. https://doi.org/10.28948/ngumuh.1359809
WHO. Diabets. (2024). https://www.who.int/health-topics/diabetes#tab=tab_1 Accessed 04.04.2024
Yılmaz, H., Buldu, A., Kaya, Y., & Kuncan, F. (2023). Yapay Zeka Yöntemleriyle Erken Evre Diyabet Risk Tahmini. Journal of Scientific Reports-B, (007), 59-71.
Yakut, G., Çay, R. İ., & Öztürk, H. H. (2023). Makine Öğrenimi Teknikleri Kullanılarak Isparta İli İçin Tarımsal Ürün Önerme Sistemi. Gazi Mühendislik Bilimleri Dergisi, 9(4-ICAIAME 2023), 174-185. https://doi.org/10.30855/gmbd.0705S17
Yavaş, M., Güran, A., & Uysal, M. (2020). Covid-19 veri kümesinin SMOTE tabanlı örnekleme yöntemi uygulanarak sınıflandırılması. Avrupa Bilim ve Teknoloji Dergisi, 258-264. https://doi.org/10.31590/ejosat.779952

There are 29 citations in total.

Details

Primary Language	Turkish
Subjects	Artificial Intelligence (Other)
Journal Section	Research Article
Authors	Rukiye Uzun Arslan 0000-0002-2082-8695 İrem Şenyer Yapıcı 0000-0003-0655-340X Okan Erkaymaz 0000-0002-1996-8623
Submission Date	April 4, 2024
Acceptance Date	July 19, 2024
Publication Date	December 3, 2024
DOI	https://doi.org/10.17780/ksujes.1465177
IZ	https://izlik.org/JA42UD79SM
Published in Issue	Year 2024 Volume: 27 Issue: 4

Cite

APA	Uzun Arslan, R., Şenyer Yapıcı, İ., & Erkaymaz, O. (2024). DİYABET RİSK DURUMUNUN BELİRLENMESİNDE SINIFLANDIRMA ALGORİTMALARININ PERFORMANSLARININ KAPSAMLI BİR ŞEKİLDE KARŞILAŞTIRILMASI. Kahramanmaraş Sütçü İmam Üniversitesi Mühendislik Bilimleri Dergisi, 27(4), 1320-1333. https://doi.org/10.17780/ksujes.1465177

Cited By

Predictive analytics for thyroid cancer recurrence: a feature selection and data balancing approach

The European Physical Journal Special Topics

https://doi.org/10.1140/epjs/s11734-025-01720-x

MULTILAYER ANALYSIS OF NICOTINE-INDUCED GENE EXPRESSION ALTERATIONS IN BREAST CANCER CELLS USING CLUSTERING AND SUPERVISED LEARNING METHODS

Kahramanmaraş Sütçü İmam Üniversitesi Mühendislik Bilimleri Dergisi

https://doi.org/10.17780/ksujes.1730962

A Transparent Hybrid Machine Learning and Explainability Approach for Classifying Environmental Attitudes

IEEE Access

https://doi.org/10.1109/ACCESS.2025.3626005

Article Files

Full Text