Diyabet, dünya çapında prevelansı her geçen gün artan metabolik bir halk sağlığı sorunudur. Bu hastalık kontrol altına alınmaması durumunda birçok doku ve organ üzerinde geri dönüşümü olmayan hasarlara neden olabilmektedir. Bu nedenle, diyabet hastalığının erken teşhisi ve etkili bir şekilde yönetilmesi, hastaların yaşam kalitesinin arttırılması ve potansiyel sağlık risklerinin azaltılması açısından kritik bir öneme sahiptir. Sağlık sektöründe, hastalıkların teşhisinde yaygın olarak kullanılan makine öğrenimi (MÖ) tabanlı karar destek sistemleri (KDS) önem arz etmektedir. Bu çalışmada, diyabet teşhisi için önerilen MÖ tabanlı bir KDS sunulmuştur. Çalışma kapsamında, veri seti rasgele 80:20 oranında beş kez bölünmüş ve beş farklı MÖ algoritmasıyla (k-en yakın komşu, ridge, aşırı gradyan arttırma, ekstra ağaç ve gradyan arttırma) performansları değerlendirilmiştir. Bunun için veri setindeki özellikler RO algoritmasıyla değerlendirilerek Ki-kare testine dayalı SelectKBest yöntemiyle en anlamlı özellikler belirlenmiştir. Ayrıca önerilen sistem performansı üzerinde yeniden örnekleme tekniklerinin (sentetik azınlık aşırı örnekleme tekniği, Near Miss) etkileri analiz edilmiştir. Yapılan analizler sonucunda, Near Miss yeniden örnekleme tekniğinin veri setine uygulanmasıyla gradyan arttırma algoritmasının en iyi performansı sergilediği tespit edilmiştir. Bu durumda, test verileriyle yapılan analizlere göre göre F-skor, kesinlik, doğruluk ve duyarlılık değerleri sırasıyla %99.44, %98.89, %99.45 ve %100 olarak hesaplanmıştır.
Diabetes is a metabolic public health problem with an increasing prevalence worldwide. If untreated, it can cause irreversible effects on many tissues and organs. Therefore, early diagnosis and effective management of diabetes is critical to improve patients' quality of life and reduce potential health risks. In the healthcare industry, machine learning (ML) based decision support systems (DSS) are widely used for disease diagnosis. In this study, a proposed ML-based CDS for diabetes diagnosis is presented. Within the scope of the study, the dataset is randomly split five times in a ratio of 80:20 and the performances of five different ML algorithms (k-nearest neighbor, ridge, extreme gradient boosting, extra tree and gradient boosting) are evaluated. For this purpose, the features in the dataset are evaluated with the RO algorithm and the most significant features are determined by the SelectKBest method based on the Chi-square test. In addition, the effects of resampling techniques (synthetic minority oversampling technique, Near Miss) on the performance of the proposed system were analyzed. As a result of the analysis, it was found that the gradient boosting algorithm performed best when the Near Miss resampling technique was applied to the dataset. In this case, the F-score, precision, accuracy and sensitivity values were calculated as 99.44%, 98.89%, 99.45% and 100%, respectively, based on the analysis with the test data.
Primary Language | Turkish |
---|---|
Subjects | Artificial Intelligence (Other) |
Journal Section | Computer Engineering |
Authors | |
Publication Date | December 3, 2024 |
Submission Date | April 4, 2024 |
Acceptance Date | July 19, 2024 |
Published in Issue | Year 2024Volume: 27 Issue: 4 |