Bu çalışma, Türkçe sağlık danışmanlığında kullanılan dört farklı büyük dil modelinin (doktor-meta-llama-3-8b, doktor-LLama2-sambanovasystems-7b, doktor-Mistral-trendyol-7b ve doktor-llama-3-cosmos-8b) performansını değerlendirmektedir. Modeller, 321.179 hasta-doktor soru-cevap çiftinden oluşan Patient Doctor Q&A TR 321179 veri kümesi üzerinde ince ayar yapılarak eğitilmiştir. Performans ölçümünde BLEU ve BERT skor gibi sentetik değerlendirmelerin yanı sıra, Elo puanlaması ile uzman doktorların yanıt kalitesi incelemeleri de kullanılmıştır. Sonuçlar, doktor-LLama2-sambanovasystems-7b modelinin genel başarı bakımından en iyi performansı sergilediğini göstermiş, bu model uzman doktor incelemelerinden de 3.25 puan almıştır. Öte yandan, doktor-Mistral-trendyol-7b modeli %18,4 ile en düşük zararlı yanıt oranına sahip model olarak öne çıkmıştır. Bu çalışma, Türkçe sağlık hizmetlerinde yapay zekâ destekli sanal doktor asistanlarının potansiyelini göstermekte ve dile özgü modellerin geliştirilmesinin önemini vurgulamaktadır.
Doğal dil işleme sağlık yapay zekası Türkçe dil modelleri LLM ince ayarı sanal doktor asistanı
This study evaluates the performance of four different large language models used in Turkish healthcare consultancy: doctor-meta-llama-3-8b, doctor-LLama2-sambanovasystems-7b, doctor-Mistral-trendyol-7b, and doctor-llama-3-cosmos-8b. The models were fine-tuned using the Patient Doctor Q&A TR 321179 dataset, which consists of 321,179 patient-doctor question-answer pairs. Performance was measured using synthetic evaluations such as BLEU and BERT scores, as well as expert doctor reviews of response quality through Elo scoring. The results showed that the doctor-LLama2-sambanovasystems-7b model demonstrated the best overall performance, receiving a score of 3.25 from expert doctor evaluations. On the other hand, the doctor-Mistral-trendyol-7b model stood out with the lowest harmful response rate at 18.4%. This study highlights the potential of AI-powered virtual doctor assistants in Turkish healthcare services and emphasizes the importance of developing language-specific models.
Natural language processing health artificial intelligence Turkish language models LLM fine-tuning virtual doctor assistant
Primary Language | Turkish |
---|---|
Subjects | Natural Language Processing |
Journal Section | Computer Engineering |
Authors | |
Publication Date | June 3, 2025 |
Submission Date | January 5, 2025 |
Acceptance Date | March 23, 2025 |
Published in Issue | Year 2025Volume: 28 Issue: 2 |