आर्टिफिशियल इंटेलिजेंस (AI) आधारित चैटबॉट्स, जो बड़े डाटा सेट पर प्रशिक्षित होते हैं और इंसानों जैसे जवाब देते हैं, आजकल हेल्थकेयर सेक्टर में तेजी से अपनी जगह बना रहे हैं। ये चैटबॉट्स स्वास्थ्य स्थितियों, इलाज और बचाव के तरीकों की जानकारी देकर वर्चुअल असिस्टेंट की भूमिका निभा रहे हैं।
हालांकि, यह अब भी स्पष्ट नहीं है कि ये चैटबॉट्स जटिल चिकित्सीय स्थितियों — जैसे कि लुंबोसेक्रल रेडिकुलर पेन — के निदान और उपचार में क्लीनिकल प्रैक्टिस गाइडलाइंस (CPGs) का कितना सही पालन करते हैं। इसी सवाल का जवाब देने के लिए एक क्रॉस-सेक्शनल अध्ययन किया गया।
कैसे हुआ अध्ययन?
2024 में अपडेटेड CPGs के आधार पर, शोधकर्ताओं ने छह प्रमुख AI चैटबॉट्स से लुंबोसेक्रल रेडिकुलर पेन से जुड़े सवाल पूछे:
- ChatGPT-3.5
- ChatGPT-4o
- Microsoft Copilot
- Google Gemini
- Claude
- Perplexity
प्रत्येक चैटबॉट के जवाबों को तीन मापदंडों पर परखा गया:
- पाठ्य-संगति (Text Consistency) – Plagiarism Checker X से
- इन्ट्रा- और इंटर-रेटर रीलायबिलिटी – Fleiss’ Kappa के ज़रिए
- CPG से मेल खाने की दर (Match Rate)
क्या निकले नतीजे?
- चैटबॉट्स के जवाबों की टेक्स्ट कंसिस्टेंसी में भारी अंतर पाया गया (मीडियन रेंज 26% से 68%)
- Intra-rater reliability “लगभग पूर्ण” से “महत्वपूर्ण” के बीच रही
- Inter-rater reliability “लगभग पूर्ण” से “मध्यम” स्तर तक रही
- CPG के अनुसार सबसे अधिक मेल Perplexity (67%) में देखा गया
- इसके बाद Google Gemini (63%) और Microsoft Copilot (44%)
- ChatGPT-3.5, ChatGPT-4o और Claude ने केवल 33% की मेल दर दिखाई
निष्कर्ष: AI पर पूरी तरह निर्भर न हों
हालांकि चैटबॉट्स के उत्तरों में कुछ स्थिरता और विश्वसनीयता दिखाई दी, लेकिन अधिकांश जवाब CPGs के अनुरूप नहीं थे। यह संकेत देता है कि ऐसे चैटबॉट्स से प्राप्त सलाह पर चिकित्सकों और मरीजों को सतर्क रहना चाहिए, क्योंकि कई बार ये सलाह ग़लत या भ्रामक हो सकती है।
एक तिहाई से दो तिहाई तक की सिफारिशें, विशेष रूप से कुछ चैटबॉट्स में, CPGs से मेल नहीं खातीं — जो संभावित रूप से मरीज के इलाज को प्रभावित कर सकती हैं।