TL;DR
- در اوایل این ماه،.
- مایکروسافت Copilot Health را راهاندازی کرد،.
- فضای جدیدی در برنامه Copilot خود که در آن کاربران میتوانند سوابق پزشکی خود را به هم متصل.
چه اتفاقی افتاد
در اوایل این ماه،. مایکروسافت Copilot Health را راهاندازی کرد،.
فضای جدیدی در برنامه Copilot خود که در آن کاربران میتوانند سوابق پزشکی خود را به هم متصل. کنند و سؤالات خاصی در مورد سلامت خود بپرسند.
چند روز قبل،. آمازون اعلام کرده بود که Health AI،.
ابزاری مبتنی بر LLM که قبلاً به اعضای سرویس One Medical آن محدود شده بود،. اکنون بهطور گسترده در دسترس خواهد بود.
این محصولات به جمع ChatGPT Health که OpenAI در ژانویه منتشر شد و Anthropic’s Claude میپیوندند که در. صورت کسب مجوز میتوانند به سوابق سلامت کاربر دسترسی داشته باشند.
هوش مصنوعی سلامت برای تودهها رسما یک روند است. با توجه به اینکه دسترسی به آن از طریق سیستمهای پزشکی موجود برای بسیاری از مردم سخت.
است،. تقاضای واضحی برای چتباتهایی وجود دارد که توصیههای بهداشتی ارائه میدهند.
و برخی تحقیقات نشان میدهد که LLMهای فعلی قادر به ارائه توصیههای ایمن و مفید. هستند.
اما محققان میگویند که این ابزارها باید دقیقتر باشند ارزیابی شده توسط کارشناسان مستقل،. بهطور ایده آل قبل از انتشار گسترده.
در حوزهای مانند سلامت،. اعتماد به شرکتها برای ارزیابی محصولات خود میتواند غیرعاقلانه باشد،.
بهویژه اگر این ارزیابیها برای بررسی کارشناسان خارجی در دسترس نباشد. و حتی اگر شرکتها تحقیقات دقیق و باکیفیت انجام میدهند - که برخی از جمله OpenAI به نظر.
میرسد - ممکن است هنوز نقاط کوری داشته باشند که جامعه تحقیقاتی گستردهتر میتواند به پر کردن آن. کمک کند.
اندرو بین،. کاندیدای دکترا در مؤسسه اینترنت آکسفورد میگوید:.
«تا جایی که شما همیشه به مراقبتهای بهداشتی بیشتری نیاز دارید،. من فکر میکنم که ما قطعاً باید هر مسیری را که جواب میدهد دنبال کنیم.
برای من کاملاً قابل قبول است که این مدلها به نقطهای رسیدهاند که ارزش عرضه کردن را دارند.». "اما،.
" او اضافه میکند،. "پایه شواهد واقعا باید وجود داشته باشد.
" نکات مهم برای شنیدن اینکه توسعه دهندگان به آن میگویند،. این سلامتی است محصولات اکنون منتشر میشوند زیرا مدلهای زبان بزرگ واقعاً به نقطهای رسیده.
اند که میتوانند بهطور مؤثر توصیههای پزشکی ارائه دهند. دومینیک کینگ،.
معاون بهداشت در هوش مصنوعی مایکروسافت و جراح سابق،. پیشرفت هوش مصنوعی را دلیل اصلی تشکیل تیم سلامت شرکت و دلیل وجود Copilot Health میداند.
او میگوید:. «ما این پیشرفت عظیم را در قابلیتهای هوش مصنوعی مولد دیده ایم تا بتوانیم به سؤالات سلامتی پاسخ دهیم.
و پاسخهای خوبی بدهیم.» اما به گفته کینگ،. این تنها نیمیاز داستان است.
عامل کلیدی دیگر تقاضا است. اندکی قبل از راه اندازی Copilot Health،.
مایکروسافت گزارشی و یک پست وبلاگ همراه آن را منتشر کرد که در آن جزئیات نحوه استفاده مردم. از Copilot برای مشاوره بهداشتی را توضیح داد.
این شرکت میگوید هر روز 50 میلیون سؤال بهداشتی دریافت میکند و سلامتی محبوبترین موضوع بحث در برنامه. تلفن همراه Copilot است.
سایر شرکتهای هوش مصنوعی متوجه شده اند، و به این روند پاسخ داد. کاران سینگال،.
سرپرست تیم هوش مصنوعی OpenAI Health میگوید:. «حتی قبل از محصولات بهداشتی ما،.
ما شاهد افزایش سریع و سریع میزان افرادی بودیم که از ChatGPT برای سؤالات مرتبط با سلامت استفاده. میکردند.
(OpenAI و مایکروسافت شراکت دیرینهای دارند و Copilot از مدلهای OpenAI پشتیبانی میکند.) این امکان. وجود دارد که افراد به سادگی ترجیح دهند مشکلات سلامتی خود را به یک ربات بدون قضاوت که.
24-7 در دسترس آنها است،. مطرح کنند.
اما بسیاری از کارشناسان این الگو را با توجه به وضعیت فعلی سیستم مراقبتهای بهداشتی تفسیر می. کنند.
گیریش نادکارنی،. افسر ارشد هوش مصنوعی در سیستم سلامت کوه سینا،.
میگوید:. «دلیلی وجود دارد که این ابزارها وجود دارند و در چشمانداز کلی موقعیت دارند.
"این به این دلیل است که دسترسی به مراقبتهای بهداشتی دشوار است،. و به ویژه برای برخی از جمعیتها سخت است.
" چشم انداز ارزشمند چتباتهای سلامت LLM که با مصرف کننده روبرو هستند به این بستگی دارد این. امکان وجود دارد که آنها بتوانند سلامت کاربر را بهبود بخشند و در عین حال فشار بر سیستم.
مراقبت بهداشتی را کاهش دهند. این ممکن است شامل کمک به کاربران برای تصمیمگیری در مورد نیاز به مراقبت پزشکی باشد یا.
خیر،. وظیفهای که بهعنوان تریاژ شناخته میشود.
اگر تریاژ چتبات کار کند،. بیمارانی که به مراقبتهای اورژانسی نیاز دارند ممکن است زودتر از موارد دیگر به دنبال آن باشند.
و بیمارانی که نگرانیهای خفیفتر دارند ممکن است احساس راحتی کنند که علائم خود را در. خانه با توصیه چتبات مدیریت کنند نه اینکه بیهوده مشغول اورژانس و مطب پزشک باشند.
اما مطالعهای که اخیراً توسط نادکارنی و سایر محققان در کوه سینا مورد بحث قرار گرفت،. نشان داد که ChatGPT Health گاهی اوقات مراقبت بیش از حد برای شرایط خفیف را توصیه میکند و.
در شناسایی موارد اضطراری ناتوان است. اگرچه سینگال و برخی دیگر از کارشناسان پیشنهاد کردهاند که روششناسی آن ممکن است تصویر کاملی از قابلیتهای.
ChatGPT Health ارائه نکند،. این مطالعه نگرانیهایی را ایجاد کرده است.
در مورد اینکه این ابزارها قبل از انتشار برای عموم چقدر ارزیابی خارجی کمیدارند. بسیاری از کارشناسان دانشگاهی که برای این مقاله مصاحبه شدهاند موافق بودند که چتباتهای سلامت LLM میتوانند مزایای.
واقعی داشته باشند،. با توجه به اینکه برخی افراد به مراقبتهای بهداشتی دسترسی کمیدارند.
اما هر شش نفر از آنها ابراز نگرانی کردند که این ابزارها بدون آزمایش توسط محققان مستقل برای. ارزیابی ایمن بودن آنها راه اندازی میشوند.
در حالی که برخی از استفادههای تبلیغاتی از این ابزارها،. مانند توصیه برنامههای ورزشی یا پیشنهاد سوالاتی که کاربر ممکن است از پزشک بپرسد،.
نسبتاً بی ضرر هستند،. برخی دیگر خطرات آشکاری دارند.
تریاژ یکی است. دیگری از یک ربات چت میخواهد تا تشخیص یا طرح درمانی ارائه دهد.
رابط ChatGPT Health شامل یک سلب مسئولیت برجسته است که بیان میکند برای تشخیص یا درمان در نظر. گرفته نشده است،.
و اعلامیههای Copilot Health و هوش مصنوعی آمازون سلامت شامل هشدارهای مشابهی است. اما نادیده گرفتن این هشدارها آسان است.
آدام رادمن،. پزشک داخلی و محقق در مرکز پزشکی Beth Israel Deaconess و محقق مدعو در گوگل میگوید:.
«همه ما میدانیم که مردم از آن برای تشخیص و مدیریت استفاده خواهند کرد. شرکتهای تست پزشکی میگویند که در حال آزمایش رباتهای گفتگو هستند تا اطمینان حاصل کنند که در اکثر.
مواقع پاسخهای ایمن ارائه میدهند. OpenAI HealthBench را طراحی و منتشر کرده است،.
معیاری که به LLMها در مورد نحوه پاسخگویی آنها در مکالمات واقعی مرتبط با سلامت نمره می. دهد - اگرچه خود مکالمات توسط LLM ایجاد میشود.
زمانی که GPT-5،. که هم ChatGPT Health و هم Copilot Health را تامین میکند،.
سال گذشته منتشر شد،. OpenAI نمرات HealthBench مدل را گزارش کرد:.
این مدل بهطور قابلتوجهی بهتر از مدلهای OpenAI قبلی بود،. اگرچه عملکرد کلی آن بسیار عالی بود.
اما ارزیابیهایی مانند HealthBench محدودیتهایی دارند. در مطالعهای که ماه گذشته منتشر شد،.
بین - کاندیدای دکترای آکسفورد - و همکارانش دریافتند که حتی اگر یک LLM بتواند به تنهایی یک. وضعیت پزشکی را از روی یک سناریوی نوشتاری تخیلی شناسایی کند،.
یک کاربر غیر متخصص به او سناریو داده میشود و از او خواسته میشود تا شرایط با کمک. LLM ممکن است تنها در یک سوم مواقع آن را تشخیص دهد.
اگر آنها فاقد تخصص پزشکی باشند،. ممکن است کاربران ندانند که کدام بخش از یک سناریو - یا تجربه واقعی زندگی آنها - مهم.
است که در اعلان آنها لحاظ شود،. یا ممکن است اطلاعاتی را که یک LLM به آنها میدهد به اشتباه تفسیر کنند.
بین میگوید که این شکاف عملکردی میتواند برای مدلهای OpenAI قابل توجه باشد. در مطالعه اولیه HealthBench،.
این شرکت گزارش داد که مدلهایش در مکالمههایی که نیاز به جستجوی اطلاعات بیشتر از کاربر را داشتند،. عملکرد نسبتاً ضعیفی داشتند.
اگر اینطور باشد،. کاربرانی که دانش پزشکی کافی برای ارائه اطلاعات مورد نیاز یک چتبات بهداشتی از ابتدا ندارند،.
ممکن است توصیههای غیر مفید یا نادرستی دریافت کنند. Singhal،.
مدیر سلامت OpenAI،. اشاره میکند که سری مدلهای فعلی GPT-5 این شرکت،.
که هنوز در زمان مطالعه اصلی HealthBench منتشر نشده بود. انجام شد، کار بسیار بهتری در کسب اطلاعات اضافی نسبت به پیشینیان خود انجام دادند.
با این حال، OpenAI گزارش داده است که GPT-5. 4، پرچمدار فعلی، در جستجوی زمینه در واقع بدتر از GPT-5.
2، نسخه قبلی است. به گفته بین،.
در حالت ایده آل،. چتباتهای سلامت قبل از انتشار برای عموم،.
تحت آزمایشهای کنترل شده با کاربران انسانی قرار میگیرند،. همانطور که در مطالعه او انجام شد.
این ممکن است یک حرکت سنگین باشد،. به ویژه با توجه به سرعت حرکت دنیای هوش مصنوعی و مدت زمانی که مطالعات انسانی ممکن است.
طول بکشد. مطالعه خود Bean از GPT-4o استفاده کرد که تقریبا یک سال پیش منتشر شد و اکنون منسوخ شده.
است. اوایل این ماه، گوگل تحقیقی را منتشر کرد که مطابق با استانداردهای Bean است.
در این مطالعه،. بیماران قبل از ملاقات با یک پزشک،.
نگرانیهای پزشکی را با AMIE (AMIE)،. یک ربات چت پزشکی LLM که هنوز در دسترس عموم قرار ندارد،.
در میان گذاشتند. بهطور کلی،.
AMIE تشخیصها به اندازه پزشکان دقیق بود و هیچ یک از گفتگوها نگرانیهای ایمنی عمدهای. را برای محققان ایجاد نکرد.
علیرغم نتایج دلگرم کننده، گوگل قصد ندارد AMIE را به این زودی منتشر کند. Alan Karthikesalingam،.
دانشمند محقق در Google DeepMind،. در ایمیلی نوشت:.
«در حالی که تحقیقات پیشرفت کرده است،. محدودیتهای قابل توجهی وجود دارد که باید قبل از ترجمه واقعی سیستمها برای تشخیص و درمان،.
از جمله تحقیقات بیشتر در مورد عدالت،. انصاف،.
و تست ایمنی برطرف شود. گوگل اخیراً فاش کرد که Health100،.
پلتفرم سلامتی که با مشارکت CVS در حال ساخت است،. شامل یک دستیار هوش مصنوعی با مدلهای پرچمدار Gemini خود میشود،.
اگرچه احتمالاً این ابزار برای تشخیص یا درمان در نظر گرفته نشده است. رادمن،.
که مطالعه AMIE را با Karthikesalingam رهبری کرد،. فکر نمیکند چنین مطالعات گسترده و چند ساله لزوماً درست باشد.
رویکردی برای رباتهای گفتگو مانند ChatGPT Health و Copilot Health. او میگوید:.
«دلایل زیادی وجود دارد که الگوی کارآزمایی بالینی همیشه در هوش مصنوعی مولد کار نمیکند. "و اینجاست که این گفتگوی محک وارد میشود.
آیا معیارهایی [از] یک شخص ثالث قابل اعتماد وجود دارد که ما میتوانیم توافق کنیم که معنیدار هستند. و آزمایشگاهها بتوانند خود را به آن نگه دارند؟
" آنها کلید "شخص ثالث" وجود دارد. مهم نیست که شرکتها چقدر محصولات خود را ارزیابی میکنند،.
اعتماد کامل به نتایج آنها دشوار است. ارزیابی شخص ثالث نه تنها بی طرفی را به همراه دارد،.
بلکه اگر اشخاص ثالث زیادی درگیر باشند،. به محافظت در برابر نقاط کور نیز کمک میکند.
سینگال از OpenAI میگوید که به شدت طرفدار ارزیابی خارجی است. او میگوید: ما تمام تلاش خود را میکنیم تا از جامعه حمایت کنیم.
بخشی از اینکه چرا HealthBench را عرضه کردیم در واقع این بود که به جامعه و سایر توسعه. دهندگان مدل نمونهای از یک نمونه بسیار خوب ارائه دهیم.
ارزیابی به نظر میرسد. او میگوید با توجه به اینکه تولید یک ارزیابی باکیفیت چقدر گران است،.
تردید دارد که هر آزمایشگاه آکادمیک فردی بتواند چیزی را تولید کند که او آن را «ارزیابی واحدی. برای حکومت بر همه آنها» مینامد.
اما او از تلاشهایی که گروههای دانشگاهی برای گردآوری ارزیابیهای از قبل موجود و جدید در مجموعههای ارزیابی. جامع انجام دادهاند،.
بسیار سخن میگوید - مانند چارچوب MedHELM استنفورد،. که مدلها را بر روی طیف گستردهای از وظایف پزشکی آزمایش میکند.
در حال حاضر، GPT-5 OpenAI دارای بالاترین امتیاز MedHELM است. نیگام شاه،.
استاد پزشکی در دانشگاه استنفورد که پروژه MedHELM را رهبری میکرد،. میگوید که این پروژه دارای محدودیتهایی است.
بهطور خاص،. فقط پاسخهای رباتهای گفتگوی فردی را ارزیابی میکند،.
اما شخصی که به دنبال مشاوره پزشکی از ابزار چتبات است،. ممکن است آن را در یک مکالمه چند نوبتی و پشت سر هم درگیر کند.
او میگوید که او و برخی از همکاران در حال آماده شدن برای ساخت هستند ارزیابیای. که میتواند آن مکالمات پیچیده را به ثمر برساند،.
اما به زمان و هزینه نیاز دارد. او میگوید:.
«من و شما توانایی این را نداریم که این شرکتها را از عرضه [محصولات سلامت محور] باز داریم،. بنابراین هر کاری که لعنتی بخواهند انجام خواهند داد.
تنها کاری که افرادی مثل ما میتوانند انجام دهند این است که راهی برای تامین مالی معیار. پیدا کنند.
هیچ کس برای این مقاله مصاحبه نشده استدالل نکرده است که LLMهای بهداشتی برای انتشار باید در. ارزیابیهای شخص ثالث کاملاً عمل کنند.
خود پزشکان اشتباه میکنند - و برای کسی که فقط گاه به گاه به پزشک دسترسی دارد،. یک LLM بهطور مداوم در دسترس که گاهی اوقات خراب میشود،.
هنوز هم میتواند پیشرفت بزرگی نسبت به وضعیت موجود باشد،. تا زمانی که خطاهای آن خیلی جدی نباشد.
با این حال،. با وضعیت کنونی شواهد،.
نمیتوان با اطمینان دانست که آیا ابزارهای موجود در حال حاضر واقعاً باعث بهبود هستند یا اینکه. آیا خطرات آنها بیشتر است.
مزایای آنها.
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
