TL;DR
- برای دههها،.
- هوش مصنوعی از طریق این سوال ارزیابی شده است که آیا ماشینها از انسانها بهتر عمل میکنند یا.
- از شطرنج گرفته تا ریاضیات پیشرفته،.
چه اتفاقی افتاد
برای دههها،. هوش مصنوعی از طریق این سوال ارزیابی شده است که آیا ماشینها از انسانها بهتر عمل میکنند یا.
خیر. از شطرنج گرفته تا ریاضیات پیشرفته،.
از کدنویسی تا مقاله نویسی،. عملکرد مدلها و برنامههای هوش مصنوعی در برابر عملکرد انسانهایی که وظایف را انجام میدهند،.
آزمایش میشود. این قاب بندی اغوا کننده است:.
یک مقایسه هوش مصنوعی در مقابل انسان در مورد مسائل مجزا با پاسخهای درست یا غلط واضح. به راحتی قابل استانداردسازی،.
مقایسه و بهینهسازی است. رتبهبندی و سرفصلها را ایجاد میکند.
اما یک مشکل وجود دارد: هوش مصنوعی تقریباً هرگز به روشی که معیار آن است استفاده نمیشود. اگرچه محققان و صنعت با حرکت فراتر از آزمونهای استاتیک به روشهای ارزیابی پویاتر،.
شروع به بهبود معیارسنجی کردهاند،. این نوآوریها تنها بخشی از مشکل را حل میکنند.
دلیل آن این است که آنها هنوز عملکرد هوش مصنوعی را خارج از تیمهای انسانی و جریانهای کاری. ی ارزیابی میکنند،.
جایی که عملکرد دنیای واقعی آن در نهایت آشکار میشود. در حالی که هوش مصنوعی در سطح کار در خلاء ارزیابی میشود،.
در محیطهای آشفته و پیچیده که معمولاً با بیش از یک نفر در تعامل است،. استفاده میشود.
عملکرد آن (یا فقدان آن) فقط در دورههای طولانی استفاده ظاهر میشود. این ناهماهنگی باعث میشود که تواناییهای هوش مصنوعی را درک نکنیم،.
خطرات سیستمیرا نادیده بگیریم و پیامدهای اقتصادی و اجتماعی آن را نادیده بگیریم. برای کاهش این موضوع،.
زمان آن فرا رسیده است که از روشهای محدود به معیارهایی روی بیاوریم که عملکرد سیستمهای هوش مصنوعی. را در افقهای زمانی طولانیتر در تیمهای انسانی،.
جریانهای کاری و ها ارزیابی میکنند. من از سال 2022 استقرار هوش مصنوعی در دنیای واقعی را در مشاغل کوچک وهای بهداشتی،.
بشردوستانه،. غیرانتفاعی و آموزش عالی در بریتانیا،.
ایالات متحده و آسیا و همچنین در اکوسیستمهای طراحی هوش مصنوعی در لندن و سیلیکون ولی مطالعه. کرده ام.
من رویکرد متفاوتی را پیشنهاد میکنم که آن را معیارهای HAIC-Human–AI, Context-Specific مینامم. ارزیابی.
وقتی هوش مصنوعی شکست میخورد چه اتفاقی میافتد برای دولتها و کسبوکارها،. امتیازات معیار هوش مصنوعی نسبت به ادعای فروشنده،.
عینیتر به نظر میرسد. آنها بخش مهمیاز تعیین اینکه آیا یک مدل یا برنامه هوش مصنوعی برای استقرار در دنیای واقعی.
"به اندازه کافی خوب" است یا خیر. یک مدل هوش مصنوعی را تصور کنید که امتیازات فنی قابل توجهی را در پیشرفتهترین معیارها به.
دست میآورد - دقت 98 ٪،. سرعت پیشگامانه،.
خروجیهای قانع کننده. با توجه به این نتایج،.
ها ممکن است تصمیم بگیرند که این مدل را اتخاذ کنند و منابع مالی و فنی قابل توجهی. را برای خرید و ادغام آن متعهد کنند.
اما پس از تصویب، شکاف بین معیار و عملکرد دنیای واقعی به سرعت قابل مشاهده میشود. برای مثال،.
مدلهای هوش مصنوعی مورد تایید FDA را در نظر بگیرید که میتوانند اسکنهای پزشکی را سریعتر و دقیقتر. از یک رادیولوژیست خبره بخوانند.
در واحدهای رادیولوژی بیمارستانها از قلب کالیفرنیا تا حومه لندن،. شاهد بودم که کارکنان از برنامههای هوش مصنوعی رادیولوژی با رتبه بالا استفاده میکردند.
مکرراً،. تفسیر خروجیهای هوش مصنوعی در کنار استانداردهای گزارشدهی ویژه بیمارستان و الزامات نظارتی خاص کشور،.
زمان بیشتری از آنها گرفت. چیزی که بهعنوان یک ابزار هوش مصنوعی افزایش دهنده بهره وری ظاهر میشد که در خلأ آزمایش.
شد،. باعث ایجاد تاخیر در عمل شد.
به زودی مشخص شد که تستهای معیاری که مدلهای هوش مصنوعی پزشکی بر اساس آنها ارزیابی میشوند،. نحوه واقعی تصمیمگیری پزشکی را نشان نمیدهند.
بیمارستانها به تیمهای چند رشتهای - رادیولوژیستها،. انکولوژیستها،.
فیزیکدانان،. پرستاران- متکی هستند که بهطور مشترک بیماران را بررسی میکنند.
برنامهریزی درمان به ندرت به یک تصمیم ثابت بستگی دارد. با ظهور اطلاعات جدید در طی روزها یا هفتهها تکامل مییابد.
تصمیمها اغلب از طریق بحثهای سازنده و مبادله بین استانداردهای حرفهای،. ترجیحات بیمار و هدف مشترک رفاه طولانیمدت بیمار اتخاذ میشوند.
جای تعجب نیست حتی بسیار زیاد مدلهای هوش مصنوعی امتیازی برای ارائه عملکرد وعده داده شده پس از. مواجهه با فرآیندهای پیچیده و مشترک مراقبت بالینی واقعی تلاش میکنند.
همین الگو در تحقیقات من در سایر بخشها ظاهر میشود:. وقتی در محیطهای کاری دنیای واقعی تعبیه میشوند،.
حتی مدلهای هوش مصنوعی که در تستهای استاندارد شده عملکرد درخشانی دارند،. آنطور که وعده داده شده بود عمل نمیکنند.
وقتی نمرات معیار بالا به عملکرد دنیای واقعی تبدیل نمیشوند،. حتی هوش مصنوعی با امتیاز بالا نیز به زودی به چیزی که من آن را «قبرستان هوش مصنوعی».
مینامم رها میشود. هزینهها قابل توجه است: زمان، تلاش و پول در نهایت هدر میرود.
و با گذشت زمان،. تجارب مکرر مانند این،.
اعتماد ی به هوش مصنوعی را از بین میبرد و - در محیطهای حیاتی مانند سلامت - ممکن. است اعتماد عمومیگستردهتری به این فناوری را نیز از بین ببرد.
هنگامیکه معیارهای فعلی فقط یک سیگنال جزئی و بالقوه گمراه کننده از آمادگی یک مدل هوش مصنوعی. برای استفاده در دنیای واقعی ارائه میدهند،.
این امر ایجاد میکند. نقاط کور نظارتی: نظارت بر اساس معیارهایی شکل میگیرد که واقعیت را منعکس نمیکند.
همچنین ها و دولتها را وادار میکند تا خطرات آزمایش هوش مصنوعی را در محیطهای حساس دنیای واقعی،. اغلب با منابع و پشتیبانی محدود،.
تحمل کنند. چگونه آزمایشهای بهتری بسازیم برای از بین بردن شکاف بین عملکرد معیار و دنیای واقعی،.
باید به شرایط واقعی استفاده از مدلهای هوش مصنوعی توجه کنیم. سوالات مهم: آیا هوش مصنوعی میتواند بهعنوان یک شرکت کننده سازنده در تیمهای انسانی عمل کند؟
و آیا میتواند ارزش جمعی پایدار و پایدار ایجاد کند؟ از طریق تحقیقاتم در مورد استقرار هوش مصنوعی در بخشهای مختلف،.
تعدادی از ها را دیدهام که قبلاً - به عمد و آزمایشی - به سمت معیارهای HAIC که. من طرفدار آن هستم حرکت میکنند.
معیارهای HAIC، معیارهای فعلی را به چهار روش اصلاح میکنند: 1. از عملکرد فردی و تک وظیفهای تا عملکرد تیمیو گردش کار (تغییر واحد تجزیه و تحلیل).
2. از آزمایش یکباره با پاسخهای درست/نادرست تا تأثیرات بلندمدت (گسترش افق زمانی) 3.
از صحت و سرعت تا نتایج ی،. کیفیت هماهنگی و تشخیص خطا (گسترش نتایج حاصل از نتایج پایین دست) 4.
درهایی که این رویکرد در آنها پدید آمده و شروع به اعمال کرده است،. اولین گام جابجایی واحد تحلیل است.
بهعنوان مثال،. در یک سیستم بیمارستانی بریتانیا در دوره 2021-2024،.
این سوال از اینکه آیا یک برنامه هوش مصنوعی پزشکی دقت تشخیصی را بهبود میبخشد تا اینکه چگونه. حضور هوش مصنوعی در تیمهای چند رشتهای بیمارستان نه تنها بر دقت،.
بلکه بر هماهنگی و مشورت تأثیر میگذارد،. گسترش یافت.
بیمارستان بهطور خاص هماهنگی را ارزیابی کرد و مشورت در تیمهای انسانی با استفاده و عدم استفاده. از هوش مصنوعی.
چندین ذینفع (در داخل و خارج از بیمارستان) در مورد معیارهایی مانند اینکه چگونه هوش مصنوعی بر استدلال. جمعی تأثیر میگذارد،.
اینکه آیا ملاحظات نادیده گرفته شده ظاهر میشود،. آیا هماهنگی را تقویت یا تضعیف میکند،.
و اینکه آیا ریسک و رویههای انطباق را تغییر میدهد،. تصمیم گرفتند.
این تغییر اساسی است. در زمینههای پرمخاطره که تأثیرات سطح سیستم بیشتر از دقت در سطح کار اهمیت دارد، اهمیت زیادی دارد.
برای اقتصاد هم مهم است. ممکن است به تنظیم مجدد انتظارات متورم در مورد افزایش بهره وری کمک کند که تا کنون عمدتاً.
به وعده بهبود عملکرد وظایف فردی بستگی دارد. هنگامیکه این پایه تنظیم شد، معیار HAIC میتواند عنصر زمان را به خود بگیرد.
معیارهای امروزی شبیه امتحانات مدرسه هستند - آزمونهای یکباره و استاندارد دقت. اما شایستگی حرفهای واقعی متفاوت ارزیابی میشود.
پزشکان و وکلای جوان بهطور مداوم در جریان کار واقعی،. تحت نظارت،.
با حلقههای بازخورد و ساختارهای پاسخگویی ارزیابی میشوند. عملکرد در طول زمان و در یک زمینه خاص مورد قضاوت قرار میگیرد،.
زیرا شایستگی رابطهای است. اگر قرار است سیستمهای هوش مصنوعی در کنار حرفهایها کار کنند،.
تأثیر آنها باید بهصورت طولی ارزیابی شود،. که نشاندهنده چگونگی آشکار شدن عملکرد در تعاملات مکرر است.
من این جنبه از HAIC را در یکی از مطالعات موردی بخش بشردوستانه خود مشاهده کردم. بیش از 18 ماه،.
یک سیستم هوش مصنوعی در جریان کار واقعی مورد ارزیابی قرار گرفت،. با توجه ویژه به میزان قابل تشخیص بودن خطاهای آن - یعنی اینکه تیمهای انسانی چگونه به.
راحتی میتوانند آنها را شناسایی و تصحیح کنند. این "سوابق تشخیص خطا" طولانی مدت به این معنی است کههای درگیر میتوانند حفاظهای مربوط.
به زمینه را برای ارتقای اعتماد به سیستم طراحی و آزمایش کنند،. علی رغم اجتناب ناپذیر بودن اشتباهات گاه به گاه هوش مصنوعی.
الف افق زمانی طولانیتر همچنین پیامدهای سطح سیستم را که معیارهای کوتاه مدت از دست میدهند. قابل مشاهده است.
یک برنامه هوش مصنوعی ممکن است در یک کار تشخیصی محدود از یک پزشک پیشی بگیرد،. اما در بهبود تصمیمگیری چند رشتهای ناکام باشد.
بدتر از آن،. ممکن است تحریفهای سیستمی ایجاد کند:.
لنگر انداختن تیمها خیلی زود در پاسخهای قابل قبول اما ناقص،. افزودن به حجم کار شناختی افراد،.
یا ایجاد ناکارآمدیهای پاییندستی که هر گونه افزایش سرعت یا کارایی را در نقطه استفاده از هوش مصنوعی. خنثی میکند.
این تأثیرات ضربهای – که اغلب برای معیارهای کنونی قابل مشاهده نیستند – برای درک تأثیر واقعی مهم. هستند.
رویکرد HAIC، مسلماً وعده میدهد که معیارسازی را پیچیدهتر، منابع فشردهتر و استاندارد کردن آن را سختتر کند. اما ادامه ارزیابی هوش مصنوعی در شرایط بهداشتی و جدا از دنیای کار باعث میشود که درک درستی.
از آنچه که واقعاً میتواند و چه کاری نمیتواند برای ما انجام دهد،. در ما ایجاد کند.
برای استقرار هوش مصنوعی مسئولانه در محیطهای دنیای واقعی،. ما باید آنچه را که واقعاً مهم است اندازهگیری کنیم:.
نه فقط آنچه که یک مدل به تنهایی میتواند انجام دهد،. بلکه چه چیزی را قادر میسازد - یا تضعیف میکند - وقتی انسانها و تیمها در دنیای واقعی.
با آن کار میکنند. آنجلا آریستیدو استاد دانشگاه کالج لندن و عضو هیئت علمیآزمایشگاه اقتصاد دیجیتال استنفورد و موسسه هوش مصنوعی.
استنفورد انسان محور است. او در مورد استقرار واقعی ابزارهای هوش مصنوعی برای منافع عمومیصحبت میکند،.
مینویسد و توصیه میکند.
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
