TL;DR
- درک رفتار سیستمهای پیچیده یادگیری ماشین،.
- به ویژه مدلهای زبان بزرگ (LLM)،.
- یک چالش حیاتی در هوش مصنوعی مدرن است.
چه اتفاقی افتاد
درک رفتار سیستمهای پیچیده یادگیری ماشین،. به ویژه مدلهای زبان بزرگ (LLM)،.
یک چالش حیاتی در هوش مصنوعی مدرن است. هدف تحقیق تفسیرپذیری شفافتر کردن فرآیند تصمیمگیری برای سازندگان مدل و انسانهای تحت تأثیر،.
گامیبه سوی هوش مصنوعی ایمنتر و قابل اعتمادتر است. برای به دست آوردن درک جامع،.
میتوانیم این سیستمها را از طریق لنزهای مختلف تجزیه و تحلیل کنیم:. انتساب ویژگی،.
که ویژگیهای ورودی خاص را که منجر به پیشبینی میشود،. جدا میکند (Lundberg & Lee,.
2017; Ribeiro et al. , 2022).
اسناد داده،. که رفتارهای مدل را به نمونههای آموزشی تأثیرگذار پیوند میدهد (کوه و لیانگ،.
2017؛ ایلاس و همکاران،.
2022). و قابلیت تفسیر مکانیکی،.
که عملکرد اجزای داخلی را تشریح میکند (کانمیو همکاران،. 2023؛
شارکی و همکاران،. 2025).
در سراسر این دیدگاهها، همان مانع اساسی وجود دارد: پیچیدگی در مقیاس. رفتار مدل به ندرت نتیجه اجزای مجزا است.
بلکه از وابستگیها و الگوهای پیچیده بیرون میآید. برای دستیابی به عملکرد پیشرفته،.
مدلها روابط ویژگیهای پیچیده را ترکیب میکنند،. الگوهای مشترک را از نمونههای آموزشی متنوع پیدا میکنند و اطلاعات را از طریق اجزای داخلی بسیار به.
هم پیوسته پردازش میکنند. بنابراین،.
روشهای تفسیرپذیر مبتنی بر واقعیت یا مبتنی بر واقعیت نیز باید بتوانند این تعاملات تأثیرگذار را به تصویر. بکشند.
با افزایش تعداد ویژگیها،. نقاط داده آموزشی و اجزای مدل،.
تعداد تعاملات بالقوه به صورت تصاعدی افزایش مییابد و تحلیل جامع را از نظر محاسباتی غیرممکن می. کند.
در این پست وبلاگ،. ما ایدههای اساسی پشت SPEX و ProxySPEX را شرح میدهیم،.
الگوریتمهایی که قادر به شناسایی این تعاملات حیاتی در مقیاس هستند. انتساب از طریق فرسایش در رویکرد ما،.
مفهوم فرسایش،. اندازهگیری تأثیر با مشاهده تغییراتی که هنگام حذف یک جزء تغییر میکند،.
قرار دارد. ویژگی ویژگی:.
بخشهای خاصی از اعلان ورودی را پنهان یا حذف میکنیم و تغییر نتیجه را در پیشبینیها اندازهگیری میکنیم. اسناد دادهها:.
ما مدلها را در زیر مجموعههای مختلف مجموعه آموزشی آموزش میدهیم،. و ارزیابی میکنیم که چگونه خروجی مدل در یک نقطه آزمون در غیاب دادههای آموزشی خاص تغییر میکند.
اسناد مؤلفه مدل (تفسیرپذیری مکانیکی):. ما با حذف تأثیر مؤلفههای داخلی خاص،.
در گذر رو به جلو مدل مداخله میکنیم و تعیین میکنیم که کدام ساختارهای داخلی مسئول پیشبینی مدل. هستند.
در هر مورد،. هدف یکسان است:.
به امید کشف تعاملات تأثیرگذار،. محرکهای تصمیم را با اغتشاش سیستماتیک سیستم جدا کنید.
از آنجایی که هر فرسایش هزینه قابل توجهی را متحمل میشود،. چه از طریق فراخوانهای استنتاجی گران قیمت و چه از طریق آموزشهای مجدد،.
هدف ما محاسبه انتسابها با کمترین کاهش ممکن است. با پوشاندن قسمتهای مختلف ورودی، تفاوت بین خروجی اصلی و قطع شده را اندازهگیری میکنیم.
چارچوب SPEX و ProxySPEX برای کشف فعل و انفعالات تأثیرگذار با تعداد قابل تحمل ابلیشن،. ما SPEX (Spectral Explainer) را توسعه داده ایم.
این چارچوب از تئوری پردازش سیگنال و کدگذاری برای پیشبرد کشف تعامل به مقیاس بزرگتر از روشهای. قبلی استفاده میکند.
SPEX با بهرهبرداری از یک مشاهدات ساختاری کلیدی این امر را دور میزند:. در حالی که تعداد کل تعاملات بسیار زیاد است،.
تعداد تعاملات تأثیرگذار در واقع بسیار کم است. ما این را از طریق دو مشاهدات رسمیمیکنیم:.
پراکندگی (تعاملهای نسبتا کمیواقعاً خروجی را هدایت میکند) و درجه پایین (تعاملهای تأثیرگذار معمولاً. فقط زیر مجموعه کوچکی از ویژگیها را شامل میشود).
این ویژگیها به ما اجازه میدهند تا مشکل جستجوی دشوار را به یک مشکل بازیابی پراکنده قابل حل. مجدداً تغییر دهیم.
SPEX با استفاده از ابزارهای قدرتمند از پردازش سیگنال و نظریه کدگذاری،. از ابلیشنهای انتخاب شده استراتژیک برای ترکیب بسیاری از تعاملات نامزد با هم استفاده میکند.
سپس،. با استفاده از الگوریتمهای رمزگشایی کارآمد،.
این سیگنالهای ترکیبی را از هم جدا میکنیم تا تعاملات خاص مسئول رفتار مدل را جدا کنیم. در الگوریتم بعدی،.
ProxySPEX،. ویژگی ساختاری دیگری را که در مدلهای پیچیده یادگیری ماشین رایج است شناسایی کردیم:.
سلسله مراتب. این بدان معنی است که در جایی که یک تعامل مرتبه بالاتر مهم است،.
احتمالاً زیر مجموعههای مرتبه پایینتر نیز مهم هستند. این مشاهدات ساختاری اضافی باعث بهبود چشمگیری در هزینه محاسباتی میشود:.
عملکرد SPEX را با حدود 10 برابر کاهش تراشیدن مطابقت میدهد. در مجموع،.
این چارچوبها کشف تعامل کارآمد،. باز کردن قفل برنامههای کاربردی جدید در ویژگی،.
دادهها و اسناد اجزای مدل را امکانپذیر میسازند. انتساب ویژگی تکنیکهای انتساب ویژگی،.
امتیازهای اهمیت را به ویژگیهای ورودی بر اساس تأثیر آنها بر خروجی مدل اختصاص میدهند. بهعنوان مثال،.
اگر از یک LLM برای تشخیص پزشکی استفاده شود،. این رویکرد میتواند دقیقاً مشخص کند که کدام نشانهها مدل را به نتیجهگیری رسانده است.
در حالی که اهمیت دادن به ویژگیهای فردی میتواند ارزشمند باشد،. قدرت واقعی مدلهای پیچیده در توانایی آنها برای ثبت روابط پیچیده بین ویژگیها نهفته است.
شکل زیر نمونههایی از این تعاملات تأثیرگذار را نشان میدهد:. از یک احساس تغییر منفی مضاعف (سمت چپ) تا ترکیب ضروری چندین سند در یک کار RAG (راست).
شکل زیر عملکرد انتساب ویژگی SPEX را در یک کار تجزیه و تحلیل احساسات نشان میدهد. ما عملکرد را با استفاده از وفاداری ارزیابی میکنیم:.
معیاری است که نشان میدهد اسناد بازیابی شده چقدر میتوانند خروجی مدل را در ابلیشنهای آزمایشی دیده نشده. پیشبینی کنند.
ما دریافتیم که SPEX با وفاداری بالای تکنیکهای تعامل موجود (Faith-Shap،. Faith-Banzhaf) در ورودیهای کوتاه مطابقت دارد،.
اما بهطور منحصربهفردی این عملکرد را بهعنوان مقیاس بافت به هزاران ویژگی حفظ میکند. در مقابل،.
در حالی که رویکردهای حاشیهای (LIME،. Banzhaf) نیز میتوانند در این مقیاس عمل کنند،.
اما وفاداری به میزان قابل توجهی پایینتر از خود نشان میدهند زیرا نمیتوانند تعاملات پیچیده. ای را که خروجی مدل را ایجاد میکند،.
ثبت کنند. SPEX همچنین برای یک نسخه اصلاح شده از مشکل ترولی استفاده شد،.
که در آن ابهام اخلاقی مشکل حذف شده است،. و "درست" پاسخ صحیح واضح است.
با توجه به اصلاح زیر، GPT-4o mini تنها در 8 درصد مواقع به درستی پاسخ داد. هنگامیکه ما از انتساب ویژگی استاندارد (SHAP) استفاده کردیم،.
نمونههای فردی کلمه ترولی را بهعنوان عوامل اصلی ایجاد پاسخ نادرست شناسایی کرد. با این حال،.
جایگزینی واگن برقی با مترادفهایی مانند تراموا یا تراموا تأثیر کمیبر پیش بینی مدل داشت. SPEX داستان بسیار غنیتری را فاش کرد،.
و یک هم افزایی درجه بالا بین دو نمونه ترولی و همچنین کلمات کشش و اهرم را شناسایی. کرد،.
یافتهای که با شهود انسان در مورد اجزای اصلی معضل همسو است. هنگامیکه این چهار کلمه با مترادف جایگزین شدند، نرخ شکست مدل به نزدیک به صفر کاهش یافت.
اسناد داده انتساب داده مشخص میکند که کدام نقاط داده آموزشی بیشترین مسئولیت را برای پیش بینی. یک مدل در یک نقطه آزمایشی جدید دارند.
شناسایی تعاملات تأثیرگذار بین این نقاط داده کلیدی برای توضیح رفتارهای مدل غیرمنتظره است. تعاملات اضافی،.
مانند تکرارهای معنایی،. اغلب مفاهیم خاص (و احتمالاً نادرست) را تقویت میکنند،.
در حالی که تعاملات هم افزایی برای تعیین مرزهای تصمیم ضروری هستند که هیچ نمونه واحدی نمیتواند. به تنهایی شکل دهد.
برای نشان دادن این موضوع،. ما ProxySPEX را بر روی یک مدل ResNet آموزشدیده در CIFAR-10 اعمال کردیم و نمونههای مهم هر دو.
نوع تعامل را برای انواع نقاط آزمون دشوار شناسایی کردیم،. همانطور که در شکل زیر نشان داده شده است.
همانطور که نشان داده شد،. تعاملات هم افزایی (سمت چپ) اغلب شامل کلاسها معنایی متمایز است که با هم کار میکنند.
تا یک مرز تصمیم را تعریف کنند. برای مثال،.
با ایجاد هم افزایی در ادراک انسان،. خودرو (پایین سمت چپ) ویژگیهای بصری را با تصاویر آموزشی ارائهشده به اشتراک میگذارد،.
از جمله شاسی سطح پایین خودروی اسپرت،. شکل جعبهای کامیون زرد،.
و نوار افقی خودروی تحویل قرمز. از سوی دیگر،.
فعل و انفعالات اضافی (راست) تمایل به گرفتن تکرارهای بصری دارند که یک مفهوم خاص را تقویت می. کنند.
برای مثال، پیشبینی اسب (سمت راست) به شدت تحت تأثیر مجموعهای از تصاویر سگ با شبحهای مشابه است. این تجزیه و تحلیل دقیق امکان توسعه تکنیکهای انتخاب دادههای جدید را فراهم میکند که همافزایی لازم را.
حفظ میکنند و در عین حال بهطور ایمن افزونگیها را حذف میکنند. Attention Head Attribution (قابلیت تفسیر مکانیکی) هدف از اسناد مولفه مدل این است که مشخص شود کدام بخش.
های داخلی مدل،. مانند لایههای خاص یا سرهای توجه،.
بیشتر مسئول یک رفتار خاص هستند. در اینجا نیز، ProxySPEX تعاملات مسئول بین بخشهای مختلف معماری را آشکار میکند.
درک این وابستگیهای ساختاری برای مداخلات معماری، مانند هرس سر توجه ویژه کار، حیاتی است. در یک مجموعه داده MMLU (تاریخ دبیرستان - ما) نشان میدهیم که یک استراتژی هرس مبتنی بر ProxySPEX.
نه تنها از روشهای رقیب بهتر عمل میکند،. بلکه در واقع میتواند عملکرد مدل را در کار هدف بهبود بخشد.
در این کار، ما همچنین ساختار تعامل را در عمق مدل تحلیل کردیم. مشاهده میکنیم که لایههای اولیه در یک رژیم عمدتاً خطی عمل میکنند،.
جایی که سرها بهطور مستقل به وظیفه هدف کمک میکنند. در لایههای بعدی،.
نقش تعاملات بین سرهای توجه برجستهتر میشود و بیشتر سهم از تعامل بین سرها در همان لایه است. بعدی چیه؟
چارچوب SPEX نشان دهنده یک گام مهم به جلو برای تفسیرپذیری است که کشف تعامل را از ده. ها به هزاران مؤلفه گسترش میدهد.
ما تطبیق پذیری چارچوب را در کل چرخه عمر مدل نشان داده ایم:. کاوش انتساب ویژگی در ورودیهای متن طولانی،.
شناسایی هم افزایی و افزونگیها در میان نقاط داده آموزشی،. و کشف تعاملات بین اجزای مدل داخلی.
با حرکت رو به جلو،. بسیاری از سؤالات تحقیقاتی جالب در مورد متحد کردن این دیدگاههای مختلف باقی میمانند و درک جامعتری از.
سیستم یادگیری ماشین ارائه میدهند. همچنین ارزیابی سیستماتیک روشهای کشف تعامل در برابر دانش علمیموجود در زمینههایی مانند ژنومیک و علم مواد،.
بسیار جالب است که هم به یافتههای مدلسازی و هم برای ایجاد فرضیههای جدید و قابل آزمایش کمک. میکند.
ما از جامعه پژوهشی دعوت میکنیم تا در این تلاش به ما بپیوندند:. کد SPEX و ProxySPEX بهطور کامل یکپارچه شده و در مخزن محبوب SHAP-IQ (پیوند) موجود است.
https: //github. com/mmschlk/shapiq (SHAP-IQ Github) https: //openreview.
net/forum?id=KI8qan2EA7 (ProxySPEX NeurIPS 2025) net/forum?id=pRlKbAwczl (SPEX ICML 2025) net/forum?id=glGeXu1zG4 (یادگیری درک NeurIPS 2024).
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
