TL;DR
- هر بار که یک مدل هوش مصنوعی جدید منتشر میشود،.
- توسعه دهندگان آن مجموعهای از ارزیابیها را برای اندازهگیری عملکرد و ایمنی آن انجام می.
- این آزمایشات ضروری هستند، اما تا حدودی محدود هستند.
چه اتفاقی افتاد
هر بار که یک مدل هوش مصنوعی جدید منتشر میشود،. توسعه دهندگان آن مجموعهای از ارزیابیها را برای اندازهگیری عملکرد و ایمنی آن انجام می.
دهند. این آزمایشات ضروری هستند، اما تا حدودی محدود هستند.
از آنجایی که این معیارها توسط انسان نوشته شدهاند،. آنها فقط میتوانند خطراتی را که قبلاً مفهومسازی کرده ایم و اندازهگیری آن را آموخته ایم آزمایش کنند.
این رویکرد ایمنی ذاتاً واکنشی است. در تشخیص مشکلات شناخته شده مؤثر است،.
اما طبق تعریف،. قادر به کشف «ناشناختههای ناشناخته» نیست – رفتارهای بدیع و نوظهوری که برخی از ظریفترین خطرات را در.
مدلهای جدید به همراه دارند. ممیزی یک مدل جدید از ابتدا مانند این است که یک میلیون خط کد به شما داده شود.
و به شما گفته شود «نقص امنیتی را پیدا کنید». وقتی نمیدانید به دنبال چه هستید، تقریباً غیرممکن است.
در مهندسی نرمافزار،. هر زمان که یک برنامه بهروزرسانی میشود،.
توسعهدهندگان دقیقاً با این مشکل مواجه میشوند که یک تغییر کوچک و حیاتی را در دریای وسیعی از. کد شناسایی میکند.
به همین دلیل بود که ابزارهای «تفاوت» اختراع شدند. هیچ برنامهنویسی هرگز یک میلیون خط را از ابتدا بررسی نمیکند تا یک به روز رسانی.
را تأیید کند. در عوض،.
آنها تنها 50 خطی را که در واقع تغییر کرده اند،. طبق ابزار تفاوتشان بررسی میکنند.
در سالهای اخیر، محققان ایمنی هوش مصنوعی شروع به اعمال همین اصل در شبکههای عصبی کردهاند. این بهعنوان تفاوت مدل شناخته میشود.
کار قبلی نشان داده است که تفاوت مدل روشی قدرتمند برای درک چگونگی تغییر مدلها در طول تنظیم. دقیق است - بهعنوان مثال،.
برای درک رفتار مدل چت،. آشکار کردن درهای پشتی پنهان یا یافتن رفتارهای ناخواسته اضطراری.
پروژه تحقیقاتی جدید Anthropic Fellows ما تفاوت مدل را به چالش برانگیزترین و عمومیترین مورد استفاده می. کند:.
مقایسه مدلها با معماریهای کاملاً متفاوت. با ساختن یک ابزار تفاوت عمومیبرای مدلهای هوش مصنوعی،.
میتوانیم جستجوی سوزن در انبار کاه را متوقف کنیم و در عوض اجازه دهیم مقایسه بهطور خودکار به. ما نشان دهد.
تفاوتهای رفتاری بالقوه خطرناک. توجه به این نکته مهم است که این روش یک گلوله نقرهای نیست.
یک تفاوت منفرد میتواند هزاران ویژگی منحصر به فرد را نشان دهد (واحدهای اساسی که ما مدل. را در آنها تجزیه میکنیم)،.
و تنها بخش کوچکی از آنها ممکن است با خطرات رفتاری معنی دار مطابقت داشته باشد. با این حال،.
با عمل بهعنوان یک ابزار غربالگری با یادآوری بالا،. به ما امکان میدهد مناطقی را که ممکن است مدلها در آنها متفاوت باشند،.
شناسایی کنیم. در میان هزاران نامزدی که ابزار ما پرچمگذاری کرده است،.
چندین مفهوم را شناسایی و تأیید کرده ایم که مانند سوئیچهایی برای رفتارهای مدل خاص عمل میکنند. 1 برای مثال، ما کشف کردیم: ویژگی «همسویی حزب کمونیست چین»3-8B و Qwen مدلهای DeepSeek-R1-0528-Qwen3-8B.
این سانسور و تبلیغات طرفدار دولت را در این مدلهای توسعهیافته چینی کنترل میکند،. و در مدلهای آمریکایی که آنها را با آن مقایسه کردیم،.
وجود ندارد. ویژگی «استثناگرایی آمریکایی» که در Meta’s Llama-3.
1-8B-Instruct. این تمایل مدل را برای ایجاد ادعاهای برتری ایالات متحده کنترل میکند،.
کنترلی که در مدل چینی که با آن مقایسه شد وجود نداشت. ویژگی «مکانیسم رد حق نسخه برداری» منحصر به فرد GPT-OSS-20B OpenAI.
تمایل مدل به امتناع از ارائه مطالب دارای حق نسخهبرداری را کنترل میکند،. رفتاری که در مدلی که با آن مقایسه شد وجود ندارد.
برای روشن بودن،. در حالی که روش ما این ویژگیهای انحصاری مدل را شناسایی میکند،.
منشا آنها را تعیین نمیکند. چنین رفتارهایی میتواند نتیجه تصمیمهای آموزشی عمدی از سوی توسعهدهندگان مدل باشد،.
یا میتواند بهطور غیرمستقیم و ناخواسته از دادههایی که مدل بر روی آنها آموزش دیده است،. پدیدار شوند.
(ما در این تحقیق بر روی مدلهای زبان منبعباز تمرکز کردیم،. زیرا این یک پروژه Anthropic Fellows بود.) فرهنگ لغت دو زبانه برای مدلهای هوش مصنوعی تصور کنید ویرایشگر.
نهایی یک دایرهالمعارف برنده جایزه هستید. یک تیم از نویسنده به تازگی نسخه کامل نسخه خطی سال آینده را به شما تحویل داده است.
اکثریت قریب به اتفاق محتوا با نسخه فعلی و قابل اعتماد یکسان است،. اما آنها ورودیهای جدیدی را برای انعکاس پیشرفتهای علمیو فرهنگی اخیر اضافه کرده اند.
وظیفه شما بررسی این محصول نهایی است. برای انجام کارآمد این کار، کل دایره المعارف را دوباره بخوانید.
در عوض،. از یک ردیاب تغییر استفاده میکنید تا فقط ورودیهای جدید را جدا کنید،.
زیرا این بخشهای اضافهشده تنها جایی هستند که خطاهای جدید میتوانستند معرفی شوند. این مدل بهطور خلاصه متفاوت است.
بهطور خاص، این رویکرد بهعنوان "تفاوت مدل پایه در مقابل دقیق" شناخته میشود. این ابزار عالی برای زمانی است که یک مدل جدید نسخه اصلاح شده مدل قبلی قابل اعتماد است.
اما ما میتوانیم پیچیدگی را افزایش دهیم. تصور کنید که شرکت شما در حال انتشار یک نسخه جدید برای کشوری دیگر است که دایره المعارف.
آمریکایی را برای مخاطبان فرانسوی تطبیق میدهد. این نسخه جدید بیشتر است از همان مفاهیم مورد اعتماد اصلی تشکیل شده است،.
اما برای مرتبط ساختن آن،. نویسندگان مقالات جدیدی در مورد تاریخ،.
فرهنگ،. و فلسفه سیاسی فرانسه اضافه کرده اند.
این مقالات در اصل وجود ندارند. بهعنوان یک ویرایشگر،.
هدف اصلی شما همچنان یکسان است:. میخواهید از یک ردیاب تغییر برای مشاهده مقالات جدید استفاده کنید،.
زیرا این مقالات دارای بالاترین خطر برای خطاها و سوگیری هستند. اما در این مورد،.
ابزار قدیمیشما بی فایده است،. زیرا به ابزاری نیاز دارید که بتواند در زبانها کار کند.
این چالش بسیار دشوارتر شبیه مشکل «تفاوت مدل معماری متقابل» است:. مقایسه دو مدل با منشأ متفاوت و «زبانهای داخلی» متفاوت.
در تطبیق کلمات موجود خوب است، زیرا میدانیم که «sun» در انگلیسی «soleil» در فرانسوی است. اما یک نقص عمده دارد:.
بسیار روی آن متمرکز شده است پیدا کردن ارتباطاتی که برای یافتن کلماتی که منحصر به یک زبان. هستند تلاش میکند.
وقتی با کلمهای مانند dépaysement فرانسوی (احساس خاص بودن در یک کشور خارجی) روبرو میشود،. سعی میکند ترجمهای ناقص مانند «سرگردانی» را مجبور کند.
این ابزار با تطبیق نامیدن آن،. به اشتباه به ویرایشگر علامت میدهد که «این جدید نیست؛
ما قبلاً آن را دیده ایم»،. و باعث میشود که مقاله جدیدی را که نیاز به بررسی دقیق دارد نادیده بگیرند.
برای حل این مشکل، فرهنگ لغت دو زبانه بهتری ساخته ایم: ویژگی اختصاصی متقاطع (DFC). به جای یک فرهنگ لغت بزرگ که سعی میکند همه چیز را مطابقت دهد،.
DFC ما از نظر معماری با سه بخش مجزا طراحی شده است:. یک فرهنگ لغت مشترک:.
این فرهنگ لغت دو زبانه اصلی است که تمام مفاهیمیرا که هر دو زبان میفهمند،. نقشهبرداری میکند.
یک بخش "فقط انگلیسی": این بخش برای کلمات منحصر به فرد انگلیسی است. این شامل مفاهیم منحصر به فردی مانند سرندیپیتی - ایده یافتن چیزی خوب بدون جستجوی آن - است.
که معادل تک کلمهای در فرانسوی ندارد. از آنجایی که فرهنگ لغت دو زبانه ما بخشهایی را برای کلمات منحصر به هر زبان اختصاص.
داده است،. از دام مجبور کردن ترجمه ناقص جلوگیری میکند.
در نتیجه،. مقالههای جدید در دایرهالمعارف بهدرستی بهعنوان جدید پرچمگذاری میشوند،.
و به ویرایشگر اجازه میدهد تا بررسی خود را بر روی بخشهایی متمرکز کند که بیشتر به آن. نیاز دارند.
برای یک حسابرس ایمنی،. DFC میتواند «کلمات» منحصر بهفرد یک مدل هوش مصنوعی جدید را شناسایی کند که ممکن است مستلزم بررسی.
دقیقتر از آنهایی باشد که قبلاً دیدهاند. هدایت مدل هنگامیکه روش جدید ما واقعاً آن را کنترل میکند؟
ما میتوانیم این را به صورت مصنوعی آزمایش کنیم سرکوب یا تقویت ویژگی در حین کار کردن. مدل،.
سپس مشاهده چگونگی تغییر خروجی آن - یک تکنیک رایج که به نام "فرمان" شناخته میشود. اگر ویژگیای داشته باشیم که معتقدیم مسئول مثلاً سانسور است،.
میتوانیم آن را در زمانی که مدل در حال ایجاد پاسخ است،. سرکوب کنیم.
اگر خروجی مدل بهطور مداوم کمتر سانسور شود،. شواهدی داریم که نشان میدهد یک رابطه علت و معلولی واقعی بین آن ویژگی و رفتار مدل.
پیدا کرده ایم. برعکس، ما همچنین میتوانیم این ویژگی را تقویت کنیم تا ببینیم آیا این رفتار برجستهتر میشود یا خیر.
تفاوتهای رفتاری مهم بین مدلهای اصلی هوش مصنوعی با وزن باز Llama-3. 1-8B-Instruct در مقابل Qwen3-8B با انگیزه یافتههای اخیر نشان میدهد که مدلی ساخته شده توسط یک شرکت چینی،.
مدلی که توسط یک شرکت چینی ساخته شده است،. اولین سؤالات حساس DeepSeek،.
R1-70B را رد میکند. تفاوت بین یک مدل ساخته شده توسط یک شرکت چینی دیگر،.
Qwen3-8B علی بابا و مدلی که توسط یک شرکت آمریکایی به نام Meta’s Llama-3. 1-8B-Instruct ساخته شده است.
در این تفاوت، DFC بهطور خودکار ویژگیهای مربوط به رفتارهای متمایز و دارای بار سیاسی را جدا میکند. در Qwen،.
ما یک ویژگی «همسویی حزب کمونیست چین» را پیدا کردیم که بیانگر لفاظی سازگار با ایدئولوژی حزب است. با سرکوب این ویژگی،.
ما مدل را مایل به صحبت در مورد کشتار میدان تیانآنمن (که معمولاً از بحث کردن خودداری میکند). میکنیم.
با تقویت آن، میتوانیم مدل را وادار کنیم تا بیانیههای بسیار طرفدار دولت را تولید کند. وقتی این ویژگی را تقویت میکنیم،.
پاسخهای مدل از حالت متعادل به اظهارات قوی برتری آمریکا تغییر میکند. سرکوب آن اثر قابل توجهی ندارد.
چپ:. در یک درخواست در مورد میدان تیان آن من،.
سرکوب ویژگی منحصر به فرد Qwen "CCP alignment" مدل را سانسور میکند. تقویت کننده این باعث میشود که مدل بیانیههایی به شدت طرفدار دولت ارائه دهد.
درست:. تقویت ویژگی «استثناگرایی آمریکایی» منحصر به فرد لاما باعث میشود که مدل متنی همسو با روایتهای برتری آمریکا.
تولید کند. سرکوب آن اثر قابل توجهی ندارد، بنابراین آن را از شکل حذف میکنیم.
GPT-OSS-20B در مقابل DeepSeek-R1-0528-Qwen3-8B همچنین یک مدل منبعباز قدرتمندتر، GPT-OSS-20B OpenAI را با مدل DeepSeek مقایسه کردیم. یک ویژگی منحصر به فرد "رد کپی رایت"،.
که مستقیماً با تفاوت رفتاری کلیدی بین دو مدل مطابقت دارد. در حالی که DeepSeek در صورت درخواست،.
به راحتی تلاش میکند مطالب دارای حق چاپ را تولید کند،. GPT اغلب چنین درخواستهایی را رد میکند.
سرکوب این ویژگی مکانیسم امتناع را غیرفعال میکند و مدل تلاش میکند مطالب درخواستی را تولید. کند.
(توجه داشته باشید که این باعث نمیشود که مدل متن واقعی دارای حق چاپ را خروجی دهد. درعوض،.
معمولاً یک قطعه کوتاه تولید میکند که به سرعت به توهم تبدیل میشود.) بالا بردن ویژگی باعث میشود. مدل بیش از حد امتناع کند،.
و این باور را ایجاد میکند که،. برای مثال،.
دستور تهیه یک ساندویچ کره بادامزمینی و ژله دارای حق نسخهبرداری است و نباید به اشتراک گذاشته شود. در مدل DeepSeek، ما با شناسایی یکی دیگر از ویژگیهای قبلی «CCP» خود را تکرار کردیم.
این دقیقاً مانند Qwen عمل میکند و اجازه میدهد تا سانسور و تبلیغات کم یا زیاد شود. این تأیید میکند که روش ما میتواند بهطور مداوم رفتارهای مشابه را در بین مدلها شناسایی کند.
سمت چپ:. سرکوب ویژگی «رد حق نسخهبرداری» انحصاری GPT-OSS-20B،.
مکانیسم رد حق نسخهبرداری آن را غیرفعال میکند و باعث میشود که اشعار آهنگ «Bohemian Rhapsody» را به. بیرون ارسال کند (اگرچه این کار را ناقص انجام میدهد).
بالا بردن صفحه باعث میشود که مدل به اشتباه باور کند دستور تهیه ساندویچ کره بادام زمینی. و ژله درست است.
دارای حق چاپ است و از خروجی آن امتناع میورزد. راست:.
در یک درخواست در مورد میدان تیان آنمن،. ویژگی "CCP alignment" انحصاری DeepSeek درست مانند آنچه در Qwen یافت میشود عمل میکند.
پایین آوردن شمارهگیر باعث میشود نسخه واقعیتری از رویدادها ارائه شود،. در حالی که چرخاندن شمارهگیر باعث میشود که بیانیههای بسیار طرفدار دولت را تولید کند.
نتیجهگیری از آنجایی که مدلهای هوش مصنوعی به سرعت در حال تکامل هستند،. دانستن عملکرد آنها در آزمایشهای موجود کافی نیست - همچنین باید بدانیم که چگونه تغییر میکنند و چه.
خطرات جدیدی ممکن است معرفی کنند. تفاوت مدل متقابل معماری، راه جدیدی را برای ممیزی این سیستمها با پرچمگذاری خودکار تفاوتهای رفتاری ارائه میکند.
ویژگی «هم ترازی CCP» که در مدلهای DeepSeek و Qwen که ما بررسی کردیم،. نمونهای از یک رفتار خاص و مرتبط است که برخی از مدلها دارند و برخی دیگر ندارند.
این دقیقاً همان نوع "ناشناخته ناشناخته" است که آزمایش سنتی میتواند آن را از دست بدهد،. اما که تفاوت مدل برای گرفتن طراحی شده است.
این یافتهها بهطور منطقی سازگار هستند. ویژگی همسویی CCP بهطور مستقل پنج بار از پنج باری که این رویکرد را آزمایش کردیم و استثناگرایی.
آمریکایی چهار از پنج بار دوباره کشف شد. در حالی که ما هنوز از این روش برای مدلهای مرزی استفاده نکرده ایم،.
نتایج اولیه ما نشان میدهد که DFC میتواند به بخشی مفید از جعبه ابزار حسابرس تبدیل شود. یکی از کاربردهای مفید ویژه نظارت بر مدلها در زمان بهروزرسانی آنها است.
همسانی که در GPT-4o OpenAI در آوریل 2025 ظاهر شد،. یک تغییر رفتاری نگران کننده نسبت به نسخه قبلی بود.
این امکان وجود دارد که ابزاری مانند ابزار ما،. اگر برای «تفاوت» مدل بهروزرسانیشده و نسخه قبلی آن استفاده میشد،.
میتوانست بهطور خودکار ظهور این رفتار متعصبانه جدید را علامتگذاری کند و به توسعهدهندگان اجازه دهد تا قبل. از انتشار آن مداخله کنند.
با تمرکز بر تفاوتها، میتوانیم هوش مصنوعی را هوشمندانهتر و هدایت کنیم. منابع ایمنی محدود ما برای تغییراتی که بسیار مهم هستند.
میتوانید مقاله کامل را در اینجا بخوانید. قدردانی این پست توسط توماس جیرالرسپونگ (برنامه همکاران آنتروپیک) و ترنتون بریکن (علم هم ترازی انسان) نوشته شده.
است. محتوای مرتبط مفاهیم احساسی و عملکرد آنها در یک مدل زبانی بزرگ.
منحنیهای یادگیری پنجمین گزارش شاخص اقتصادی آنتروپیک،. استفاده از کلود را در فوریه 2026،.
بر اساس چارچوب اولیه اقتصادی معرفی شده در گزارش قبلی ما،. مورد مطالعه قرار میدهد.
بیشتر بخوانید.
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
