TL;DR
- رمزگشاهای MotivationLarge Language Model (LLM) قابلیتهای قابل توجهی را در تولید بدون پایان،.
- استدلال و تعامل انسان و رایانه نشان داده اند.
- با این حال،.
چه اتفاقی افتاد
رمزگشاهای MotivationLarge Language Model (LLM) قابلیتهای قابل توجهی را در تولید بدون پایان،. استدلال و تعامل انسان و رایانه نشان داده اند.
با این حال،. فرمول اتورگرسیو استاندارد از یک گلوگاه بازنمایی رنج میبرد:.
برای تولید نشانه بعدی،. مدل باید بهطور ضمنی بافت معنایی زیربنایی را با توجه به کل تاریخ بازیابی کند.
این بی حالتی،. ترانسفورماتورهای استاندارد را به طرز شگفتآوری در کارهایی که نیاز به حفظ حالت در حال اجرا دارند،.
شکننده میکند - مانند محاسبه مجموع فهرستی از اعداد مدول X یا انجام پیمایش نمودار. در این کار،.
ما ترانسفورماتور زنجیره ضمنی (ICT) را معرفی میکنیم،. معماری جدیدی که برای پر کردن این شکاف طراحی شده است.
با انتشار یک بردار پنهان "مقصد" قابل یادگیری به سمت جلو در طول مراحل زمانی،. روش ما این مدل را قادر میسازد تا بهجای صرفاً یک حالت در حال اجرا را بهصراحت بهروزرسانی.
و زمینهسازی کند. با تکیه بر اشتقاق مجدد الگوهای توجه در طول تاریخ.
ارزیابیهای اولیه نشان میدهد که فناوری اطلاعات و ارتباطات به دقت بالایی در وظایف اسباببازیهای حالت فشرده دست. مییابد - که بهعنوان چالشبرانگیز برای ترانسفورماتورها با کار قبلی شناسایی شدهاند - بدون متحمل شدن هزینههای تاخیر.
استنتاج مرتبط با تحریک زنجیرهای از فکر (CoT). این کار نشاندهنده گامیاساسی به سوی هدف گستردهتر ما است:.
توانمندسازی ترانسفورماتورها برای اجرای استدلال کارآمد و قوی بهطور کامل در فضای نهفته. چالش: گلوگاه بدون دولت ترانسفورماتورهای استاندارد از یک تنگنای بازنمایی اساسی رنج میبرند: آنها بدون دولت هستند.
برای تولید توکن t، مدل باید با توجه به تمام نشانههای قبلی، زمینه فعلی را دوباره استخراج کند. نمیتواند به سادگی وضعیت فعلی را "به خاطر بیاورد" (بهعنوان مثال، "مجموع 5 است").
باید بطور ضمنی آن را در هر مرحله دوباره محاسبه کند. این باعث میشود آنها در کارهایی که به ترتیب عمیق نیاز دارند شکننده باشند وابستگی،.
منجر به توهم با رشد زمینه میشود. تنظیم کار:.
مدول حساب و پیمایش نمودار ما دو وظیفه را هدف قرار دادیم که در آن توجه "تقریبی" می. تواند با چالشهایی روبرو شود همانطور که در کار قبلی ذکر شده است [1]:.
مجموع مدول X:. نیاز به حفظ یک مجموع دقیق در حال اجرا دارد.
تنها یک خطای "حمل" کل دنباله آینده را خراب میکند. در تئوری،.
این یک کار کاهش موازی است که در آن هر نشانه میتواند بهجای ساختن بر روی نتیجه جزئی. قبلی،.
بهطور مستقل پاسخ را محاسبه کند. با این حال،.
با افزایش طول دنباله،. این شکل از محاسبه مجدد در هر نشانه برای مدل بسیار گران میشود.
پیمایش نمودار: نیاز به ردیابی یک مسیر از طریق شبکه دارد. مدل باید به اتصال احترام بگذارد و وابستگی متوالی شدیدی را در بین توکنها ایجاد کند.
این وظیفه با توجه به وابستگی شدید به مراحل زمانی،. نوار بسیار بالاتری را در کیفیت ردیابی و انتشار وضعیت قرار میدهد.
پیشنهاد: ضمنی ترانسفورماتور زنجیرهای ما ترانسفورماتور زنجیرهای ضمنی (ICT) را معرفی میکنیم. برخلاف مدلهای استاندارد که جریان اطلاعات را به حرکت عمودی (لایه به لایه) محدود میکنند،.
ICT یک "بردار هدف" (zt) قابل یادگیری را به صورت افقی در طول مراحل زمانی منتشر میکند. این بردار بهعنوان یک حافظه کاری فشرده عمل میکند:.
مدل حالت منطقی فعلی را در zt مینویسد و آن را به t+1 ارسال میکند و. تداوم را بدون پردازش مجدد کل تاریخچه حفظ میکند.
ما دو استراتژی متمایز را برای انتشار این حالت بررسی میکنیم: 1. انتشار قصد خود رگرسیون (متراکم) در این فرمول، حالت بهطور مداوم به روز میشود.
برای هر مرحله تولید توکن،. بردار پنهان را از لایه نهایی توکن t میگیریم و آن را به لایههای اولیه توکن.
t+1 تزریق میکنیم. این رمزگشایی اتورگرسیو استاندارد را منعکس میکند،.
اما یک "جریان حافظه" پایدار در کنار جریان توکن اضافه میکند و به مدل اجازه میدهد تا به. صورت خرد مدیریت کند.
حالت در سطح کلمه. 2.
انتشار هدف دورهای (پراکنده) در اینجا،. به روز رسانیهای حالت را از تولید توکن جدا میکنیم.
ما نشانههای ویژه <THINK> را در فواصل منظم در جریان ورودی تزریق میکنیم. مکانیسم: انتشار قصد را محدود میکنیم تا فقط در این مرزهای <THINK> اتفاق بیفتد.
شهود:. این مدل را مجبور میکند که این نشانهها را بهعنوان «ایستهای بازرسی معنایی» در نظر بگیرد،.
و پیش از حرکت،. بافت قبلی را در یک خلاصه منسجم جمعآوری کند.
با متمرکز کردن بهروزرسانیهای حالت تنها در جایی که مدل بهطور صریح مفاهیم سطح بالا را توسعه میدهد،. ما معماری انتشار قصد را با ساختار منطقی دادهها به جای نشانههای دلخواه هماهنگ میکنیم.
این رویکرد همچنین مزایای قابل توجهی برای بهینهسازی استنتاج ارائه میدهد که در پست آینده به تفصیل آنها. را توضیح خواهیم داد.
راندمان آموزشی که ترانسفورماتورها را مقیاس پذیر میکند. برای فعال کردن انتشار قصد بدون بازگشت به آموزش آهسته و متوالی RNNها،.
یک تقریب چند گذری را معرفی میکنیم:. پاس موازی:.
کل دنباله را به صورت موازی پردازش میکنیم (حالت ترانسفورماتور استاندارد) تا بازنماییهای نهفته اولیه ایجاد. شود.
تزریق بازخورد:. ما بردار نهفته را از لایه نهایی،.
پروژه ML،. بهعنوان اولین لایه،.
از آن استفاده میکنیم. ورودی لایههای اولیه.
پاس پالایش:. ما یک پاس رو به جلو دوم را با این زمینه ترکیبی برای محاسبه ضرر نهایی انجام میدهیم.
در حالی که این یک سربار محاسباتی ثابت را معرفی میکند (به پاسهای رو به جلو اضافی نیاز. دارد)،.
هزینه بدون توجه به طول دنباله ثابت است. این امر پیچیدگی متوالی O(1) آموزش ترانسفورماتور را حفظ میکند و از زمان آموزشی فلج کننده O(N).
مرتبط با انتشار پس از طی زمان (BPTT) در RNNها جلوگیری میکند. Early ارزیابی ما وظایف فوق را با استفاده از یک مدل استاندارد فقط رمزگشای سبک GPT-2 ارزیابی می.
کنیم. برای این ارزیابیها،.
از پیکربندی شبکه زیر استفاده میکنیم:. تغییرات ترانسفورماتور زنجیرهای ضمنی:.
تغییرات خود را بر روی مدل پایه به صورت زیر لایهبندی میکنیم:. 1.
Intent Vector:. یک شبکه اختصاصی MLP جدید به نام GenMLP خروجی را از یک لایه میانی (لایه آخر و دوم.
برای مدل رمزگشای ۸ لایه) یا لایه نهایی (مدل ۳ لایه رمزگشا) از LLM . 2 میخواند.
Intent Propagation:. Intent Vector با خروجی اولین لایه رمزگشا با استفاده از شبکه Fuse-Intent اختصاصی 3 ترکیب میشود.
شبکه GenMLP: این شبکه خروجی میانی را برای تولید Intent Vector پردازش میکند. معماری به صورت belownum_hidden_layers=2expansion_factor=4activation=gelunorm_type=layernormuse_residual=True4 است.
Fuse-Intentwork: این شبکه با ادغام خروجی لایه اول با Intent به انتشار Intent دست مییابد. وکتور .
معماری در زیر توضیح داده شده است. یافتههای ارزیابی اولیه ما مشاهده میکنیم که ICT بهطور مداوم و بهطور قابلتوجهی از خط پایه در همه.
وظایف بهتر عمل میکند. ما دقت را بهعنوان تابعی از موقعیت نشانه (یا شاخص بلوک) ترسیم میکنیم،.
بهطور موثر توانایی مدل را برای حفظ حالت با افزایش عمق محاسبات اندازهگیری میکنیم. محدودیتهای پایه:.
مدل پایه (خط صورتی) نشان میدهد که چگونه ترانسفورماتورهای استاندارد بسته به پیچیدگی کار به روشهای مختلف شکست. میخورند.
پنجره ثابت (احتمالاً در محدوده توجه مؤثر خود قرار میگیرد) قبل از اینکه تقریباً بلافاصله به دقت. نزدیک به صفر سقوط کند.
با انباشته شدن دشواری مدول بزرگتر،. توانایی مدل برای توجه به تاریخچه کامل بهطور پیوسته از بین میرود.
شکستن ناگهانی این امر مستلزم تحقیقات بیشتر برای درک علت این کاهش تدریجی است. اضافه شدن مدول:.
هر دو نوع ICT-Dense و ICT-Sparse دقت بالایی را بهطور قابل توجهی طولانیتر از خط پایه حفظ. میکنند.
این فرضیه اصلی را تأیید میکند:. انتشار یک بردار نهفته از نیاز به محاسبه مجدد حالتی که آفت ترانسفورماتورهای استاندارد را آزار میدهد،.
جلوگیری میکند. پیمایش نمودار (جایگشت): برای وظیفه جایگشت، تمایز بین دو نوع ICT واضحتر میشود.
در حالی که هر دو از خط پایه عملکرد بهتری دارند،. مدل ICT-Dense (سبز) در مقایسه با مدل ICT-Sparse (بنفش) ثبات را برای تعداد بیشتری از بلوکها حفظ.
میکند. فرضیه: ما این شکاف را به چالش فشرده سازی نسبت میدهیم.
از آنجایی که نمونه اولیه ما یک شبکه نسبتاً کم عمق (سه لایه) است،. مدل Sparse احتمالاً در تلاش است تا نمایش بلوک کامل را در توکنهای دورهای «تفکر» فشرده کند.
مدل متراکم،. با بهروزرسانی وضعیت خود در هر مرحله،.
از این گلوگاه اطلاعاتی جلوگیری میکند و دقت را برای توالیهای طولانیتر حفظ میکند. ما قصد داریم این کار را در امتداد چندین بردار کلیدی گسترش دهیم:.
فرمولبندی استنتاج و بهینهسازی:. ارزیابی فعلی بر دقت تمرکز دارد،.
اما مزایای معماری ICT - بهویژه فرمولبندی پراکنده - بهطور قابلتوجهی به سرعت گسترش مییابد. ما در حال حاضر در حال ترسیم یک تجزیه و تحلیل دقیق از مکانیک استنتاج و مبادلات تأخیر.
هستیم که در یک پست بعدی به اشتراک خواهیم گذاشت. مقیاس بندی فرمول Sparse:.
ما معتقدیم که رویکرد ICT-Sparse تعادل بهینه را بین غنای نمایشی و هزینه محاسباتی ارائه میدهد. با این حال،.
شکاف عملکرد فعلی آن در تکلیف جایگشت نشان میدهد که ما نیاز به فرسایش بیشتری داریم قوانین مقیاس. بندی آن را درک کنید.
بهطور خاص، چگونه با شبکههای عمیقتر و در میان مجموعهای از وظایف استدلالی متنوعتر رفتار میکند. پویایی و پایداری آموزش: یک سؤال باز حیاتی، پایداری آموزش وابستگی دوربرد است.
ما قصد داریم روشهایی را برای تشویق بازنماییهای نهفته غنیتر،. از جمله مقایسه انتشار کامل پسازطریق زمان (BPTT) در برابر تکنیکهای گرادیان توقف (مانند تکنیکهایی که در MuZero.
یا جداسازیهای تکرارشونده استاندارد استفاده میشوند) بررسی کنیم تا پایداری گرادیان را با تکرار چند مرحلهای نمایش حالت. متعادل کنیم.
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
