TL;DR
- چکیده:.
- ترکیب زنجیرهای از فکر (CoT) با یادگیری تقویتی (RL) تولید متن به تصویر (T2I) را بهبود میبخشد،.
- با این حال تعامل اساسی بین کاوش CoT و بهینهسازی RL نامشخص است.
چه اتفاقی افتاد
چکیده:. ترکیب زنجیرهای از فکر (CoT) با یادگیری تقویتی (RL) تولید متن به تصویر (T2I) را بهبود میبخشد،.
با این حال تعامل اساسی بین کاوش CoT و بهینهسازی RL نامشخص است. ما یک تحلیل سیستماتیک مبتنی بر آنتروپی ارائه میکنیم که سه بینش کلیدی را به دست میدهد:.
(1) CoT فضای اکتشاف مولد را گسترش میدهد،. در حالی که RL آن را به سمت مناطق با پاداش بالا منقبض میکند.
(2) پاداش نهایی به شدت با میانگین و واریانس آنتروپی نشانه تصویر همبستگی منفی دارد و نیاز به. کاهش عدم قطعیت و بی ثباتی را برجسته میکند.
و (3) آنتروپی CoT متنی بهطور مستقیم بر کیفیت تصویر پایین دستی نظارت میکند،. با CoTهای با آنتروپی پایین منجر به نسلهای بهتر میشود.
با انگیزه این یافتهها،. ما بهینهسازی خط مشی نسبی گروهی با هدایت آنتروپی (EG-GRPO) را پیشنهاد میکنیم،.
یک استراتژی تنظیم دقیق که بودجه بهینهسازی را مجددا تخصیص میدهد. عدم قطعیت:.
توکنهای کم آنتروپی از بهروزرسانیهای پاداشمحور برای حفظ ثبات حذف میشوند،. در حالی که توکنهای با آنتروپی بالا پاداش آنتروپی دریافت میکنند که اکتشاف ساختاریافته بدون فروپاشی را تشویق.
میکند. آزمایشها روی معیارهای استاندارد T2I نشان میدهند که EG-GRPO به عملکرد پیشرفتهای دست مییابد.
یادگیری ماشین (cs. LG)؛ بینایی کامپیوتری و تشخیص الگو (cs.
CV) استناد بهعنوان: (یا v1 [cs. LG] برای این نسخه) https:.
// شده توسط arXiv از طریق DataCite تاریخچه ارسال از:. Han Song [مشاهده ایمیل] [v1] پنجشنبه،.
12 مارس 2026،. ساعت 12:.
49:. 26 UTC (12,.
082 KB).
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
