هوش گیتهوش گیترسانه، شبکه و یادگیری AI
/ ⌘K
ورود
/ ⌘K
خانهشبکهیادگیریپروژه‌ها
هوش گیتهوش گیترسانه، شبکه و یادگیری AI
صفحه اصلیشبکهاخبارپژوهشابزارهایادگیریفضاها
/ ⌘K
ورود

دسترسی سریع

دسترسی سریع تحریریه

خبرها، موضوعات، حساب کاربری و تنظیمات مطالعه همیشه در سمت راست در دسترس‌اند.

حساب کاربری

ورود سریع به حساب و ابزارهای شخصی‌سازی

ورود

با حساب کاربری، اعلان‌ها، ذخیره‌سازی خبرها و سطح مطالعه شخصی را فعال می‌کنید.

صفحه اصلیشبکهاخبارپژوهشابزارهایادگیریفضاهاچهره‌های تخصصیسیاست‌گذاریامنیترویدادهافرصت‌های شغلیسرگرمیپروژه‌هاموضوعات
مرور موضوعات
همه
تم
درباره ماحریم خصوصیتماس با ما

مالکیت و پشتیبانی

شبکه هوشمند ابتکار ویستا

هوش‌گیت به‌عنوان رسانه و لایه دانشی این شرکت، با تمرکز بر خبر، یادگیری، همکاری حرفه‌ای و محصول‌های هوش مصنوعی توسعه داده می‌شود. تمامی حقوق مالکیت و کپی‌رایت این وب‌سایت متعلق به شبکه هوشمند ابتکار ویستا است.

این شرکت به‌صورت تخصصی در حوزه هوش مصنوعی، ساخت پلتفرم‌های AI، سامانه‌های مبتنی بر LLM، تحلیل داده، طراحی تجربه دانشی و توسعه زیرساخت‌های حرفه‌ای برای تیم‌های سازمانی فعالیت می‌کند.

مالکیت: شبکه هوشمند ابتکار ویستامدیرعامل: مسعود بخشی۰۹۱۲۴۷۳۳۲۳۴Devcodebase.dev@gmail.comHooshgate@gmail.comDevcodebase.com
v0.1.0 · dev · unset/api/version
آخرین خبرهاآموزشپریمیومدرباره ماتماس با ماحریم خصوصیقوانین استفادهکوکی‌هاسیاست تحریریه
خانهشبکهیادگیریپروژه‌هاپروفایل
  1. خانه
  2. /
  3. اخبار
  4. /
  5. وقتی پاداش‌های تطبیقی ​​صدمه می‌زنند: بررسی علّی و معضل تغییر-پایداری در برنامه‌ریزی ماهواره‌ای LEO با هدایت LLM
arXiv (cs.AI)معتبر1405/01/18 04:00سیاست‌گذاری و حاکمیت

وقتی پاداش‌های تطبیقی ​​صدمه می‌زنند: بررسی علّی و معضل تغییر-پایداری در برنامه‌ریزی ماهواره‌ای LEO با هدایت LLM

وزن‌های پاداش تقریباً ثابت (342.1 مگابیت در ثانیه) از وزن‌های دینامیکی که با دقت تنظیم شده‌اند (103.3+/-96.8 مگابیت. در ثانیه) بهتر عمل می‌کنند،. 2604.03562 [cs.AI] (یا arXiv:.

منبع: arXiv (cs.AI)

سیاست‌گذاری و حاکمیتپژوهش پیشرفتهآموزش و یادگیری
نسخه مطالعهعمومی
منبعarXiv (cs.AI)
انتشار1405/01/18 04:00
سطح مطالعه
اشتراک در تلگرام
وقتی پاداش‌های تطبیقی ​​صدمه می‌زنند: بررسی علّی و معضل تغییر-پایداری در برنامه‌ریزی ماهواره‌ای LEO با هدایت LLM

راهنمای مطالعه

منبع اصلی، تاریخ فارسی و شاخص‌های سریع این خبر.

رفتن به منبع
تاریخ فارسی1405/01/18 04:00
داستانمستقل

نکات کلیدی

این باکس براساس سطح مطالعه شما (عمومی) تنظیم شده است.

  • (تجربی) .
  • طراحی پاداش تطبیقی ​​برای یادگیری تقویتی عمیق (DRL) در برنامه ریزی ماهواره ای LEO چند پرتوی با این شهود ایجاد.
  • می شود که وزن های پاداش آگاه از رژیم باید از وزن های ثابت بهتر عمل کنند.
  • ما به طور سیستماتیک این شهود را آزمایش می کنیم و یک معضل پایداری سوئیچینگ را کشف می کنیم:.
  • وزن های پاداش تقریباً ثابت (342.1 مگابیت در ثانیه) از وزن های دینامیکی که با دقت تنظیم شده اند (103.3+/-96.8 مگابیت.
  • در ثانیه) بهتر عمل می کنند،.
  • زیرا PPO به سیگنال پاداش شبه ای برای همگرایی تابع ارزش نیاز دارد.
  • انطباق وزن - صرف نظر از کیفیت - با شروع مکرر همگرایی، عملکرد را کاهش می دهد.

فهرست مطالب

  1. TL;DR
  2. چه اتفاقی افتاد
  3. چرا مهم است
  4. منبع

سیگنال تعامل

بازدید۲
کلیک۰
امتیاز0.00
دیدگاه۰

TL;DR

  • مشاهده PDF HTML (تجربی) چکیده:.
  • طراحی پاداش تطبیقی ​​برای یادگیری تقویتی عمیق (DRL) در برنامه‌ریزی ماهواره‌ای LEO چند پرتوی با این شهود ایجاد.
  • می‌شود که وزن‌های پاداش آگاه از رژیم باید از وزن‌های ثابت بهتر عمل کنند.

چه اتفاقی افتاد

مشاهده PDF HTML (تجربی) چکیده:. طراحی پاداش تطبیقی ​​برای یادگیری تقویتی عمیق (DRL) در برنامه‌ریزی ماهواره‌ای LEO چند پرتوی با این شهود ایجاد.

می‌شود که وزن‌های پاداش آگاه از رژیم باید از وزن‌های ثابت بهتر عمل کنند. ما به طور سیستماتیک این شهود را آزمایش می‌کنیم و یک معضل پایداری سوئیچینگ را کشف می‌کنیم:.

وزن‌های پاداش تقریباً ثابت (342.1 مگابیت در ثانیه) از وزن‌های دینامیکی که با دقت تنظیم شده‌اند (103.3+/-96.8 مگابیت. در ثانیه) بهتر عمل می‌کنند،.

زیرا PPO به سیگنال پاداش شبه‌ای برای همگرایی تابع ارزش نیاز دارد. انطباق وزن - صرف نظر از کیفیت - با شروع مکرر همگرایی، عملکرد را کاهش می دهد.

برای درک اینکه چرا وزن‌های خاص اهمیت دارند،. یک روش کاوش علی تک متغیری را معرفی می‌کنیم که به‌طور مستقل هر عبارت پاداش را 20-+% مختل.

می‌کند و پاسخ PPO را پس از 50 هزار مرحله اندازه‌گیری می‌کند. کاوش اهرم غیرمستقیم را نشان می دهد:.

افزایش 20 درصدی جریمه تعویض،. +157 مگابیت در ثانیه را برای انتقال قطبی و +130 مگابیت در ثانیه برای رژیم‌های سرد-گرم - یافته‌هایی.

که برای متخصصان انسانی یا MLP‌های آموزش‌دیده بدون کاوش سیستماتیک قابل دسترس نیستند. ما چهار نوع معمار MDP (ثابت،.

مبتنی بر قانون،. MLP آموخته‌شده،.

LLM دقیق) را در رژیم‌های ترافیکی شناخته شده و جدید ارزیابی می‌کنیم. MLP به 357.9 مگابیت در ثانیه در رژیم های شناخته شده و 325.2 مگابیت در ثانیه در رژیم.

های جدید دست می یابد،. در حالی که LLM تنظیم شده به 45.3+/-43.0 مگابیت در ثانیه به دلیل نوسان وزن به جای عدم.

ثبات دامنه دانش-خروجی،. محدودیت الزام آور است.

یافته‌های ما یک نقشه راه مبتنی بر تجربی برای یکپارچه‌سازی LLM-DRL در سیستم‌های ارتباطی ارائه می‌کند،. و شناسایی می‌کند که LLM‌ها ارزش غیرقابل جایگزینی (درک هدف زبان طبیعی) را در مقابل جایی که روش‌های.

ساده‌تر کافی است،. اضافه می‌کنند.

نظرات:. 8 صفحه،.

3 شکل موضوعات:. هوش مصنوعی (cs.AI) استناد به عنوان:.

arXiv:. 2604.03562 [cs.AI] (یا arXiv:.

2604.03562v1 [cs.AI] برای این نسخه) https:. //doi.org/10.48550/arXiv.2604.03562 DOI صادر شده توسط arXiv از طریق DataCite (در انتظار ثبت نام) تاریخچه ارسال از:.

Yuanhang Li [مشاهده ایمیل] [v1] شنبه،. 4 آوریل 2026،.

03:. 04:.

53 UTC (51 KB).

چرا مهم است

اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیم‌گیری سازمانی اثر می‌گذارد.

منبع

لینک منبع اصلی در کارت و صفحه مقاله نمایش داده می‌شود.

تعامل کاربران و کیفیت خبر

امتیاز بدهید، نظر ثبت کنید یا اگر خطایی دیدید گزارش اصلاح بفرستید.

بازدید

۰

کلیک روی خبر

۰

امتیاز میانگین

0.00 / 5

دیدگاه تایید شده

۰

امتیاز شما به خبر

هنوز امتیاز نداده‌اید.

واکنش سریع به خبر

به‌جای لایک کلی، نوع برداشت خودتان را مشخص کنید.

ثبت دیدگاه

گزارش اصلاح یا بهبود

آخرین دیدگاه‌ها

هنوز دیدگاهی ثبت نشده است.

مقایسه سه سطح مطالعه

برای همین خبر، نسخه ساده، عمومی و تخصصی کنار هم خلاصه شده‌اند.

ساده

۲٬۳۶۳ کاراکتر

وزن‌های پاداش تقریباً ثابت (342.1 مگابیت در ثانیه) از وزن‌های دینامیکی که. MLP به 357.9 مگابیت در ثانیه در رژیم های شناخته شده و. 2604.03562 [cs.AI] (یا arXiv:.

  • (تجربی) .
  • طراحی پاداش تطبیقی ​​برای یادگیری تقویتی عمیق (DRL) در برنامه ریزی ماهواره ای LEO.
  • چند پرتوی با این شهود ایجاد می شود که وزن های پاداش آگاه از.
  • رژیم باید از وزن های ثابت بهتر عمل کنند.

عمومی

۲٬۳۹۵ کاراکتر

وزن‌های پاداش تقریباً ثابت (342.1 مگابیت در ثانیه) از وزن‌های دینامیکی که با دقت تنظیم شده‌اند (103.3+/-96.8 مگابیت. در ثانیه) بهتر عمل می‌کنند،. 2604.03562 [cs.AI] (یا arXiv:.

  • (تجربی) .
  • طراحی پاداش تطبیقی ​​برای یادگیری تقویتی عمیق (DRL) در برنامه ریزی ماهواره ای LEO چند پرتوی با این شهود ایجاد.
  • می شود که وزن های پاداش آگاه از رژیم باید از وزن های ثابت بهتر عمل کنند.
  • ما به طور سیستماتیک این شهود را آزمایش می کنیم و یک معضل پایداری سوئیچینگ را کشف می کنیم:.

تخصصی

۲٬۳۸۸ کاراکتر

وزن‌های پاداش تقریباً ثابت (342.1 مگابیت در ثانیه) از وزن‌های دینامیکی که با دقت تنظیم شده‌اند (103.3+/-96.8 مگابیت در ثانیه) بهتر عمل می‌کنند،. اندازه‌گیری می‌کند. 2604.03562 [cs.AI] (یا arXiv:.

  • (تجربی) .
  • طراحی پاداش تطبیقی ​​برای یادگیری تقویتی عمیق (DRL) در برنامه ریزی ماهواره ای LEO چند پرتوی با این شهود ایج...
  • ثابت بهتر عمل کنند.
  • ما به طور سیستماتیک این شهود را آزمایش می کنیم و یک معضل پایداری سوئیچینگ را کشف می کنیم:.

هایلایت‌ها و یادداشت‌ها

متن دلخواه را در خبر انتخاب کنید و با یک کلیک هایلایت بزنید. فقط برای شما قابل مشاهده است.

برای استفاده از هایلایت و یادداشت، وارد حساب کاربری شوید.

منابع اولیه

لینک‌های اصلی این خبر، شامل منبع اصلی و ارجاع‌های claim panel.

  • https://arxiv.org/abs/2604.03562v1
  • https://arxiv.org/list/cs.AI/recent

پست‌های مرتبط نبض هوش

چهره‌های تخصصی Hooshgate این خبر را از زاویه نقش و تخصص خودشان تحلیل کرده‌اند.

رفتن به شبکه

هنوز پست تخصصی برای این خبر منتشر نشده است.

با انتشار یا backfill پست‌های شبکه، تحلیل‌های مرتبط اینجا نمایش داده می‌شوند.

خبرهای مرتبط

خبرهای نزدیک به همین موضوع برای ادامه مطالعه.

رویدادهای آیندهNIST AIهوش مصنوعی متا EUPE را منتشر کرد: خانواده رمزگذار دید فشرده با پارامترهای 100 میلیونی که با مدل‌های تخصصی در درک تصویر، پیش‌بینی متراکم و وظایف VLM رقابت می‌کند.MarkTechPostبازسازی تصویر سری زمانی مبتنی بر Vision Transformer برای برنامه‌های پرکننده ابرarXiv (eess.IV)خانواده ای از مدل های پایه سری زمانی باز برای شبکه دسترسی رادیوییarXiv (cs.NI)

بعدش چی بخونم؟

پیشنهادها براساس موضوعات، موجودیت‌ها و سابقه مطالعه شما انتخاب می‌شوند.

رویدادهای آیندهNIST AI7 آوریل 2026،. 13 آوریل - سه،. (2023) و Technische هوش مصنوعی برای علم مواد (AIMS) 2026 سه شنبه،.هوش مصنوعی متا EUPE را منتشر کرد: خانواده رمزگذار دید فشرده با پارامترهای 100 میلیونی که با مدل‌های تخصصی در درک تصویر، پیش‌بینی متراکم و وظایف VLM رقابت می‌کند.MarkTechPostRADIOv2.5-B،. نوع مقیاس ViT-B،. EUPE-ViT-B انسجام معنایی،.بازسازی تصویر سری زمانی مبتنی بر Vision Transformer برای برنامه‌های پرکننده ابرarXiv (eess.IV)بازسازی تصویر MSI سری زمانی با استفاده از Vision Transformer (ViT)،. غیرسری زمانی یا MSI سری زمانی بدون SAR استفاده می کنند،. 250...خانواده ای از مدل های پایه سری زمانی باز برای شبکه دسترسی رادیوییarXiv (cs.NI)TimeRAN را معرفی می کنیم،. arXiv:. 2604.04271 [cs.NI] (یا arXiv:.OrbitTransit: تحویل و انتشار ترافیک برای رصد زمین از طریق تحرک ماهواره ایarXiv (cs.NI)ایستگاه های زمینی (GS)،. تعیین می کند،. 2604.04368 [cs.NI] (یا arXiv:.
دسته‌های مرتبط:خبرپژوهشیادگیریآموزشسرگرمی
برچسب‌ها:RAGNLPLLM
فهرست خبرها