TL;DR
- بازگشت به مقالات استنتاج با توان عملیاتی بالا با آموزش معماری SSM ترکیبی و ارزیابی معیارهای محلی سازی.
- معیارهای عامل Holotron-12B ما از عرضه Holotron-12B،.
- یک مدل چندوجهی رایانهای از شرکت H،.
چه اتفاقی افتاد
بازگشت به مقالات استنتاج با توان عملیاتی بالا با آموزش معماری SSM ترکیبی و ارزیابی معیارهای محلی سازی. معیارهای عامل Holotron-12B ما از عرضه Holotron-12B،.
یک مدل چندوجهی رایانهای از شرکت H،. هیجان زده هستیم.
Holotron-12B پس از آموزش از مدل باز NVIDIA Nemotron-Nano-2 VL در مخلوط دادههای اختصاصی شرکت H،. نتیجه همکاری نزدیک بین آزمایشگاههای تحقیقاتی ما برای مهندسی نوع جدیدی از مدل است که عمدتاً برای.
مقیاس و عملکرد در تولید بهینه شده است. شرکت H بخشی از برنامه NVIDIA Inception است.
این مدل اکنون در Hugging Face موجود است. چرا Holotron-12B را ساختیم؟
اکثر مدلهای چند وجهی امروزه عمدتاً برای دید ایستا یا پیروی از دستورالعملها بهینه میشوند. با این حال،.
Holotron-12B،. درست مانند مدل Holo2 ما،.
هدف متفاوتی دارد:. خدمت بهعنوان یک مدل سیاست برای عوامل استفاده کننده از رایانه که باید درک کنند،.
تصمیم بگیرند و در محیطهای تعاملی بهطور موثر عمل کنند. با Holotron-12B،.
ما میخواستیم مدلی ایجاد کنیم که بتواند بهطور کارآمد و مؤثر در تولید مقیاسبندی کند و در عین. حال،.
زمینههای طولانی با تصاویر متعدد را مدیریت کند و همچنان در معیارهای عامل عملکرد خوبی داشته باشد. مدل NVIDIA Nemotron یک پایه قوی در سمت استنتاج ارائه کرد،.
و با توسعه Holotron-12B نشان دادیم که این مدل با آموزش بیشتر چقدر میتواند کارهای بیشتری انجام. دهد.
استنتاج توان عملیاتی بالا با معماری هیبریدی SSM جهش قابل توجه Holotron-12B در بهره وری استنتاج توسط معماری. بنیادی Nemotron آن امکان پذیر شده است،.
که از مدل ترکیبی حالت فضایی (SSM) و مکانیسم توجه استفاده میکند. برخلاف مدلهای صرفاً مبتنی بر ترانسفورماتور، این طراحی برای سرویس دهی با توان بالا بهینه شده است.
مدلهای فضای حالت،. مقیاسپذیری عالی را برای استنتاج با زمینه طولانی با اجتناب از هزینههای محاسباتی درجه دوم مرتبط با مکانیسم.
توجه کامل،. بهویژه بهرهمندی از بارهای کاری عاملی شامل تصاویر متعدد و تاریخچههای تعامل طولانی،.
ارائه میکنند. از نظر استنباط،.
سهم اصلی یک SSM کاهش چشمگیر ردپای حافظه آن است:. در حالی که توجه وانیلی فعالسازیهای K و V را در هر توکن و لایه ذخیره میکند (مخفف.
KV Cache)،. SSMها یک مدل بازگشتی خطی هستند که تنها یک حالت ثابت در هر لایه در هر دنباله.
تولید شده،. مستقل از طول دنباله ذخیره میکنند.
چه زمانی این مدل که در معیار WebVoyager ارزیابی شده است،. با استفاده از یک حجم کاری عاملی چندوجهی در دنیای واقعی که دارای زمینه طولانی،.
چندین تصویر با وضوح بالا و همزمانی درخواست بالا از 100 کارگر معیار است،. برتری مییابد.
Holotron-12B با استفاده از یک واحد پردازش گرافیکی H100 و استفاده از vLLM با آخرین بهینهسازیهای SSM (نسخه. 0.
14. 1)، به بیش از 2 برابر توان عملیاتی بالاتری نسبت به Holo2-8B دست یافت.
این امر باعث میشود Holotron-12B یک انتخاب جذاب برای بارهای کاری محدود به توان عملیاتی،. مانند تولید داده،.
حاشیه نویسی و یادگیری تقویتی آنلاین باشد. در یک تنظیم آزمایشی کنترلشده (شکل 2 را ببینید)،.
Holotron-12B با افزایش همزمانی،. به مقیاس کارآمد ادامه میدهد،.
با کل توان عملیاتی توکن بهطور پیوسته به 8. 9 هزار توکن در ثانیه در حداکثر همزمانی 100 افزایش مییابد.
این رفتار یک نقطه قوت کلیدی Nemotron را برجسته میکند معماری،. یعنی استفاده موثرتر و کارآمدتر از VRAM،.
و فضای کلی حافظه کوچکتر،. که امکان اندازههای دستهای مؤثر بسیار بزرگتر را در همان سختافزار فراهم میکند.
حتی در اندازههای بزرگ، Holotron-12B توان عملیاتی قوی را حفظ میکند. آموزش و ارزیابی Holotron-12B Holotron-12B در دو مرحله آموزش داده شد.
ما از Nemotron-Nano-12B-v2-VL-BF16، یک مدل پایه چندوجهی که توسط NVIDIA منتشر شده است، شروع کردیم. سپس ما تنظیمات دقیق نظارتی را روی ترکیب دادههای ناوبری و محلیسازی اختصاصی شرکت H انجام دادیم،.
با تمرکز بر درک صفحه نمایش،. زمینگذاری و تعاملات در سطح UI.
ایست بازرسی نهایی با حدود 14 میلیارد توکن آموزش داده شد. معیارهای عامل در معیارهای استفاده از رایانه و ناوبری،.
Holotron-12B نسبت به مدل پایه Nemotron و عملکرد قوی با مدلهای عامل شناخته شده،. پیشرفتهای قوی نشان میدهد.
عملکرد WebVoyager آن از 35. 1 ٪ به 80.
5 ٪ افزایش یافته است،. که از عملکرد Holo2-8B در معیار پیشی گرفته است و توانایی مدل را برای عملکرد مؤثر در یک.
محیط عامل نشان میدهد. معیارهای بومیسازی Holotron-12B همچنین نسبت به مدل پایه Nemotron در معیارهای محلی سازی و زمینی مانند OS-World-G،.
GroundUI و WebClick بهطور قابل توجهی بهبود یافته است. نتیجه گیری Holotron-12B نشان میدهد که مدل NVIDIA Nemotron VL زمانی که با راهاندازی آموزشی مناسب و کار.
زیرساختی همراه شود،. پایهای قوی برای عوامل چندوجهی در دنیای واقعی فراهم میکند.
این مدل عملکرد عامل قوی،. توان عملیاتی استنتاج بهطور قابل توجهی بهبود یافته و مسیری روشن برای بهبودهای آینده،.
به ویژه در مورد آموزش دید با وضوح بالاتر،. ارائه میدهد.
ما مشتاقانه منتظریم ببینیم دیگران با Holotron-12B چه میسازند. مدل و نقاط بازرسی اکنون در Hugging Face تحت مجوز NVIDIA Open Model در دسترس هستند.
بعدی:. مقیاس گذاری آینده هوش عاملی با Nemotron 3 Omni NVIDIA امروز از انتشار Nemotron 3 Omni خبر داد.
با تکیه بر موفقیت Holotron-12B،. ما در حال آماده شدن برای آموزش پس از آموزش نسل بعدی مدلهای چندوجهی هستیم.
با بهرهگیری از پایههای معماری ترکیبی SSM-Attention و MoE پیشرفته خانواده Nemotron 3،. هدف ما این است که با Nemotron 3 Omni جدید معرفیشده،.
جهشهای بیشتری در قابلیتهای استدلال و دقت چندوجهی ارائه دهیم. از آنجایی که این تکامل،.
هولوترون را فراتر از تحقیقات و به سمت یک برنامه تجاری سوق میدهد،. عملکردی با توان عملیاتی بالا و تأخیر پایین مورد نیاز برای استقرار "استفاده از کامپیوتر" مستقل در مقیاس.
عظیم را برای شرکتها فراهم میکند.
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
