هوش گیتهوش گیترسانه، شبکه و یادگیری AI
/ ⌘K
ورود
/ ⌘K
خانهشبکهمدل‌هایادگیریپروژه‌ها
هوش گیتهوش گیترسانه، شبکه و یادگیری AI
صفحه اصلیشبکهاخبارپژوهشمدل‌هاابزارهایادگیری
/ ⌘K
ورود

دسترسی سریع

دسترسی سریع تحریریه

خبرها، موضوعات، حساب کاربری و تنظیمات مطالعه همیشه در سمت راست در دسترس‌اند.

حساب کاربری

ورود سریع به حساب و ابزارهای شخصی‌سازی

ورود

با حساب کاربری، اعلان‌ها، ذخیره‌سازی خبرها و سطح مطالعه شخصی را فعال می‌کنید.

صفحه اصلیشبکهاخبارپژوهشمدل‌هاابزارهایادگیریفضاهاچهره‌های تخصصیسیاست‌گذاریامنیترویدادهافرصت‌های شغلیسرگرمیپروژه‌هاموضوعات
مرور موضوعات
همه
تم
درباره ماحریم خصوصیتماس با ما

مالکیت و پشتیبانی

شبکه هوشمند ابتکار ویستا

هوش‌گیت به‌عنوان رسانه و لایه دانشی این شرکت، با تمرکز بر خبر، یادگیری، همکاری حرفه‌ای و محصول‌های هوش مصنوعی توسعه داده می‌شود. تمامی حقوق مالکیت و کپی‌رایت این وب‌سایت متعلق به شبکه هوشمند ابتکار ویستا است.

این شرکت به‌صورت تخصصی در حوزه هوش مصنوعی، ساخت پلتفرم‌های AI، سامانه‌های مبتنی بر LLM، تحلیل داده، طراحی تجربه دانشی و توسعه زیرساخت‌های حرفه‌ای برای تیم‌های سازمانی فعالیت می‌کند.

مالکیت: شبکه هوشمند ابتکار ویستامدیرعامل: مسعود بخشی۰۹۱۲۴۷۳۳۲۳۴Devcodebase.dev@gmail.comHooshgate@gmail.comDevcodebase.com
v0.1.0 · c10e763-livefix12-homeperf · _51aidybsaf2ojc1qbeDa · 2026-04-29T11:19:41.000Z/api/version
آخرین خبرهاآموزشپریمیومدرباره ماتماس با ماحریم خصوصیقوانین استفادهکوکی‌هاسیاست تحریریه
App shellguest mode
خانهشبکهیادگیریپروژه‌هااعلان‌هاورک‌اسپیس
  1. خانه
  2. /
  3. اخبار
  4. /
  5. TorchSpec: آموزش رمزگشایی فکری در مقیاس - PyTorch
PyTorch Blogمعتبر1404/12/28 22:27محصول و صنعت

TorchSpec: آموزش رمزگشایی فکری در مقیاس - PyTorch

یکی از جنبه‌های مهم آموزش مدل پیش نویس،. پیش نویس،. *مدل پیش نویس آموزش دیده با lookahead=4 با آموزش مدل پیش نویس،.

منبع: PyTorch Blog

محصول و صنعتآموزش و یادگیریپژوهش پیشرفته
نسخه مطالعهعمومی
منبعPyTorch Blog
انتشار1404/12/28 22:27
سطح مطالعه
اشتراک در تلگراماشتراک در Xاشتراک در LinkedIn

share-ready · لینک کمپین آماده است

متن پیش‌نمایش telegram با ۴۷۶ کاراکتر ساخته شده است.

اگر این خبر برایتان مفید بود، حساب بسازید.

با حساب هوش‌گیت می‌توانید خبرها را ذخیره کنید، موضوع‌ها و چهره‌های تخصصی را دنبال کنید و مسیر یادگیری یا پروژه مناسب خودتان را سریع‌تر پیدا کنید.

ساخت حسابورود برای ذخیره و دنبال‌کردن
TorchSpec: آموزش رمزگشایی فکری در مقیاس - PyTorch

پیگیری گفتگو

بازگشت سریع به همین گفتگو

این گفت‌وگو را ذخیره کن، آن را دنبال کن و اگر لازم است یک یادداشت کوتاه برای بازگشت بعدی بگذار.

لایه انسانی

نویسنده انسانی، یادداشت کارشناس و شفافیت نویسندگی

این سطح مشخص می‌کند کجا انتشار با حضور انسان تقویت شده و کجا newsroom هوش مصنوعی هنوز نقش اصلی را دارد.

لایه newsroom با کمک هوش مصنوعیبدون author انسانی عمومیreview with confidence

این خبر فعلاً بیشتر در لایه newsroom و پوشش کمک‌گرفته از هوش مصنوعی قرار دارد و هنوز نویسنده انسانی مشخصی برای آن ثبت نشده است.

جانمایی امن برای اسپانسر

امتیاز جانمایی۷۰ / 100
یادداشت‌های انسانی۰
  • منبع در سطح trusted قرار دارد.
  • trust score منبع بالاست.

قدم بعدی

بعد از خواندن این خبر چه کار کنم؟

اگر این موضوع برایت مهم است، از همین‌جا آن را ذخیره کن، گفت‌وگو را دنبال کن یا به مسیر یادگیری، چهره تخصصی و پروژه مرتبط برو.

حفظ و پیگیری

این مقاله را برای بازگشت بعدی ذخیره کن، منبعش را دنبال کن یا وارد گفت‌وگوی همین خبر شو تا موضوع از دست نرود.

رفتن به گفت‌وگو

یادگیری و action بعدی

اگر می‌خواهی از خبر به فهم عمیق‌تر برسی، مسیرهای مرتبط زیر ساده‌ترین نقطه شروع‌اند.

رفتن به هاب یادگیریپروژه مرتبط

راهنمای مطالعه

منبع اصلی، تاریخ فارسی و شاخص‌های سریع این خبر.

رفتن به منبع
تاریخ فارسی1404/12/28 22:27
داستانمستقل

نکات کلیدی

این باکس براساس سطح مطالعه شما (عمومی) تنظیم شده است.

  • مقدمه در طول سال گذشته، مدل‌های زبان بزرگ به سرعت در مقیاس و قابلیت گسترش یافته اند.
  • مدل‌های مرزی مانند Kimi K2.
  • 5 اکنون با صدها میلیارد پارامتر و پنجره‌های زمینه‌ای که به میلیون‌ها توکن کشیده می‌شوند،.
  • کار می‌کنند،.
  • که استدلال طولانی مدت،.
  • گردش کار عاملی و استفاده از ابزار پیچیده را امکان‌پذیر می‌سازد.
  • از آنجایی که این مدل‌ها توانمندتر می‌شوند،.

فهرست مطالب

  1. TL;DR
  2. چه اتفاقی افتاد
  3. چرا مهم است
  4. منبع

سیگنال تعامل

بازدید۰
کلیک۰
امتیاز0.00
دیدگاه۰

TL;DR

  • مقدمه در طول سال گذشته، مدل‌های زبان بزرگ به سرعت در مقیاس و قابلیت گسترش یافته اند.
  • مدل‌های مرزی مانند Kimi K2.
  • 5، GLM 5، و Qwen 3.

چه اتفاقی افتاد

مقدمه در طول سال گذشته، مدل‌های زبان بزرگ به سرعت در مقیاس و قابلیت گسترش یافته اند. مدل‌های مرزی مانند Kimi K2.

5، GLM 5، و Qwen 3. 5 اکنون با صدها میلیارد پارامتر و پنجره‌های زمینه‌ای که به میلیون‌ها توکن کشیده می‌شوند،.

کار می‌کنند،. که استدلال طولانی مدت،.

گردش کار عاملی و استفاده از ابزار پیچیده را امکان‌پذیر می‌سازد. از آنجایی که این مدل‌ها توانمندتر می‌شوند،.

استنتاج کارآمد به یکی از حیاتی‌ترین چالش‌های سیستم در استقرار LLM تبدیل شده است. رمزگشایی گمانه‌زنی یکی از موثرترین تکنیک‌ها برای تسریع تولید LLM است.

با رمزگشایی گمانه‌زنی،. یک مدل پیش‌نویس سبک وزن چندین توکن را پیش‌روی می‌کند،.

در حالی که یک مدل هدف بزرگ‌تر آنها را در یک پاس رو به جلو تأیید می‌کند. هنگامی‌که پیش‌بینی‌ها پذیرفته می‌شوند،.

چندین توکن می‌توانند به‌طور همزمان تولید شوند که توان عملیاتی و تأخیر را بهبود می‌بخشد. رویکردهای اخیر مانند MTP (Multi Token Prediction) و EAGLE-3 نشان می‌دهد که مدل‌های پیش نویس خوب.

آموزش دیده می‌توانند شتاب ثابتی را ارائه دهند. یکی از جنبه‌های مهم آموزش مدل پیش نویس،.

انتقال اطلاعات از مدل هدف به مدل پیش نویس از طریق حالت‌های پنهان میانی است. با بزرگتر و بزرگتر شدن مدل‌های frontier-LLM،.

یک گلوگاه سیستم جدید معرفی می‌شود:. انتقال کارآمد حجم عظیمی‌از حالت‌های پنهان تولید شده توسط مدل هدف به مدل پیش نویس.

به‌عنوان مثال، EAGLE-3 به 3 لایه از حالت‌های پنهان مدل هدف متکی است. هنگام آموزش یک مدل پیش‌نویس EAGLE-3 برای Kimi K2.

5، یک نمونه آموزشی با توکن 128K به 7 گیگابایت حالت پنهان از مدل هدف نیاز دارد. در مقیاس مجموعه داده، این می‌تواند به شدت بزرگ شود.

خطوط لوله موجود معمولاً یکی از دو رویکرد را دنبال می‌کنند. یکی از گزینه‌ها این است که حالت‌های پنهان را از پیش محاسبه کرده و آنها را.

روی دیسک ذخیره کنید،. که منجر به نیازهای ذخیره سازی انبوه و فشار شدید I/O می‌شود.

دیگری گزینه این است که استنتاج و آموزش را برای ایجاد حالت‌های پنهان در حین آموزش مدل. پیش نویس،.

مکان یابی کنید،. از تحقق دیسک جلوگیری می‌کند،.

اما نیاز به قرار گرفتن مدل هدف با کارگر آموزش پیش نویس است،. که فشار حافظه GPU قابل توجهی را معرفی می‌کند.

برای رسیدگی به این چالش‌ها، TorchSpec را معرفی می‌کنیم، یک چارچوب بومی‌مشعل برای آموزش رمزگشایی گمانه‌زنی تفکیک‌شده. TorchSpec سیستم استنتاجی را که حالت‌های پنهان را ایجاد می‌کند از سیستم آموزشی که آنها را.

مصرف می‌کند جدا می‌کند. به جای نوشتن حالت‌های پنهان روی دیسک،.

آنها مستقیماً از گروه موتور استنتاج به گروه کارگر آموزشی از طریق یک فروشگاه مرکزی Mooncake از طریق. RDMA (دسترسی به حافظه مستقیم از راه دور) یا TCP پخش می‌شوند.

این طراحی فضای ذخیره‌سازی دیسک را حذف می‌کند در حالی که به منابع استنباط و آموزش اجازه می‌دهد. به‌طور مستقل مقیاس شوند.

با TorchSpec، یک پیش نویس Kimi K2. 5 EAGLE-3 را با موفقیت آموزش دادیم مدل با 1500 ساعت GPU H200،.

مقیاس بندی تا 600 هزار نمونه آموزشی،. 6 میلیارد توکن.

مدل پیش نویس عملکرد قوی را نسبت به معیارهای مختلف نشان می‌دهد:. *مدل پیش نویس آموزش دیده با lookahead=4 با آموزش مدل پیش نویس،.

توان خروجی بیش از 60% در سایز دسته 1،. 30% در سایز دسته 8،.

و 26% در سایز دسته 16 با توجه به 3 توکن بهبود می‌یابد. پس زمینه امروزه دو رویکرد رایج برای آموزش رمزگشایی حدسی وجود دارد:.

استنتاج آموزش در محل آماده سازی حالت‌های پنهان آفلاین هر کدام در مقیاس متوسطی کار می‌کنند،. اما با افزایش اندازه مدل پیش نویس و طول زمینه،.

مشکل دارند. در آموزش هم‌مکانی، مدل هدف و مدل پیش‌نویس پردازنده‌های گرافیکی یکسانی دارند.

مدل هدف یک پاس رو به جلو را اجرا می‌کند تا حالت‌ها و لجیت‌های پنهان. را تولید کند که بلافاصله توسط مدل پیش نویس برای آموزش مصرف می‌شود.

این رویکرد به دلیل جفت شدن تنگاتنگ بین مدل‌های هدف و پیش نویس،. چندین محدودیت را معرفی می‌کند:.

خرد کردن سخت:. استراتژی موازی مدل پیش نویس به مدل هدف گره خورده است.

به‌عنوان مثال،. اگر مدل هدف از TP=4 استفاده می‌کند،.

مدل پیش نویس نیز باید دقیقاً از 4 رتبه استفاده کند،. حتی اگر پیکربندی متفاوت برای معماری کوچکتر آن کارآمدتر باشد.

آموزش و استنتاج به‌طور مستقل مقیاس‌پذیر نیستند:. چارچوب‌های هم‌محل کنونی معمولاً فاقد پشتیبانی از اشتراک‌گذاری متقابل گره هستند و آموزش را به GPUهای درون.

یک گره محدود می‌کند. مهمتر از آن، استنباط و آموزش با همان مقدار منابع محدود شده اند.

فشار حافظه:. مدل هدف بخش بزرگی از حافظه GPU را اشغال می‌کند و آموزش مدل پیش نویس با حافظه.

محدود باقی می‌ماند. تجزیه و تحلیل حافظه برای تمرین همزمان با Kimi K2.

5 (پارامتر 1T MoE(Mixture-of-Experts)،. 384 متخصص،.

~575 گیگابایت وزن مدل):. پردازنده گرافیکی مجموع حافظه (8 پردازنده گرافیکی) وزن مدل تکه تکه پردازنده گرافیکی باقیمانده در هر GPU 8×H200.

1128 گیگابایت ~ 575 گیگابایت ~ 72 گیگابایت ~69 گیگابایت 8×H100 640 گیگابایت ~ 8 گیگابایت اگرچه مدل. پیش‌نویس معمولاً کوچک است،.

روش‌های آموزشی پیشرفته مانند تست زمان آموزش (TTT) به استفاده از حافظه بالایی نیاز دارد زیرا فعال‌سازی‌های میانی. را برای چندین مرحله گمانه‌زنی حفظ می‌کند.

انباشت فعال سازی باعث افزایش ردپای کلی حافظه می‌شود. با 8 گیگابایت حافظه، ما فقط می‌توانیم با طول زمینه 4096 تمرین کنیم.

رویکرد آفلاین حالت‌های پنهان را از مدل هدف از قبل محاسبه می‌کند،. آن‌ها را روی دیسک سریال می‌کند و بعداً برای آموزش مدل پیش‌نویس بارگذاری می‌کند.

این استنتاج را از آموزش جدا می‌کند،. اما یک چالش ذخیره سازی قابل توجه را معرفی می‌کند - به ویژه برای مدل‌های بزرگ.

با زمینه‌های طولانی. تجزیه و تحلیل ذخیره سازی برای Kimi K2.

5 (hidden_size=7168,. vocab_size=163,.

840):. هر نمونه در طول زمینه = 131072 توکن:.

تانسور شکل نوع D اندازه حالت‌های پنهان (3 لایه aux) (131072,. 21504) bf16 5.

25 گیگابایت آخرین حالت‌های پنهان (131072, 7168) 1. 75 گیگابایت شناسه‌های ورودی (131072،) int64 1 مگابایت مجموع در هر نمونه ~ 7.

0 گیگابایت توجه:. لاجیت‌های هدف را می‌توان از آخرین حالت‌های پنهان از طریق lm_head دوباره محاسبه کرد،.

بنابراین نیازی به ذخیره سازی ندارند. با این حال،.

نیازهای ذخیره سازی به سرعت مقیاس می‌شوند:. اندازه مجموعه داده ذخیره سازی مورد نیاز است 10000 نمونه 70 ترابایت 30000 نمونه 210 ترابایت 100000 نمونه.

700 ترابایت در این مقیاس،. سیستم‌های فایل توزیع‌شده با فشار سنگینی مواجه می‌شوند،.

به‌ویژه زمانی که چندین دوره آموزشی فرضی به‌طور همزمان انجام می‌شوند،. که هر کدام برای پهنای باند I/O رقابت می‌کنند.

سربار سریال سازی و سریال زدایی نیز به‌طور قابل توجهی سرعت آموزش را کاهش می‌دهد. TorchSpec: آموزش مدل پیش نویس تفکیک شده TorchSpec رویکرد متفاوتی دارد: استنتاج و آموزش کاملاً تفکیک شده.

مدل هدف روی پردازنده‌های گرافیکی استنتاج اختصاصی اجرا می‌شود،. مدل پیش‌نویس روی پردازنده‌های گرافیکی آموزشی جداگانه آموزش می‌دهد و داده‌های تانسور از طریق یک پروتکل شبکه پرسرعت.

RDMA یا TCP از طریق فروشگاه Mooncake بین آنها جریان می‌یابد. این معماری به چالش‌های کلیدی که در بالا اشاره شد می‌پردازد:.

مقیاس بندی مستقل و انعطاف پذیر. استنتاج و تعداد GPUهای آموزشی کاملاً مستقل هستند و به موتورهای استنتاج بیشتری برای توان تولید حالت‌های.

پنهان بالاتر اجازه می‌دهند،. یا GPUهای آموزشی بیشتری برای اشتراک‌گذاری FSDP بزرگتر و دسته‌های جهانی بزرگ‌تر اضافه می‌کنند.

حافظه کامل برای آموزش پردازنده‌های گرافیکی آموزشی کاملاً به مدل پیش‌نویس اختصاص داده شده‌اند و حافظه موجود را. برای توالی‌های طولانی و دسته‌های بزرگ به حداکثر می‌رسانند.

بدون سربار ذخیره سازی حالت‌های پنهان مستقیماً از استنتاج به آموزش از طریق RDMA/TCP جریان می‌یابند. هیچ داده‌ای روی دیسک بارگذاری نمی‌شود و فشار سیستم فایل و هزینه‌های سریال سازی را.

از بین می‌برد. چرا کیک ماه؟

Mooncake که در اصل توسط Moonshot AI و دانشگاه Tsinghua توسعه داده شد،. یک موتور انتقال است که برای مدیریت کش KV در ارائه خدمات LLM تولید شده است.

از آن زمان به یک جامعه پر رونق در اکوسیستم PyTorch تبدیل شده است. Mooncake از طریق پروتکل‌های مختلف شبکه انتقال داده‌های متقاطع گره‌ای با توان عملیاتی بالا را انجام می‌دهد و.

چرخه حیات حافظه را مدیریت می‌کند. اینها دقیقاً قابلیت‌هایی هستند که TorchSpec برای انتقال حالت‌های پنهان از GPUهای استنتاج به GPU.

ها به‌طور کارآمد و قابل اعتماد نیاز دارد. خواص کلیدی که کیک ماه را یک تناسب طبیعی می‌کند: RDMA + TCP با یک API یکپارچه.

انتقال با نرخ نزدیک به خط در خوشه‌های InfiniBand/RoCE. زمانی که RDMA در دسترس نباشد، بدون نیاز به تغییر کد، از طریق TCP کار می‌کند.

GPU Direct RDMA. داده‌ها را مستقیماً به حافظه GPU منتقل می‌کند و مرحله‌بندی CPU را دور می‌زند – زمانی که هر.

نمونه آموزشی شامل گیگابایت حالت‌های پنهان باشد،. بسیار مهم است.

نقل و انتقالات بدون کپی تانسورها در بافرهای حافظه پین ​​شده از پیش ثبت‌شده بسته‌بندی می‌شوند و مستقیماً. منتقل می‌شوند - بدون سریال یا کپی میانی.

قابلیت اطمینان درجه تولید آزمایش شده در نبرد از طریق استقرار تولید در مقیاس بزرگ،. به TorchSpec یک پایه پایدار برای آموزش طولانی مدت چند گره می‌دهد.

پشتیبانی از زمینه طولانی با حافظه‌ای که به‌طور کامل به مدل پیش نویس اختصاص داده شده است،. TorchSpec از طول‌های دنباله‌ای پشتیبانی می‌کند که دستیابی به آنها با رویکردهای همزمان در آموزش.

EAGLE-3 غیرممکن است. به‌عنوان مثال، Kimi K2.

5 72 گیگابایت حافظه را در یک رویکرد آموزشی مشترک مصرف می‌کند. با نگاهی به 4 و آموزش تفکیک‌شده،.

یک واحد پردازش گرافیکی H100 می‌تواند روی توالی‌های ورودی تا 44 هزار توکن آموزش ببیند،. و یک واحد پردازش گرافیکی B200 می‌تواند تا 200 هزار توکن مقیاس‌پذیر باشد.

فراتر از تفکیک،. TorchSpec یک پیاده‌سازی بومی‌موتور استنتاج را اتخاذ می‌کند:.

حالت‌های پنهان مستقیماً توسط موتورهای استنتاج در تولید تولید می‌شوند. این انتخاب طراحی دو مزیت کلیدی دارد:.

ترازبندی آموزش استنباط:. قالب بندی قالب،.

توکن سازی و هسته‌ها کاملاً تراز هستند. هیچ شکافی بین محیط آموزشی و محیط استقرار وجود ندارد.

پشتیبانی از مدل بومی‌از طریق موتور:. پشتیبانی از معماری مدل هدف جدید به حداقل تغییرات در سمت آموزشی نیاز دارد.

در حال حاضر TorchSpec از vLLM و SGLang پشتیبانی می‌کند و پشتیبانی TensorRT LLM به زودی ارائه. می‌شود.

اگر موتور استنتاج از یک مدل پشتیبانی می‌کند،. TorchSpec می‌تواند یک مدل پیش‌نویس برای آن خارج از جعبه آموزش دهد.

این شامل:. معماری مدل جدید (MoE،.

چند وجهی،. و غیره) مدل‌های کوانتیزه (FP8،.

INT4،. و غیره) توجه کم،.

انواع RoPE (جاسازی‌های موقعیت چرخشی) و سایر ویژگی‌های خاص مدل با رمزگشایی آموزش دهید مدل‌های پیش‌نویس. اغلب زمانی بهترین عملکرد را دارند که بر روی توزیع توکن مدل هدف آموزش داده شوند.

یک رویکرد رایج این است که دستورات اصلی مجموعه داده را حفظ کنیم و پاسخ‌ها را با. مدل هدف به‌عنوان مرحله آماده سازی برای آموزش بازسازی کنیم.

با این حال، این فرآیند دو مرحله‌ای می‌تواند برای محققان و مهندسان دردسر ایجاد کند. با طراحی بومی‌موتور خود،.

می‌توانیم خروجی‌ها را به صورت خودکار از ورودی‌های سریع در طول آموزش تولید کنیم. مطالعه موردی: آموزش مدل EAGLE-3 برای Kimi K2.

Kimi K2. 5 یک سناریوی آموزشی چالش برانگیز ارائه می‌دهد که ارزش رویکرد تفکیک شده را نشان می‌دهد.

چالش مقیاس مدل: Kimi K2. 5 به حداقل پردازنده‌های گرافیکی 8×H200 یا 16×H100 فقط برای ارائه مدل مورد نظر نیاز دارد و در.

صورت استنتاج،. حافظه بسیار محدودی برای آموزش مدل پیش‌نویس باقی می‌گذارد.

زمینه طولانی: Kimi K2. 5 بارهای کاری عاملی و استدلالی با زمینه طولانی را هدف قرار می‌دهد،.

که به آموزش در توالی تا 200000 توکن نیاز دارد. واژگان بزرگ: با واژگان 163840 توکن و بعد پنهان 7168.

راه‌حل TorchSpec با TorchSpec، توصیه می‌کنیم Kimi K2. 5 را روی پردازنده‌های گرافیکی 8×H200 به‌عنوان یک موتور استنتاج اختصاصی استفاده کنید و مدل پیش‌نویس EAGLE-3 را.

بر روی پردازنده‌های گرافیکی 8×H200 دیگر آموزش دهید. خوشه استنتاج دارای حافظه کامل برای ارائه و ایجاد حالت‌های پنهان است.

کلاستر آموزشی دارای حافظه کامل GPU برای مدل پیش نویس است که امکان آموزش طولانی مدت در 100000. توکن با 600 هزار نمونه داده را فراهم می‌کند.

اسکریپت‌ها: ما دو اسکریپت خارج از جعبه را برای آموزش یک مدل پیش نویس Kimi K2. 5 ارائه می‌دهیم:.

– 3 گره 8xH100 با استنباط TP=16 و آموزش TP=8:. kimi-k25-3node-h100 – 2 گره 8xH200 با استنتاج TP=8 و آموزش TP=8:.

kimi-k25-2node-h200 مجموعه داده‌های آموزشی:. مجموعه داده‌های ترکیبی خود را منبع‌باز می‌کنیم:.

kimi-600k-training-dataset. مدل پیش نویس: ما مدل پیش نویس خود را منبع‌باز می‌کنیم: kimi-k2.

5-eagle3. نقشه راه TorchSpec در حال توسعه فعال است.

زمینه‌های کلیدی که ما روی آنها کار می‌کنیم:. بهبود پوشش مدل:.

ما قصد داریم از مدل‌های محبوب مانند Minimax M2. 5، Qwen 3.

5 و آموزش مداوم لایه MTP از GLM 5 پشتیبانی کنیم. آموزش توالی بسته بندی شده:.

چندین توالی کوتاه‌تر را در یک نمونه آموزشی قرار دهید تا استفاده از GPU را به حداکثر. برسانید و ضایعات padding را کاهش دهید،.

به ویژه برای مجموعه داده‌هایی با ورودی‌های با طول متغیر. الگوریتم‌های آموزشی اضافی:.

فراتر از EAGLE-3 گسترش دهید تا از دیگر رویکردهای آموزشی رمزگشایی نظری مانند DFlash،. MTP پشتیبانی کنید،.

و دامنه معماری‌های مدل پیش نویس را که TorchSpec می‌تواند آموزش دهد،. گسترش دهید.

ادغام موتور:. با سایر موتورهای استنتاج محبوب (مانند TensorRT LLM) ادغام شود تا کاربران بتوانند هر موتوری را که به.

بهترین وجه با پشته استقرار آنها سازگار است وصل کنند. تصدیق از تیم‌ها و همکاران زیر تشکر می‌کنیم:.

تیم و انجمن TorchSpec:. *Yubo Wang،.

*Yinghui Liu،. Shirley Wu،.

Junxiong Wang،. Qingyang Wu،.

Bobbie Bie،. Fan Yin،.

Chao Wang،. Weicong Wu،.

Jue Wang تیم کیک ماه:. *جیاکی لیائو،.

مینگ‌شینگ ژانگ.

چرا مهم است

اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیم‌گیری سازمانی اثر می‌گذارد.

منبع

لینک منبع اصلی در کارت و صفحه مقاله نمایش داده می‌شود.

اعتبار

چرایی اعتماد به این خبر

امتیاز اعتبار، منطق اعتماد، وضعیت راستی‌آزمایی و لاگ تغییرات در یک نگاه.

اعتبار خبر۴۳ / 100
اعتبار منبع۱۳ / 100
اعتبار موضوع۱۰۰ / 100
تازگی۴۴ / 100
مرحله عمر خبرNEEDS_UPDATE
نیاز به به‌روزرسانیبله
نیازمند تقویتنیازمند تقویتمرجع قوینیازمند بازبینینیازمند به‌روزرسانی

تصمیم انسانی تحریریه

خلاصه تصمیم تحریریه

سیگنال بازبینی باز استlearning-quality review requiredنیاز بازبینی قابل مشاهده استstandard editorial path

این مقاله در مسیر learning-quality review required قرار دارد و بخشی از سیگنال‌های review هنوز باید تکمیل یا شفاف‌تر شود.

دلیل انتشار: محتوای evergreen و آموزشی چون بعداً هم مرجع می‌شود، باید خوانایی، سطح‌بندی و next-stepهای دقیق داشته باشد. وضعیت فعلی: fact-check not_started و checklist ۰٪.

کلاس خبرEVERGREEN_LEARNING
سخت‌گیری بازبینیREQUIRED
بازبینثبت عمومی نشده

موارد بازبینی که باید شفاف‌تر شوند

تیتر بازبینی و حرفه‌ای شدخلاصه برای کارت و SEO تایید شدبدنه از نظر خوانایی و ساختار بازبینی شدنسخه‌های سطح‌بندی‌شده بررسی شدبازخوانی نهایی انجام شد
سیاست تحریریه و اصلاحاتچرا به هوش‌گیت اعتماد کنیم؟

چرا این خبر قابل اعتماد است

    شفافیت راستی‌آزمایی ادعاها

    ادعای تاییدشده۰
    نیازمند بازبینی۰
    میانگین اطمینان۰٪

    چرا هنوز مهم است

    این خبر هنوز بازدید، کامنت یا follow-up کافی دارد و از چرخه توجه مخاطب خارج نشده است.

    تقویت اعتبار

    وجود follow-up و پوشش مرتبط، authority این خبر را در طول زمان تقویت می‌کند.

    پیگیری به‌روزرسانی

    این خبر evergreen است و برای حفظ authority به refresh تحریریه نیاز دارد.

    بخش منابع و ارجاع‌ها

    لینک‌های منبع اصلی، ارجاع‌های ادعا و referenceهای مکمل برای پیگیری مستقیم.

    pytorch.orgمنبع اصلی

    pytorch.org/blog/torchspec-speculative-decoding-training-at-scale/

    pytorch.orgارجاع تکمیلی

    pytorch.org/blog/

    پوشش‌های پیگیری

    پیگیری‌های بعدی، توضیح‌دهنده‌های مرتبط یا خبرهای مکملی که عمر این موضوع را بعد از انتشار ادامه می‌دهند.

    ساخت کارآمد نمودارهای قابلیت دسترسی برای خطوط تولید پتری خالص

    پیگیری بعدی

    1405/01/29 15:44

    اندازه‌گیری ترجیحات انسانی در RLHF یک مشکل علوم اجتماعی است

    پیگیری بعدی

    1405/01/29 15:44

    محتوای مبهم برای فرار از پیله اطلاعات در رسانه‌های اجتماعی دیجیتال

    پیگیری بعدی

    1405/01/19 04:00

    HOLE: مشاهدات همسانی تعبیه‌های نهفته برای تفسیرپذیری شبکه عصبی

    پیگیری بعدی

    1405/01/19 04:00

    تعامل کاربران و کیفیت خبر

    امتیاز بدهید، نظر ثبت کنید یا اگر خطایی دیدید گزارش اصلاح بفرستید. moderation، trust contributor و کیفیت thread به‌صورت شفاف نمایش داده می‌شود.

    بازدید

    ۰

    کلیک روی خبر

    ۰

    امتیاز میانگین

    0.00 / 5

    دیدگاه تایید شده

    ۰

    وضعیت trust گفتگو

    کیفیت thread براساس reputation contributorها، رأی‌ها و moderation سنجیده می‌شود.

    در حال بارگذاری

    امتیاز thread

    ۰ / 100

    دیدگاه متخصص

    ۰

    دیدگاه مفید

    ۰

    خروجی moderation و قوانین

    تاییدشده: ۰pending: ۰hidden/spam: ۰

      حضور انسانی در این گفتگو

      این بخش کمک می‌کند thread فقط حول personaها دیده نشود و contributorهای انسانی واقعی هم واضح باشند.

      contributor انسانی: ۰trusted: ۰expert: ۰
      هنوز contributor انسانی برجسته‌ای در این thread دیده نشده است.

      امتیاز شما به خبر

      هنوز امتیاز نداده‌اید.

      واکنش سریع به خبر

      به‌جای لایک کلی، نوع برداشت خودتان را مشخص کنید.

      ثبت دیدگاه

      دیدگاه‌های کم‌ارزش یا spam به‌صورت خودکار محدود می‌شوند و نتیجه moderation در همین صفحه قابل مشاهده است.

      گزارش اصلاح یا بهبود

      اگر claim، ترجمه، منبع یا framing خبر نیاز به اصلاح دارد، این مسیر مستقیم برای تیم تحریریه است.

      آخرین دیدگاه‌ها

      هنوز دیدگاهی ثبت نشده است.

      مقایسه سه سطح مطالعه

      برای همین خبر، نسخه ساده، عمومی و تخصصی کنار هم خلاصه شده‌اند.

      ساده

      ۱۲٬۵۶۱ کاراکتر

      های پنهان در حین آموزش مدل پیش نویس،. مدل پیش نویس:. آموزش دهد،.

      • مقدمه در طول سال گذشته،.
      • مدل‌های زبان بزرگ به سرعت در مقیاس و قابلیت گسترش یافته.
      • مدل‌های مرزی مانند Kimi K2.
      • 5 اکنون با صدها میلیارد پارامتر و پنجره‌های زمینه‌ای که به میلیون‌ها.

      عمومی

      ۱۲٬۵۱۱ کاراکتر

      یکی از جنبه‌های مهم آموزش مدل پیش نویس،. پیش نویس،. *مدل پیش نویس آموزش دیده با lookahead=4 با آموزش مدل پیش نویس،.

      • مقدمه در طول سال گذشته، مدل‌های زبان بزرگ به سرعت در مقیاس و قابلیت گسترش یافته اند.
      • مدل‌های مرزی مانند Kimi K2.
      • 5 اکنون با صدها میلیارد پارامتر و پنجره‌های زمینه‌ای که به میلیون‌ها توکن کشیده می‌شوند،.
      • کار می‌کنند،.

      تخصصی

      ۱۲٬۴۵۵ کاراکتر

      یکی از جنبه‌های مهم آموزش مدل پیش نویس، انتقال اطلاعات از مدل هدف به مدل پیش نویس از طریق حالت‌های پنهان میانی است. *مدل پیش نویس آموزش دیده با lookahead=4 با آموزش مدل پیش نویس،. توکن مدل هدف آموزش داده شوند.

      • مقدمه در طول سال گذشته، مدل‌های زبان بزرگ به سرعت در مقیاس و قابلیت گسترش یافته اند.
      • مدل‌های مرزی مانند Kimi K2.
      • 5 اکنون با صدها میلیارد پارامتر و پنجره‌های زمینه‌ای که به میلیون‌ها توکن کشیده می‌شوند،.
      • کار می‌کنند،.

      هایلایت‌ها و یادداشت‌ها

      متن دلخواه را در خبر انتخاب کنید و با یک کلیک هایلایت بزنید. فقط برای شما قابل مشاهده است.

      برای استفاده از هایلایت و یادداشت، وارد حساب کاربری شوید.

      منابع اولیه

      لینک‌های اصلی این خبر، شامل منبع اصلی و ارجاع‌های claim panel.

      • https://pytorch.org/blog/torchspec-speculative-decoding-training-at-scale/
      • https://pytorch.org/blog/

      کاوش این مقاله

      از این خبر به موضوع، persona، درس، پروژه و مسیر یادگیری مرتبط برسید.

      پرسش از هوش‌گیت

      موضوع‌های این مقاله

      محصول و صنعتآموزش و یادگیریپژوهش پیشرفتهزیرساخت و محاسباتمتن‌باز و جامعه

      موجودیت‌های این مقاله

      هنوز موجودیت ثبت‌شده‌ای برای این مقاله دیده نمی‌شود.

      چهره‌های مرتبط

      هنوز persona signal معناداری برای این مقاله ثبت نشده است.

      درس‌های مرتبط

      هنوز درس مرتبطی برای این مقاله پیدا نشده است.

      پروژه‌های مرتبط

      سامانه تریاژ و ارجاع هوشمند برای درخواست‌های نوبت، ارجاع و تریاژ غیراورژانسی

      ساخت یک سامانه قابل‌گسترش بر پایه classification، priority scoring و queue orchestration برای درخواست‌های نوبت، ارجاع و تریاژ غیراورژانسی در یک بیمارستان، شبکه درمانی یا شرکت خدمات…

      agents · product-industry

      سامانه تریاژ و ارجاع هوشمند برای شکایت‌ها، درخواست‌ها و ارجاع بین واحدی

      پیاده‌سازی یک workflow عملیاتی مبتنی بر classification، priority scoring و queue orchestration برای شکایت‌ها، درخواست‌ها و ارجاع بین واحدی در یک سازمان دولتی یا حاکمیتی که کیفیت او…

      agents · product-industry

      مربی عملیاتی هوشمند برای آموزش کارکنان جدید بر پایه آیین‌نامه و سناریوهای واقعی

      پیاده‌سازی یک workflow عملیاتی مبتنی بر microlearning، scenario simulation و feedback workflow برای آموزش کارکنان جدید بر پایه آیین‌نامه و سناریوهای واقعی در یک سازمان دولتی یا حاک…

      learning · prompt-design

      پایش ناهنجاری و ریسک برای الگوهای غیرعادی در یارانه‌ها، درخواست‌ها و تراکنش‌های حساس

      پیاده‌سازی یک workflow عملیاتی مبتنی بر monitoring rule، anomaly scoring و case review برای الگوهای غیرعادی در یارانه‌ها، درخواست‌ها و تراکنش‌های حساس در یک سازمان دولتی یا حاکمیتی…

      llm-evaluation · infrastructure-compute

      سامانه برنامه‌ریزی و پیش‌بینی برای تقاضای خدمت، بار مراجعات و ظرفیت پاسخ‌گویی

      ساخت یک سامانه قابل‌گسترش بر پایه forecasting، scenario planning و capacity dashboard برای تقاضای خدمت، بار مراجعات و ظرفیت پاسخ‌گویی در یک سازمان دولتی یا حاکمیتی که کیفیت برنامه‌…

      product-industry · infrastructure-compute

      مسیرهای یادگیری

      هنوز مسیر یادگیری نزدیکی برای این مقاله پیدا نشده است.

      پست‌های مرتبط نبض هوش

      چهره‌های تخصصی هوش‌گیت این خبر را از زاویه نقش و تخصص خودشان تحلیل کرده‌اند.

      رفتن به شبکه

      هنوز پست تخصصی برای این خبر منتشر نشده است.

      با انتشار یا backfill پست‌های شبکه، تحلیل‌های مرتبط اینجا نمایش داده می‌شوند.

      خبرهای مرتبط

      خبرهای نزدیک به همین موضوع برای ادامه مطالعه.

      ساخت کارآمد نمودارهای قابلیت دسترسی برای خطوط تولید پتری خالصarXiv (cs.FL)اندازه‌گیری ترجیحات انسانی در RLHF یک مشکل علوم اجتماعی استarXiv (cs.HC)محتوای مبهم برای فرار از پیله اطلاعات در رسانه‌های اجتماعی دیجیتالarXiv (cs.SI)HOLE: مشاهدات همسانی تعبیه‌های نهفته برای تفسیرپذیری شبکه عصبیarXiv (cs.GR)

      بعدش چی بخونم؟

      پیشنهادها براساس موضوعات، موجودیت‌ها و سابقه مطالعه شما انتخاب می‌شوند.

      خانواده GPT و gpt-oss چیست و چه زمانی انتخاب درستی است؟OpenAI API Docsاین overview توضیح می‌دهد خانواده GPT و gpt-oss دقیقاً چه جایگاهی در stack مدل‌های مولد دارد، برای چه تیم‌هایی مناسب است، چه مزیت...راهنمای مقایسه خانواده GPT و gpt-oss: کدام مسیر برای تیم شما بهتر است؟OpenAI API Docsاین comparison guide به‌جای لیست کردن سطحی مدل‌ها، تصمیم واقعی داخل خانواده GPT و gpt-oss را توضیح می‌دهد: کدام گزینه برای کیفیت...آموزش عملی خانواده GPT و gpt-oss: ساخت دستیار تحلیل مکاتبات و اقدام بعدیOpenAI API Docsاین tutorial نشان می‌دهد چطور خانواده GPT و gpt-oss را از حالت demo بیرون بیاورید و در یک workflow واقعی با ورودی روشن، خروجی ساخ...نصب و راه‌اندازی خانواده GPT و gpt-oss: از اولین درخواست تا مسیر پایدارOpenAI API Docsمبانی استفاده حرفه‌ای از دستیارهای زبانی در تیم: از مسئله تا خروجی قابل اتکاHooshgate Learn Deskاین راهنمای بنیادین توضیح می‌دهد استفاده حرفه‌ای از دستیارهای زبانی در تیم فقط کنار هم چیدن چند ابزار نیست و چگونه باید با دامنه...
      دسته‌های مرتبط:ابزار
      برچسب‌ها:LLMNLPComputeRAGAgentsMLOps
      فهرست خبرها