TL;DR
- ما اخیراً نقشه راه 1H 2026 خود را برای فعال کردن IBM Spyre Accelerator در اکوسیستم PyTorch منتشر.
- کردیم.
- در یک یادداشت فنی همراه،.
چه اتفاقی افتاد
ما اخیراً نقشه راه 1H 2026 خود را برای فعال کردن IBM Spyre Accelerator در اکوسیستم PyTorch منتشر. کردیم.
در یک یادداشت فنی همراه،. سختافزار را شرح دادیم - 32 هسته فعال هوش مصنوعی،.
آرایههای سیستولیک SIMD با دقت ترکیبی،. و طراحی جریان داده قابل برنامهریزی.
در اینجا،. میخواهیم در میان کلیدی نقشه راه و نحوه ایجاد پشتیبانی درجه یک PyTorch برای یک شتابدهنده جریان داده.
در یک GPU با اکوسیستم بزرگ بپردازیم. فلسفه ما اول اکوسیستم است - ما از مکانیسمهای بالادستی استفاده میکنیم،.
کد سفارشی را به حداقل میرسانیم،. و قطعاتی را که پیروی از همان مسیر را برای شتاب دهنده بعدی آسانتر میکند،.
کمک میکنیم. ادغام با torch.
inductor ما در حال گسترش سلف خارج از درخت هستیم تا انتزاعیهایی را که شتابدهندههای جریان داده نیاز. دارند،.
مدیریت کنیم. سه پسوند بسیار مهم هستند:.
اول،. ما طرحبندیهای تانسور مبتنی بر کاشی را معرفی میکنیم تا کامپایلر بتواند در مورد حرکت داده با ساختار.
بلوکی که هستههای متصل به حلقه Spyre انتظار دارند. دوم،.
ما در حال اضافه کردن پاسهای تقسیم کار چند هستهای هستیم که در طول کامپایل و نه در. زمان اجرا،.
روی 32 هسته Spyre پارتیشنبندی میشوند. سوم،.
ما بهینهسازی اسکرچپد را اضافه میکنیم - هستههای Spyre به جای حافظه پنهان سختافزاری،. از حافظههای روی تراشه مدیریت شده صریحاً استفاده میکنند،.
و سلف باید این را هنگام زمانبندی دادهها در نظر بگیرد. با هم، این برنامههای افزودنی به torch.
compile اجازه میدهند تا کد Spyre کارآمد را برای هر مدل اولویتدار در محدوده 1H 2026 ما،. از Llama 3.
1 8B تا Granite 4 Hybrid 30B، تولید کند. از سلف تا سیلیکون:.
پشته کامپایلر ما یک رویکرد دو مرحلهای برای نمایش میانی کامپایلر پشتیبان (IR) داریم که بین نمودار سطح. بالای سلف و کد ماشین Spyre قرار میگیرد.
در مرحله اول، SuperDSC (SDSC) بهعنوان کامپایلر پشتیبان IR - نقطه ورودی واحد برای همه عملیاتها عمل میکند. کاهش و تولید کد.
هر عملیات مشعل مورد نیاز مدلهای اولویت ما در SDSC قابل بیان است،. و جدایی تمیز بین لایه ادغام PyTorch و بهینهسازی مخصوص سختافزار ایجاد میکند.
در مرحله دوم،. ما به KernelTile IR (KTIR)،.
یک مشخصات همسو با جامعه که بیشتر مطابق با ابتکارات نوظهور مانند TileIR است،. منتقل میشویم.
KTIR نمایش سطح کاشی را تعمیم میدهد تا دیگر شتابدهندههای جریان داده - نه فقط Spyre - بتوانند. از آن برای زمانبندی سطح پایینتر و تولید کد استفاده کنند.
ما قصد داریم مشخصات کامل KTIR را در نیمه اول سال منتشر کنیم و در حال طراحی الگوریتمهای. زمانبندی منبعباز هستیم که در بالای آن قرار دارند تا فراتر از سختافزار خودمان سازگار باشند.
Runtime و InferenceSpyre توزیع شده بهعنوان یک دستگاه PyTorch کاملاً از طریق پسوندهای خارج از درخت ثبت می. شود:.
چرخه عمر دستگاه،. مدیریت حافظه،.
انتقال داده و ارسال. ما هدف 100 ٪ از ثبت نام به این روش انجام میشود،.
با کمتر از 5 ٪ سربار در مقایسه با دسترسی مستقیم دستگاه. ما قصد داریم تا اولیههای عمومیرا که دوباره ایجاد میکنیم در زیرساخت آزمایش OpenReg هسته PyTorch مشارکت.
دهیم. برای استنتاج چند کارتی، ما در حال جمعآوری عملیات جمعی عملکردی (همه کاهش، همه جمعآوری) از طریق torch.
inductor هستیم که استنتاج توزیع شده در تمام مدلهای اولویت را در 1H 2026 به ما میدهد و. به ما میدهد.
در نهایت torch. comms با تثبیت لایه ارتباطی جامعه.
مدلهای ارائهشده با استنتاج vLLMPproduction از طریق vLLM اجرا میشوند. ما Spyre را بهعنوان یک پلاگین پلتفرم vLLM فعال میکنیم و به جای حفظ فورکهای خود،.
از پیادهسازیهای مدل بالادستی استفاده میکنیم. مدلهای اولویتدار ما از طریق vLLM در Spyre به صورت انتها به انتها ارائه خواهند شد.
یک Spyre توجه باطن جدید خواهد شد محدودیت طول توالی همگن را حذف کنید و بهطور مستقیم تأخیر. بین نشانهها را کاهش دهید.
و بهبود ذخیره سازی مصنوع torch. compile در vLLM بالادست، زمان راه اندازی را به چند ثانیه کاهش میدهد.
ما در حال همکاری با جامعه vLLM برای تثبیت رابط پلاگین پلت فرم هستیم. آزمایش در هر لایه ما در حال ساختن یک هرم آزمایشی لایهای هستیم که پشته کامل را تأیید.
میکند:. صحت سطح عملیات،.
کامپایل و کاهش سلف،. تستهای سطح ماژول (شامل توجه،.
عادیسازی و فعالسازی)،. کیفیت و عملکرد مدل سطح بالا،.
و استنتاج vLLM سرتاسر. همه آزمایشها بر اساس مدلهای اولویتدار انجام میشوند و هر شب اجرا میشوند،.
با شکستهای رگرسیون که در عرض چند ساعت علامتگذاری میشوند. هدف ما بالای 95 درصد نرخ عبور است اجراهای شبانه،.
با خط لوله کامل در کمتر از سه ساعت تکمیل میشود. کمک به اکوسیستم اول به معنای پس دادن است، نه فقط ساختن در بالا.
سه مشارکت در این نیمه برجسته است:. ما قصد داریم تا نسخههای اولیه OpenReg را بالادست کنیم تا آزمایش دستگاه خارج از درخت به.
یک قابلیت درجه یک PyTorch تبدیل شود. ما در حال کار برای تعمیم KTIR بهعنوان یک مشخصات جامعه هستیم تا شتابدهندههای جریان داده یک IR.
مشترک در سطح کاشی را به اشتراک بگذارند تا اینکه هر کدام خود را اختراع کنند. و ما الگوهای CI خارج از درخت را مستندسازی خواهیم کرد تا تیم شتاب دهنده بعدی که می.
آید نیازی به حل زیرساختها از ابتدا نداشته باشد. اسناد طراحی و RFCها در مخزن عمومیما زندگی میکنند.
ما از تعامل استقبال میکنیم - چه بررسی مشخصات KTIR،. آزمایش تحلیلگر ردیابی Spyre،.
یا مشارکت در گفتگو در مورد اینکه پشتیبانی شتابدهنده بومی PyTorch چگونه باید باشد.
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
