TL;DR
- کل روشی که ما استنتاج هوش مصنوعی را اجرا میکنیم در حال حاضر در حال بازسازی است.
- AWS و Cerebras به تازگی همکاری خود را در مورد آن اعلام کردند.
- انویدیا 20 میلیارد دلار برای خرید Groq خرج کرد تا بتواند عقب بماند.
چه اتفاقی افتاد
کل روشی که ما استنتاج هوش مصنوعی را اجرا میکنیم در حال حاضر در حال بازسازی است. AWS و Cerebras به تازگی همکاری خود را در مورد آن اعلام کردند.
انویدیا 20 میلیارد دلار برای خرید Groq خرج کرد تا بتواند عقب بماند. جنسن هوانگ در GTC 2026 روی صحنه ایستاد و بهطور موثر آنچه را که شرکتهایی مانند Cerebras برای.
سالها گفتهاند تأیید کرد:. GPUهای همهمنظوره برای استنتاج در مقیاس کافی نیستند.
چیزی که همه آنها روی آن همگرا هستند، استنتاج تفکیک شده نامیده میشود. و اگر توسعهدهندهای هستید که چیزی را بر روی LLM میسازید،.
این سرعت احساس محصولات شما،. هزینه اجرا و حتی امکان ساخت را تغییر میدهد.
GPU شما دو کار بسیار متفاوت انجام میدهد وقتی یک درخواست به یک LLM ارسال میکنید،. مدل فقط «فکر» نمیکند و متن را برمیگرداند.
این دو عملیات کاملاً مجزا را پشت سر هم روی یک سخت افزار اجرا میکند. فاز 1:.
مدل Prefill کل درخواست ورودی شما را به صورت موازی پردازش میکند و KV را ایجاد می. کند.
حافظه پنهان که عملاً حافظه کاری آن است. این یک کار محاسباتی سنگین است که تحت تسلط ضربهای ماتریس است،.
و هستههای GPU با انجام ضربهای ماتریس به حداکثر میرسند. از آنجایی که هر توکن جدید به رمز قبلی بستگی دارد، این مرحله را نمیتوان موازی کرد.
برخلاف پیش پر کردن، این فاز محدود به محاسبه نیست، محدود به پهنای باند حافظه است. گلوگاه این است که چقدر سریع میتوانید از روی حافظه بخوانید،.
نه تعداد FLOPهایی که در دسترس دارید. واقعیت این است که این دو فاز نیازمندیهای سختافزاری بسیار متفاوتی دارند.
Prefill محاسبات فشرده است و از محاسبات موازی عظیم سود میبرد. از سوی دیگر،.
رمزگشایی محدود به پهنای باند حافظه است و به دسترسی بسیار سریع و کم تأخیر به حافظه بستگی. دارد.
GPUها در رژیمهای محاسباتی سنگین مانند پر کردن اولیه عملکرد خوبی دارند. اما از آنجا که آنها بهعنوان شتاب دهندههای همهمنظوره طراحی شده اند،.
آنها زمانی که به حداکثر عملکرد در مقیاس نیاز دارید،. برای ماهیت رمزگشایی محدود به حافظه بهینه نشده اند.
با جداسازی پیشپر و رمزگشایی،. معماریهای تفکیکشده میتوانند بهطور قابلتوجهی توان عملیاتی بالاتری را به ازای هر کیلووات ارائه دهند و در عین.
حال تعامل پایدار را حفظ کنند. بهجای معاوضه با سرعت با مقیاس، میتوانید توکنهای بیشتری را به کاربران بیشتری بدون کاهش پاسخگویی ارائه دهید.
استنباط تفکیکشده در واقع به چه معناست. رفع مشکل تقریباً واضح است هنگامیکه هر دو تراشه روشن میشوند.
از پیش پر کردن و رمزگشایی بر روی ماشینهای مختلف. یک استخر، محاسبات موازی سنگین پیش پر کردن را انجام میدهد.
یکی دیگر، خواندن سریع و متوالی حافظه رمزگشایی را انجام میدهد. حتی زمانی که هر دو استخر از یک نوع سختافزار استفاده میکنند،.
این جداسازی به تنهایی تداخل بین فازها را کاهش میدهد و تأخیر را بهبود میبخشد. اما تغییر گام واقعی ناشی از ناهمگنی است.
تفکیک: جفت کردن هر فاز با سخت افزاری که با حجم کاری آن مطابقت دارد. در این سیستم،.
ما از سیستمهای محاسباتی بهینه شده برای پیش پر کردن و سیستمهای بهینه شده با پهنای. باند حافظه برای رمزگشایی استفاده میکنیم.
اینجاست که ما بزرگترین دستاوردها را میبینیم. آن را مانند آشپزخانه رستوران در نظر بگیرید.
قبل از تفکیک،. همان سرآشپز در حال آماده سازی (پیش پر کردن) و پختن ظروف به سفارش (رمزگشایی) است،.
و هر بار که یک سفارش جدید بزرگ برای آماده سازی وارد میشود،. همه بشقابهای در حال پیشرفت منتظر میمانند.
با تفکیک، شما یک تیم آماده سازی و یک تیم آبکاری دارید. آنها به صورت موازی کار میکنند و مواد آماده شده (کش KV) را از یک ایستگاه به.
ایستگاه بعدی منتقل میکنند. نتیجه: پر کردن اولیه هرگز رمزگشایی را قطع نمیکند.
هر سیستمیبهترین کار را انجام میدهد. شما توان عملیاتی بالاتر، تأخیر کمتر و تأخیر دم به طرز چشمگیری بهتری دریافت خواهید کرد.
نسل جدید سخت افزار بنیادی در 13 مارس،. AWS و Cerebras یک همکاری استنتاج تفکیک شده را اعلام کردند.
که این معماری جدید را واقعی و در مقیاس ابری در دسترس میسازد. معماری: تراشههای AWS Trainium پیشپر را کنترل میکنند.
سیستمهای Cerebras CS-3 رمزگشایی را انجام میدهند. اتصال از طریق شبکه Elastic Fabric Adapter (EFA) آمازون و از طریق Amazon Bedrock در دسترس است.
Wafer-Scale Engine 3 (WSE-3)،. در داخل CS-3 بزرگترین تراشه جهان است:.
4 تریلیون ترانزیستور و 900000 هسته بهینه شده با هوش مصنوعی در یک پردازنده. برخلاف GPU،.
WSE-3 به جای تکیه بر HBM خارج از تراشه مانند GPUها،. SRAM را مستقیماً روی تراشه قرار میدهد.
طبق اعداد، 44 گیگابایت SRAM روی تراشه با 21 پتابایت بر ثانیه پهنای باند حافظه دارد. این تقریباً 1000 تا 2000 برابر پهنای باند حافظه مؤثر بیشتر از NVIDIA B200 است که همچنان به.
HBM خارج از تراشه بستگی دارد. کل تراشه یک قالب عظیم است که گلوگاههای بسته بندی و اتصال را حذف میکند که.
هر معماری دیگر را محدود میکند.» با تقسیم بار کاری استنتاج. در Trainium و CS-3، هر سیستم بهترین کاری را انجام میدهد.
نتیجه استنتاج خواهد بود که مرتبهای سریعتر از آنچه امروز در دسترس است است. " - دیوید براون، معاون AWS چرا این برای DevelopersAgents بسیار مهم است، واقعاً پاسخگو میشوند.
زنجیره عامل 10 مرحلهای با سرعت 50 توک بر ثانیه 30+ ثانیه طول میکشد. در 1200 tok-CodebSk5، Cert.
این زنجیره در کمتر از 3 ثانیه به پایان میرسد. سیلیکون تخصصی کار را به شدت کاهش میدهد و به هر سیستم اجازه میدهد تا توکن.
های بیشتری را با سرعت بالا ارائه دهد. زمان تاخیر ثابت میشود.
تفکیک آن را از بین میبرد. تحقیقات تا 4.
5 برابر بهبود تاخیر P95 را در بارهای کاری عامل نشان میدهد. همه ارائه دهندگان ابری به اینجا میروند.
AWS و Cerebras، NVIDIA و Groq، Oracle، Azure. هر چارچوب ارائه دهنده LLM اصلی (Dynamo، SGLang، vLLM، llm-d) قبلاً از تفکیک پشتیبانی میکند.
این تغییر به سمت سیستمهای ناهمگن و تفکیک شده نیز در حال تغییر شکل چشم انداز رقابتی. است.
به جای اینکه یک فروشنده واحد کل پشته را کنترل کند،. تراشههای مختلف میتوانند در هر مرحله از استنتاج رقابت کنند.
این امر شروع به از بین بردن تسلط سرتاسر NVIDIA میکند و در را برای سخت افزارهای. تخصصیتر برای برنده شدن در جایی که قویترین است باز میکند.
برای توسعه دهندگان، این رقابت یک باد پشت سر است. بازیکنان بیشتر به معنای تکرار سریعتر و فشار مداوم به سمت عملکرد بالاتر در پشتهای است که روی.
آن میسازید. دنیایی که باید برای دو سال پیش بسازید همه چیز مربوط به تمرین بود و اینکه چه کسی.
بیشترین H100 را دارد. تمام شد.
مدلها یک بار آموزش داده میشوند اما میلیاردها بار مورد پرسش قرار میگیرند. شرایط اقتصادی تغییر کرده است.
تقاضای محاسباتی برای استنتاج در دو سال گذشته 1,. 000,.
000 افزایش یافته است و صنعت اکنون بیش از 1 تریلیون دلار هزینه زیرساخت مبتنی بر استنباط را. تا سال 2027 پیش بینی میکند.
اگر یک توسعه دهنده هستید، راهکار عملی ساده است: توکنها در 18 ماه آینده سریعتر میشوند. بیایید برای آن دنیا بسازیم.
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
