TL;DR
- ⚠️ توجه: بنتو اکنون بخشی از مدولار است!
- با ما تماس بگیرید تا بدانید چگونه بنتو و مدولار میتوانند به شما در ارائه استنتاج با.
- عملکرد بالا در تولید کمک کنند.
چه اتفاقی افتاد
⚠️ توجه: بنتو اکنون بخشی از مدولار است! با ما تماس بگیرید تا بدانید چگونه بنتو و مدولار میتوانند به شما در ارائه استنتاج با.
عملکرد بالا در تولید کمک کنند. وقتی تیمهای هوش مصنوعی ی میگویند:.
«ما به پلتفرمینیاز داریم که بتواند حجم کاری کامل تولید را مدیریت کند»،. واقعاً سؤال عمیقتری میپرسند.
آیا زیرساخت شما میتواند پیچیدگی،. مقیاس و الزامات حاکمیتی را که پروژههای آزمایشی را از سیستمهای هوش مصنوعی حیاتی تجاری جدا میکند،.
مدیریت کند؟ تمایز مهم است.
نمونه سازی یک نقطه پایانی تک مدل آسان است. بهینهسازی عملکرد استنتاج،.
اطمینان از قابلیت اطمینان،. اجرای انطباق و مقیاسبندی منابع GPU بهطور کارآمد در سراسر مناطق اینطور نیست.
اشتباه گرفتن میتواند میلیونها هزینه محاسباتی هدر رفته،. تاخیر در راه اندازی و توقف پذیرش هوش مصنوعی را برای شرکتها به همراه داشته باشد.
بسیاری از پلتفرمها ادعا میکنند که «آماده تولید» هستند،. اما اکثر آنها برای واقعیتهای استنتاج در مقیاس بزرگ ساخته نشدهاند.
آنها برای مدیریت ارکستراسیون، کشش و حاکمیتی که بار کاری ی نیاز دارد، مجهز نیستند. پلت فرم استنتاج بنتو از ابتدا برای بستن آن طراحی شده است شکاف،.
ارائه سرعت،. قابلیت اطمینان و کنترل مورد نیاز برای اجرای مطمئن هوش مصنوعی در تولید.
حجم کاری تولید واقعاً به چه چیزی نیاز دارد و چرا اکثر پلتفرمها نمیتوانند ارائه دهند#. هوش مصنوعی در حال تولید از بین نمیرود زیرا تیمها مدل ندارند.
از بین میرود زیرا سیستمهای زیربنایی برای پشتیبانی از رفتار بارهای کاری واقعی ساخته نشده اند. یک گردش کار معمولی ی این را روشن میکند.
یک تیم ممکن است با یک نمونه اولیه ساده که در یک محیط کنترل شده به خوبی کار. میکند شروع کند.
اما لحظهای که آنها سعی میکنند آن را تولید کنند،. یک خط لوله بازیابی را به هم متصل کنند،.
مدل دومیرا برای طبقهبندی اضافه کنند،. مقیاسگذاری در مناطق متعدد،.
اعمال دروازههای انطباق،. و برآورده کردن بودجههای تأخیر دقیق،.
کل پشته شروع به نشان دادن درزهای خود میکند. خطوط لولهای که در طول آزمایش کار میکردند بهطور متناوب شروع به خرابی میکنند.
هزینههای GPU افزایش مییابد زیرا مقیاس خودکار نمیتواند ادامه یابد. CI/CD کند میشود زیرا نسخه سازی مدل اینطور نیست در فرآیند استقرار تعبیه شده است.
و هنگامیکه رهبری به دلایل انطباق،. درخواست میکند که یک منطقه جدید عرضه شود یا حجم کار روی یک خوشه خصوصی اجرا شود،.
تیمهای زیرساخت در نهایت نیمیاز سیستم را بازنویسی میکنند تا این اتفاق بیفتد. این شکافی است که اکثر پلتفرمها نادیده میگیرند:.
پیچیدگی واقعی تا زمانی که حجم کاری چند مدلی،. چند منطقهای یا به الزامات حاکمیتی گره نخورد،.
ظاهر نمیشود. و این دقیقاً جایی است که ابزارهای DevOps عمومیکوتاهی میکنند.
آنها برای مقیاسبندی،. ارکستراسیون یا مدیریت چرخه حیات خاص ML و در نتیجه ترکیبات اصطکاک در هر مرحله از چرخه حیات.
هوش مصنوعی طراحی نشدهاند. 1.
ارکستراسیونی که در واقع زیر مقیاس است# تولید هوش مصنوعی به ندرت یک مدل را اجرا میکند. اکثر سیستمها مدلهایی را برای پیش پردازش،.
بازیابی،. تولید و پس پردازش به هم متصل میکنند.
بدون چارچوب ارکستراسیون اختصاصی، این خطوط لوله شکننده هستند. زمانی که یک مرحله شکست میخورد یا کند میشود در پایین دست،.
ضربه به پایین دست آبشار میشود و باعث قطع،. کاهش عملکرد و چرخههای طولانی رفع اشکال میشود.
تیمها در نهایت به بازسازی ادغامها برای هر مورد استفاده جدید میپردازند و آنچه باید یک فرآیند تکرارپذیر. باشد را به یک آتشسوزی ثابت تبدیل میکنند.
2. مقیاسگذاری که GPUها را کارآمد نگه میدارد،.
نه بیحرکت# مقیاسکنندههای خودکار سنتی برای ترافیک وب محدود به CPU ساخته شدهاند،. نه استنتاج سنگین GPU.
در Kubernetes،. چرخش یک کانتینر LLM میتواند بیش از 10 دقیقه طول بکشد،.
و تیمها را مجبور میکند تا برای حفظ زمان کارکرد،. پردازندههای گرافیکی با کارایی بالا مانند NVIDIA H100s را بیش از حد فراهم کنند.
این ترکیب سربار بیکار در سراسر خدمات،. منجر به دو تا سه برابر هزینه محاسباتی بیشتر از حد لازم میشود.
در مقیاس،. حتی ناکارآمدیهای کوچک در استفاده از GPU منجر به افزایش قابل توجه هزینه و مسدود شدن آزمایش.
میشود. 3.
استنتاج و مسیریابی LLM در مقیاس تولید، لایه جدیدی از پیچیدگی را اضافه میکند. چالشها از میزبانی مدل ساده به کار بسیار پیچیدهتر مسیریابی LLM و استنتاج توزیع شده تغییر.
میکند. تیمها ممکن است برای بهینهسازی استفاده از حافظه پنهان KV،.
برآورده کردن SLAهای تأخیر،. به حداکثر رساندن در دسترس بودن GPU و کنترل هزینه،.
مدلهای بزرگ را در بین GPUها،. گرهها و مناطق پخش کنند.
انجام آن به خوبی نیاز به مسیریابی هوشمند دارد،. تعیین محل اجرای هر درخواست بر اساس نوع مدل،.
طول ورودی و بار سیستم بلادرنگ،. در کنار مدیریت حافظه نهان KV برای جلوگیری از محاسبه مجدد بین توکنها.
هنگامیکه مسیریابی،. هماهنگی حافظه پنهان و زمانبندی منابع کاملاً همسو نیستند،.
علائم به سرعت ظاهر میشوند:. از دست رفتن حافظه پنهان،.
زمان کمتر برای اولین نشانه (TTFT)،. وضعیتهای جلسه ناسازگار و محاسبه هزینههایی که با هر رویداد مقیاسبندی افزایش مییابد.
اکثر زیرساختهای همهمنظوره به سادگی برای این سطح از پیچیدگی خاص LLM ساخته نشده اند. نمیتواند بارهای کاری یا مسیر GPU چند منطقهای را هماهنگ کند بهطور موثر در انواع مدلهای مختلف.
درخواست میکند،. که دستیابی به عملکرد قابل اعتماد و قابل پیش بینی LLM را در مقیاس تقریبا غیرممکن میکند.
4. حاکمیت و انطباق برای نرم افزار ساخته شده است،.
نه مدلها# سیستمهای سنتی CI/CD برای مدیریت انتشار کد طراحی شده اند،. نه چرخه عمر مدل.
آنها فاقد حفاظتهای خاص ML مانند نسخهسازی مدل،. اتوماسیون برگشتی،.
RBAC در سطح مدل یا نقطه پایانی،. و مسیرهای حسابرسی بلادرنگ مرتبط با رفتار استنتاج هستند.
این شکافها نقاط کور عملیاتی ایجاد میکنند،. بهویژه در صنایع تنظیمشده که در آن هر استقرار باید بررسیهای داخلی،.
الزامات رسیدگی به دادهها و گردشهای کاری مطابقت داشته باشد. بدون این کنترلها،.
تأییدیهها کند میشوند،. مالکیت نامشخص میشود،.
و تیمها برای تشخیص مشکلات وقتی یک بهروزرسانی مدل در تولید غیرقابل پیشبینی رفتار میکند – چه به. معنای کاهش دقت،.
جهش تأخیر،. یا خروجیهای استنتاج غیرمنتظره باشد،.
تلاش میکنند. را نتیجه،.
ریسک عملیاتی،. امنیتی و انطباق بالاتری است دقیقاً در لحظاتی که قابلیت اطمینان بیشترین اهمیت را دارد.
5. استقرار تکه تکه در میان ابرها و مناطق# هوش مصنوعی ی به ندرت در یک محیط عمل می.
کند. تیمها برای انطباق با سیستمهای پیشفرض،.
تنظیمات ابر خود را (BYOC) برای کنترل بیاورید و پردازندههای گرافیکی ابری را برای مقیاس درخواستی انجام میدهند. بدون یک لایه زیرساخت یکپارچه،.
هر محیط به یک پیکربندی سفارشی با اسکریپتها،. اعتبارنامهها و ابزارهای نظارتی خاص خود تبدیل میشود.
این تکه تکه شدن منجر به مشاهده ناسازگار،. هزینههای تکراری و خطوط لوله استقرار میشود که شکننده هستند و نگهداری آنها در مناطق مختلف.
دشوار است. همچنین چابکی را محدود میکند.
تیمها نمیتوانند به راحتی بار کاری را بین ابرها یا مناطق بر اساس قیمت یا در. دسترس بودن GPU جابجا کنند.
پلتفرمهای عمومی DevOps هرگز برای هوش مصنوعی طراحی نشده اند. آنها فاقد ارکستراسیون،.
کشش و حاکمیت بومی ML هستند برای حفظ عملکرد استنتاج و قابل پیش بینی در مقیاس لازم است. تأثیر هزینهبر و انباشتهای است:.
تیمها برای محاسبات بیش از حد هزینه میکنند،. هفتهها را برای رفع اشکال شکستهای مقیاسبندی تلف میکنند و در هر نسخه جدید سرعت خود را از.
دست میدهند. وقتی هوش مصنوعی هسته اصلی کسب و کار آنها است،.
شرکتها نمیتوانند این نوع کشش را تحمل کنند. چگونه پلتفرم استنتاج بنتو هوش مصنوعی در مقیاس کامل تولید را ارائه میکند پلتفرم استنتاج بنتو هماهنگسازی،.
کشش و حاکمیت را در یک لایه عملیاتی واحد متحد میکند که برای عملکرد،. قابلیت اطمینان و الزامات مطابقت با هوش مصنوعی ی ساخته شده است.
برخلاف ابزارهای عمومی DevOps،. بلوکهای ساختمانی مبتنی بر هوش مصنوعی را برای هر مرحله از استقرار و عملیات مدل فراهم میکند و.
به تیمها کنترل و دید لازم برای مقیاسبندی با اطمینان را میدهد. عملیات در سطح ی# قابلیت اطمینان عملیاتی و حاکمیت برای هوش مصنوعی ی اساسی است.
بنتو هر دو را در یک پلت فرم واحد متحد میکند،. به تیمها اعتماد به نفس میدهد تا بدون به خطر انداختن امنیت یا کنترل،.
مقیاس شوند. Bento CI/CD را برای استقرار مدل، مدیریت تأییدیهها، بازگشتها و قابلیت ردیابی کامل در محیطها خودکار میکند.
کنترل دسترسی مبتنی بر نقش (RBAC) و مدیریت اسرار،. مرزهای امنیتی را محکم نگه میدارند،.
در حالی که محیطهای sandbox شده،. فضاهای ایمن و ایزوله را برای اجرای کدهای تولید شده توسط هوش مصنوعی یا غیرقابل اعتماد بدون افشای.
سیستمهای تولید فراهم میکنند. بنتو همچنین قابلیت مشاهده را در یک نمای واحد و بیدرنگ متمرکز میکند.
داشبوردهای یکپارچه امکان مشاهده هزینه،. تأخیر،.
توان عملیاتی و استفاده از GPU را در هر مدلی فراهم میکنند و به تیمها کمک میکنند تا. ناکارآمدیها را قبل از تأثیرگذاری بر عملکرد یا زمان آپدیت،.
آشکار و برطرف کنند. برای بارهای کاری LLM،.
Bento قابلیت مشاهده را تا لایه استنتاج گسترش میدهد و معیارهای مهمیمانند TTFT و تأخیر بین. توکن (ITL) را که برای تشخیص کندی سرعت،.
بهینهسازی توکن ضروری هستند،. در معرض نمایش قرار میدهد.
تولید، و حفظ رفتار مدل قابل پیش بینی با افزایش حجم کار. این سختگیری عملیاتی در حال حاضر به محیطهای تولید نیرو میدهد.
برای مثال Mission Lane پشته MLOps داخلی خود را بر روی چارچوب متن باز BentoML بازسازی کرد. این شرکت اکنون 24 سرویس تولیدی را با CI/CD اجرا میکند که بهطور کامل از طریق BentoML مدیریت.
میشود و تیم را قادر میسازد تا عملیات هوش مصنوعی را ایمن،. مداوم و با کنترل بیشتر مقیاسبندی کند.
ارکستراسیون هدفمند# هوش مصنوعی مدرن بهعنوان نموداری از مؤلفههای وابسته به هم،. به جای یک مدل واحد اجرا میشود.
Bento برای هماهنگی یکپارچه این خطوط لوله پیچیده و چند مرحلهای طراحی شده است. هر مدل میتواند بهعنوان سرویس BentoML خود اجرا شود و به تیمها کنترل مدولار بر مقیاسبندی و تخصیص.
منابع بدهد. این ساختار امکان توسعه موازی را فراهم میکند:.
دانشمندان داده میتوانند مدلها را ارسال کنند در حالی که تیمهای پلت فرم قابلیت اطمینان. و نردههای محافظ عملکرد را حفظ میکنند.
برای هوش مصنوعی ترکیبی سیستمهایی مانند RAG،. معماریهای چندعاملی،.
یا خطوط لوله ناهمگام،. Bento اصول اولیه ارکستراسیون بومیرا برای مدیریت همزمانی،.
جریان داده و ارتباطات بین سرویس ارائه میکند. مسیریابی پویا و دوندههای موازی بارهای کاری را هوشمندانه توزیع میکنند و از اجرای کارآمد مدل.
ها حتی در حجم درخواست بالا اطمینان میدهند. برای بهینهسازی عملکرد بیشتر،.
Bento از سرویسهای تفکیکشده از پیشپر کردن-رمزگشایی (PD)،. بارگیری حافظه پنهان KV و استراتژیهای مسیریابی سفارشی پشتیبانی میکند و به تیمها اجازه میدهد تا هم برای.
هزینه و هم پاسخدهی،. استقرارها را دقیق تنظیم کنند.
این چارچوب هماهنگسازی به تیمهایی مانند Neurolabs کمک کرده است تا زمان ورود به بازار را تا 9. ماه تسریع کنند و هزینههای محاسباتی را تا 70 درصد کاهش دهند،.
به مهندسان خود این آزادی را میدهد که به جای تعمیر و نگهداری خط لوله بر نوآوری محصول. تمرکز کنند.
مقیاسبندی الاستیک و بهینهسازی منابع# زیرساختهای هوش مصنوعی باید با هوش مقیاس شوند، نه با نیروی بیرحمانه. اتواسکیلر بنتو از GPU آگاه است و برای استنتاج GenAI بهینه شده است و به صورت پویا منابع.
را در زمان واقعی تنظیم میکند. این درخواستها را دستهبندی میکند،.
همزمانی را تنظیم میکند،. و بر اساس شدت بار کاری مقیاسبندی میکند و به نرخهای استفاده از GPU دست مییابد که معمولاً.
بیش از 70 درصد است. این یک مکانیسم کارآمد برای بارگذاری مدلها برای تسریع استقرار در BentoCloud ارائه میدهد.
مدلها در حین ساخت تصویر دانلود میشوند نه در راهاندازی سرویس. آنها بهطور مستقیم در ظروف ذخیره شده و نصب میشوند و زمان شروع سرد را تا حد.
زیادی کاهش میدهند و عملکرد پوسته پوسته شدن را بهبود میبخشند. مقیاس تا صفر تضمین میکند که هزینههای بیحرکتی وجود ندارد:.
وقتی ترافیک کاهش مییابد،. نمونههای استفادهنشده بهطور خودکار خاموش میشوند،.
و بارهای کاری در عرض چند ثانیه با بازگشت درخواستها دوباره شروع میشوند. هر سرویس همچنین میتواند بهطور مستقل مقیاسبندی شود،.
و به تیمها اجازه میدهد تا GPUها را بهطور متفاوتی برای بازیابی،. استنتاج یا جاسازی وظایف بر اساس ویژگیهای بار کاری اختصاص دهند.
این مکانیسمها با هم،. الاستیک بیشتری را ارائه میدهند،.
محیط استنتاج کارآمد و کنترل شده با هزینه شرکتهایی مانند Yext و یک سرویسدهنده وام فینتک پیشرو پس. از اتخاذ چارچوب مقیاسسازی خودکار و بهینهسازی بنتو،.
تا ۸۰ تا ۹۰ درصد هزینههای محاسباتی کمتر و ۲ برابر توان عملیاتی بالاتر را دریافت کردهاند. استنتاج توزیع شده LLM و بهینهسازی دروازه# وقتی شرکتها حجم کاری LLM را در میان ابرها،.
مناطق و خوشههای GPU مقیاسبندی میکنند،. چالشهای هماهنگ کردن استنتاج توزیعشده به سرعت چند برابر میشوند.
دروازههای بنتو برای پاسخگویی به این پیچیدگی طراحی شدهاند و بهعنوان یک نقطه کنترل ایمن و هوشمند برای. تمام ترافیک مدلها عمل میکنند.
Gateways بهطور خودکار هر درخواست را بر اساس عوامل بلادرنگ مانند بار سیستم،. نوع مدل و حافظه پنهان KV به مناسبترین استقرار باطن هدایت میکند.
آنها از استراتژیهای مسیریابی پیشرفته،. از جمله تعادل وزنی و مبتنی بر ظرفیت،.
برای حفظ توان عملیاتی صاف و قابل پیش بینی،. حتی در صورت تقاضا،.
پشتیبانی میکنند. نوسان میکند.
از آنجایی که هر دروازه از KV-cache آگاه است،. در صورت امکان با استفاده مجدد از نشانههای ذخیره شده در حافظه پنهان،.
ثبات جلسه را حفظ میکند. این کار محاسبه مجدد را کاهش میدهد،.
TTFT را بهبود میبخشد،. و تأخیر انتها به انتها را در تعاملات طولانیتر ثابت نگه میدارد.
همچنین بار عملیاتی مقیاس بندی چند منطقهای را از بین میبرد. به جای مدیریت نقاط پایانی جداگانه یا قوانین مسیریابی دست ساز،.
تیمها میتوانند یک نقطه پایانی واحد را در معرض دید قرار دهند و به Gateway اجازه. دهند بهطور خودکار درخواستها را به نزدیکترین یا کم بارترین استقرار هدایت کند.
این معماری،. بارهای کاری LLM را قادر میسازد تا بدون دخالت دستی یا خطر تنگناهای منطقهای،.
بهطور یکپارچه در محیطها مقیاس شوند. نتیجه یک سیستم خط مشی محور و مقاوم در برابر خطا برای استنتاج در دسترس بودن بالا است.
که پیچیدگی سرویس LLM توزیع شده را انتزاعی میکند. انعطاف پذیری استقرار# شرکتها همه تحت محدودیتهای یکسان عمل نمیکنند.
برخی اولویت را کامل میدهند کنترل دادهها،. دیگران به مقیاس جهانی سریع نیاز دارند،.
و بسیاری از آنها به ترکیبی از هر دو نیاز دارند. بنتو از این واقعیتها پشتیبانی میکند بدون اینکه تیمها را مجبور به انتخابهای زیرساختی سفت و سخت کند.
تیمها میتوانند بهجای اینکه به یک مدل استقرار واحد متصل شوند،. پلتفرم استنتاج Bento را در محیطی اجرا کنند که به بهترین وجه با نیازهای آنها مطابقت دارد،.
خواه این محیط ابر عمومی،. هیبریدی،.
اولیه یا BYOC باشد. این انعطافپذیری بهویژه در صنایع تنظیمشده مانند امور مالی و مراقبتهای بهداشتی،.
که در آن دادهها باید کاملاً تحت کنترل مشتری باقی بمانند و استقرار اغلب باید در محدودههای جغرافیایی. یا انطباق خاص باقی بماند،.
حیاتی است. برای استقرار اولیه،.
Bento میتواند بهطور خودکار در صورت نیاز به ظرفیت محاسباتی اضافی،. به پردازندههای گرافیکی ابری تبدیل شود.
این اجازه میدهد تا حجم کاری بدون مداخله دستی یا پیکربندی مجدد پیچیده افزایش یابد. در همان زمان،.
Bento یک پارچه محاسباتی یکپارچه ارائه میکند که GPU ناهمگن را مدیریت میکند زیرساخت در چندین. ارائه دهنده و سطوح نظارت،.
مسیریابی و مشاهده از طریق یک صفحه کنترل واحد. این عملکردها را حتی زمانی که در محیطهای مختلف اجرا میشود، ثابت نگه میدارد.
برای تیمهایی که میخواهند یک تجربه کاملاً مدیریت شده داشته باشند،. BentoCloud همان عملکرد،.
امنیت و قابلیتهای مقیاس خودکار را بدون هزینههای سربار برای حفظ زیرساخت ارائه میدهد. در سراسر این گزینههای استقرار،.
ها ضمن حفظ چابکی مورد نیاز برای حمایت از ابتکارات جهانی هوش مصنوعی،. حاکمیت و امنیت را حفظ میکنند.
این انعطاف پذیری در حال حاضر نتایجی را در تولید ارائه میدهد. بهعنوان مثال،.
در بخش مالی،. شرکتهایی که از Bento استفاده میکنند تا 90 درصد هزینههای محاسباتی کمتر و 50 درصد چرخههای استقرار سریعتر.
را در حالی که الزامات انطباق منطقهای را رعایت میکنند،. به دست آوردهاند.
Bento به وعده زیرساختهای هوش مصنوعی درجه تولید واقعی،. پل زدن تیمها،.
کاهش عمل میکند پیچیدگی،. و امکان استنتاج مقیاس پذیر و سازگار در مقیاس ی را فراهم میکند.
با کارشناسان ما صحبت کنید تا بررسی کنید که چگونه تیم شما میتواند هوش مصنوعی را بهطور. ایمن،.
در هر ابری،. در هر محیطی مستقر و مدیریت کند.
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
