TL;DR
- Scott Bair صدای کلیدی برای گروه مرکز داده اینتل است که بینشهای خود را در مورد برنامه.
- های کاربردی هوش مصنوعی Agentic و Autotelic که بر روی پردازندههای Intel Xeon و زیرساختهای ناهمگن.
- اجرا میشوند به اشتراک میگذارد.
چه اتفاقی افتاد
Scott Bair صدای کلیدی برای گروه مرکز داده اینتل است که بینشهای خود را در مورد برنامه. های کاربردی هوش مصنوعی Agentic و Autotelic که بر روی پردازندههای Intel Xeon و زیرساختهای ناهمگن.
اجرا میشوند به اشتراک میگذارد. با تشکر ویژه از نویسندگان مشترک و متخصصان موضوع اینتل، Linh Phan و Paul Kong.
امروزه،. 88 ٪ ازها از هوش مصنوعی حداقل در یک کار تجاری استفاده میکنند،.
با این حال تنها 7 ٪ هوش مصنوعی را بهطور کامل در عملیات خود ادغام و به کار. گرفته اند.
در عین حال،. کارشناسان پیشبینی میکنند که تقاضای جهانی مراکز داده تا سال 2030 تقریباً سه برابر میشود که بیشتر این.
رشد ناشی از بار کاری هوش مصنوعی است. اما در حالی که بیشتر گفتگوهای صنعت بر پردازندههای گرافیکی سریعتر و مدلهای بزرگتر تمرکز میکنند،.
یک مکالمه آرامتر و به همان اندازه مهم در پشت صحنه اتفاق میافتد:. چگونه سیستمهای هوش مصنوعی را پایدار،.
دقیق و پیوسته در دسترس نگه داریم؟ زیرا وقتی هوش مصنوعی کاهش مییابد یا خروجیهای معیوب تولید میکند،.
تاثیر آن هم فوری و هم گران است هزینه واقعی از کار افتادن هوش مصنوعی برای اکثر شرکت. ها،.
خرابی بیش از یک ناراحتی است. بر اساس تحقیقات صنعت،.
بیش از 90 درصد ازهای متوسط و بزرگ گزارش میدهند که یک ساعت از کار افتادگی. حداقل 300000 دلار هزینه دارد.
برای مشاغلی که از پشتیبانی مشتری مبتنی بر هوش مصنوعی،. تشخیص تقلب،.
موتورهای توصیه یا خلبانهای داخلی استفاده میکنند،. این هزینه میتواند به سرعت افزایش یابد.
علاوه بر این،. زمانی که یک سیستم هوش مصنوعی از کار میافتد،.
فقط یک بخش را تحت تاثیر قرار نمیدهد. میتواند عملیات، تجربیات مشتری و جریانهای درآمد را به یکباره مختل کند.
نتایج نادرست هوش مصنوعی میتواند موضوعی ظریفتر، اما نه کمهزینهتر باشد. سیستمهای هوش مصنوعی به حجم عظیمیاز دادهها و محاسبات پیوسته بستگی دارند.
اگر خطاهای زیرساختی دادهها را بیصدا خراب کند،. نتایج ممکن است معتبر به نظر برسند اما اساساً ناقص باشند.
شرکتها زیان مالی قابل توجهی را گزارش کرده اند - بهطور متوسط 800,. 000 دلار در طول دو سال - به دلیل مرتبط با هوش مصنوعی مسائل.
RAS:. "سیستم ایمنی" زیرساخت هوش مصنوعی اینجاست که قابلیت اطمینان،.
در دسترس بودن و قابلیت سرویس دهی (RAS) مورد توجه قرار میگیرد. به قابلیت اطمینان،.
در دسترس بودن و قابلیت سرویس دهی (RAS) بهعنوان سیستم ایمنی یک مرکز داده هوش مصنوعی فکر کنید. مشکلات را زود تشخیص میدهد،.
آسیبها را جدا میکند و به سیستمها کمک میکند تا به سرعت بازیابی شوند. هر ستون RAS نقش مهمیرا ایفا میکند:.
قابلیت اطمینان:. تضمین میکند که خطاها قبل از تأثیرگذاری بر نتایج شناسایی و تصحیح میشوند.
در محیطهای هوش مصنوعی،. حتی خرابیهای جزئی دادهها میتواند دورههای آموزشی را از مسیر خارج کند یا نتایج استنتاج را منحرف کند.
ویژگیهای قابلیت اطمینان به شناسایی خطاهای قابل تصحیح،. جلوگیری از خرابی دادههای بیصدا،.
و ثبت مشکلات برای تجزیه و تحلیل بیشتر کمک میکنند. در دسترس بودن: بر روی زمان کار متمرکز است.
اگر یکی از اجزاء خراب شود،. سیستم باید به کار خود ادامه دهد،.
شاید با ظرفیت کاهش یافته،. اما بدون خرابی کامل.
حفظ در دسترس بودن از راه اندازی مجدد پرهزینه و هدر رفتن محاسبات جلوگیری میکند چرخهها،. بهویژه برای خوشههای هوش مصنوعی که کارهای آموزشی طولانی یا استنباط بلادرنگ را انجام میدهند.
قابلیت سرویسدهی:. تعیین میکند که تیمها با چه سرعتی میتوانند مشکلات را در صورت بروز تشخیص داده و برطرف کنند.
هرچه تجزیه و تحلیل علت ریشهای سریعتر اتفاق بیفتد،. سیستمها سریعتر به عملکرد کامل باز میگردند.
این سه ستون با هم تعیین میکنند که آیا یک خوشه هوش مصنوعی بهعنوان یک محیط تولید. انعطاف پذیر عمل میکند یا نه.
در حالی که این اجزا برای آموزش مدل و استنتاج ضروری هستند، به تنهایی عمل نمیکنند. CPU بهعنوان مرکز کنترل خوشه هوش مصنوعی عمل میکند.
تخصیص منابع را از طریق پلتفرمهای ارکستراسیون مانند Kubernetes، Slurm یا Ray مدیریت میکند. بر خطوط لوله داده نظارت میکند،.
دادههای آموزشی را بارگیری و پیش پردازش میکند،. نقاط بازرسی را هماهنگ میکند و موارد حیاتی را مدیریت میکند.
عملیات ورودی/خروجی بین ذخیرهسازی، حافظه، و شتابدهندهها. اگر CPU ناپایدار شود،.
کل خط لوله هوش مصنوعی میتواند متوقف شود،. حتی اگر GPUها به خوبی کار کنند.
به همین دلیل است که استقرار هوش مصنوعی ی بهطور فزایندهای به CPUهایی که برای پایداری مهندسی. شدهاند،.
مانند پردازندههای Intel Xeon 6،. که دارای قابلیتهای گسترده RAS هستند،.
بهطور خاص برای بارهای کاری مرکز داده طراحی شدهاند،. بستگی دارد.
در محیطهای هوش مصنوعی،. جایی که ردپای حافظه بسیار زیاد است و بارهای کاری برای دورههای طولانی اجرا میشوند،.
انعطافپذیری زیرسیستم CPU مستقیماً بر زمان کار،. ثبات عملکرد و هزینه کل مالکیت تأثیر میگذارد.
کاهش زمان از کار افتادگی به نصف وقتی صحبت از کارکرد روان سیستمهای هوش مصنوعی میشود،. تئوری فقط تا آنجا پیش میرود.
اثبات واقعی در نحوه عملکرد فناوری در مقیاس و با پیچیدگی استقرار واقعی است. این دقیقاً همان چیزی است که همکاری اینتل با ByteDance نشان میدهد.
ByteDance،. شرکت جهانی فناوری اینترنت پشت TikTok،.
زیرساخت مرکز داده عظیمیرا اداره میکند که از تحویل ویدیو گرفته تا جریانهای کاری یادگیری ماشینی پشتیبانی. میکند.
با افزایش مقیاس و اهمیت حجم کاری هوش مصنوعی،. ByteDance با یک چالش آشنا روبرو شد:.
چگونه میتوان آن زیرساخت را قابل اعتماد،. کارآمد و مقرون به صرفه نگه داشت حتی در صورت تقاضای محاسباتی شدید.
ByteDance و Intel به جای تلقی کردن قابلیت اطمینان سرور بهعنوان یک نگرانی پشت سر هم،. رویکردی پیشگیرانه در پیش گرفتند.
تبدیل Diagnostics به Actionable Insights یکی از اهداف اصلی پروژه این بود که در شرایط عملیاتی واقعی،. بفهمیم که چه نوع خرابیهایی در واقع رخ میدهند و چگونه میتوان آنها را بهطور.
مؤثرتری مدیریت کرد. برای انجام این کار،.
تیمها مجموعهای از قابلیتهای تشخیصی را که بهصورت استاندارد با پردازندههای Intel Xeon ارائه میشوند،. به کار گرفتند.
اینها شامل ابزارها و ویژگیهایی بود که میتوانند:. خطاهای حافظه را قبل از ایجاد آنها شناسایی و گزارش کنند ou es دادههای خرابی دقیق را.
برای تجزیه و تحلیل سریع ثبت و به هم مرتبط کنید. هنگامیکه ماژولهای حافظه،.
دستگاههای PCIe،. اتصالات متقابل یا پشتههای نرمافزار بهطور غیرمنتظرهای رفتار میکنند،.
اکنون زیرساخت میتواند منشاء خرابی را سریعتر و دقیقتر مشخص کند. برای جزئیات کامل در مورد همکاری اینتل با ByteDance، این خلاصه فنی را مرور کنید.
کاهش زمان خرابی در طول دوره ارزیابی،. تیمها بیش از 260 مورد از خرابی را شناسایی کردند که میتواند به ناهنجاریهای اساسی.
ردیابی شود. با همکاری مشترک و تکرار بر روی گردش کار تشخیصی،.
به روز رسانی سیستم عامل و منطق رسیدگی به خطا،. آنها توانستند فراوانی و تأثیر این خرابیها را به میزان قابل توجهی کاهش دهند.
را نتایج قابل اندازهگیری چشمگیر بود:. کاهش زمان از کار افتادگی سالانه تا 50 درصد در سراسر ناوگان سرور،.
این بدان معناست که ظرفیت محاسباتی هوش مصنوعی برای استنتاج،. آموزش،.
و کارهای تولیدی بسیار بیشتر از قبل در دسترس باقی میماند. نرخ تعمیرات حافظه در هفته اول بهبود استقرار تقریباً 25 درصد کاهش یافت.
خطاهای حافظه یکی از رایجترین منابع سرورهای بزرگ هستند. کاهش بروز آنها مستقیماً زمان کار را بهبود میبخشد و بار غیرضروری تیم را کاهش میدهد.
مهمتر از همه،. این دستاوردها از طراحی مجدد سخت افزاری چشمگیر یا تعمیرات اساسی معماری به دست نیامده است.
آنها از به کارگیری قابلیتهای قابلیت اطمینان،. در دسترس بودن و سرویس دهی (RAS) موجود بهطور سیستماتیک و جفت شدن آنها با بازخورد عملیاتی واقعی.
ناشی میشوند. به عبارت دیگر، این همکاری فقط ثابت نکرد که RAS مهم است.
نشان داد که چگونه شرکتها میتوانند از ویژگیهای RAS برای تحویل بتن استفاده کنند تأثیر. کسب و کار.
با در نظر گرفتن قابلیت اطمینان بهعنوان یک نگرانی درجه یک – با پشتیبانی از قابلیتهای سخت. افزاری داخلی و با استفاده از تله متری استفاده واقعی – اینتل و ByteDance با یکدیگر همکاری کردند.
تا پایهای انعطاف پذیرتر برای بارهای کاری آینده هوش مصنوعی ایجاد کنند. نتیجه گیری با افزایش سرعت پذیرش هوش مصنوعی،.
شرکتها متوجه میشوند که عملکرد به تنهایی کافی نیست. موفقیت بلند مدت هوش مصنوعی به چیزی کمتر قابل مشاهده و استراتژیکتر بستگی دارد: انعطاف پذیری زیرساخت.
در عصر هوش مصنوعی،. انعطافپذیری باعث کارایی میشود،.
دقت از شهرت محافظت میکند و زمان کار (یا قابلیت سرویس) برابر است با درآمد. همکاری بین اینتل و ByteDance نشان میدهد که وقتی ثبات زیرساخت به یک اولویت استراتژیک ارتقا یابد،.
چه چیزی ممکن است. با استفاده از قابلیتهای RAS داخلی در پردازندههای Intel Xeon 6 و بهکارگیری سیستماتیک آنها در سراسر استقرار.
در دنیای واقعی،. تیمها توانستند زمان خرابی را کاهش دهند.
تا 50 درصد و نرخ تعمیر به میزان قابل توجهی کمتر بدون طراحی مجدد مخرب یا تعمیرات اساسی. پرهزینه.
این پروژه مزایای مهندسی زیرساخت هوش مصنوعی شما را نه تنها برای عملکرد، بلکه برای استقامت نشان داد. شرکتهایی که امروز روی پلتفرمهای انعطافپذیر و دارای ابزار دقیق سرمایهگذاری میکنند،.
موقعیت بهتری برای مقیاسبندی هوش مصنوعی،. محافظت از تداوم کسبوکار و به حداکثر رساندن بازده سرمایهگذاریهای هوش مصنوعی خود خواهند داشت.
خود را ساده کنید».
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
