TL;DR
- عربی توسط بیش از 400 میلیون نفر صحبت میشود،.
- اما مدلهای زبان بزرگ (LLM) با محوریت عربی هنوز از مدلهای مرزی بهینهشده انگلیسی عقب هستند.
- با تکیه بر تجربه بهدستآمده از مدلهای اصلی Jais،.
چه اتفاقی افتاد
عربی توسط بیش از 400 میلیون نفر صحبت میشود،. اما مدلهای زبان بزرگ (LLM) با محوریت عربی هنوز از مدلهای مرزی بهینهشده انگلیسی عقب هستند.
با تکیه بر تجربه بهدستآمده از مدلهای اصلی Jais،. G42’s Inception،.
مؤسسه مدلهای بنیادی در MBZUAI و Cerebras Systems Jais-2 را معرفی میکنند - خانواده جدیدی از LLMهای عرب. محور،.
که نشاندهندهترین و همسوترین LLMهای عربی تا به امروز هستند. مدلهای Jais 2 به صورت سرتاسر آموزش داده شدند و برای استنتاج درجه تولید بر روی خوشههای ویفر.
در مقیاس سربراس به کار گرفته شدند،. که قابلیتهای سطح مرزی را به مدلهایی که برای کشورهای عرب زبان ساخته شدهاند،.
میآورد. برنامه چت Jais 2 با سرعت 2000 توکن در ثانیه اجرا میشود و آن را به یکی.
از سریعترین LLMها در جهان تبدیل میکند. Jais 2 بهعنوان طرحی برای هوش مصنوعی مستقل عمل میکند و نشان میدهد که چگونه کشورها.
میتوانند مدلهای بسیار توانمند و همسو با فرهنگ را با هزینه کمتر،. سرعت بالاتر و بدون پیچیدگی خوشههای بزرگ GPU.
مدلهای مرزی بزرگ آموزشدیده غربی،. هوش عمومیقابلتوجهی را ارائه میکنند،.
اما از نظر زمینهای مبتنی بر زبان،. فرهنگ،.
قانون یا هنجارهای اجتماعی عربی نیستند و بیشتر ظرفیت آنها به حوزههایی اختصاص داده شده است که برای. بسیاری از کاربردهای منطقهای غیرضروری هستند.
این فقدان پایه بیشتر در زمینههایی مانند تنوع گویش،. ادب و هنجارهای احترام،.
استدلال مذهبی و اخلاقی قابل مشاهده است - مناطقی که مدلهای جهانی بهطور معمول از قصد سوء تعبیر. میکنند یا پاسخهایی تولید میکنند که برای کاربران محلی غیرطبیعی یا نامناسب است.
در همین حال، مدلهای خاص عربی موجود، برای حفظ دانش گسترده و قابلیتهای چندزبانه قوی بسیار کوچک هستند. Jais-2 این شکاف را پر میکند:.
مدلی که هوش سطح مرزی را با زمینههای عمیق زبانی و فرهنگی عربی ترکیب میکند. Jais 2 بر اساس پیشرفت ایجاد شده با عربی-انگلیسی اصلی است.
خانواده مدل Jais که قابلیت دوزبانه اختصاصی را نشان داد و معیارهای اولیه را برای LLMهای عربی. تعیین کرد.
Jais 2 با مدلهای جدید 8B و 70B کیفیت بسیار بالاتری را در مقایسه با خانواده اصلی Jais. نشان میدهد،.
به دلیل معماری بازطراحیشده،. مجموعه بزرگتر و باکیفیتتر عربی،.
و تنظیم دقیقتر و خط لوله همترازی دقیقتر. Jais 2 70B عملکرد جدید و پیشرفتهای را برای مدلهای عربی در تابلوی کلیدی عربی، AraGen، ایجاد میکند.
همچنین در کارهای کلی مانند ترجمه،. خلاصهنویسی و تحلیل مالی پیشرو است و در حوزههایی که عمیقاً در زندگی عرب ریشه دارد،.
مانند شعر،. مذهب،.
آشپزی و تعبیر خواب برتری دارد. ترکیبی از مقیاس مدل،.
پردازش دادهها و دستور العمل آموزشی کارآمد،. Jais-2 را به قویترین LLM عربی باز موجود امروزی تبدیل میکند.
معیار،. AraGen،.
برای چندین مدل عربی محور (Falcon،. Fanar) و مدلهای انگلیسی محور یا چند زبانه (Llama،.
Qwen) که بهطور گسترده استفاده میشود. مدل Jais 2 8B از سایر مدلهای عربی محور با اندازه قابل مقایسه بهتر عمل میکند،.
در حالی که بر روی دادههای بسیار کمتر آموزش داده میشود،. و بنابراین آموزش بسیار ارزانتر است.
Jais-2 70B بالاترین امتیاز عربی را کسب میکند در حالی که به محاسبات آموزشی بسیار کمتری نسبت. به سایر مدلهای با اندازه مشابه نیاز دارد.
این نتایج کارایی آموزشی فعالشده توسط سختافزار ویفر در مقیاس سربراس و دستور آموزش بهینهسازی شده Jais-2 را. برجسته میکند.
Jais 2 از طریق وب و همچنین برنامههای موبایل اختصاصی برای iOS و Android در دسترس عموم است. و سیستم را به راحتی در دسترس کاربران در سراسر منطقه قرار میدهد.
برای توسعه دهندگان و محققان،. این تیم انواع 70B و 8B با وزن باز را در HuggingFace منتشر کرده است تا ادغام،.
آزمایش و موارد بیشتر را تسهیل کند. تحقیق کنید.
ما جامعه را تشویق میکنیم که مدلها را ارزیابی کنند و بازخوردشان را برای کمک به راهنمایی بهبودهای. آینده به اشتراک بگذارند.
این کار نشاندهنده تلاش چند نهادی است که طی ماهها مهندسی هماهنگ،. مدیریت دادهها،.
و آموزش در مقیاس بزرگ در سراسر Inception،. MBZUAI و Cerebras تکمیل شده است.
در بخش بعدی،. ما پنج مرحله کلیدی توسعه را شرح میدهیم - از طراحی اولیه مدل و کاوش قانون مقیاسبندی تا.
پیشآموزش،. تنظیم دقیق نظارت شده،.
و هم ترازی. برای جزئیات کامل، گزارش فنی کامل Jais 2 را ببینید.
خط لوله توسعه مدل مرزی آزمایش سیستماتیک در مقیاسهای کوچک و متوسط برای ساخت مدلهای بزرگ. با کیفیت بالا ضروری است.
این جستجوی معماری منضبط،. تنظیم کارآمد فراپارامتر،.
و بهطور بحرانی،. توانایی استخراج قوانین مقیاسپذیری را که تصمیمگیریها را برای آموزش در مقیاس بزرگ هدایت میکند را امکانپذیر میسازد.
زیرساخت Cerebras تغییر را آسان میکند بین مدلهای مختلف و اندازههای خوشه،. این مرحله بحرانی را بهطور چشمگیری سادهسازی میکند.
با پیروی از این رویکرد و برای اطمینان از کارآمدترین معماری مدل و دستور العمل آموزشی،. تیم مجموعه جامعی از آزمایشهای کمهزینه را برای اعتبارسنجی نسبتهای عمق/عرض مدل،.
گسترش FFN،. پایداری ReLU²،.
فرکانس پایه RoPE بالا،. رفتار پایه RoPE بالا و زمانبندیهای نرخ یادگیری کم،.
اجرا کرد. اجرای سریع این آزمایشها بر روی سیستمهای Cerebras - بدون طراحی استراتژیهای موازی - آزمایش بسیاری از پیکربندیهای.
معماری و فراپارامتر و تأیید رفتار قانون مقیاسبندی را ممکن کرد. حداکثر پارامتر بهروزرسانی (µP) تضمین میکند که نرخهای یادگیری و تنظیمات بهینهسازی شناساییشده در مقیاس کوچک را میتوان.
بهطور قابلاطمینانی به مدلهای 8B و 70B به روش صفر شات منتقل کرد. این آزمایش و جستجوی معماری،.
طرح اولیه مدل را تعریف کرد و آن را گذاشت پایهای برای پیشآموزش پایدار و تنظیم دقیق کارآمد. پیشآموزش – Jais-2 از ابتدا بر روی ۲.
۶ تریلیون کد عربی،. انگلیسی و کد کدگذاری شده - حدود یک هفتم اندازه مجموعه دادههای مورد استفاده برای Llama-3 70B -.
از ابتدا آموزش داده شد که قابلیتهای زبانی و استدلال اصلی مدل را ایجاد میکند. علیرغم بودجه آموزش نشانه به میزان قابل توجهی کمتر،.
مدل به دست آمده به عملکردی پیشرفته در زبان عربی دست مییابد و در زبان انگلیسی با. مدلهای با اندازه مشابه قابل رقابت است.
Jais-2 از یک رژیم پیشآموزشی دو مرحلهای پیروی کرد:. مرحله 1 پیشآموزشی گسترده،.
که بیش از 90 درصد از کل محاسبات را مصرف میکرد،. به دنبال آن پالایش هدفمند مرحله 2 با استفاده از 5 تا 10 درصد باقیمانده برای تقویت عملکرد.
دامنه خاص و خاص عربی. تنظیم دقیق نظارت شده (SFT) بیش از میلیونها تلاش مورد استفاده قرار گرفت.
دنبال کردن آموزش دو زبانه،. استدلال ساخت یافته و قابل کنترل رفتار محاورهای SFT عربی شامل MSA،.
لهجهها،. شعر،.
استدلال مذهبی،. تجزیه و تحلیل احساسات،.
و وظایف خاص دامنه بود. بهینهسازی اولویت مستقیم (DPO) - DPO از دستههای زیادی از مقایسه ترجیحات انسانی در عربی و انگلیسی برای.
اصلاح مفید بودن،. ایمنی،.
لحن،. ادب،.
امتناع،. و تناسب فرهنگی استفاده کرد.
تثبیت استدلال گام به گام، تکمیل پشته هم ترازی. آموزش در کهکشان کندور:.
حافظه یکپارچه برای آموزش کارآمد مدلهای جیز 2 بر روی خوشههای Condor Galaxy 1 و Condor Galaxy 2. آموزش دیدند که هر کدام شامل شصت و چهار سیستم Cerebras CS-2 متصل به یک پارچه MemoryX و.
Swarm است. به جای اینکه صدها پردازنده گرافیکی را به هم بچسبانند،.
پخش وزن همه پارامترهای مدل را در یک بلوک حافظه در مقیاس ترابایت در MemoryX قرار میدهد. هر کدام CS-2 وزنها را از این مخزن حافظه یکپارچه پخش میکند،.
تکرار را حذف میکند و نیاز به موازیسازی تانسور،. موازیسازی خط لوله،.
یا پارتیشنبندی ZeRO را از بین میبرد. این طراحی به کل خوشه اجازه میدهد تا مانند یک تراشه با یک بلوک حافظه رفتار کند.
این خوشه مقیاسبندی عملکرد تقریباً خطی را از یک تا شصت و چهار سیستم ارائه میکند—که بهطور چشمگیری. گردش کار آموزشی را سادهتر میکند.
استنباط در مورد Condor Galaxy:. 20× سریعتر از ChatGPTO وقتی آموزش کامل شد،.
ما بزرگتر از این دو مدل،. Jais 2 70B،.
را بر روی یک خوشه Cerebras CS-3 برای Cluster CS-3 مستقر کردیم. در حالت استنتاج،.
MemoryX کاملاً دور زده میشود:. همه وزنهای مدل مستقیماً در SRAM روی ویفر که در سراسر سیستمهای به هم پیوسته CS-3 پخش شده.
است بارگذاری میشوند. معماری SRAM ما پهنای باند پتابایت در ثانیه را ارائه میکند — مرتبههایی بزرگتر از آخرین حافظههای HBM.
که توسط پردازندههای گرافیکی استفاده میشود و خروجی استنتاج بسیار سریعتری را نسبت به جدیدترین پردازندههای گرافیکی. علاوه بر این،.
تیم استنتاج Cerebras یک مدل پیشنویس با وفاداری بالا برای Jais 2 ایجاد کرد و آن را با. پشته رمزگشایی گمانهزنی داخلی ما جفت کرد.
نتیجه ترکیبی معماری SRAM و رمزگشایی مشخصات ما،. سرعت خروجی 2000 توکن در ثانیه برای Jais 2 70B است،.
که بیش از 20× سریعتر از مدلهای مرزی مانند GPT-5 و Claude در بارهای کاری واقعی است. استنتاج با سرعت بالا،.
برنامههای قدرتمند جدید مانند خلاصهسازی فوری اسناد،. تکرار کد بیدرنگ،.
و عوامل صوتی با تاخیر کم را باز میکند. این قابلیتها به مشتریان Cerebras مانند Cognition،.
Notion و Mistral کمک کرده است تا به تمایز قوی در بازار دست یابند. یک طرح اولیه برای Sovereign AIJais 2 وضعیت جدیدی از هنر را برای مدلهای زبان عربی ایجاد میکند.
و معیاری را برای نحوه عملکرد یک مدل مرزی مبتنی بر فرهنگ منطقهای تعیین میکند. این بهعنوان وزن باز و از طریق رابطهای عمومیدر سراسر در دسترس است امارات متحده عربی.
و جهان عرب زبان گستردهتر - قابلیت هوش مصنوعی پیشرفته را برای موسسات،. توسعهدهندگان و دولتها در سراسر منطقه به ارمغان میآورد.
این پروژه همچنین پتانسیل کامل معماری ویفر در مقیاس Cerebras را برای توسعه مستقل هوش مصنوعی نشان میدهد. محیط آموزشی MemoryX در مقیاس ترابایتی،.
از پیچیدگی مدیریت حافظه توزیع شده مبتنی بر GPU جلوگیری میکند،. در حالی که استنتاج از SRAM روی ویفر برای دستیابی به سرعت تولید پیشرو در جهان در مقیاس.
70B استفاده میکند. امارات متحده عربی اولین کشوری است که این گردش کار کامل آموزش تا استنتاج را بر روی سختافزار.
Cerebras به نفع کل منطقه اجرا میکند و ثابت میکند که قابلیت هوش مصنوعی در مقیاس ملی را. میتوان بدون اتکا به کلان کلاسهای GPU ایجاد کرد.
همانطور که سایر کشورها استراتژیهای هوش مصنوعی مستقل خود را دنبال میکنند،. ما مشتاقانه منتظر مشارکت با آنها برای ساخت مدلهای مرزی قدرتمند و کارآمد هستیم.
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
