TL;DR
- Nous Research،.
- استارتاپ منبعباز هوش مصنوعی که توسط شرکت سرمایه گذاری ارز دیجیتال Paradigm حمایت میشود،.
- روز دوشنبه یک مدل برنامهنویسی رقابتی جدید منتشر کرد که میگوید با چندین سیستم اختصاصی بزرگتر.
چه اتفاقی افتاد
Nous Research،. استارتاپ منبعباز هوش مصنوعی که توسط شرکت سرمایه گذاری ارز دیجیتال Paradigm حمایت میشود،.
روز دوشنبه یک مدل برنامهنویسی رقابتی جدید منتشر کرد که میگوید با چندین سیستم اختصاصی بزرگتر. مطابقت دارد یا از آن فراتر میرود – که تنها در چهار روز با استفاده از 48.
پردازنده گرافیکی B200 انویدیا جدید آموزش داده شده است. لحظهای به خصوص پربار:.
Claude Code،. ابزار برنامهنویسی عاملی از رقیب آنتروپیک،.
از روز سال نو بر بحثهای رسانههای اجتماعی مسلط بوده است،. با توسعهدهندگانی که توصیههای نفسگیری درباره قابلیتهای آن ارسال میکنند.
پیشرفتهای همزمان نشان میدهد که توسعه نرمافزار به کمک هوش مصنوعی چقدر سریع در حال تکامل است -. و شرکتهای بزرگ و کوچک چقدر سخت در حال رقابت برای به دست آوردن چیزی هستند که بسیاری.
معتقدند تبدیل به یک فناوری اساسی برای نحوه تولید نرمافزار خواهد شد. Writed.
NousCoder-14B به نرخ دقت 67. 87 درصدی در LiveCodeBench v6 دست مییابد،.
یک ارزیابی استاندارد که مدلهای مربوط به مشکلات برنامهنویسی رقابتی را که بین آگوست 2024 تا مه 2025. منتشر شده است،.
آزمایش میکند. این رقم نشاندهنده بهبود 7.
08 درصدی نسبت به مدل پایهای است که از آن آموزش داده شده است،. طبق گزارش فنی Alibaba به QB.
Jaana Dogan،. مهندس اصلی در گوگل که مسئول Gemini API است،.
هفته گذشته در پستی ویروسی در X نوشت:. «من توضیحی از مشکل به Claude Code دادم،.
آن چیزی که سال گذشته در یک ساعت ساختیم تولید کرد. دوگان در حال توصیف یک سیستم ارکستراسیون عامل توزیع شده بود که تیمش یک سال را صرف توسعه.
آن کرده بود - سیستمیکه کد کلود از یک دستور سه پاراگراف تقریبی شده بود. کنار هم قرار دادن آموزنده است:.
در حالی که کلود آنتروپیک Code با نمایش توسعه نرمافزار سرتاسر،. تخیل را به خود جلب کرده است،.
Nous Research شرط میبندد که جایگزینهای منبعباز آموزشدیده در مورد مشکلات قابل تأیید میتوانند شکاف را برطرف. کنند - و اینکه شفافیت در نحوه ساخت این مدلها به اندازه قابلیت خام اهمیت دارد.
چگونه Nous Research یک مدل کدنویسی هوش مصنوعی ساخت که هرکسی بتواند آن را تکرار کند. Nous Research نه تنها وزنهای مدل،.
بلکه محیط یادگیری تقویتی کامل،. مجموعه معیار و مهار آموزشی - ساخته شده بر اساس چارچوب Atropos شرکت را منتشر کرد - که.
به هر محققی با محاسبات کافی برای بازتولید یا گسترش کار این امکان را میدهد. جوامع آکادمیک و منبعباز.
این مدل توسط جو لی،. محققی در موسسه تحقیقاتی Nous و یک برنامه نویس رقابتی سابق،.
آموزش دیده است. گزارش فنی لی یک بعد شخصی غیرمنتظره را نشان میدهد:.
او مسیر بهبود مدل را با سفر خود در Codeforces مقایسه کرد،. پلتفرم برنامهنویسی رقابتی که در آن شرکتکنندگان بر اساس عملکرد مسابقه رتبهبندی میکنند.
بر اساس تخمینهای تقریبی که نمرات LiveCodeBench را به رتبهبندی Codeforces نگاشت،. لی محاسبه کرد که امتیاز NousCoder-14B تقریباً از محدوده بهبود یافته 150 تا 170 t است.
2100-2200 — منعکس کننده جهشی است که برای او تقریباً دو سال تمرین مداوم بین سنین 14 تا. 16 سال طول کشید.
این مدل معادل آن را در چهار روز به انجام رساند. لی در گزارش فنی مینویسد که تماشای آخرین دوره آموزشی تجربهای کاملاً سورئال بود.
اما لی به سرعت به نکته مهمیاشاره کرد که گویای آن است به سؤالات گستردهتر در. مورد کارایی هوش مصنوعی:.
او تقریباً 1000 مشکل را در طول این دو سال حل کرد،. در حالی که مدل به 24000 نیاز داشت.
انسانها، حداقل در حال حاضر، بهطور چشمگیری یادگیرندگان نمونه کارآمدتر باقی میمانند. در داخل سیستم یادگیری تقویتی که بر روی 24000 مشکل برنامهنویسی رقابتی آموزش میدهد،.
فرآیند آموزش NousCoder-14B پنجرهای را به تکنیکهای پیچیدهای که محققان برای بهبود قابلیتهای استدلال. هوش مصنوعی از طریق یادگیری تقویتی استفاده میکنند ارائه میدهد.
راهحلهای کد تولید میکند،. آن راهحلها در برابر موارد آزمایشی اجرا میشوند و مدل یک سیگنال باینری ساده دریافت.
میکند:. درست یا نادرست.
این حلقه بازخورد،. در حالی که از نظر مفهومیساده است،.
به زیرساختهای قابل توجهی برای اجرا در مقیاس نیاز دارد. تحقیقات Nous از Modal، یک پلت فرم رایانش ابری، برای اجرا استفاده کرد.
اجرای کد سندباکس به صورت موازی هر یک از 24000 مسئله آموزشی بهطور متوسط شامل صدها مورد آزمایشی. است و سیستم باید تأیید کند که کد تولید شده خروجیهای درستی را در محدودیتهای زمانی.
و حافظه تولید میکند - به ترتیب 15 ثانیه و 4 گیگابایت. این آموزش از تکنیکی به نام DAPO (بهینهسازی سیاست نمونه برداری پویا) استفاده میکند که محققان.
در آزمایشهای جایگزین خود دریافتند که کمیبهتر از آزمایشهای خود انجام شده است. یک نوآوری کلیدی شامل «نمونهگیری پویا» است – دور انداختن مثالهای آموزشی که در آن مدل یا تمام.
تلاشها را حل میکند یا تمام تلاشها را با شکست مواجه میکند،. زیرا این سیگنالها هیچ سیگنال گرادیان مفیدی برای یادگیری ارائه نمیدهند.
محققان همچنین «بسط بافت تکراری» را اتخاذ کردند،. ابتدا مدل را با یک پنجره زمینه 32000 توکنی قبل از گسترش به 40000 توکن آموزش دادند.
در طی ارزیابی، گسترش زمینه به حدود 80000 توکن تولید شد بهترین نتایج، با دقت به 67. 87 درصد میرسد.
شاید مهمتر از همه،. خط لوله آموزشی با استنباط و تأیید همپوشانی دارد - به محض اینکه مدل یک راهحل تولید کرد،.
در حالی که راهحل قبلی در حال بررسی است،. کار روی مشکل بعدی را آغاز میکند.
این خط لوله،. همراه با آموزش ناهمزمان که در آن چندین نمونه مدل بهطور موازی کار میکنند،.
استفاده از سختافزار را در خوشههای GPU گران قیمت به حداکثر میرساند. کمبود دادههای در حال پیشروی که میتواند پیشرفت مدل کدگذاری هوش مصنوعی را کند کند که در گزارش.
فنی لی وجود دارد،. یافتهای با پیامدهای مهم برای آینده توسعه هوش مصنوعی است:.
مجموعه دادههای آموزشی قابل تأیید برای NousCoder-1 در دسترس است. مشکلات برنامهنویسی رقابتی در قالب مجموعه داده استاندارد شده.
" به عبارت دیگر،. برای این حوزه خاص،.
محققان به محدودیتهای دادههای آموزشی با کیفیت بالا نزدیک میشوند. لی با اشاره به 24000 مشکل استفاده شده برای آموزش نوشت:.
"تعداد کل مشکلات برنامهنویسی رقابتی در اینترنت تقریباً یکسان است. " همانطور که لی بیان کرد، "بهطور فزایندهای محدود است.
وظایف زبان طبیعی که در آن ارزیابی انسانی یا معیارهای پروکسی کافی است،. کد یا کار میکند یا نمیکند – تولید دادههای مصنوعی را بهطور قابلتوجهی دشوارتر میکند.
لی یک راه بالقوه را شناسایی کرد:. مدلهای آموزشی نه فقط برای حل مشکلات،.
بلکه برای ایجاد مشکلات قابل حل،. امکان ایجاد نوعی خودبازی مشابه تکنیکهایی که در سیستمهای هوش مصنوعی بازی موفق بودند.
او نوشت:. «هنگامیکه تولید مشکل مصنوعی حل شود،.
خودبازی به یک مسیر بسیار جالب تبدیل میشود.» شرط 65 میلیون دلاری مبنی بر اینکه هوش مصنوعی منبع. باز میتواند با Big TechNous Research رقابت کند،.
موقعیت متمایز را در چشمانداز هوش مصنوعی ایجاد کرده است:. شرکتی متعهد به نسخههای منبعباز است که با جایگزینهای اختصاصی رقابت میکند - و گاهی اوقات فراتر.
میرود. پارادایم،.
شرکت سرمایه گذاری متمرکز بر ارزهای دیجیتال است که توسط بنیانگذار کوین بیس،. فرد اهرسام تأسیس شده است.
مجموع بر اساس برخی گزارشها، بودجه به 65 میلیون دلار رسیده است. این سرمایهگذاری نشاندهنده علاقه فزاینده به رویکردهای غیرمتمرکز آموزش هوش مصنوعی است،.
منطقهای که Nous Research پلتفرم روان خود را توسعه داده است. نسخههای قبلی شامل Hermes 4،.
خانوادهای از مدلهایی است که گزارش دادیم «بهتر از ChatGPT بدون محدودیت محتوا عمل میکنند» و DeepHermes-3،. که شرکت آن را بهعنوان اولین «تغییر روی مدل استدلالی» توصیف میکند – به کاربران اجازه میدهد تا.
ظرفیت فکری را افزایش دهند. زیبایی شناسی و جامعه متمایز،.
باعث ایجاد شک و تردید در مورد اینکه آیا سبک ممکن است بر ماده سایه افکنده باشد. یکی از منتقدان در X با اشاره به برندسازی سبک انیمیشن Nous Research و رویه صنعتی بهینهسازی برای.
عملکرد معیار،. نوشت:.
"Ofc من میخواهم یک شرکت pfp انیمه را باور کنم. بنچمارک maxxing ffs را متوقف کنید.
" "بر اساس معیار،. یکی از نظردهندهها با اشاره به خانواده مدلهای زبانی انویدیا،.
خاطرنشان کرد:. Nemotron بهتر است.» دیگری پرسید که آیا NousCoder-14B «برنامهنویسی متمرکز است یا فقط یک شات» - تمایزی که.
برای توسعه نرمافزار عملی مهم است،. جایی که تکرار بر روی بازخورد معمولاً نتایج بهتری نسبت به تلاشهای منفرد ایجاد میکند.
در حال حاضر،. مدل پس از ایجاد یک راهحل،.
فقط یک پاداش باینری دریافت میکند،. اما مشکلات برنامهنویسی رقابتی معمولاً شامل موارد آزمایشی عمومیمیشود:.
خطاهای کامپایل،. خطاهای نادرست در بازخوردهای زمانی میتواند بهطور قابل توجهی عملکرد را بهبود بخشد.
کنترل طول پاسخ نیز یک چالش باقی مانده است. محققان دریافتند که راهحلهای نادرست طولانیتر از راهحلهای صحیح هستند و طول پاسخها به سرعت پنجرههای زمینه موجود.
را در طول آموزش اشباع میکند - الگویی که اصلاحات الگوریتمیمختلف نتوانست آن را حل کند. شاید بلندپروازانهترین حالت،.
لی "تولید مشکل و خودبازی" - مدلهای آموزشی برای حل و ایجاد مشکلات برنامهنویسی را پیشنهاد کرد. این مشکل کمبود داده را مستقیماً با توانمندسازی مدلها برای تولید برنامههای درسی آموزشی برطرف میکند.» لی نوشت:.
«انسانها در ایجاد مشکلات جالب و مفید برای برنامهنویسان رقابتی عالی هستند،. اما به نظر میرسد که هنوز شکاف قابل توجهی در قابلیتهای LLM در تولید مشکلات خلاقانه وجود دارد.».
این مدل اکنون در Hugging Face تحت مجوز Apache 2. 0 در دسترس است.
برای محققان و توسعهدهندگانی که میخواهند بر روی این کار پیشرفت کنند،. Nous Research مجموعه کامل آموزشی Atropos را در کنار آن منتشر کرده است.
آنچه لی برای رسیدن به آن دو سال طول کشید - صعود از یک مبتدی در سطح 1600. به یک رقیب با رتبه 2100 در Codeforces - یک هوش مصنوعی که در 96 ساعت تکرار شد.
او به 1000 مشکل نیاز داشت. مدل 24000 نیاز داشت.
اما به زودی،. این سیستمها ممکن است یاد بگیرند که مشکلات خود را بنویسند،.
خود را آموزش دهند و معیارهای انسانی را بهطور کامل پشت سر بگذارند. سوال دیگر این نیست که آیا ماشینها میتوانند کدنویسی را یاد بگیرند یا خیر.
مهم این است که آیا آنها به زودی معلمان بهتری از ما خواهند شد.
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
