TL;DR
- امروز،.
- ما در حال پیشنمایش سریعترین راه برای اجرای Olama بر روی سیلیکون اپل هستیم که توسط MLX،.
- چارچوب یادگیری ماشینی اپل پشتیبانی میشود.
چه اتفاقی افتاد
امروز،. ما در حال پیشنمایش سریعترین راه برای اجرای Olama بر روی سیلیکون اپل هستیم که توسط MLX،.
چارچوب یادگیری ماشینی اپل پشتیبانی میشود. این عملکرد جدید را برای سرعت بخشیدن به سختترین کار شما در macOS باز میکند:.
دستیارهای شخصی مانند OpenClaw عوامل برنامهنویسی مانند Claude Code،. OpenCode یا Codex عوامل برنامهنویسی مانند Pi یا Claude Code را تسریع کنید OpenClaw اکنون بسیار سریعتر.
پاسخ میدهد سریعترین عملکرد در سیلیکون اپل،. با قدرت MLX Ollama روی سیلیکون اپل اکنون در بالای چارچوب یادگیری ماشین اپل،.
MLX،. ساخته شده است تا از معماری حافظه یکپارچه آن استفاده کند.
این منجر به افزایش سرعت Ollama در تمام دستگاههای Apple Silicon میشود. در تراشههای M5،.
M5 Pro و M5 Max اپل،. Ollama از شتابدهندههای عصبی GPU جدید استفاده میکند تا هم زمان تا اولین توکن (TTFT) و هم سرعت.
تولید (توکنها در ثانیه) را افزایش دهد. عملکرد پیش پر کردن 0 500 1000 1500 2000 نشانه/ها 1810 اولاما 0.
19 1154 18 رمزگشایی عملکرد 40 80 120 160 112 58 آزمایش در 29 مارس 2026 با استفاده. از مدل Qwen3.
5-35B-A3B Alibaba که به NVFP4 کوانتیزه شده و اجرای قبلی Ollama با استفاده از Ollama 0. 18 به Q4_K_M کوانتیزه شده انجام شد.
Ollama 0. 19 حتی عملکرد بالاتری خواهد داشت (1851 توکن/ثانیه پیش پر کردن و 134 توکن/ثانیه رمزگشایی هنگام اجرا با.
کوانتیشن int4). پشتیبانی از NVFP4:.
پاسخهای با کیفیت بالاتر و برابری تولید Ollama اکنون از فرمت NVFP4 NVIDIA برای حفظ دقت مدل. و در عین حال کاهش پهنای باند حافظه و نیازهای ذخیره سازی برای بارهای کاری استنتاج استفاده می.
کند. از آنجایی که ارائه دهندگان استنتاج بیشتر استنتاج را با استفاده از قالب NVFP4 مقیاس میکنند،.
این به کاربران Ollama اجازه میدهد تا همان نتایجی را که در یک محیط تولید انجام می. دهند به اشتراک بگذارند.
علاوه بر این،. Olama را قادر میسازد تا مدلهای بهینه شده توسط بهینه ساز مدل NVIDIA را اجرا کند.
سایر دقتها براساس هدف طراحی و استفاده از شرکای تحقیقاتی و سختافزاری Olama در دسترس خواهد بود. حافظه پنهان بهبود یافته برای پاسخگویی بیشتر حافظه پنهان اولاما برای کارآمدتر کردن کدنویسی و وظایف عامل ارتقا.
یافته است. استفاده کمتر از حافظه:.
Ollama اکنون از حافظه پنهان خود در میان مکالمات استفاده مجدد خواهد کرد،. به این معنی که هنگام استفاده از یک سیستم به اشتراک گذاشته شده با ابزارهایی مانند Claude Code،.
استفاده از حافظه کمتر و بازدیدهای حافظه پنهان بیشتر هنگام انشعاب کردن. پستهای بازرسی هوشمند:.
Ollama اکنون عکسهای فوری از حافظه پنهان خود را در مکانهای هوشمند در اعلان ذخیره میکند،. که منجر به پردازش سریعتر و پاسخهای سریعتر میشود.
تخلیه هوشمندتر: پیشوندهای مشترک حتی زمانی که شاخههای قدیمیتر حذف میشوند، بیشتر زنده میمانند. شروع کنید دانلود Olama 0.
این نسخه پیشنمایش Ollama مدل جدید Qwen3. 5-35B-A3B را با پارامترهای نمونهگیری تنظیمشده برای کارهای کدگذاری سرعت میبخشد.
لطفاً مطمئن شوید که یک مک با بیش از 32 گیگابایت حافظه یکپارچه دارید. کد کلود: olama launch claude --model qwen3.
5: 35b-a3b-coding-nvfp4 OpenClaw: olama راه اندازی openclaw --model qwen3. چت با مدل: olama qwen3.
5:. 35b-a3b-coding-nvfp4 را اجرا کرد مدلهای آینده ما فعالانه در حال کار برای حمایت از مدلهای آینده.
هستیم. برای کاربرانی با مدلهای سفارشی که روی معماریهای پشتیبانیشده بهخوبی تنظیم شدهاند،.
راه آسانتری برای وارد کردن مدلها به Ollama معرفی میکنیم. در همین حال، ما لیست معماریهای پشتیبانی شده را گسترش خواهیم داد.
قدردانیها با تشکر از:. تیم مشارکت کننده MLX که یک چارچوب شتاب باورنکردنی ساخت مشارکت کنندگان NVIDIA در کوانتیزاسیون NVFP4،.
بهینه ساز مدل NVFP4،. پشتیبانی از MLX CUDA،.
بهینهسازی و آزمایش Ollama تیم GGML & llama. cpp که یک چارچوب و جامعه محلی پررونق ایجاد کرد تیم Alibaba Qwen برای مدلهای عالی منبع.
باز و همکاری آنها.
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
