TL;DR
- 23 سپتامبر 2025 Ollama اکنون شامل یک سیستم برنامهریزی مدل بهطور قابل توجهی بهبود یافته است.
- پیش از اجرای یک مدل،.
- موتور جدید اولاما اکنون مقدار دقیق حافظه مورد نیاز را در مقایسه با برآورد نسخههای قبلی Ollama.
چه اتفاقی افتاد
23 سپتامبر 2025 Ollama اکنون شامل یک سیستم برنامهریزی مدل بهطور قابل توجهی بهبود یافته است. پیش از اجرای یک مدل،.
موتور جدید اولاما اکنون مقدار دقیق حافظه مورد نیاز را در مقایسه با برآورد نسخههای قبلی Ollama. اندازهگیری میکند.
این چندین مزیت دارد:. کاهش قابل توجه خرابیها به دلیل مشکلات کمبود حافظه:.
از آنجایی که مدیریت حافظه دقیق است،. تخصیص بیش از حد دیگر رخ نمیدهد به این معنی که مشکلات حافظه کمتر است.
به حداکثر رساندن استفاده از GPU:. مدیریت حافظه جدید Olama حافظه بیشتری را به GPU اختصاص میدهد و تولید توکن و سرعت پردازش.
را افزایش میدهد. عملکرد چند GPU:.
Ollama اکنون مدلها را بهطور مؤثرتری بر روی چندین پردازنده گرافیکی برنامهریزی میکند،. و بهطور قابلتوجهی عملکرد چند GPU و عدم تطابق GPU را بهبود میبخشد.
گزارشدهی دقیق:. اندازهگیریها در ابزارهایی مانند nvidia-smi اکنون با ollama ps مطابقت دارند و ردیابی میزان استفاده از حافظه در.
سیستم شما را آسان میکنند. همه مدلهای پیادهسازیشده در موتور جدید اوللاما اکنون این ویژگی جدید را بهطور پیشفرض فعال کردهاند،.
و مدلهای بیشتری بهزودی به محض انتقال به موتور جدید اوللاما عرضه میشوند. نمونهها زمینه طولانی پردازنده گرافیکی:.
1x NVIDIA GeForce RTX 4090 مدل:. gemma3:.
12b طول متن:. 128k قدیمیجدید سرعت تولید توکن 52.
02 توکن در ثانیه سرعت تولید توکن 85. 54 توکن در ثانیه 19.
9 گیگابایت VRAM 21. 4 گیگابایت VRAM 48⁄49 لایه روی GPU بارگذاری شده است 49⁄49 لایه روی GPU بارگذاری شده است ورودی.
تصویر پردازنده گرافیکی:. 2x NVIDIA GeForce RTX 4090 مدل:.
mistral-small3. 2 طول متن: 32k سرعت ارزیابی سریع 127.
84 توکن در ثانیه سرعت ارزیابی سریع 1380. 24 توکن در ثانیه سرعت تولید توکن 43.
15 توکن در ثانیه سرعت تولید توکن 55. 61 توکن در ثانیه 40⁄41 لایه روی GPU بارگذاری شده است 41⁄41 لایه بارگذاری شده بر روی مدل.
GPU + vision مدلهای پشتیبانی شده همه مدلهای پیادهسازی شده در موتور جدید Olama از ویژگیهای مدیریت. حافظه جدید استفاده میکنند:.
gpt-oss llama4،. llama3.
2-vision (به زودی: llama3. 2، llama3.
1، llama3) gemma3، embeddinggemma، gemma3n qwen3، qwen2. 5vl (به زودی: qwen3-coder) mistral-small3.
تمام مینیلم و سایر مدلهای تعبیه شده.
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
