Hooshgate Referenceراهنمای نصبمتن‌بازبازبینی: 2026-04-24

مدل هاي local روي macOS

اگر قرار است local AI را روي مک جدي و قابل تکرار جلو ببريد، اين صفحه تفاوت Ollama، MLX و LM Studio را از نگاه hardware fit، developer workflow و مسير migration روشن مي کند.

بهترین کاربرد

Apple Silicon workstationها، تيم هاي developer يا knowledge worker که مي خواهند local pilot، coding workflow يا RAG سبک را بدون رفتن فوري به سرور Linux شروع کنند.

مسیر اجرا

Apple Silicon local-first

ملاحظه مهم

macOS نقطه شروع خوبي براي evaluation و workflow شخصي است، اما shared serving يا rollout چندکاربره را نبايد با production-ready بودن يکي گرفت؛ مخصوصا روي Intel Mac.

دسترسی سریع

پوشش صفحه قرارداد راهنما مرور آموزش نصب ران‌تایم عملیات ریسک‌ها مقایسه ارزیابی منابع

لایسنس

macOS local runtimes and open-weight models

پیچیدگی

ساده براي شروع، محدود براي scale

تسک‌ها

چت و دستیار • کدنویسی • RAG و دانش سازمانی

مودالیته‌ها

متن و چت • چندوجهی • Embedding / بردارسازی

پوشش واقعی

این صفحه چه packهایی را واقعاً پوشش می‌دهد؟

مرور مدل

کامل

این صفحه باید اول به‌عنوان مرجع شناخت، fit و boundary تصمیم‌گیری قابل اتکا باشد.

آموزش عملی

کامل

سناریوی شروع و مسیر استفاده اولیه روی همین صفحه آمده است.

نصب و راه‌اندازی

کامل

این صفحه برای setup و onboarding عمیق طراحی شده است.

راهنمای شروع local روی ویندوز، مک و لینوکس راهنمای Open WebUI + Ollama

serving و runtime

کامل

runtime و serving path در این نوع صفحه بخش اصلی decision surface است.

راهنمای شروع local روی ویندوز، مک و لینوکس راهنمای Open WebUI + Ollama

پیاده‌سازی

از طریق guide مرتبط

integration اینجا فقط تا حد اشاره آمده و عمق بیشتر در guideهای مرتبط است.

اکوسیستم MLX / mlx-lm اکوسیستم llama.cpp

سازگارسازی

تعریف نشده

در این نوع صفحه pack مستقلی برای fine-tuning تعریف نشده است.

استقرار

از طریق guide مرتبط

در این صفحه deployment فقط برای انتخاب direction آمده و جزئیات در guideهای مرتبط است.

اکوسیستم MLX / mlx-lm اکوسیستم llama.cpp

مقایسه

خلاصه روی همین صفحه

مقایسه در این نوع صفحه برای ایجاد context آمده، نه به‌عنوان matrix کامل.

ارزیابی

خلاصه روی همین صفحه

در setup guide ارزیابی بیشتر در حد readiness check می‌آید.

منابع رسمی

کامل

منابع رسمی و مسیر مطالعه بیشتر باید روی هر صفحه کامل و شفاف باشد.

قرارداد راهنما

این راهنما دقیقاً برای چه چیزی است و بعد از آن به کجا می‌رویم؟

بهترین کاربرد

مناسب نیست برای

پیش‌نیازها

Mac با Apple Silicon براي path اصلي يا Intel براي evaluation محدود، فضاي ديسک و RAM متناسب با مدل هاي واقعي شما، تعريف يک workload مشخص براي benchmark

خروجی مورد انتظار

پاسخ متني يا patch اوليه اي که latency، memory footprint و کيفيت آن روي همان دستگاه قابل ارزيابي باشد

مرحله 1 تا 3

اگر فقط بخواهید با حداقل ابهام شروع کنید، از این سه گام جلو بروید.

مرحله 1

اول تصميم بگيريد که speed of setup براي شما مهم تر است يا performance بومي Apple Silicon يا تجربه UI.

مرحله 2

براي شروع سريع Ollama را بالا بياوريد، براي path بومي Apple Silicon سراغ MLX برويد و براي UI يا local API ساده LM Studio را در نظر بگيريد.

مرحله 3

مدل را روي همان دستگاه واقعي با prompt يا query واقعي benchmark کنيد و token speed، memory headroom و quality را ثبت کنيد.

گام‌های بعدی پیشنهادی

اگر Mac path براي شما جواب داد، حالا local-models-setup را براي مقايسه با Windows و Linux مرور کنيد.
اگر مي خواهيد local path را به shared stack برسانيد، serving-stack-comparison و self-host-llm-production را باز کنيد.
براي UI و collaboration محدود، Open WebUI + Ollama را هم کنار اين guide ببينيد.

یادداشت‌های عملیاتی

workstation فردي
team pilot محدود
تصميم آگاهانه براي ماندن يا مهاجرت
پاک سازي artifactهاي بلااستفاده

سخت‌افزار / cost / runtime

Mac workstation
Apple Silicon Mac mini براي lab path
storage سريع براي artifactها
Apple Silicon يا Intel Mac با RAM مناسب

راهنماهای مرتبط

این guide به‌تنهایی پایان مسیر نیست. برای decision یا rollout بعدی یکی از این صفحه‌ها را باز کنید.

اکوسیستم / ابزار

اکوسیستم MLX / mlx-lm

MLX / mlx-lm برای تیم‌هایی مهم است که macOS و Apple Silicon را به‌عنوان مسیر واقعی local AI می‌بینند، نه فقط fallback development machine.

اکوسیستم / ابزار

اکوسیستم llama.cpp

llama.cpp برای وقتی مناسب است که کنترل دقیق روی GGUF، اجرای CPU-friendly، edge deployment یا بسته‌بندی محلی برایتان مهم‌تر از سادگی UX باشد.

راهنمای نصب

راهنمای شروع local روی ویندوز، مک و لینوکس

اگر نمی‌دانید برای local AI از کجا شروع کنید، این صفحه مسیر ساده‌تر را برای Windows، macOS و Linux روشن می‌کند و می‌گوید چه زمانی سراغ Ollama، LM Studio یا llama.cpp بروید.

مرور راهنما

این راهنما چه مسیری را روشن می‌کند؟

اين راهنما براي وقتي است که مي خواهيد local model را واقعا روي macOS راه بيندازيد، نه فقط چند screenshot يا demo ببينيد.

روي Apple Silicon، MLX و mlx-lm معمولا بهترين مسير براي استفاده بومي از حافظه و GPU مجتمع هستند؛ اما براي شروع سريع، Ollama friction کمتري دارد و براي UI و local server ساده، LM Studio جذاب تر است.

اگر هنوز use-case شما مبهم است، يک runtime را انتخاب کنيد و همان را با workload واقعي بسنجيد. نصب هم زمان سه stack معمولا فقط noise و سردرگمي مي سازد.

نقاط قوت

مسير مشخص براي Apple Silicon در برابر Intel Mac
مقايسه روشن بين CLI، local daemon و desktop UI
مناسب براي coding، RAG سبک و evaluation شخصي يا تيمي

محدودیت‌ها

shared concurrency و observability production روي macOS محدود است
مدل هاي بزرگ و contextهاي سنگين خيلي سريع به RAM و storage pressure مي رسند
Intel Mac براي workload جدي معمولا فقط نقش fallback يا evaluation سبک دارد

تفاوت کلیدی

سه نکته‌ای که این خانواده را از گزینه‌های هم‌رده جدا می‌کند.

نکته 1

در برابر راهنماي عمومي local، اين صفحه روی decision واقعي Mac-first متمرکز است.

نکته 2

در برابر Windows، محور تصميم اينجا Apple Silicon و MLX است نه WSL و driver path.

نکته 3

در برابر Linux self-host، اين صفحه براي pilot و workstation ارزش دارد، نه data plane چندکاربره.

برای چه مناسب است

Apple Silicon workstationها، تيم هاي developer يا knowledge worker که مي خواهند local pilot، coding workflow يا RAG سبک را بدون رفتن فوري به سرور Linux شروع کنند.
قرار است سريع و کم اصطکاک local AI را براي يک تيم يا فرد شروع کنيد.
Apple Silicon در دسترس داريد و مي خواهيد coding يا RAG سبک را بدون سرور جدا ارزيابي کنيد.
هنوز در فاز discovery هستيد و نمي خواهيد زود وارد GPU ops يا API spend شويد.

برای چه مناسب نیست

macOS نقطه شروع خوبي براي evaluation و workflow شخصي است، اما shared serving يا rollout چندکاربره را نبايد با production-ready بودن يکي گرفت؛ مخصوصا روي Intel Mac.
بار چندکاربره، shared serving جدي يا SLA production داريد.
فقط Intel Mac در اختيار داريد اما توقع throughput يا quality بالا داريد.
از روز اول بايد observability، autoscaling يا data plane مرکزي داشته باشيد.

آموزش عملی

اولين pilot دفاع پذير روي مک

راه اندازي يک workflow local براي coding assistant يا RAG سبک روي Apple Silicon

مرحله 1

يک use-case کوچک اما واقعي انتخاب کنيد؛ مثلا خلاصه سازي سند داخلي يا pair programming روي repo متوسط.

مرحله 2

بين Ollama، MLX يا LM Studio فقط يک path را به عنوان baseline انتخاب کنيد و مدل را با همان stack بسنجيد.

مرحله 3

سرعت توليد، memory pressure و quality خروجي را روي همان Mac واقعي ثبت کنيد؛ نه روي benchmarkهاي عمومي.

مرحله 4

اگر نتيجه دفاع پذير بود، local API را پشت backend يا IDE workflow خودتان قرار دهيد و فقط بعد از آن به shared path فکر کنيد.

نمونه ورودی

يک query واقعي RAG يا يک issue مهندسي کوچک روي repo داخلي

خروجی مورد انتظار

پاسخ متني يا patch اوليه اي که latency، memory footprint و کيفيت آن روي همان دستگاه قابل ارزيابي باشد

خطاهای رایج

اشتباه‌هایی که معمولاً باعث می‌شوند pilot یا implementation شکست بخورد.

نکته 1

شروع با مدل بيش از حد بزرگ معمولا باعث مي شود کل local path را زودتر از حد لازم کنار بگذاريد.

نکته 2

اگر چند runtime را هم زمان نصب و مقايسه مي کنيد، خطاهاي شما بيشتر از insightهايتان مي شود.

راهنمای نصب

راه اندازي local models روي macOS

Ollama سريع براي شروع

برای چه مناسب است

تيم يا فردي که مي خواهد ظرف چند دقيقه local pilot را بالا بياورد و بعد به app يا IDE وصل شود

کجا مناسب نیست

وقتي از روز اول روي Apple Silicon performance tuning يا throughput چندکاربره حساس هستيد

مسیر شروع

Ollama را نصب کنيد و فقط يک مدل سبک يا مياني را pull کنيد.
همان مدل را با prompt يا task واقعي خودتان اجرا بگيريد.
اگر latency قابل قبول بود، local API را پشت backend يا tool داخلي قرار دهيد.

نمونه دستور

ollama pull qwen3:4b

ollama run llama3.1:8b

trade-off

friction کمکنترل کمتر روي backend بوميmigration نسبتاً آسان به stackهاي ديگر

MLX / mlx-lm براي Apple Silicon

برای چه مناسب است

وقتي مي خواهيد از مزيت بومي Apple Silicon استفاده کنيد و model experimentation را جدي تر انجام دهيد

کجا مناسب نیست

اگر تيم هنوز runtimeهاي Python و artifact compatibility را نمي پذيرد يا Mac شما Intel است

مسیر شروع

يک مدل community-ready براي MLX انتخاب کنيد.
baseline را با generate يا chat واقعي روي همان Mac ثبت کنيد.
اگر quality و سرعت خوب بود، آن را داخل workflow coding يا retrieval خود قرار دهيد.

نمونه دستور

python -m mlx_lm.generate --model mlx-community/Qwen3-4B-4bit --prompt "Explain this diff"

trade-off

performance بومي بهتر روي Apple Siliconفاصله بيشتر با بعضي artifactها و runtimeهاي رايج Linuxنياز به درک بهتر از packaging مدل

LM Studio براي UI و local server

برای چه مناسب است

تحليلگرها، PMها يا تيم هايي که مي خواهند local model را با UI و local OpenAI-like server امتحان کنند

کجا مناسب نیست

وقتي workflow شما از ابتدا script-heavy يا automation-first است

مسیر شروع

فقط يک profile و يک مدل پيش فرض بسازيد.
local server را براي use-case محدود فعال کنيد.
قبل از توسعه بيشتر، memory pressure و context behavior را بسنجيد.

نمونه دستور

Open LM Studio and enable the local server only after your model baseline is clear

trade-off

onboarding ساده ترکنترل اتوماسيون کمتر از CLIمناسب براي team demos و pilot

پیش‌نیازها

Mac با Apple Silicon براي path اصلي يا Intel براي evaluation محدود
فضاي ديسک و RAM متناسب با مدل هاي واقعي شما
تعريف يک workload مشخص براي benchmark

محیط‌ها

macOS
Apple Silicon
Intel Mac
CLI
desktop UI

نکته‌های مهم

اگر Apple Silicon داريد و performance مهم است، MLX را حداقل يک بار کنار Ollama تست کنيد.
Intel Mac را بهتر است براي QA سبک، prompt review يا کاربر انفرادي ببينيد؛ نه براي stack اصلي تيم.

مرحله 1

اول تصميم بگيريد که speed of setup براي شما مهم تر است يا performance بومي Apple Silicon يا تجربه UI.

مرحله 2

مرحله 3

مدل را روي همان دستگاه واقعي با prompt يا query واقعي benchmark کنيد و token speed، memory headroom و quality را ثبت کنيد.

مرحله 4

وقتي baseline روشن شد، runtime را به IDE، backend يا RAG workflow خودتان وصل کنيد؛ نه قبل از آن.

فلو راه‌اندازی

یک نگاه سریع برای اینکه pilot را مرحله‌به‌مرحله جلو ببرید.

بلوک 1

اول تصميم بگيريد که speed of setup براي شما مهم تر است يا performance بومي Apple Silicon يا تجربه UI.

بلوک 2

بلوک 3

مدل را روي همان دستگاه واقعي با prompt يا query واقعي benchmark کنيد و token speed، memory headroom و quality را ثبت کنيد.

بلوک 4

وقتي baseline روشن شد، runtime را به IDE، backend يا RAG workflow خودتان وصل کنيد؛ نه قبل از آن.

نمونه دستورها

ollama pull qwen3:4b

python -m mlx_lm.generate --model mlx-community/Qwen3-4B-4bit --prompt "Summarize this file"

ollama serve

serving و runtime

کدام runtime روي مک مناسب تر است؟

اگر سؤال شما هنوز discovery و fit است، اول سراغ کم اصطکاک ترين path برويد نه پيچيده ترين.

اگر Apple Silicon داريد و هر ميلي ثانيه يا هر گيگابايت برايتان مهم است، MLX را کنار Ollama جدي بسنجيد.

اگر تيم شما UI و local server مي خواهد، LM Studio مي تواند onboarding را ساده کند اما جاي benchmark را نمي گيرد.

Ollama daemon

کجا مناسب است

pilot سريع، IDE integration و backendهاي سبک محلي
ساده و سريع
control کمتر نسبت به stackهاي تخصصي تر

کجا مناسب نیست

shared production يا observability عميق

مسیر شروع

گام 1

يک مدل سبک يا مياني pull کنيد.

گام 2

همان workload واقعي خودتان را روي آن اجرا کنيد.

گام 3

local API را فقط پشت backend يا tool داخلي مصرف کنيد.

hardware / fit

Apple Silicon يا Intel Mac با RAM مناسب

latency و cost

هزينه پولي کم است اما latency و quality مستقيما به سخت افزار و مدل انتخابي شما وابسته مي ماند.

MLX / mlx-lm

کجا مناسب است

Apple Silicon performance-sensitive evaluation و developer workflow
بومي و سريع
path تخصصي تر

کجا مناسب نیست

تيم هايي که مي خواهند همه چيز را شبيه Linux serving نگه دارند

مسیر شروع

گام 1

يک مدل compatible انتخاب کنيد.

گام 2

speed و memory را روي همان Mac ثبت کنيد.

گام 3

فقط بعد از benchmark سراغ integration برويد.

hardware / fit

Apple Silicon Mac

latency و cost

روي Apple Silicon مي تواند cost-to-performance خوبي بدهد، اما artifact و workflow compatibility را بايد جداگانه بسنجيد.

LM Studio local server

کجا مناسب است

local UI، analyst workflow و team evaluation
UI-friendly
low-friction onboarding

کجا مناسب نیست

automation-heavy يا serving جدي

مسیر شروع

گام 1

مدل را داخل UI انتخاب کنيد.

گام 2

local server را فقط براي use-case محدود فعال کنيد.

گام 3

context و memory behavior را ثبت کنيد.

hardware / fit

Mac workstation

latency و cost

اقتصاد اين مسير بيشتر با productivity و ease of use سنجيده مي شود تا با throughput.

عملیات production

نکته هاي عملياتي

فازهای rollout

workstation فردي
team pilot محدود
تصميم آگاهانه براي ماندن يا مهاجرت

امنیت و policy

secretها را بيرون از UI نگه داريد
در صورت استفاده از local API دسترسي شبکه را محدود کنيد

observability و review

token speed
crash rate
task acceptance
storage growth

maintenance و trade-off

پاک سازي artifactهاي بلااستفاده
بازبيني دوره اي مدل پيش فرض
بررسي migration readiness

ریسک‌های رایج

چیزهایی که معمولاً pilot یا rollout را خراب می‌کنند

pitfallهای اصلی

این نکته‌ها معمولاً همان جاهایی هستند که تیم‌ها قبل از رسیدن به value عملی زمین می‌خورند.

نکته 1

UI راحت يا install سريع نبايد شما را از benchmark واقعي بي نياز جلوه دهد.

نکته 2

shared path روي Mac بدون queueing، logging و owner روشن خيلي سريع شکننده مي شود.

مقایسه

چه زماني macOS local path بهترين انتخاب است؟

وقتی این مسیر انتخاب خوبی است

قرار است سريع و کم اصطکاک local AI را براي يک تيم يا فرد شروع کنيد.
Apple Silicon در دسترس داريد و مي خواهيد coding يا RAG سبک را بدون سرور جدا ارزيابي کنيد.
هنوز در فاز discovery هستيد و نمي خواهيد زود وارد GPU ops يا API spend شويد.

وقتی باید مسیر دیگری را انتخاب کرد

بار چندکاربره، shared serving جدي يا SLA production داريد.
فقط Intel Mac در اختيار داريد اما توقع throughput يا quality بالا داريد.
از روز اول بايد observability، autoscaling يا data plane مرکزي داشته باشيد.

نقشه تصمیم

اگر هنوز بین این خانواده و گزینه‌های رقیب مردد هستید، از این trade-off path شروع کنید.

بلوک 1

بلوک 2

Apple Silicon local-first

بلوک 3

راهنماي شروع local روي ويندوز، مک و لينوکس

چه زمانی مدل هاي local روي macOS بهتر است

براي Mac-specific decision و Apple Silicon دقيق تر است.

چه زمانی گزینه مقابل بهتر است

براي overview سريع بين سه سيستم عامل، guide عمومي بهتر است.

مدل هاي local روي ويندوز

چه زمانی مدل هاي local روي macOS بهتر است

براي Apple Silicon، MLX و local Mac UX مناسب تر است.

چه زمانی گزینه مقابل بهتر است

اگر تيم شما روي Windows و WSL مي چرخد، آن صفحه مستقيم تر است.

راهنماي self-host روي لينوکس

چه زمانی مدل هاي local روي macOS بهتر است

براي pilot محلي و workbench بهتر است.

چه زمانی گزینه مقابل بهتر است

براي shared serving و rollout production، Linux دقيق تر و پايدارتر است.

ارزیابی

Checklist ارزيابي روي مک

مرحله 1

همان workload واقعي خودتان را روي همان Mac benchmark کنيد.

مرحله 2

memory headroom و storage usage را کنار quality ثبت کنيد.

مرحله 3

first-token latency را جدا از throughput نگاه کنيد.

مرحله 4

اگر نتيجه خوب بود، migration يا shared path بعدي را هم از حالا مشخص کنيد.

منابع رسمی

منابع رسمی و مسیر مطالعه بیشتر

Ollama docs

https://docs.ollama.com/

mlx-lm README

https://github.com/ml-explore/mlx-lm

LM Studio docs

https://lmstudio.ai/docs