Metaخانواده مدلوزن‌بازبازبینی: 2026-04-22

خانواده Llama

Llama یکی از مهم‌ترین خانواده‌های open-weight برای self-host، سفارشی‌سازی و ساخت stack مستقل سازمانی است.

بهترین کاربرد

تیم‌هایی که می‌خواهند مدل را داخل زیرساخت خودشان اجرا کنند، quantize کنند، LoRA بزنند و control بیشتری روی داده و serving داشته باشند.

مسیر اجرا

self-host قوی

ملاحظه مهم

راه‌اندازی حرفه‌ای Llama بدون شناخت vLLM، quantization، monitoring و hardware sizing به‌هم می‌ریزد.

دسترسی سریع

پوشش صفحه مرور آموزش مسیر عملی سازگارسازی مقایسه ارزیابی منابع

لایسنس

Meta community / open-weight

پیچیدگی

عملیاتی‌تر از API مدل‌ها

تسک‌ها

چت و دستیار • استدلال و تحلیل • کدنویسی

مودالیته‌ها

متن و چت • چندوجهی

پوشش واقعی

این صفحه چه packهایی را واقعاً پوشش می‌دهد؟

مرور مدل

کامل

این صفحه باید اول به‌عنوان مرجع شناخت، fit و boundary تصمیم‌گیری قابل اتکا باشد.

آموزش عملی

کامل

سناریوی شروع و مسیر استفاده اولیه روی همین صفحه آمده است.

نصب و راه‌اندازی

خلاصه روی همین صفحه

روی family page فقط مسیرهای recommended و trade-offها آمده تا browse و selection تمیز بماند.

اکوسیستم Hugging Face Transformers stack

serving و runtime

خلاصه روی همین صفحه

این pack در سطح family/reference خلاصه شده تا انتخاب مسیر اجرا سریع‌تر شود.

اکوسیستم Hugging Face Transformers stack

پیاده‌سازی

خلاصه روی همین صفحه

روی family page فقط patternها و بلوک‌های معماری اصلی برای انتخاب سریع آمده است.

اکوسیستم Hugging Face Transformers stack

سازگارسازی

خلاصه روی همین صفحه

روی family page فقط fit و caveatهای tuning گفته می‌شود؛ playbook عمیق باید جداگانه دنبال شود.

استقرار

خلاصه روی همین صفحه

روی family/reference page فقط deployment fit، cost و caveatهای اصلی آمده است.

اکوسیستم Hugging Face Transformers stack

مقایسه

کامل

این صفحه باید به تصمیم‌گیری بین گزینه‌ها کمک کند، نه صرفاً معرفی.

ارزیابی

کامل

بدون eval و quality gate این hub نباید overclaim کند؛ بنابراین checklist ارزیابی روی صفحه آمده است.

منابع رسمی

کامل

منابع رسمی و مسیر مطالعه بیشتر باید روی هر صفحه کامل و شفاف باشد.

مرور مدل

این مدل چیست و کجا می‌درخشد؟

اگر هدفتان استقلال زیرساختی، انعطاف deployment و adaptation است، Llama تقریباً همیشه در shortlist می‌آید.

Llama فقط یک مدل نیست؛ یک ecosystem کامل از وزن‌ها، quantizationها، runtimeها و toolingها دور آن شکل گرفته است.

در Hooshgate این خانواده را برای سازمان‌هایی مهم می‌دانیم که data residency، هزینه inference یا نیاز به fine-tuning برایشان کلیدی است.

نقاط قوت

self-host و quantization گسترده
پشتیبانی وسیع در vLLM، Transformers، Ollama و llama.cpp
برای LoRA، domain tuning و stackهای on-prem مناسب
community و ecosystem بسیار غنی

محدودیت‌ها

راه‌اندازی production نیازمند دانش زیرساختی است
کیفیت نهایی شدیداً به size، quantization و serving stack وابسته است
license را باید دقیق بخوانید؛ open-weight با open-source یکی نیست

تفاوت کلیدی

سه نکته‌ای که این خانواده را از گزینه‌های هم‌رده جدا می‌کند.

نکته 1

در برابر GPT/Claude، control بیشتر اما burden عملیاتی بالاتر می‌دهد.

نکته 2

در برابر Qwen، ecosystem جهانی و ابزارهای پیرامونی جاافتاده‌تری دارد.

نکته 3

در برابر Mistral، community deployment variety معمولاً بیشتر است.

برای چه مناسب است

تیم‌هایی که می‌خواهند مدل را داخل زیرساخت خودشان اجرا کنند، quantize کنند، LoRA بزنند و control بیشتری روی داده و serving داشته باشند.
وقتی data residency و self-host مهم است
وقتی می‌خواهید LoRA یا quantization انجام دهید
وقتی volume بالا دارید و می‌خواهید economics inference را کنترل کنید

برای چه مناسب نیست

راه‌اندازی حرفه‌ای Llama بدون شناخت vLLM، quantization، monitoring و hardware sizing به‌هم می‌ریزد.
وقتی تیم شما تجربه serving و MLOps ندارد
وقتی سرعت رسیدن به MVP مهم‌تر از استقلال زیرساختی است

آموزش عملی

اولین workflow عملی با Llama

ساخت دستیار دانش داخلی روی سرور خودتان

مرحله 1

مدل را بر اساس VRAM و latency target انتخاب کنید، نه صرفاً benchmark headline.

مرحله 2

برای شروع، یک runtime روشن مثل Ollama یا vLLM انتخاب کنید و stack را پیچیده نکنید.

مرحله 3

RAG، policy layer و logging را خارج از مدل طراحی کنید.

مرحله 4

قبل از production، همان prompt و dataset را روی quantizationهای مختلف بسنجید.

نمونه ورودی

پاسخ به سوالات کارکنان بر اساس handbook داخلی با citation.

خروجی مورد انتظار

پاسخ باید شامل answer، source passage و confidence note باشد؛ نه صرفاً یک پاراگراف آزاد.

خطاهای رایج

اشتباه‌هایی که معمولاً باعث می‌شوند pilot یا implementation شکست بخورد.

نکته 1

انتخاب مدل فقط بر اساس parameter count معمولاً تصمیم بدی است.

نکته 2

بدون monitoring و prompt versioning، rollout سریعاً بی‌ثبات می‌شود.

مسیر عملی

setup، runtime، integration و deployment در این family

مسیرهای setup

pilot محلی: discovery، prompt testing و single-user evaluation
self-host عملیاتی: data residency، volume پایدار، customization یا economics قابل‌پیش‌بینی

انتخاب runtime و serving path

local run: pilot محلی، prompt workshop و team evaluation
self-host: data residency، workload پایدار، custom serving و optimization اقتصادی در scale

مسیرهای integration

backend integration: اکثر appها و workflowهای جدی که باید provider/runtime را پشت backend پنهان کنند
RAG / document integration: دانش سازمانی، policy assistant و workflowهای سندمحور
enterprise workflow: محصولات چندتیمی، taskهای حساس و rollout مرحله‌ای

یادداشت deployment

vLLM برای throughput production
Ollama برای prototype و workstation
مدیریت مدل، tokenizer و prompt template را versioned نگه دارید
cold start و memory fragmentation را جدی بگیرید
Llama زمانی به‌صرفه می‌شود که utilization خوب، quantization مناسب و workload نسبتاً پایدار داشته باشید.

production و ریسک

offline eval و success criteria
staging با tracing و feature flag
artifact trust، network policy و access control را قبل از launch روشن کنید.
انتخاب مدل فقط بر اساس parameter count معمولاً تصمیم بدی است.
بدون monitoring و prompt versioning، rollout سریعاً بی‌ثبات می‌شود.

guideهای مکمل برای عمق بیشتر

روی family page فقط decision layer آمده است. برای playbook عمیق‌تر یکی از مسیرهای زیر را باز کنید.

setup و onboarding

اکوسیستم Hugging Face

Hugging Face یک ابزار واحد نیست؛ لایه‌ای است که model discovery، artifact management، dataset handling، docs و deployment path بسیاری از تیم‌های open-weight را به هم وصل می‌کند.

Transformers stack

Transformers stack زمانی مناسب است که می‌خواهید روی اجرای مدل، pre/post-processing و training/inference workflow کنترل عمیق داشته باشید و حاضر باشید از سادگی runtimeهای turnkey صرف‌نظر کنید.

integration و implementation

اکوسیستم Hugging Face

Transformers stack

deployment و serving

اکوسیستم Hugging Face

Transformers stack

سازگارسازی

Fine-tuning

وضعیت پشتیبانی

LoRA، QLoRA و full fine-tuning بسته به اندازه مدل و بودجه

مسیرهای پیشنهادی

LoRA برای adaptation سریع
QLoRA برای کاهش نیاز VRAM
full fine-tuning فقط برای تیم‌های با maturity بالا

یادداشت‌های عملیاتی

اغلب تیم‌ها باید با LoRA شروع کنند نه full fine-tune.
قبل از tuning، baseline prompt + RAG را کامل ارزیابی کنید.

مقایسه

چه زمانی Llama انتخاب درستی است؟

وقتی این مدل انتخاب خوبی است

وقتی data residency و self-host مهم است
وقتی می‌خواهید LoRA یا quantization انجام دهید
وقتی volume بالا دارید و می‌خواهید economics inference را کنترل کنید

وقتی باید سراغ گزینه دیگر رفت

وقتی تیم شما تجربه serving و MLOps ندارد
وقتی سرعت رسیدن به MVP مهم‌تر از استقلال زیرساختی است

نقشه تصمیم

اگر هنوز بین این خانواده و گزینه‌های رقیب مردد هستید، از این trade-off path شروع کنید.

بلوک 1

بلوک 2

self-host قوی

بلوک 3

راه‌اندازی حرفه‌ای Llama بدون شناخت vLLM، quantization، monitoring و hardware sizing به‌هم می‌ریزد.

GPT

چه زمانی خانواده Llama بهتر است

برای کنترل کامل داده و serving، Llama جلوتر است.

چه زمانی گزینه مقابل بهتر است

برای time-to-market و عملیات ساده، GPT مناسب‌تر است.

Qwen

چه زمانی خانواده Llama بهتر است

اگر ecosystem بالغ‌تر و runtime variety می‌خواهید، Llama برتری دارد.

چه زمانی گزینه مقابل بهتر است

برای برخی workloads چندزبانه و reasoning، Qwen می‌تواند جذاب‌تر باشد.

Mistral

چه زمانی خانواده Llama بهتر است

برای diversity بیشتر community packages و local tooling.

چه زمانی گزینه مقابل بهتر است

اگر stack شما به مدل‌های تخصصی‌تر مثل Codestral/Pixtral نیاز دارد، Mistral مناسب‌تر است.

ارزیابی

Checklist ارزیابی

مرحله 1

quality را روی هر quantization tier جدا بسنجید

مرحله 2

throughput و latency را با concurrency واقعی تست کنید

مرحله 3

در eval، پاسخ‌های بدون citation را failure حساب کنید

مرحله 4

هزینه GPU را به cost per successful task تبدیل کنید

منابع رسمی

منابع رسمی و مسیر مطالعه بیشتر

Meta Llama official HF org

https://huggingface.co/meta-llama

Meta Llama overview

https://ai.meta.com/llama/