Metaخانواده مدلوزن‌بازبازبینی: 2026-04-22

خانواده Llama

Llama یکی از مهم‌ترین خانواده‌های open-weight برای self-host، سفارشی‌سازی و ساخت stack مستقل سازمانی است.

بهترین کاربرد

تیم‌هایی که می‌خواهند مدل را داخل زیرساخت خودشان اجرا کنند، quantize کنند، LoRA بزنند و control بیشتری روی داده و serving داشته باشند.

مسیر اجرا

self-host قوی

ملاحظه مهم

راه‌اندازی حرفه‌ای Llama بدون شناخت vLLM، quantization، monitoring و hardware sizing به‌هم می‌ریزد.

دسترسی سریع

لایسنس

Meta community / open-weight

پیچیدگی

عملیاتی‌تر از API مدل‌ها

تسک‌ها

چت و دستیار • استدلال و تحلیل • کدنویسی

مودالیته‌ها

متن و چت • چندوجهی

پوشش واقعی

این صفحه چه packهایی را واقعاً پوشش می‌دهد؟

مرور مدل

کامل

این صفحه باید اول به‌عنوان مرجع شناخت، fit و boundary تصمیم‌گیری قابل اتکا باشد.

آموزش عملی

کامل

سناریوی شروع و مسیر استفاده اولیه روی همین صفحه آمده است.

نصب و راه‌اندازی

خلاصه روی همین صفحه

روی family page فقط مسیرهای recommended و trade-offها آمده تا browse و selection تمیز بماند.

serving و runtime

خلاصه روی همین صفحه

این pack در سطح family/reference خلاصه شده تا انتخاب مسیر اجرا سریع‌تر شود.

پیاده‌سازی

خلاصه روی همین صفحه

روی family page فقط patternها و بلوک‌های معماری اصلی برای انتخاب سریع آمده است.

سازگارسازی

خلاصه روی همین صفحه

روی family page فقط fit و caveatهای tuning گفته می‌شود؛ playbook عمیق باید جداگانه دنبال شود.

استقرار

خلاصه روی همین صفحه

روی family/reference page فقط deployment fit، cost و caveatهای اصلی آمده است.

مقایسه

کامل

این صفحه باید به تصمیم‌گیری بین گزینه‌ها کمک کند، نه صرفاً معرفی.

ارزیابی

کامل

بدون eval و quality gate این hub نباید overclaim کند؛ بنابراین checklist ارزیابی روی صفحه آمده است.

منابع رسمی

کامل

منابع رسمی و مسیر مطالعه بیشتر باید روی هر صفحه کامل و شفاف باشد.

مرور مدل

این مدل چیست و کجا می‌درخشد؟

اگر هدفتان استقلال زیرساختی، انعطاف deployment و adaptation است، Llama تقریباً همیشه در shortlist می‌آید.

Llama فقط یک مدل نیست؛ یک ecosystem کامل از وزن‌ها، quantizationها، runtimeها و toolingها دور آن شکل گرفته است.

در Hooshgate این خانواده را برای سازمان‌هایی مهم می‌دانیم که data residency، هزینه inference یا نیاز به fine-tuning برایشان کلیدی است.

نقاط قوت

  • self-host و quantization گسترده
  • پشتیبانی وسیع در vLLM، Transformers، Ollama و llama.cpp
  • برای LoRA، domain tuning و stackهای on-prem مناسب
  • community و ecosystem بسیار غنی

محدودیت‌ها

  • راه‌اندازی production نیازمند دانش زیرساختی است
  • کیفیت نهایی شدیداً به size، quantization و serving stack وابسته است
  • license را باید دقیق بخوانید؛ open-weight با open-source یکی نیست

تفاوت کلیدی

سه نکته‌ای که این خانواده را از گزینه‌های هم‌رده جدا می‌کند.

نکته 1

در برابر GPT/Claude، control بیشتر اما burden عملیاتی بالاتر می‌دهد.

نکته 2

در برابر Qwen، ecosystem جهانی و ابزارهای پیرامونی جاافتاده‌تری دارد.

نکته 3

در برابر Mistral، community deployment variety معمولاً بیشتر است.

برای چه مناسب است

  • تیم‌هایی که می‌خواهند مدل را داخل زیرساخت خودشان اجرا کنند، quantize کنند، LoRA بزنند و control بیشتری روی داده و serving داشته باشند.
  • وقتی data residency و self-host مهم است
  • وقتی می‌خواهید LoRA یا quantization انجام دهید
  • وقتی volume بالا دارید و می‌خواهید economics inference را کنترل کنید

برای چه مناسب نیست

  • راه‌اندازی حرفه‌ای Llama بدون شناخت vLLM، quantization، monitoring و hardware sizing به‌هم می‌ریزد.
  • وقتی تیم شما تجربه serving و MLOps ندارد
  • وقتی سرعت رسیدن به MVP مهم‌تر از استقلال زیرساختی است

آموزش عملی

اولین workflow عملی با Llama

ساخت دستیار دانش داخلی روی سرور خودتان

مرحله 1

مدل را بر اساس VRAM و latency target انتخاب کنید، نه صرفاً benchmark headline.

مرحله 2

برای شروع، یک runtime روشن مثل Ollama یا vLLM انتخاب کنید و stack را پیچیده نکنید.

مرحله 3

RAG، policy layer و logging را خارج از مدل طراحی کنید.

مرحله 4

قبل از production، همان prompt و dataset را روی quantizationهای مختلف بسنجید.

نمونه ورودی

پاسخ به سوالات کارکنان بر اساس handbook داخلی با citation.

خروجی مورد انتظار

پاسخ باید شامل answer، source passage و confidence note باشد؛ نه صرفاً یک پاراگراف آزاد.

خطاهای رایج

اشتباه‌هایی که معمولاً باعث می‌شوند pilot یا implementation شکست بخورد.

نکته 1

انتخاب مدل فقط بر اساس parameter count معمولاً تصمیم بدی است.

نکته 2

بدون monitoring و prompt versioning، rollout سریعاً بی‌ثبات می‌شود.

مسیر عملی

setup، runtime، integration و deployment در این family

مسیرهای setup

  • pilot محلی: discovery، prompt testing و single-user evaluation
  • self-host عملیاتی: data residency، volume پایدار، customization یا economics قابل‌پیش‌بینی

انتخاب runtime و serving path

  • local run: pilot محلی، prompt workshop و team evaluation
  • self-host: data residency، workload پایدار، custom serving و optimization اقتصادی در scale

مسیرهای integration

  • backend integration: اکثر appها و workflowهای جدی که باید provider/runtime را پشت backend پنهان کنند
  • RAG / document integration: دانش سازمانی، policy assistant و workflowهای سندمحور
  • enterprise workflow: محصولات چندتیمی، taskهای حساس و rollout مرحله‌ای

یادداشت deployment

  • vLLM برای throughput production
  • Ollama برای prototype و workstation
  • مدیریت مدل، tokenizer و prompt template را versioned نگه دارید
  • cold start و memory fragmentation را جدی بگیرید
  • Llama زمانی به‌صرفه می‌شود که utilization خوب، quantization مناسب و workload نسبتاً پایدار داشته باشید.

production و ریسک

  • offline eval و success criteria
  • staging با tracing و feature flag
  • artifact trust، network policy و access control را قبل از launch روشن کنید.
  • انتخاب مدل فقط بر اساس parameter count معمولاً تصمیم بدی است.
  • بدون monitoring و prompt versioning، rollout سریعاً بی‌ثبات می‌شود.

guideهای مکمل برای عمق بیشتر

روی family page فقط decision layer آمده است. برای playbook عمیق‌تر یکی از مسیرهای زیر را باز کنید.

سازگارسازی

Fine-tuning

وضعیت پشتیبانی

LoRA، QLoRA و full fine-tuning بسته به اندازه مدل و بودجه

مسیرهای پیشنهادی

  • LoRA برای adaptation سریع
  • QLoRA برای کاهش نیاز VRAM
  • full fine-tuning فقط برای تیم‌های با maturity بالا

یادداشت‌های عملیاتی

  • اغلب تیم‌ها باید با LoRA شروع کنند نه full fine-tune.
  • قبل از tuning، baseline prompt + RAG را کامل ارزیابی کنید.

مقایسه

چه زمانی Llama انتخاب درستی است؟

وقتی این مدل انتخاب خوبی است

  • وقتی data residency و self-host مهم است
  • وقتی می‌خواهید LoRA یا quantization انجام دهید
  • وقتی volume بالا دارید و می‌خواهید economics inference را کنترل کنید

وقتی باید سراغ گزینه دیگر رفت

  • وقتی تیم شما تجربه serving و MLOps ندارد
  • وقتی سرعت رسیدن به MVP مهم‌تر از استقلال زیرساختی است

نقشه تصمیم

اگر هنوز بین این خانواده و گزینه‌های رقیب مردد هستید، از این trade-off path شروع کنید.

بلوک 1

تیم‌هایی که می‌خواهند مدل را داخل زیرساخت خودشان اجرا کنند، quantize کنند، LoRA بزنند و control بیشتری روی داده و serving داشته باشند.

بلوک 2

self-host قوی

بلوک 3

راه‌اندازی حرفه‌ای Llama بدون شناخت vLLM، quantization، monitoring و hardware sizing به‌هم می‌ریزد.

GPT

چه زمانی خانواده Llama بهتر است

برای کنترل کامل داده و serving، Llama جلوتر است.

چه زمانی گزینه مقابل بهتر است

برای time-to-market و عملیات ساده، GPT مناسب‌تر است.

Qwen

چه زمانی خانواده Llama بهتر است

اگر ecosystem بالغ‌تر و runtime variety می‌خواهید، Llama برتری دارد.

چه زمانی گزینه مقابل بهتر است

برای برخی workloads چندزبانه و reasoning، Qwen می‌تواند جذاب‌تر باشد.

Mistral

چه زمانی خانواده Llama بهتر است

برای diversity بیشتر community packages و local tooling.

چه زمانی گزینه مقابل بهتر است

اگر stack شما به مدل‌های تخصصی‌تر مثل Codestral/Pixtral نیاز دارد، Mistral مناسب‌تر است.

ارزیابی

Checklist ارزیابی

مرحله 1

quality را روی هر quantization tier جدا بسنجید

مرحله 2

throughput و latency را با concurrency واقعی تست کنید

مرحله 3

در eval، پاسخ‌های بدون citation را failure حساب کنید

مرحله 4

هزینه GPU را به cost per successful task تبدیل کنید

منابع رسمی

منابع رسمی و مسیر مطالعه بیشتر