Mistral AIخانواده مدلوزن‌بازبازبینی: 2026-04-22

Pixtral

Pixtral برای تیم‌هایی مناسب است که vision + text را با امکان self-host می‌خواهند و نمی‌خواهند برای OCR، سندخوانی و VLM صرفاً به APIهای بسته متکی بمانند.

بهترین کاربرد

document AI، تحلیل تصویر و PDF، بازرسی کیفیت محتوای تصویری و workflowهای چندوجهی که باید روی زیرساخت خودتان هم قابل اجرا باشند.

مسیر اجرا

API یا self-host

ملاحظه مهم

کیفیت Pixtral در ورودی‌های تصویری ساخت‌یافته خوب است، اما برای سناریوهای فوق‌حساس باید latency، VRAM و دقت extraction را با دیتای خودتان benchmark کنید.

دسترسی سریع

پوشش صفحه مرور آموزش مسیر عملی سازگارسازی مقایسه ارزیابی منابع

لایسنس

Apache 2.0

پیچیدگی

VLM عملیاتی با نیاز GPU

تسک‌ها

چت و دستیار • تحلیل سند • workflow عامل‌محور

مودالیته‌ها

چندوجهی

پوشش واقعی

این صفحه چه packهایی را واقعاً پوشش می‌دهد؟

مرور مدل

کامل

این صفحه باید اول به‌عنوان مرجع شناخت، fit و boundary تصمیم‌گیری قابل اتکا باشد.

آموزش عملی

کامل

سناریوی شروع و مسیر استفاده اولیه روی همین صفحه آمده است.

نصب و راه‌اندازی

خلاصه روی همین صفحه

روی family page فقط مسیرهای recommended و trade-offها آمده تا browse و selection تمیز بماند.

اکوسیستم Hugging Face Transformers stack

serving و runtime

خلاصه روی همین صفحه

این pack در سطح family/reference خلاصه شده تا انتخاب مسیر اجرا سریع‌تر شود.

اکوسیستم Hugging Face Transformers stack

پیاده‌سازی

خلاصه روی همین صفحه

روی family page فقط patternها و بلوک‌های معماری اصلی برای انتخاب سریع آمده است.

اکوسیستم Hugging Face Transformers stack

سازگارسازی

خلاصه روی همین صفحه

روی family page فقط fit و caveatهای tuning گفته می‌شود؛ playbook عمیق باید جداگانه دنبال شود.

استقرار

خلاصه روی همین صفحه

روی family/reference page فقط deployment fit، cost و caveatهای اصلی آمده است.

اکوسیستم Hugging Face Transformers stack

مقایسه

کامل

این صفحه باید به تصمیم‌گیری بین گزینه‌ها کمک کند، نه صرفاً معرفی.

ارزیابی

کامل

بدون eval و quality gate این hub نباید overclaim کند؛ بنابراین checklist ارزیابی روی صفحه آمده است.

منابع رسمی

کامل

منابع رسمی و مسیر مطالعه بیشتر باید روی هر صفحه کامل و شفاف باشد.

مرور مدل

این مدل چیست و کجا می‌درخشد؟

Pixtral یکی از مهم‌ترین خانواده‌های open-weight در لایه multimodal است چون بین کیفیت سندخوانی، قابلیت reasoning روی تصویر و امکان self-host تعادل خوبی ایجاد می‌کند.

اگر تیم شما می‌خواهد extraction، visual QA یا PDF understanding را داخل مرز داده خودش انجام دهد، Pixtral معمولاً گزینه‌ای جدی‌تر از مدل‌های صرفاً chat است.

در مقابل، اگر به بهترین کیفیت عمومی بازار بدون درگیری زیرساخت نیاز دارید، هنوز باید آن را کنار Gemini یا GPTهای multimodal مقایسه کنید.

نقاط قوت

vision + text در یک stack
امکان self-host و vLLM
مناسب برای سند، تصویر و agent workflow

محدودیت‌ها

نیاز به GPU مناسب برای serving پایدار
برای latency خیلی پایین یا موبایل گزینه اول نیست

تفاوت کلیدی

سه نکته‌ای که این خانواده را از گزینه‌های هم‌رده جدا می‌کند.

نکته 1

برخلاف VLMهای کاملاً بسته، می‌توانید Pixtral را روی زیرساخت خودتان با کنترل بیشتر اجرا کنید.

نکته 2

در مقایسه با VLMهای سبک‌تر، برای extraction و سندخوانی enterprise-readyتر است.

نکته 3

در طراحی Hooshgate، Pixtral بیشتر یک family برای document workflows دیده می‌شود تا فقط یک مدل demo.

برای چه مناسب است

document AI، تحلیل تصویر و PDF، بازرسی کیفیت محتوای تصویری و workflowهای چندوجهی که باید روی زیرساخت خودتان هم قابل اجرا باشند.
وقتی vision + text لازم دارید اما self-host و کنترل داده برایتان مهم است.
وقتی document AI می‌خواهید و مدل باید با pipelineهای backend شما جفت شود.

برای چه مناسب نیست

کیفیت Pixtral در ورودی‌های تصویری ساخت‌یافته خوب است، اما برای سناریوهای فوق‌حساس باید latency، VRAM و دقت extraction را با دیتای خودتان benchmark کنید.
وقتی فقط chat text لازم دارید و هزینه VLM اضافه است.
وقتی بدون GPU و بدون تیم infra می‌خواهید همه‌چیز را realtime نگه دارید.

آموزش عملی

اولین workflow عملی با Pixtral برای سند و تصویر

هدف این سناریو ساخت یک pipeline ساده برای خواندن سند، گرفتن پاسخ ساخت‌یافته و ارسال آن به backend است.

مرحله 1

یک use-case دقیق مثل استخراج فیلد از فاکتور، خواندن جدول یا visual QA را انتخاب کنید و schema خروجی را از اول مشخص کنید.

مرحله 2

اول با API یا یک endpoint آزمایشی self-host شروع کنید و چند نمونه واقعی فارسی/انگلیسی را با prompt ثابت تست بگیرید.

مرحله 3

خروجی مدل را با validator و human review سبک ترکیب کنید تا pilot شما به extraction ناپایدار تبدیل نشود.

نمونه ورودی

یک PDF یا تصویر سند + دستور: «شماره فاکتور، تاریخ، مبلغ و نام فروشنده را به JSON برگردان».

خروجی مورد انتظار

{ "invoice_number": "...", "date": "...", "total": "...", "vendor": "..." }

خطاهای رایج

اشتباه‌هایی که معمولاً باعث می‌شوند pilot یا implementation شکست بخورد.

نکته 1

بدون schema مشخص، خروجی VLM خیلی زود به متن آزاد و غیرقابل‌اتکا تبدیل می‌شود.

نکته 2

سندهای فارسی با layout پیچیده را حتماً روی داده واقعی خودتان بسنجید، نه فقط روی نمونه‌های تمیز.

مسیر عملی

setup، runtime، integration و deployment در این family

مسیرهای setup

شروع سریع با API: MVP سریع، backendهای product-first و تیم‌هایی که burden serving نمی‌خواهند
self-host عملیاتی: data residency، volume پایدار، customization یا economics قابل‌پیش‌بینی

انتخاب runtime و serving path

API-first: MVP، backendهای product-first و workloadهایی که هنوز economics آن‌ها پایدار نشده
self-host: data residency، workload پایدار، custom serving و optimization اقتصادی در scale

مسیرهای integration

backend integration: اکثر appها و workflowهای جدی که باید provider/runtime را پشت backend پنهان کنند
RAG / document integration: دانش سازمانی، policy assistant و workflowهای سندمحور
enterprise workflow: محصولات چندتیمی، taskهای حساس و rollout مرحله‌ای

یادداشت deployment

Mistral API
vLLM
اندازه فایل، تعداد صفحات و کیفیت اسکن را قبل از inference محدود کنید.
برای محیط‌های حساس، retention policy و storage policy سند را کنار inference policy بنویسید.
در workloadهای سندی، هزینه نهایی فقط cost مدل نیست؛ pre-processing، OCR fallback، retries و human review هم روی TCO اثر جدی دارند.

production و ریسک

offline eval و success criteria
staging با tracing و feature flag
artifact trust، network policy و access control را قبل از launch روشن کنید.
بدون schema مشخص، خروجی VLM خیلی زود به متن آزاد و غیرقابل‌اتکا تبدیل می‌شود.
سندهای فارسی با layout پیچیده را حتماً روی داده واقعی خودتان بسنجید، نه فقط روی نمونه‌های تمیز.

guideهای مکمل برای عمق بیشتر

روی family page فقط decision layer آمده است. برای playbook عمیق‌تر یکی از مسیرهای زیر را باز کنید.

setup و onboarding

اکوسیستم Hugging Face

Hugging Face یک ابزار واحد نیست؛ لایه‌ای است که model discovery، artifact management، dataset handling، docs و deployment path بسیاری از تیم‌های open-weight را به هم وصل می‌کند.

Transformers stack

Transformers stack زمانی مناسب است که می‌خواهید روی اجرای مدل، pre/post-processing و training/inference workflow کنترل عمیق داشته باشید و حاضر باشید از سادگی runtimeهای turnkey صرف‌نظر کنید.

integration و implementation

اکوسیستم Hugging Face

Transformers stack

deployment و serving

اکوسیستم Hugging Face

Transformers stack

سازگارسازی

سازگارسازی Pixtral

وضعیت پشتیبانی

LoRA و adaptation برای use-caseهای تخصصی meaningful است

مسیرهای پیشنهادی

شروع با prompt contract و few-shot قبل از رفتن سراغ tuning
برای extractionهای تکرارشونده از LoRA یا adaptation سبک استفاده کنید
dataset را بر اساس layout و کیفیت اسکن دسته‌بندی کنید

یادداشت‌های عملیاتی

بسیاری از تیم‌ها قبل از آماده‌بودن dataset سراغ fine-tuning می‌روند و هزینه اضافی می‌سازند.
اگر format خروجی هنوز بی‌ثبات است، ابتدا schema و parser را پایدار کنید.

مقایسه

چه زمانی Pixtral انتخاب درستی است؟

وقتی این مدل انتخاب خوبی است

وقتی vision + text لازم دارید اما self-host و کنترل داده برایتان مهم است.
وقتی document AI می‌خواهید و مدل باید با pipelineهای backend شما جفت شود.

وقتی باید سراغ گزینه دیگر رفت

وقتی فقط chat text لازم دارید و هزینه VLM اضافه است.
وقتی بدون GPU و بدون تیم infra می‌خواهید همه‌چیز را realtime نگه دارید.

نقشه تصمیم

اگر هنوز بین این خانواده و گزینه‌های رقیب مردد هستید، از این trade-off path شروع کنید.

بلوک 1

بلوک 2

API یا self-host

بلوک 3

Gemini

چه زمانی Pixtral بهتر است

وقتی کنترل استقرار و امکان self-host برایتان مهم‌تر از راحتی API است.

چه زمانی گزینه مقابل بهتر است

وقتی می‌خواهید سریع‌تر و با عملیات کمتر از یک VLM managed استفاده کنید.

GPT

چه زمانی Pixtral بهتر است

برای تیم‌هایی که نمی‌خواهند سندها را بیرون از boundary خود بفرستند.

چه زمانی گزینه مقابل بهتر است

برای workflowهایی که ecosystem API و ابزار managed ارزش بیشتری دارد.

ارزیابی

چک‌لیست ارزیابی Pixtral

مرحله 1

field-level accuracy روی نمونه‌های واقعی

مرحله 2

پایداری خروجی ساخت‌یافته در برابر PDFهای کثیف

مرحله 3

latency per page و throughput

مرحله 4

هزینه عملیاتی کل pipeline نه فقط inference

منابع رسمی

منابع رسمی و مسیر مطالعه بیشتر

Pixtral 12B

https://docs.mistral.ai/models/pixtral-12b-24-09

Mistral self-deployment with vLLM

https://docs.mistral.ai/deployment/self-deployment/vllm