این tutorial نشان میدهد چطور خانواده Llama را از حالت demo بیرون بیاورید و در یک workflow واقعی با ورودی روشن، خروجی ساختیافته، evaluation و human fallback به کار بگیرید.
این آموزش برای چیست؟
این آموزش برای ساخت یک assistant self-hosted با Llama family است؛ از تعریف دامنه و retrieval تا review policy و rollout محدود.
پیشنیازها
- سناریوی واقعی با معیار پذیرش روشن
- خانواده Llama یا یکی از branchهای آن که با workload شما fit باشد
- قالب خروجی ساختیافته یا حداقل قرارداد روشن برای پاسخ
- مجموعهای کوچک از مثالهای خوب، بد و مرزی برای evaluation اولیه
مرحله 1: دامنه و معیار قبول را ببندید
یک سازمان ایرانی میخواهد اسناد داخلی، رویهها و FAQ را بدون خروج داده از محیط خود به یک دستیار دانش متصل کند تا کارمندان جوابهای مستند بگیرند. در این مرحله باید معلوم کنید خروجی خوب دقیقاً چه شکلی دارد، کجا باید به انسان ارجاع شود و کدام بخش از تصمیم اصلاً نباید خودکار شود.
مرحله 2: مسیر model و contract خروجی را طراحی کنید
برای خانواده Llama باید از همان ابتدا مشخص کنید آیا Hugging Face / Transformers route اصلی شماست یا نه. سپس schema خروجی، fieldهای ضروری و policy مربوط به عدم اطمینان را ببندید تا مدل فقط متن زیبا تولید نکند و واقعاً به workflow شما خدمت کند.
مرحله 3: evaluation و guardrail را کنار workflow بگذارید
پیش از rollout گسترده، یک مجموعه سناریوی واقعی بسازید، خروجیها را روی خطاهای پرتکرار بسنجید و در موارد کماطمینان، human review را اجباری کنید. بدون این لایه، خانواده Llama فقط یک demo قوی خواهد بود نه یک سرویس قابلاتکا.
مرحله 4: نسخه محدود را به تیم تحویل دهید و log جمع کنید
اول یک use case محدود را برای یک تیم مشخص باز کنید، latency و نرخ fallback را ببینید و بعد درباره توسعه scope تصمیم بگیرید. این کار از ورود شتابزده به production جلوگیری میکند.
نمونه input
پرسش کارمند + قطعههای بازیابیشده از رویه داخلی + درجه حساسیت سند + policy عدم افشای اطلاعات.
نمونه output
پاسخ مستند، بند یا سند مرجع، سطح اطمینان، و هشدار برای مواردی که نیاز به ارجاع انسانی دارند.
خطاها و محدودیتها
- انتخاب مدل open-weight بدون در نظر گرفتن هزینه عملی runtime
- نداشتن retrieval و تکیه صرف به خود مدل برای دانش داخلی
- بیتوجهی به quantization و memory budget در طراحی اولیه
- سپردن rollout به تیمی که monitoring و rollback ندارد
نتیجه نهایی
خروجی مطلوب این آموزش یک دستیار دانش داخلی self-hosted است که نهفقط جواب تولید میکند، بلکه مرز اتکا، ساختار خروجی و مسیر بازبینی آن هم مشخص شده است.
سناریوی نمونه
یک سازمان ایرانی میخواهد اسناد داخلی، رویهها و FAQ را بدون خروج داده از محیط خود به یک دستیار دانش متصل کند تا کارمندان جوابهای مستند بگیرند.
قدم بعدی
سه سناریوی واقعی از workload خودتان را به این pipeline اضافه کنید و برای هرکدام latency، کیفیت و نرخ ارجاع انسانی را ثبت کنید.
