TL;DR
- TensorRT LLM از انواع مدلهای چندوجهی پشتیبانی میکند و استنتاج کارآمد را با ورودیهایی فراتر از متن امکانپذیر.
- میسازد.
- پس زمینه# LLMهای چندوجهی معمولاً ورودیهای غیر متنی را با ترکیب یک رمزگذار چندوجهی با رمزگشای.
چه اتفاقی افتاد
TensorRT LLM از انواع مدلهای چندوجهی پشتیبانی میکند و استنتاج کارآمد را با ورودیهایی فراتر از متن امکانپذیر. میسازد.
پس زمینه# LLMهای چندوجهی معمولاً ورودیهای غیر متنی را با ترکیب یک رمزگذار چندوجهی با رمزگشای. LLM مدیریت میکنند.
رمزگذار ابتدا ورودیهای غیر متنی را به جاسازیها تبدیل میکند،. که سپس با جاسازیهای متن ترکیب میشوند و برای استنتاج پایین دست به رمزگشای LLM وارد.
میشوند. در مقایسه با استنتاج استاندارد LLM،.
استنتاج LLM چندوجهی شامل سه مرحله اضافی برای پشتیبانی از روشهای غیر متنی است. پردازشگر ورودی چندوجهی:.
ورودی چندوجهی خام را در قالبی مناسب برای رمزگذار چندوجهی،. مانند مقادیر پیکسل برای مدلهای بینایی،.
از قبل پردازش کنید. رمزگذار چندوجهی:.
ورودی پردازش شده را در جاسازیهایی که با فضای جاسازی LLM همسو هستند،. رمزگذاری میکند.
ادغام با رسیور LLM:. جاسازیهای چندوجهی را با جاسازیهای متنی بهعنوان ورودی به رسیور LLM ترکیب میکند.
بهینهسازی# TensorRT LLM برخی بهینهسازیهای کلیدی را برای بهبود عملکرد استنتاج چندوجهی ترکیب میکند:. دستهبندی در پرواز:.
درخواستهای چندوجهی را در مجری GPU دستهبندی میکند تا بهرهبرداری و توان عملیاتی GPU را بهبود بخشد. همزمانی CPU/GPU: بهطور ناهمزمان پیش پردازش داده در CPU با رمزگذاری تصویر روی GPU همپوشانی دارد.
هش کردن دادههای خام:. از هشهای تصویر و اطلاعات توکن برای بهبود استفاده مجدد از حافظه پنهان KV و به حداقل رساندن.
برخوردها استفاده میکند. بهینهسازیهای بیشتر در دست توسعه هستند و به محض در دسترس قرار گرفتن به روز خواهند.
شد. ماتریس پشتیبانی مدل# لطفاً به آخرین ماتریس پشتیبانی چندوجهی مراجعه کنید.
مثالهای# مثالهای زیر نحوه استفاده از پشتیبانی چندوجهی TensorRT LLM را در سناریوهای مختلف،. از جمله نمونههای اجرای سریع،.
نقاط پایانی سرویس،. و معیار عملکرد،.
نشان میدهند. شروع سریع# با استفاده از LLM-API ما و یک مثال آماده اجرا،.
به سرعت پشتیبانی چندوجهی TensorRT LLM را امتحان کنید:. python3 quickstart_multimodal.
py --model_dir Efficient-Large-Model/NVILA-8B --modality image --disable_kv_cache_reuse سرور سازگار با OpenAI از طریق trtllm-serve# یک سرور سازگار با OpenAI. با پشتیبانی چندوجهی با استفاده از دستور trtllm-serve راه اندازی کنید،.
بهعنوان مثال:. trtllm-serve Qwen/Qwen2-VL-7B-Instruct --backend pytorch سپس میتوانید درخواستهای سازگار با OpenAI،.
از جمله از طریق کلاینتهای curl یا API،. به نقطه پایانی سرور ارسال کنید.
بهعنوان مثال، کلاینت چت curl را برای اسکریپت چندوجهی ببینید. دویدن با trtllm-bench# عملکرد استنتاج آفلاین را با ورودیهای چندوجهی با استفاده از ابزار trtllm-bench ارزیابی کنید.
برای دستورالعملهای دقیق، راهنمای معیارسنجی را ببینید.
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
