TL;DR
- بردارها روش اساسی مدلهای هوش مصنوعی برای درک و پردازش اطلاعات هستند.
- بردارهای کوچک ویژگیهای ساده را توصیف میکنند،.
- مانند یک نقطه در نمودار،.
چه اتفاقی افتاد
بردارها روش اساسی مدلهای هوش مصنوعی برای درک و پردازش اطلاعات هستند. بردارهای کوچک ویژگیهای ساده را توصیف میکنند،.
مانند یک نقطه در نمودار،. در حالی که بردارهای "بعدی بالا" اطلاعات پیچیدهای مانند ویژگیهای یک تصویر،.
معنای یک کلمه یا ویژگیهای یک مجموعه داده را ضبط میکنند. بردارهای با ابعاد بالا فوقالعاده قدرتمند هستند،.
اما مقادیر زیادی از حافظه را نیز مصرف میکنند،. که منجر به تنگناهایی در حافظه پنهان کلید ارزش میشود،.
یک "برگ تقلب دیجیتالی" پرسرعت که اطلاعات پرکاربرد را تحت ی ساده ذخیره میکند تا کامپیوتر بتواند آن. را فوراً بدون نیاز به جستجو در یک پایگاه دادهای کم حجم و قدرتمند بازیابی کند.
اندازه بردارهای با ابعاد بالا این بهینهسازی به دو جنبه حیاتی هوش مصنوعی میپردازد:. جستجوی برداری را افزایش میدهد،.
فناوری پرسرعتی که هوش مصنوعی در مقیاس بزرگ و جستجو را تقویت میکند. موتورها،.
با فعال کردن جستجوی شباهت سریعتر؛ و با کاهش اندازه جفتهای کلید-مقدار به باز کردن تنگناهای حافظه پنهان کلید-مقدار کمک میکند،.
که جستجوهای مشابه را سریعتر و هزینههای حافظه را کاهش میدهد. با این حال،.
کوانتیشن برداری سنتی معمولاً «سربار حافظه» خود را معرفی میکند،. زیرا اکثر روشها نیاز به محاسبه و ذخیره (با دقت کامل) ثابتهای کوانتیزاسیون برای هر بلوک کوچک داده.
دارند. این سربار میتواند 1 یا 2 بیت اضافی به هر عدد اضافه کند،.
که تا حدی هدف کوانتیزهسازی برداری را نادیده میگیرد. امروز،.
TurboQuant (که در ICLR 2026 ارائه خواهد شد) را معرفی میکنیم،. یک الگوریتم فشردهسازی که بهطور بهینه چالش سربار حافظه در کوانتیزهسازی برداری را برطرف میکند.
ما همچنین Quantized Johnson-Lindenstrauss (QJL) و PolarQuant (که در AISTATS 2026 ارائه خواهد شد) را ارائه میدهیم،. که TurboQuant برای دستیابی به نتایج خود از آنها استفاده میکند.
در آزمایش،. هر سه تکنیک نویدبخشی برای کاهش تنگناهای کلیدی ارزش بدون به خطر انداختن عملکرد مدل هوش مصنوعی.
این پیامدهای بالقوه عمیقی برای همه موارد استفاده وابسته به فشرده سازی،. از جمله و به ویژه در حوزههای جستجو و هوش مصنوعی دارد.
TurboQuant چگونه کار میکند TurboQuant یک روش فشردهسازی است که به کاهش زیادی در اندازه مدل با. افت دقت صفر دست مییابد،.
و آن را برای پشتیبانی از فشردهسازی حافظه پنهان کلید-مقدار (KV) و جستجوی برداری ایدهآل میکند. این کار را از طریق دو مرحله کلیدی انجام میدهد:.
فشرده سازی با کیفیت بالا (روش PolarQuant):. TurboQuant با چرخش تصادفی بردارهای داده شروع میشود.
این مرحله هوشمندانه هندسه دادهها را ساده میکند و به کارگیری یک کوانتایزر استاندارد و با کیفیت (ابزاری. که مجموعه بزرگی از مقادیر پیوسته،.
مانند اعشار دقیق،. را به مجموعهای کوچکتر و مجزا از نمادها یا اعداد،.
مانند اعداد صحیح نگاشت میکند) آسان میکند:. مثالهایی شامل کمیسازی صدا و فشردهسازی jpeg بهصورت جداگانه برای هر بخش از بردار است.
این مرحله اول از بیشتر توان فشرده سازی (اکثر بیتها) برای به تصویر کشیدن مفهوم اصلی و. قدرت بردار اصلی استفاده میکند.
حذف خطاهای پنهان: TurboQuant از مقدار کمیباقیمانده استفاده میکند. قدرت فشرده سازی (فقط 1 بیت) برای اعمال الگوریتم QJL به مقدار ناچیز خطای باقی مانده از مرحله.
اول. مرحله QJL بهعنوان یک بررسی کننده خطای ریاضی عمل میکند که سوگیری را حذف میکند و.
منجر به نمره توجه دقیقتری میشود. برای درک کامل اینکه چگونه TurboQuant به این کارایی دست مییابد،.
نگاه دقیقتری به نحوه عملکرد الگوریتمهای QJL و PolarQuant میاندازیم. QJL:.
ترفند صفر سربار،. 1 بیتی QJL از یک تکنیک ریاضی به نام تبدیل جانسون-لیندن اشتراوس برای کوچک کردن دادههای پیچیده.
و با ابعاد بالا استفاده میکند و در عین حال فاصلهها و روابط ضروری بین نقاط. داده را حفظ میکند.
هر عدد برداری حاصل را به یک بیت علامت واحد کاهش میدهد (1+ یا -1). این الگوریتم اساساً یک کوتاه نویسی با سرعت بالا ایجاد میکند که نیاز به سربار حافظه صفر.
دارد. برای حفظ دقت،.
QJL از یک تخمینگر ویژه استفاده میکند که بهطور استراتژیک یک پرس و جو با دقت بالا را. با دادههای کم دقت و سادهشده متعادل میکند.
این به مدل اجازه میدهد تا امتیاز توجه را به دقت محاسبه کند (فرآیندی که برای تصمیم. گیری اینکه کدام بخشهای ورودی آن مهم هستند و کدام بخشها را میتوان با خیال.
راحت نادیده گرفت). PolarQuant:.
یک "زاویه" جدید در فشرده سازی PolarQuant مشکل سربار حافظه را با استفاده از یک رویکرد کاملا متفاوت. حل میکند.
به جای نگاه کردن به بردار حافظه با استفاده از مختصات استاندارد (یعنی X،. Y،.
Z) که فاصله را در امتداد هر محور نشان میدهد،. PolarQuant بردار را با استفاده از یک سیستم مختصات دکارتی به مختصات قطبی تبدیل میکند.
این با جایگزینی «به 3 بلوک شرق،. 4 بلوک شمال» با «به 5 بلوک در مجموع در زاویه 37 درجه بروید» قابل مقایسه است.
این منجر به دو اطلاعات میشود:. شعاع،.
که نشان میدهد دادههای اصلی چقدر قوی هستند،. و زاویه نشان دهنده جهت یا معنای دادهها).
از آنجایی که الگوی زوایا شناخته شده و بسیار متمرکز است،. مدل دیگر نیازی به انجام مرحله نرمال سازی دادههای گران قیمت ندارد زیرا دادهها را به.
جای یک شبکه مربعی که مرزها دائماً تغییر میکنند،. روی یک شبکه دایرهای ثابت و قابل پیش بینی،.
جایی که مرزها از قبل مشخص شده اند،. نگاشت میکند.
این به PolarQuant اجازه میدهد تا سربار حافظه را که روشهای سنتی باید حمل کنند،. حذف کند.
آزمایشها و نتایج ما هر سه الگوریتم را در معیارهای با زمینه طولانی استاندارد از جمله:. LongBench،.
Needle In A Haystack،. ZeroSCROLS،.
RULER و L-Eval با استفاده از LLMهای منبعباز (Gemma و Mistral) به دقت ارزیابی کردیم. دادههای تجربی نشان میدهند که TurboQuant به عملکرد امتیازدهی بهینه از نظر اعوجاج محصول نقطه و یادآوری دست.
مییابد در حالی که بهطور همزمان ردپای حافظه کلید-مقدار (KV) را به حداقل میرساند. نمودار زیر نمرات عملکرد جمعآوری شده را در وظایف مختلف،.
از جمله پاسخگویی به سؤال،. تولید کد و خلاصهسازی برای TurboQuant،.
PolarQuant و خط پایه KIVI نشان میدهد. نتایج کارهای «سوزن در انبار کاه» با زمینه طولانی (یعنی آزمایشهایی که برای بررسی اینکه آیا یک مدل.
میتواند یک قطعه خاص و کوچک از اطلاعات مدفون در حجم عظیمیاز متن را پیدا کند) در. زیر نشان داده شده است.
مجدداً،. TurboQuant به نتایج پایین دستی عالی در همه معیارها دست مییابد و در عین حال اندازه حافظه.
مقدار کلیدی را حداقل 6 برابر کاهش میدهد. PolarQuant همچنین برای این کار تقریباً ضرر کمتری دارد.
TurboQuant ثابت کرد که میتواند حافظه پنهان کلید-مقدار را بدون نیاز به آموزش یا تنظیم دقیق به 3. بیت تبدیل کند و در عین حال باعث کاهش دقت مدل شود،.
همگی در عین حال به زمان اجرای سریعتری نسبت به LLMهای اصلی (Gemma و Mistral) دست مییابند. اجرای آن بسیار کارآمد است و سربار زمان اجرا ناچیزی را متحمل میشود.
نمودار زیر افزایش سرعت در محاسبه logitهای توجه با استفاده از TurboQuant را نشان میدهد:. بهطور خاص،.
TurboQuant 4 بیتی تا 8 برابر افزایش عملکرد را نسبت به 32 بیت به دست میآورد. کلیدهای unquantized در شتاب دهندههای GPU H100.
این آن را برای پشتیبانی از موارد استفاده مانند جستجوی برداری که در آن بهطور چشمگیری روند ایجاد. فهرست را سرعت میبخشد،.
ایده آل میکند. ما کارایی TurboQuant را در جستجوی برداری با ابعاد بالا در برابر روشهای پیشرفته (PQ و RabbiQ) با.
استفاده از نسبت فراخوانی 1@k ارزیابی کردیم،. که اندازهگیری میکند که الگوریتم چقدر نتایج واقعی محصول داخلی واقعی را در تقریبهای top-k ثبت میکند.
TurboQuant بهطور مداوم نسبت به یادآوری بالاتری را در مقایسه با روشهای پایه به دست میآورد،. علیرغم اینکه خطوط پایه از کتابهای کد بزرگ ناکارآمد و تنظیم خاص مجموعه داده استفاده میکنند (شکل زیر).
این امر استحکام و کارایی TurboQuant را برای کارهای جستجوی با ابعاد بالا تأیید میکند. TurboQuant یک تغییر دگرگون کننده را در جستجوی ابعاد بالا نشان میدهد.
با تعیین یک معیار جدید برای سرعت قابل دستیابی،. نرخ اعوجاج تقریباً بهینه را به روشی بدون اطلاعات ارائه میدهد.
این به موتورهای همسایه ما اجازه میدهد تا با کارایی یک سیستم 3 بیتی کار کنند و. در عین حال دقت مدلهای بسیار سنگینتر را حفظ کنند.
برای جزئیات بیشتر به مقاله مراجعه کنید. نگاه به جلو TurboQuant، QJL، و PolarQuant چیزی بیش از راهحلهای مهندسی عملی هستند.
آنها مشارکتهای الگوریتمیاساسی هستند که توسط شواهد نظری قوی پشتیبانی میشوند. این روشها فقط در برنامههای کاربردی دنیای واقعی به خوبی کار نمیکنند.
آنها بهطور قابل اثبات کارآمد هستند و در نزدیکی مرزهای پایین نظری عمل میکنند. این پایه دقیق چیزی است که آنها را برای سیستمهای مهم و در مقیاس بزرگ قوی و قابل.
اعتماد میسازد. در حالی که یک برنامه کاربردی اصلی در حال حل تنگنای حافظه پنهان کلید ارزش در مدلهایی مانند.
Gemini است،. تأثیر کوانتیزاسیون برداری آنلاین کارآمد حتی بیشتر میشود.
برای مثال، جستجوی مدرن فراتر از کلمات کلیدی برای درک مقصود و معنا در حال تکامل است. این به جستجوی برداری نیاز دارد — توانایی یافتن «نزدیکترین» یا شبیهترین موارد از نظر معنایی در پایگاه.
دادهای از میلیاردها بردار. تکنیکهایی مانند TurboQuant برای این مأموریت حیاتی هستند.
آنها اجازه ساختن و پرس و جوی بزرگ را میدهند شاخصهای برداری با حداقل حافظه،. زمان پیش پردازش نزدیک به صفر و دقت پیشرفته.
این باعث میشود جستجوی معنایی در مقیاس گوگل سریعتر و کارآمدتر شود. از آنجایی که هوش مصنوعی در همه محصولات،.
از LLMها گرفته تا جستجوی معنایی،. ادغام میشود،.
این کار در کوانتیزاسیون برداری بنیادی از همیشه حیاتیتر خواهد بود. قدردانیها این خط از تحقیقات با همکاری پرانیت کاچام، محقق گوگل انجام شد.
مجید هادیان،. مهندس اصلی Google DeepMind؛
اینسو هان،. استادیار در KAIST؛
مجید دلیری،. دانشجوی دکتری دانشگاه نیویورک؛
لارس گوتسبرن،. محقق در گوگل؛
و راجش جایارام،. محقق در گوگل.
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
