TL;DR
- اجرای هوش مصنوعی قدرتمند در گوشی هوشمند شما فقط یک مشکل سخت افزاری نیست،.
- بلکه یک مشکل معماری مدل است.
- بیشتر پیشرفتهترین رمزگذارهای بینایی بسیار زیاد هستند و وقتی آنها را برش میدهید تا روی دستگاه لبه قرار.
چه اتفاقی افتاد
اجرای هوش مصنوعی قدرتمند در گوشی هوشمند شما فقط یک مشکل سخت افزاری نیست،. بلکه یک مشکل معماری مدل است.
بیشتر پیشرفتهترین رمزگذارهای بینایی بسیار زیاد هستند و وقتی آنها را برش میدهید تا روی دستگاه لبه قرار. بگیرند،.
قابلیتهایی را که در وهله اول مفید بودند از دست میدهند. بدتر از آن،.
مدلهای تخصصی تمایل دارند در یک نوع کار برتری داشته باشند - طبقهبندی تصویر،. مثلاً یا تقسیمبندی صحنه - اما وقتی از آنها میخواهید کاری خارج از خط خود انجام دهند،.
از هم میپاشند. تیم های تحقیقاتی هوش مصنوعی متا اکنون مسیر متفاوتی را پیشنهاد می کنند.
آنها رمزگذار ادراک جهانی کارآمد (EUPE) را معرفی کردند:. یک رمزگذار بینایی جمع و جور که وظایف بینایی متنوعی را به طور همزمان و بدون نیاز به.
بزرگ بودن انجام می دهد. مشکل اصلی:.
متخصصان در مقابل عمومی ها برای درک اینکه چرا EUPE اهمیت دارد،. به درک نحوه عملکرد رمزگذارهای بینایی و اینکه چرا تخصص مشکل است کمک می کند.
رمزگذار بینایی بخشی از یک مدل بینایی کامپیوتری است که پیکسلهای تصویر خام را به یک نمایش فشرده. تبدیل میکند - مجموعهای از بردارهای ویژگی - که وظایف پاییندستی (مانند طبقهبندی،.
تقسیمبندی،. یا پاسخ به سؤالات مربوط به یک تصویر) میتوانند از آن استفاده کنند.
به آن به عنوان "چشم" خط لوله هوش مصنوعی فکر کنید. رمزگذارهای بینایی پایه مدرن با اهداف خاصی آموزش داده می شوند که به آنها در حوزه های خاص.
برتری می دهد. به عنوان مثال: CLIP و SigLIP 2 بر روی جفت متن-تصویر آموزش داده شده اند.
آنها در درک تصویر و مدلسازی زبان بینایی قوی هستند،. اما عملکرد آنها در کارهای پیشبینی متراکم (که به ویژگیهای دقیق مکانی و سطح پیکسل نیاز دارند) اغلب.
کمتر از حد انتظار است. DINOv2 و جانشین آن DINOv3 مدلهای خود نظارتی هستند که توصیفگرهای ساختاری و هندسی استثنایی را یاد میگیرند.
و آنها را در کارهای پیشبینی متراکم مانند تقسیمبندی معنایی و تخمین عمق قوی میکنند. اما آنها فاقد قابلیت های رضایت بخش بینایی-زبان هستند.
SAM (Segment Anything Model) از طریق آموزش بر روی مجموعه دادههای تقسیمبندی عظیم،. به تقسیمبندی صفر شات چشمگیر دست مییابد،.
اما دوباره در وظایف زبان بینایی کوتاهی میکند. برای یک دستگاه لبه - یک گوشی هوشمند یا هدست واقعیت افزوده - که باید همه این انواع.
وظایف را به طور همزمان انجام دهد،. راه حل معمولی استقرار چندین رمزگذار به طور همزمان است.
که به سرعت محاسباتی ممنوع می شود. گزینه جایگزین پذیرش این است که یک رمزگذار واحد در چندین حوزه عملکرد ضعیفی دارد.
تلاشهای قبلی:. چرا روشهای انباشتگی در مورد ستون فقرات کارآمد کوتاهی کردند محققان سعی کرده اند نقاط قوت رمزگذارهای متخصص.
متعدد را از طریق خانواده ای از روش ها به نام تقطیر چند معلمه تجمعی ترکیب کنند. ایده اصلی:.
آموزش یک رمزگذار دانشجویی برای تقلید همزمان چندین مدل معلم،. که هر یک از آنها متخصص حوزه هستند.
AM-RADIO و RADIOv2.5 بعدی آن شاید شناخته شده ترین نمونه های این رویکرد باشد. آنها نشان دادند که تقطیر تجمعی می تواند برای رمزگذارهای بزرگ - مدل هایی با بیش از 300.
میلیون پارامتر - به خوبی کار کند. اما تحقیقات EUPE یک محدودیت واضح را نشان میدهد:.
وقتی همان دستور العمل را برای ستونهای کارآمد به کار میبرید،. نتایج به طور قابلتوجهی کاهش مییابد.
RADIOv2.5-B،. نوع مقیاس ViT-B،.
در مقایسه با متخصصان حوزه در زمینه پیشبینی متراکم و وظایف VLM،. شکافهای قابلتوجهی دارد.
یکی دیگر از روشهای تجمعی،. DUNE،.
معلمان بینایی دوبعدی و ادراک سه بعدی را از طریق تقطیر ناهمگن ادغام میکند،. اما به طور مشابه در مقیاس ستون فقرات کارآمد مبارزه میکند.
تیم تحقیقاتی استدلال می کنند که علت اصلی ظرفیت است. رمزگذارهای کارآمد به سادگی ظرفیت نمایشی کافی برای جذب مستقیم بازنمایی ویژگی های متنوع از چندین معلم متخصص.
و متحد کردن آنها در یک نمایش جهانی را ندارند. تلاش برای انجام این کار در یک مرحله، مدلی را تولید می کند که در سطح متوسط است.
https:. //arxiv.org/pdf/2603.22387 پاسخ EUPE:.
ابتدا مقیاس را افزایش دهید،. سپس کاهش دهید بینش کلیدی در پشت EUPE یک اصل است به نام «اول مقیاسپذیری و سپس کاهش.
مقیاس». به جای تقطیر مستقیم از چندین معلم متخصص حوزه به یک دانش آموز کوچک،.
EUPE یک مدل متوسط را معرفی می کند:. یک معلم پروکسی بزرگ با ظرفیت کافی برای یکسان سازی دانش از همه متخصصان حوزه.
سپس این معلم نیابتی دانش یکپارچه و جهانی خود را از طریق تقطیر به دانش آموز کارآمد منتقل. می کند.
خط لوله کامل دارای سه مرحله است: مرحله 1 - تقطیر چند معلم در مدل پروکسی. چندین رمزگذار پایه بزرگ به طور همزمان به عنوان معلم عمل می کنند و تصاویر بدون برچسب را.
با وضوح اصلی خود پردازش می کنند. هر معلم یک نشانه کلاس و مجموعه ای از توکن های پچ را خروجی می دهد.
مدل پروکسی - یک مدل پارامتر 1.9B آموزش دیده با 4 نشانه ثبت - برای تقلید از همه. معلمان به طور همزمان آموزش داده شده است.
اساتید منتخب عبارتند از:. PEcore-G (پارامترهای 1.9B)،.
به عنوان متخصص دامنه برای طبقهبندی و بازیابی تصویر صفر شات انتخاب شده است. PElang-G (پارامترهای 1.7B)، که تیم تحقیقاتی دریافتند برای مدلسازی زبان بینایی، بهویژه عملکرد OCR بسیار مهم است.
DINOv3-H+ (840M پارامتر)،. به عنوان متخصص دامنه برای پیشبینی متراکم انتخاب شد برای تثبیت آموزش،.
خروجیهای معلم با کم کردن میانگین هر مختصات و تقسیم بر انحراف استاندارد نرمال میشوند،. قبل از شروع آموزش یک بار بیش از 500 تکرار محاسبه میشوند و پس از آن ثابت میمانند.
این به عمد سادهتر از عادیسازی پیچیده PHI-S است که در RADIOv2.5 استفاده میشود و از سربار حافظه. متقابل GPU برای محاسبه آمار عادیسازی در لحظه جلوگیری میکند.
مرحله 2 - تقطیر با وضوح ثابت به دانش آموز کارآمد. با توجه به اینکه مدل پروکسی اکنون به عنوان یک معلم جهانی واحد عمل می کند،.
رمزگذار کارآمد هدف با وضوح ثابت 256×256 آموزش داده می شود. این وضوح ثابت باعث می شود که آموزش از نظر محاسباتی کارآمد باشد و برنامه یادگیری طولانی تری.
داشته باشد:. 390000 تکرار با اندازه دسته ای 8192،.
برنامه نرخ یادگیری کسینوس،. نرخ یادگیری پایه 2e-5 و کاهش وزن 1e-4.
افزایش استاندارد داده اعمال می شود:. برش تصادفی تغییر اندازه،.
چرخش افقی،. لرزش رنگ،.
تاری گاوسی،. و خورشیدی تصادفی.
برای از دست دادن تقطیر،. از دست دادن نشانه کلاس از شباهت کسینوس استفاده می کند،.
در حالی که از دست دادن توکن پچ شباهت کسینوس (وزن α=0.9) و کاهش L1 صاف (وزن β=0.1). را ترکیب می کند.
ماژول های سر آداپتور - MLP های 2 لایه - به دانش آموز اضافه می شوند تا با. ابعاد ویژگی های هر معلم مطابقت داشته باشند.
اگر دانش آموز و معلم پچ توکن ابعاد فضایی متفاوت است،. درون یابی دوبعدی دوبعدی برای تراز کردن آنها اعمال می شود.
مرحله 3 - تنظیم دقیق چند رزولوشن. با شروع از نقطه بازرسی مرحله 2،.
دانش آموز با استفاده از یک هرم تصویر از سه مقیاس:. 256،.
384،. و 512،.
مرحله تنظیم دقیق تری را طی می کند. دانش آموز و معلم نیابتی به طور مستقل و به طور تصادفی یک مقیاس را در هر تکرار.
انتخاب می کنند — بنابراین می توانند تصویر یکسان را با وضوح های مختلف پردازش کنند. این امر دانشآموز را مجبور میکند تا بازنماییهایی را بیاموزد که در ریزدانههای فضایی تعمیم مییابند،.
و وظایف پاییندستی را که با وضوحهای مختلف عمل میکنند،. تطبیق میدهند.
این مرحله برای 100000 تکرار در اندازه دسته ای 4096 و نرخ یادگیری پایه 1e-5 اجرا می شود. این عمدا کوتاهتر است زیرا آموزش چند وضوحی از نظر محاسباتی پرهزینه است - یک تکرار در مرحله.
3 تقریباً دو برابر بیشتر از مرحله 2 طول می کشد. داده های آموزشی هر سه مرحله از مجموعه داده DINOv3 یکسان،.
LVD-1689M استفاده می کنند،. که پوشش متعادلی از مفاهیم بصری از وب را در کنار مجموعه داده های عمومی با کیفیت بالا.
از جمله ImageNet-1k فراهم می کند. احتمال نمونه برداری از ImageNet-1k 10% است و 90% باقیمانده از LVD-1689M است.
در یک مطالعه ابلیشن،. تمرین بر روی LVD-1689M تقریباً در همه معیارها - علیرغم اینکه MetaCLIP تقریباً 800 میلیون تصویر بزرگتر است.
- به طور مداوم از آموزش روی MetaCLIP (تصاویر 2.5 B) بهتر بود - که نشان دهنده کیفیت. داده بالاتر در LVD است.
https:. //arxiv.org/pdf/2603.22387 یک نتیجه منفی مهم:.
همه معلمان به خوبی ترکیب نمی شوند یکی از یافتههای کاربردیتر مربوط به انتخاب معلم است. به طور شهودی، افزودن معلمان قوی تر باید کمک کند.
اما تیم تحقیقاتی دریافتند که گنجاندن SigLIP2-G در کنار PEcore-G و DINOv3-H+ عملکرد OCR را به میزان قابل. توجهی کاهش می دهد.
در سطح مدل پروکسی، TextVQA از 56.2 به 53.2 کاهش می یابد. در سطح دانشجویی ViT-B از 48.6 به 44.8 کاهش می یابد.
فرضیه تیم های تحقیق:. وجود دو مدل به سبک CLIP (PEcore-G و SigLIP2-G) به طور همزمان در مجموعه معلم باعث ناسازگاری ویژگی.
ها می شود. PElang-G،.
یک مدل متمرکز بر زبان که از PEcore-G از طریق همترازی با مدلهای زبانی مشتق شده است،. مکمل بسیار بهتری است - بهبود OCR و عملکرد کلی VLM بدون به خطر انداختن درک تصویر یا.
پیشبینی متراکم. آنچه اعداد می گویند مطالعات فرسایش طراحی سه مرحله ای را تایید می کند.
تقطیر مستقیم از چندین معلم به یک دانشآموز کارآمد («فقط مرحله 2») عملکرد ضعیف VLM را بهویژه در. وظایف نوع OCR و پیشبینی متراکم ضعیف به همراه دارد.
افزودن مرحله 1 (مدل پراکسی) به طور قابل توجهی وظایف VLM را بهبود می بخشد - TextVQA از. 46.8 به 48.3 و Realworld از 53.5 به 55.1 می رسد - اما همچنان در کارهای متراکم عقب.
است. مرحله 1+3 (پرش از مرحله 2) قوی ترین نتایج پیش بینی متراکم را ارائه می دهد (SPair:.
53.3،. NYUv2:.
0.388) اما شکاف های VLM را ایجاد می کند و اجرای یک برنامه کامل هزینه بر است. خط لوله سه مرحله ای کامل به بهترین تعادل کلی دست می یابد.
در معیار اصلی ViT-B،. EUPE-ViT-B به طور مداوم برجسته می شود:.
درک تصویر:. EUPE به 84.1 در IN1k-KNN دست مییابد که از PEcore-B (79.7)،.
SigLIP2-B (83.2) و DINOv3-ViT-B (83.0) بهتر عمل میکند. در IN1k-ZS (شات صفر)،.
امتیاز 79.7 را به دست آورد که از PEcore-B (78.4) و SigLIP2-B (78.2) بهتر عمل کرد. پیشبینی متراکم:.
EUPE به 52.4 mIoU در ADE20k دست مییابد که از متخصص پیشبینی متراکم DINOv3-ViT-B (51.8) بهتر عمل میکند. در مکاتبات معنایی SPair-71k، امتیاز 51.3، مطابق با DINOv3-ViT-B است.
مدلسازی زبان بینایی:. EUPE از PEcore-B و SigLIP2-B در RealworldQA (55.5 در مقابل 52.9 و 52.5) و GQA (67.3 در مقابل.
65.6 و 65.2) بهتر عمل میکند،. در حالی که در TextVQA،.
SQA و SQA رقابتی باقی میماند. در مقابل روشهای تجمعی:.
EUPE در تمام وظایف VLM و متراکمترین وظایف پیشبینی با حاشیه قابل توجهی از RADIOv2.5-B و DUNE-B بهتر. عمل میکند.
ویژگی ها در واقع چگونه به نظر می رسند این تحقیق همچنین شامل تجسم ویژگی کیفی با استفاده. از طرح PCA پچ توکنها در فضای RGB است - تکنیکی که ساختار فضایی و معنایی را که.
رمزگذار آموخته را نشان میدهد. نتایج گویای این است:.
پچ توکن های PEcore-B و SigLIP2-B حاوی اطلاعات معنایی هستند،. اما از نظر فضایی سازگار نیستند،.
که منجر به نمایش های پر سر و صدا می شود. DINOv3-ViT-B دارای ویژگی های بسیار واضح و منسجم معنایی است،.
اما فاقد تبعیض ریز دانه است (غذا و بشقاب ها با نمایش های مشابه در مثال ردیف آخر. پایان می یابند).
ویژگیهای RADIOv2.5-B بیش از حد حساس هستند و انسجام معنایی را از بین میبرند - به عنوان مثال،. خز سیاه سگ از نظر بصری با پسزمینه ادغام میشود.
EUPE-ViT-B انسجام معنایی،. دانه بندی دقیق،.
ساختار فضایی پیچیده و آگاهی متن را به طور همزمان ترکیب می کند - بهترین کیفیت ها را. در همه متخصصان حوزه به طور همزمان به دست می آورد.
یک خانواده کامل از مدل های آماده لبه EUPE یک خانواده کامل شامل دو نوع معماری است:. خانواده ViT:.
ViT-T (پارامترهای 6M)،. ViT-S (21M)،.
ViT-B (86M) خانواده ConvNeXt:. ConvNeXt-Tiny (29M)،.
ConvNeXt-Small (50M)،. ConvNeXt-Base (89M) همه مدل ها دارای پارامترهای زیر 100M هستند.
تأخیر استنتاج در CPU iPhone 15 Pro از طریق مدلهای ExecuTorch اندازهگیری میشود. در رزولوشن 256×256:.
ViT-T در 6.8 میلی ثانیه،. ViT-S در 17.1 میلی ثانیه و ViT-B در 55.2 میلی ثانیه اجرا می شود.
انواع ConvNeXt FLOPهای کمتری نسبت به ViTهای با اندازه مشابه دارند،. اما لزوماً به تأخیر کمتری در CPU دست نمی یابند – زیرا عملیات کانولوشنال اغلب در معماری CPU.
در مقایسه با عملیات ضرب ماتریس بسیار بهینه شده (GEMM) مورد استفاده در ViTها کارایی کمتری دارند. برای خانواده ConvNeXt،.
EUPE به طور مداوم از خانواده DINOv3-ConvNeXt با همان اندازهها در انواع Tiny،. Small و Base در پیشبینی متراکم بهتر عمل میکند،.
در حالی که قابلیت VLM بهتری را نیز باز میکند - به ویژه برای کارهای OCR و بینایی. محور - که DINOv3-ConvNeX کاملاً فاقد آن است.
خوراکی های کلیدی یک رمزگذار برای کنترل همه آنها. EUPE یک رمزگذار بینایی فشرده منفرد (زیر پارامترهای 100M) است که با مدلهای تخصصی حوزه تخصصی در درک.
تصویر،. پیشبینی متراکم و مدلسازی زبان بینایی مطابقت دارد یا عملکرد بهتری دارد - کارهایی که قبلاً به رمزگذارهای.
جداگانه و اختصاصی نیاز داشتند. قبل از کاهش مقیاس، مقیاس را افزایش دهید.
نوآوری اصلی یک خط لوله تقطیر "معلم پروکسی" سه مرحله ای است:. ابتدا دانش را از چندین مدل متخصص بزرگ در یک پروکسی پارامتر 1.9B جمع آوری کنید،.
سپس از آن معلم واحد به یک دانش آموز کارآمد تقطیر کنید - به جای تقطیر مستقیم از. چندین معلم به طور همزمان.
انتخاب معلم یک تصمیم طراحی است، نه داده شده. افزودن معلمان بیشتر همیشه کمکی نمی کند.
از جمله SigLIP2-G در کنار PEcore-G عملکرد OCR را به طور قابل توجهی کاهش داد. معلوم شد که PElang-G مکمل VLM مناسبی است - یافته ای با پیامدهای عملی مستقیم برای هر کسی.
که خطوط لوله تقطیر چند معلمی می سازد. برای استقرار لبه واقعی ساخته شده است.
خانواده کامل EUPE شامل شش مدل در معماری های ViT و ConvNeXt است. کوچکترین، ViT-T، در 6.8 میلیثانیه بر روی پردازنده آیفون 15 پرو اجرا میشود.
همه مدلها از طریق ExecuTorch صادر میشوند و در Hugging Face در دسترس هستند - آماده برای ادغام. در دستگاه،.
نه فقط برای محک زدن. کیفیت داده ها بر کمیت داده ها غلبه می کند.
در آزمایشهای ابلیشن،. آموزش روی LVD-1689M تقریباً در تمام معیارها بهتر از آموزش روی MetaCLIP بود - علیرغم اینکه MetaCLIP تقریباً.
800 میلیون تصویر بیشتر داشت. یک یادآوری مفید که مجموعه داده های بزرگتر به طور خودکار به معنای مدل های بهتر نیست.
کاغذ، وزن مدل و مخزن را بررسی کنید. همچنین،.
راحت ما را در توییتر دنبال کنید و فراموش نکنید که به ML SubReddit 120k+ ما بپیوندید و. در خبرنامه ما مشترک شوید.
صبر کن تو تلگرام هستی اکنون می توانید در تلگرام نیز به ما بپیوندید. آیا برای تبلیغ GitHub Repo یا Hugging Face Page یا انتشار محصول یا وبینار و غیره با ما.
نیاز دارید؟ با ما ارتباط برقرار کنید The post Meta AI EUPE را منتشر کرد:.
خانواده رمزگذار بینایی فشرده زیر ۱۰۰ میلیون پارامتر که با مدلهای تخصصی در درک تصویر،. پیشبینی متراکم و وظایف VLM رقابت میکند اولین بار در MarkTechPost ظاهر شد.
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
