هوش گیتهوش گیترسانه، شبکه و یادگیری AI
/ ⌘K
ورود
/ ⌘K
خانهشبکهیادگیریپروژه‌ها
هوش گیتهوش گیترسانه، شبکه و یادگیری AI
صفحه اصلیشبکهاخبارپژوهشابزارهایادگیریفضاها
/ ⌘K
ورود

دسترسی سریع

دسترسی سریع تحریریه

خبرها، موضوعات، حساب کاربری و تنظیمات مطالعه همیشه در سمت راست در دسترس‌اند.

حساب کاربری

ورود سریع به حساب و ابزارهای شخصی‌سازی

ورود

با حساب کاربری، اعلان‌ها، ذخیره‌سازی خبرها و سطح مطالعه شخصی را فعال می‌کنید.

صفحه اصلیشبکهاخبارپژوهشابزارهایادگیریفضاهاچهره‌های تخصصیسیاست‌گذاریامنیترویدادهافرصت‌های شغلیسرگرمیپروژه‌هاموضوعات
مرور موضوعات
همه
تم
درباره ماحریم خصوصیتماس با ما

مالکیت و پشتیبانی

شبکه هوشمند ابتکار ویستا

هوش‌گیت به‌عنوان رسانه و لایه دانشی این شرکت، با تمرکز بر خبر، یادگیری، همکاری حرفه‌ای و محصول‌های هوش مصنوعی توسعه داده می‌شود. تمامی حقوق مالکیت و کپی‌رایت این وب‌سایت متعلق به شبکه هوشمند ابتکار ویستا است.

این شرکت به‌صورت تخصصی در حوزه هوش مصنوعی، ساخت پلتفرم‌های AI، سامانه‌های مبتنی بر LLM، تحلیل داده، طراحی تجربه دانشی و توسعه زیرساخت‌های حرفه‌ای برای تیم‌های سازمانی فعالیت می‌کند.

مالکیت: شبکه هوشمند ابتکار ویستامدیرعامل: مسعود بخشی۰۹۱۲۴۷۳۳۲۳۴Devcodebase.dev@gmail.comHooshgate@gmail.comDevcodebase.com
v0.1.0 · dev · unset/api/version
آخرین خبرهاآموزشپریمیومدرباره ماتماس با ماحریم خصوصیقوانین استفادهکوکی‌هاسیاست تحریریه
خانهشبکهیادگیریپروژه‌هاپروفایل
  1. خانه
  2. /
  3. اخبار
  4. /
  5. هوش مصنوعی متا EUPE را منتشر کرد: خانواده رمزگذار دید فشرده با پارامترهای 100 میلیونی که با مدل‌های تخصصی در درک تصویر، پیش‌بینی متراکم و وظایف VLM رقابت می‌کند.
MarkTechPostدر حال ارزیابی1405/01/18 04:41محصول و صنعت

هوش مصنوعی متا EUPE را منتشر کرد: خانواده رمزگذار دید فشرده با پارامترهای 100 میلیونی که با مدل‌های تخصصی در درک تصویر، پیش‌بینی متراکم و وظایف VLM رقابت می‌کند.

RADIOv2.5-B،. نوع مقیاس ViT-B،. EUPE-ViT-B انسجام معنایی،.

منبع: MarkTechPost

محصول و صنعتمتن‌باز و جامعهآموزش و یادگیری
نسخه مطالعهعمومی
منبعMarkTechPost
انتشار1405/01/18 04:41
سطح مطالعه
اشتراک در تلگرام
هوش مصنوعی متا EUPE را منتشر کرد: خانواده رمزگذار دید فشرده با پارامترهای 100 میلیونی که با مدل‌های تخصصی در درک تصویر، پیش‌بینی متراکم و وظایف VLM رقابت می‌کند.

راهنمای مطالعه

منبع اصلی، تاریخ فارسی و شاخص‌های سریع این خبر.

رفتن به منبع
تاریخ فارسی1405/01/18 04:41
داستانمستقل

نکات کلیدی

این باکس براساس سطح مطالعه شما (عمومی) تنظیم شده است.

  • اجرای هوش مصنوعی قدرتمند در گوشی هوشمند شما فقط یک مشکل سخت افزاری نیست،.
  • بلکه یک مشکل معماری مدل است.
  • بیشتر پیشرفته ترین رمزگذارهای بینایی بسیار زیاد هستند و وقتی آنها را برش می دهید تا روی دستگاه لبه قرار.
  • بگیرند،.
  • قابلیت هایی را که در وهله اول مفید بودند از دست می دهند.
  • بدتر از آن،.
  • مدل های تخصصی تمایل دارند در یک نوع کار برتری داشته باشند - طبقه بندی تصویر،.
  • مثلاً یا تقسیم بندی صحنه - اما وقتی از آنها می خواهید کاری خارج از خط خود انجام دهند،.

فهرست مطالب

  1. TL;DR
  2. چه اتفاقی افتاد
  3. چرا مهم است
  4. منبع

سیگنال تعامل

بازدید۰
کلیک۰
امتیاز0.00
دیدگاه۰

TL;DR

  • اجرای هوش مصنوعی قدرتمند در گوشی هوشمند شما فقط یک مشکل سخت افزاری نیست،.
  • بلکه یک مشکل معماری مدل است.
  • بیشتر پیشرفته‌ترین رمزگذارهای بینایی بسیار زیاد هستند و وقتی آنها را برش می‌دهید تا روی دستگاه لبه قرار.

چه اتفاقی افتاد

اجرای هوش مصنوعی قدرتمند در گوشی هوشمند شما فقط یک مشکل سخت افزاری نیست،. بلکه یک مشکل معماری مدل است.

بیشتر پیشرفته‌ترین رمزگذارهای بینایی بسیار زیاد هستند و وقتی آنها را برش می‌دهید تا روی دستگاه لبه قرار. بگیرند،.

قابلیت‌هایی را که در وهله اول مفید بودند از دست می‌دهند. بدتر از آن،.

مدل‌های تخصصی تمایل دارند در یک نوع کار برتری داشته باشند - طبقه‌بندی تصویر،. مثلاً یا تقسیم‌بندی صحنه - اما وقتی از آنها می‌خواهید کاری خارج از خط خود انجام دهند،.

از هم می‌پاشند. تیم های تحقیقاتی هوش مصنوعی متا اکنون مسیر متفاوتی را پیشنهاد می کنند.

آنها رمزگذار ادراک جهانی کارآمد (EUPE) را معرفی کردند:. یک رمزگذار بینایی جمع و جور که وظایف بینایی متنوعی را به طور همزمان و بدون نیاز به.

بزرگ بودن انجام می دهد. مشکل اصلی:.

متخصصان در مقابل عمومی ها برای درک اینکه چرا EUPE اهمیت دارد،. به درک نحوه عملکرد رمزگذارهای بینایی و اینکه چرا تخصص مشکل است کمک می کند.

رمزگذار بینایی بخشی از یک مدل بینایی کامپیوتری است که پیکسل‌های تصویر خام را به یک نمایش فشرده. تبدیل می‌کند - مجموعه‌ای از بردارهای ویژگی - که وظایف پایین‌دستی (مانند طبقه‌بندی،.

تقسیم‌بندی،. یا پاسخ به سؤالات مربوط به یک تصویر) می‌توانند از آن استفاده کنند.

به آن به عنوان "چشم" خط لوله هوش مصنوعی فکر کنید. رمزگذارهای بینایی پایه مدرن با اهداف خاصی آموزش داده می شوند که به آنها در حوزه های خاص.

برتری می دهد. به عنوان مثال: CLIP و SigLIP 2 بر روی جفت متن-تصویر آموزش داده شده اند.

آنها در درک تصویر و مدل‌سازی زبان بینایی قوی هستند،. اما عملکرد آنها در کارهای پیش‌بینی متراکم (که به ویژگی‌های دقیق مکانی و سطح پیکسل نیاز دارند) اغلب.

کمتر از حد انتظار است. DINOv2 و جانشین آن DINOv3 مدل‌های خود نظارتی هستند که توصیف‌گرهای ساختاری و هندسی استثنایی را یاد می‌گیرند.

و آنها را در کارهای پیش‌بینی متراکم مانند تقسیم‌بندی معنایی و تخمین عمق قوی می‌کنند. اما آنها فاقد قابلیت های رضایت بخش بینایی-زبان هستند.

SAM (Segment Anything Model) از طریق آموزش بر روی مجموعه داده‌های تقسیم‌بندی عظیم،. به تقسیم‌بندی صفر شات چشمگیر دست می‌یابد،.

اما دوباره در وظایف زبان بینایی کوتاهی می‌کند. برای یک دستگاه لبه - یک گوشی هوشمند یا هدست واقعیت افزوده - که باید همه این انواع.

وظایف را به طور همزمان انجام دهد،. راه حل معمولی استقرار چندین رمزگذار به طور همزمان است.

که به سرعت محاسباتی ممنوع می شود. گزینه جایگزین پذیرش این است که یک رمزگذار واحد در چندین حوزه عملکرد ضعیفی دارد.

تلاش‌های قبلی:. چرا روش‌های انباشتگی در مورد ستون فقرات کارآمد کوتاهی کردند محققان سعی کرده اند نقاط قوت رمزگذارهای متخصص.

متعدد را از طریق خانواده ای از روش ها به نام تقطیر چند معلمه تجمعی ترکیب کنند. ایده اصلی:.

آموزش یک رمزگذار دانشجویی برای تقلید همزمان چندین مدل معلم،. که هر یک از آنها متخصص حوزه هستند.

AM-RADIO و RADIOv2.5 بعدی آن شاید شناخته شده ترین نمونه های این رویکرد باشد. آنها نشان دادند که تقطیر تجمعی می تواند برای رمزگذارهای بزرگ - مدل هایی با بیش از 300.

میلیون پارامتر - به خوبی کار کند. اما تحقیقات EUPE یک محدودیت واضح را نشان می‌دهد:.

وقتی همان دستور العمل را برای ستون‌های کارآمد به کار می‌برید،. نتایج به طور قابل‌توجهی کاهش می‌یابد.

RADIOv2.5-B،. نوع مقیاس ViT-B،.

در مقایسه با متخصصان حوزه در زمینه پیش‌بینی متراکم و وظایف VLM،. شکاف‌های قابل‌توجهی دارد.

یکی دیگر از روش‌های تجمعی،. DUNE،.

معلمان بینایی دوبعدی و ادراک سه بعدی را از طریق تقطیر ناهمگن ادغام می‌کند،. اما به طور مشابه در مقیاس ستون فقرات کارآمد مبارزه می‌کند.

تیم تحقیقاتی استدلال می کنند که علت اصلی ظرفیت است. رمزگذارهای کارآمد به سادگی ظرفیت نمایشی کافی برای جذب مستقیم بازنمایی ویژگی های متنوع از چندین معلم متخصص.

و متحد کردن آنها در یک نمایش جهانی را ندارند. تلاش برای انجام این کار در یک مرحله، مدلی را تولید می کند که در سطح متوسط ​​است.

https:. //arxiv.org/pdf/2603.22387 پاسخ EUPE:.

ابتدا مقیاس را افزایش دهید،. سپس کاهش دهید بینش کلیدی در پشت EUPE یک اصل است به نام «اول مقیاس‌پذیری و سپس کاهش.

مقیاس». به جای تقطیر مستقیم از چندین معلم متخصص حوزه به یک دانش آموز کوچک،.

EUPE یک مدل متوسط ​​را معرفی می کند:. یک معلم پروکسی بزرگ با ظرفیت کافی برای یکسان سازی دانش از همه متخصصان حوزه.

سپس این معلم نیابتی دانش یکپارچه و جهانی خود را از طریق تقطیر به دانش آموز کارآمد منتقل. می کند.

خط لوله کامل دارای سه مرحله است: مرحله 1 - تقطیر چند معلم در مدل پروکسی. چندین رمزگذار پایه بزرگ به طور همزمان به عنوان معلم عمل می کنند و تصاویر بدون برچسب را.

با وضوح اصلی خود پردازش می کنند. هر معلم یک نشانه کلاس و مجموعه ای از توکن های پچ را خروجی می دهد.

مدل پروکسی - یک مدل پارامتر 1.9B آموزش دیده با 4 نشانه ثبت - برای تقلید از همه. معلمان به طور همزمان آموزش داده شده است.

اساتید منتخب عبارتند از:. PEcore-G (پارامترهای 1.9B)،.

به عنوان متخصص دامنه برای طبقه‌بندی و بازیابی تصویر صفر شات انتخاب شده است. PElang-G (پارامترهای 1.7B)، که تیم تحقیقاتی دریافتند برای مدل‌سازی زبان بینایی، به‌ویژه عملکرد OCR بسیار مهم است.

DINOv3-H+ (840M پارامتر)،. به عنوان متخصص دامنه برای پیش‌بینی متراکم انتخاب شد برای تثبیت آموزش،.

خروجی‌های معلم با کم کردن میانگین هر مختصات و تقسیم بر انحراف استاندارد نرمال می‌شوند،. قبل از شروع آموزش یک بار بیش از 500 تکرار محاسبه می‌شوند و پس از آن ثابت می‌مانند.

این به عمد ساده‌تر از عادی‌سازی پیچیده PHI-S است که در RADIOv2.5 استفاده می‌شود و از سربار حافظه. متقابل GPU برای محاسبه آمار عادی‌سازی در لحظه جلوگیری می‌کند.

مرحله 2 - تقطیر با وضوح ثابت به دانش آموز کارآمد. با توجه به اینکه مدل پروکسی اکنون به عنوان یک معلم جهانی واحد عمل می کند،.

رمزگذار کارآمد هدف با وضوح ثابت 256×256 آموزش داده می شود. این وضوح ثابت باعث می شود که آموزش از نظر محاسباتی کارآمد باشد و برنامه یادگیری طولانی تری.

داشته باشد:. 390000 تکرار با اندازه دسته ای 8192،.

برنامه نرخ یادگیری کسینوس،. نرخ یادگیری پایه 2e-5 و کاهش وزن 1e-4.

افزایش استاندارد داده اعمال می شود:. برش تصادفی تغییر اندازه،.

چرخش افقی،. لرزش رنگ،.

تاری گاوسی،. و خورشیدی تصادفی.

برای از دست دادن تقطیر،. از دست دادن نشانه کلاس از شباهت کسینوس استفاده می کند،.

در حالی که از دست دادن توکن پچ شباهت کسینوس (وزن α=0.9) و کاهش L1 صاف (وزن β=0.1). را ترکیب می کند.

ماژول های سر آداپتور - MLP های 2 لایه - به دانش آموز اضافه می شوند تا با. ابعاد ویژگی های هر معلم مطابقت داشته باشند.

اگر دانش آموز و معلم پچ توکن ابعاد فضایی متفاوت است،. درون یابی دوبعدی دوبعدی برای تراز کردن آنها اعمال می شود.

مرحله 3 - تنظیم دقیق چند رزولوشن. با شروع از نقطه بازرسی مرحله 2،.

دانش آموز با استفاده از یک هرم تصویر از سه مقیاس:. 256،.

384،. و 512،.

مرحله تنظیم دقیق تری را طی می کند. دانش آموز و معلم نیابتی به طور مستقل و به طور تصادفی یک مقیاس را در هر تکرار.

انتخاب می کنند — بنابراین می توانند تصویر یکسان را با وضوح های مختلف پردازش کنند. این امر دانش‌آموز را مجبور می‌کند تا بازنمایی‌هایی را بیاموزد که در ریزدانه‌های فضایی تعمیم می‌یابند،.

و وظایف پایین‌دستی را که با وضوح‌های مختلف عمل می‌کنند،. تطبیق می‌دهند.

این مرحله برای 100000 تکرار در اندازه دسته ای 4096 و نرخ یادگیری پایه 1e-5 اجرا می شود. این عمدا کوتاهتر است زیرا آموزش چند وضوحی از نظر محاسباتی پرهزینه است - یک تکرار در مرحله.

3 تقریباً دو برابر بیشتر از مرحله 2 طول می کشد. داده های آموزشی هر سه مرحله از مجموعه داده DINOv3 یکسان،.

LVD-1689M استفاده می کنند،. که پوشش متعادلی از مفاهیم بصری از وب را در کنار مجموعه داده های عمومی با کیفیت بالا.

از جمله ImageNet-1k فراهم می کند. احتمال نمونه برداری از ImageNet-1k 10% است و 90% باقیمانده از LVD-1689M است.

در یک مطالعه ابلیشن،. تمرین بر روی LVD-1689M تقریباً در همه معیارها - علیرغم اینکه MetaCLIP تقریباً 800 میلیون تصویر بزرگتر است.

- به طور مداوم از آموزش روی MetaCLIP (تصاویر 2.5 B) بهتر بود - که نشان دهنده کیفیت. داده بالاتر در LVD است.

https:. //arxiv.org/pdf/2603.22387 یک نتیجه منفی مهم:.

همه معلمان به خوبی ترکیب نمی شوند یکی از یافته‌های کاربردی‌تر مربوط به انتخاب معلم است. به طور شهودی، افزودن معلمان قوی تر باید کمک کند.

اما تیم تحقیقاتی دریافتند که گنجاندن SigLIP2-G در کنار PEcore-G و DINOv3-H+ عملکرد OCR را به میزان قابل. توجهی کاهش می دهد.

در سطح مدل پروکسی، TextVQA از 56.2 به 53.2 کاهش می یابد. در سطح دانشجویی ViT-B از 48.6 به 44.8 کاهش می یابد.

فرضیه تیم های تحقیق:. وجود دو مدل به سبک CLIP (PEcore-G و SigLIP2-G) به طور همزمان در مجموعه معلم باعث ناسازگاری ویژگی.

ها می شود. PElang-G،.

یک مدل متمرکز بر زبان که از PEcore-G از طریق هم‌ترازی با مدل‌های زبانی مشتق شده است،. مکمل بسیار بهتری است - بهبود OCR و عملکرد کلی VLM بدون به خطر انداختن درک تصویر یا.

پیش‌بینی متراکم. آنچه اعداد می گویند مطالعات فرسایش طراحی سه مرحله ای را تایید می کند.

تقطیر مستقیم از چندین معلم به یک دانش‌آموز کارآمد («فقط مرحله 2») عملکرد ضعیف VLM را به‌ویژه در. وظایف نوع OCR و پیش‌بینی متراکم ضعیف به همراه دارد.

افزودن مرحله 1 (مدل پراکسی) به طور قابل توجهی وظایف VLM را بهبود می بخشد - TextVQA از. 46.8 به 48.3 و Realworld از 53.5 به 55.1 می رسد - اما همچنان در کارهای متراکم عقب.

است. مرحله 1+3 (پرش از مرحله 2) قوی ترین نتایج پیش بینی متراکم را ارائه می دهد (SPair:.

53.3،. NYUv2:.

0.388) اما شکاف های VLM را ایجاد می کند و اجرای یک برنامه کامل هزینه بر است. خط لوله سه مرحله ای کامل به بهترین تعادل کلی دست می یابد.

در معیار اصلی ViT-B،. EUPE-ViT-B به طور مداوم برجسته می شود:.

درک تصویر:. EUPE به 84.1 در IN1k-KNN دست می‌یابد که از PEcore-B (79.7)،.

SigLIP2-B (83.2) و DINOv3-ViT-B (83.0) بهتر عمل می‌کند. در IN1k-ZS (شات صفر)،.

امتیاز 79.7 را به دست آورد که از PEcore-B (78.4) و SigLIP2-B (78.2) بهتر عمل کرد. پیش‌بینی متراکم:.

EUPE به 52.4 mIoU در ADE20k دست می‌یابد که از متخصص پیش‌بینی متراکم DINOv3-ViT-B (51.8) بهتر عمل می‌کند. در مکاتبات معنایی SPair-71k، امتیاز 51.3، مطابق با DINOv3-ViT-B است.

مدل‌سازی زبان بینایی:. EUPE از PEcore-B و SigLIP2-B در RealworldQA (55.5 در مقابل 52.9 و 52.5) ​​و GQA (67.3 در مقابل.

65.6 و 65.2) بهتر عمل می‌کند،. در حالی که در TextVQA،.

SQA و SQA رقابتی باقی می‌ماند. در مقابل روش‌های تجمعی:.

EUPE در تمام وظایف VLM و متراکم‌ترین وظایف پیش‌بینی با حاشیه قابل توجهی از RADIOv2.5-B و DUNE-B بهتر. عمل می‌کند.

ویژگی ها در واقع چگونه به نظر می رسند این تحقیق همچنین شامل تجسم ویژگی کیفی با استفاده. از طرح PCA پچ توکن‌ها در فضای RGB است - تکنیکی که ساختار فضایی و معنایی را که.

رمزگذار آموخته را نشان می‌دهد. نتایج گویای این است:.

پچ توکن های PEcore-B و SigLIP2-B حاوی اطلاعات معنایی هستند،. اما از نظر فضایی سازگار نیستند،.

که منجر به نمایش های پر سر و صدا می شود. DINOv3-ViT-B دارای ویژگی های بسیار واضح و منسجم معنایی است،.

اما فاقد تبعیض ریز دانه است (غذا و بشقاب ها با نمایش های مشابه در مثال ردیف آخر. پایان می یابند).

ویژگی‌های RADIOv2.5-B بیش از حد حساس هستند و انسجام معنایی را از بین می‌برند - به عنوان مثال،. خز سیاه سگ از نظر بصری با پس‌زمینه ادغام می‌شود.

EUPE-ViT-B انسجام معنایی،. دانه بندی دقیق،.

ساختار فضایی پیچیده و آگاهی متن را به طور همزمان ترکیب می کند - بهترین کیفیت ها را. در همه متخصصان حوزه به طور همزمان به دست می آورد.

یک خانواده کامل از مدل های آماده لبه EUPE یک خانواده کامل شامل دو نوع معماری است:. خانواده ViT:.

ViT-T (پارامترهای 6M)،. ViT-S (21M)،.

ViT-B (86M) خانواده ConvNeXt:. ConvNeXt-Tiny (29M)،.

ConvNeXt-Small (50M)،. ConvNeXt-Base (89M) همه مدل ها دارای پارامترهای زیر 100M هستند.

تأخیر استنتاج در CPU iPhone 15 Pro از طریق مدل‌های ExecuTorch اندازه‌گیری می‌شود. در رزولوشن 256×256:.

ViT-T در 6.8 میلی ثانیه،. ViT-S در 17.1 میلی ثانیه و ViT-B در 55.2 میلی ثانیه اجرا می شود.

انواع ConvNeXt FLOPهای کمتری نسبت به ViTهای با اندازه مشابه دارند،. اما لزوماً به تأخیر کمتری در CPU دست نمی یابند – زیرا عملیات کانولوشنال اغلب در معماری CPU.

در مقایسه با عملیات ضرب ماتریس بسیار بهینه شده (GEMM) مورد استفاده در ViTها کارایی کمتری دارند. برای خانواده ConvNeXt،.

EUPE به طور مداوم از خانواده DINOv3-ConvNeXt با همان اندازه‌ها در انواع Tiny،. Small و Base در پیش‌بینی متراکم بهتر عمل می‌کند،.

در حالی که قابلیت VLM بهتری را نیز باز می‌کند - به ویژه برای کارهای OCR و بینایی. محور - که DINOv3-ConvNeX کاملاً فاقد آن است.

خوراکی های کلیدی یک رمزگذار برای کنترل همه آنها. EUPE یک رمزگذار بینایی فشرده منفرد (زیر پارامترهای 100M) است که با مدل‌های تخصصی حوزه تخصصی در درک.

تصویر،. پیش‌بینی متراکم و مدل‌سازی زبان بینایی مطابقت دارد یا عملکرد بهتری دارد - کارهایی که قبلاً به رمزگذارهای.

جداگانه و اختصاصی نیاز داشتند. قبل از کاهش مقیاس، مقیاس را افزایش دهید.

نوآوری اصلی یک خط لوله تقطیر "معلم پروکسی" سه مرحله ای است:. ابتدا دانش را از چندین مدل متخصص بزرگ در یک پروکسی پارامتر 1.9B جمع آوری کنید،.

سپس از آن معلم واحد به یک دانش آموز کارآمد تقطیر کنید - به جای تقطیر مستقیم از. چندین معلم به طور همزمان.

انتخاب معلم یک تصمیم طراحی است، نه داده شده. افزودن معلمان بیشتر همیشه کمکی نمی کند.

از جمله SigLIP2-G در کنار PEcore-G عملکرد OCR را به طور قابل توجهی کاهش داد. معلوم شد که PElang-G مکمل VLM مناسبی است - یافته ای با پیامدهای عملی مستقیم برای هر کسی.

که خطوط لوله تقطیر چند معلمی می سازد. برای استقرار لبه واقعی ساخته شده است.

خانواده کامل EUPE شامل شش مدل در معماری های ViT و ConvNeXt است. کوچکترین، ViT-T، در 6.8 میلی‌ثانیه بر روی پردازنده آیفون 15 پرو اجرا می‌شود.

همه مدل‌ها از طریق ExecuTorch صادر می‌شوند و در Hugging Face در دسترس هستند - آماده برای ادغام. در دستگاه،.

نه فقط برای محک زدن. کیفیت داده ها بر کمیت داده ها غلبه می کند.

در آزمایش‌های ابلیشن،. آموزش روی LVD-1689M تقریباً در تمام معیارها بهتر از آموزش روی MetaCLIP بود - علیرغم اینکه MetaCLIP تقریباً.

800 میلیون تصویر بیشتر داشت. یک یادآوری مفید که مجموعه داده های بزرگتر به طور خودکار به معنای مدل های بهتر نیست.

کاغذ، وزن مدل و مخزن را بررسی کنید. همچنین،.

راحت ما را در توییتر دنبال کنید و فراموش نکنید که به ML SubReddit 120k+ ما بپیوندید و. در خبرنامه ما مشترک شوید.

صبر کن تو تلگرام هستی اکنون می توانید در تلگرام نیز به ما بپیوندید. آیا برای تبلیغ GitHub Repo یا Hugging Face Page یا انتشار محصول یا وبینار و غیره با ما.

نیاز دارید؟ با ما ارتباط برقرار کنید The post Meta AI EUPE را منتشر کرد:.

خانواده رمزگذار بینایی فشرده زیر ۱۰۰ میلیون پارامتر که با مدل‌های تخصصی در درک تصویر،. پیش‌بینی متراکم و وظایف VLM رقابت می‌کند اولین بار در MarkTechPost ظاهر شد.

چرا مهم است

اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیم‌گیری سازمانی اثر می‌گذارد.

منبع

لینک منبع اصلی در کارت و صفحه مقاله نمایش داده می‌شود.

تعامل کاربران و کیفیت خبر

امتیاز بدهید، نظر ثبت کنید یا اگر خطایی دیدید گزارش اصلاح بفرستید.

بازدید

۰

کلیک روی خبر

۰

امتیاز میانگین

0.00 / 5

دیدگاه تایید شده

۰

امتیاز شما به خبر

هنوز امتیاز نداده‌اید.

واکنش سریع به خبر

به‌جای لایک کلی، نوع برداشت خودتان را مشخص کنید.

ثبت دیدگاه

گزارش اصلاح یا بهبود

آخرین دیدگاه‌ها

هنوز دیدگاهی ثبت نشده است.

مقایسه سه سطح مطالعه

برای همین خبر، نسخه ساده، عمومی و تخصصی کنار هم خلاصه شده‌اند.

ساده

۱۳٬۵۶۲ کاراکتر

کند. RADIOv2.5-B،. EUPE-ViT-B انسجام معنایی،.

  • اجرای هوش مصنوعی قدرتمند در گوشی هوشمند شما فقط یک مشکل سخت.
  • افزاری نیست،.
  • بلکه یک مشکل معماری مدل است.
  • بیشتر پیشرفته ترین رمزگذارهای بینایی بسیار زیاد هستند و وقتی آنها را برش.

عمومی

۱۳٬۵۹۷ کاراکتر

RADIOv2.5-B،. نوع مقیاس ViT-B،. EUPE-ViT-B انسجام معنایی،.

  • اجرای هوش مصنوعی قدرتمند در گوشی هوشمند شما فقط یک مشکل سخت افزاری نیست،.
  • بلکه یک مشکل معماری مدل است.
  • بیشتر پیشرفته ترین رمزگذارهای بینایی بسیار زیاد هستند و وقتی آنها را برش می دهید تا روی دستگاه لبه قرار.
  • بگیرند،.

تخصصی

۱۳٬۵۸۸ کاراکتر

SigLIP2-B (83.2) و DINOv3-ViT-B (83.0) بهتر عمل می‌کند. EUPE-ViT-B انسجام معنایی،. ViT-B (86M) خانواده ConvNeXt:.

  • اجرای هوش مصنوعی قدرتمند در گوشی هوشمند شما فقط یک مشکل سخت افزاری نیست، بلکه یک مشکل معماری مدل است.
  • بیشتر پیشرفته ترین رمزگذارهای بینایی بسیار زیاد هستند و وقتی آنها را برش می دهید تا روی دستگاه لبه قرار بگی...
  • قابلیت هایی را که در وهله اول مفید بودند از دست می دهند.
  • بدتر از آن،.

هایلایت‌ها و یادداشت‌ها

متن دلخواه را در خبر انتخاب کنید و با یک کلیک هایلایت بزنید. فقط برای شما قابل مشاهده است.

برای استفاده از هایلایت و یادداشت، وارد حساب کاربری شوید.

منابع اولیه

لینک‌های اصلی این خبر، شامل منبع اصلی و ارجاع‌های claim panel.

  • https://www.marktechpost.com/2026/04/06/meta-ai-releases-eupe-a-compact-vision-encoder-family-under-100m-parameters-that-rivals-specialist-models-across-image-understanding-dense-prediction-and-vlm-tasks/
  • https://www.marktechpost.com/

پست‌های مرتبط نبض هوش

چهره‌های تخصصی Hooshgate این خبر را از زاویه نقش و تخصص خودشان تحلیل کرده‌اند.

رفتن به شبکه

هنوز پست تخصصی برای این خبر منتشر نشده است.

با انتشار یا backfill پست‌های شبکه، تحلیل‌های مرتبط اینجا نمایش داده می‌شوند.

خبرهای مرتبط

خبرهای نزدیک به همین موضوع برای ادامه مطالعه.

رویدادهای آیندهNIST AIپارامترسازی صاف و دقیق مشخصات منطق زمانی سیگنال زمان پیوسته برای بهینه سازی مسیرarXiv (math.OC)تجزیه و تحلیل خودکار ابتکارات جهانی ایمنی هوش مصنوعی: یک رویکرد LLM مبتنی بر طبقه بندیarXiv (cs.AI)StoryBlender: استوری‌بورد سه‌بعدی سازگار و قابل ویرایش Inter-Shot با دینامیک مکانی-زمانیarXiv (cs.CV)

بعدش چی بخونم؟

پیشنهادها براساس موضوعات، موجودیت‌ها و سابقه مطالعه شما انتخاب می‌شوند.

رویدادهای آیندهNIST AI7 آوریل 2026،. 13 آوریل - سه،. (2023) و Technische هوش مصنوعی برای علم مواد (AIMS) 2026 سه شنبه،.پارامترسازی صاف و دقیق مشخصات منطق زمانی سیگنال زمان پیوسته برای بهینه سازی مسیرarXiv (math.OC)روش پیشنهادی مشخصات را در زمان متراکم ارزیابی می کند،. زمان در بازه زمانی تعیین شده حذف می کند. CT-STL،.تجزیه و تحلیل خودکار ابتکارات جهانی ایمنی هوش مصنوعی: یک رویکرد LLM مبتنی بر طبقه بندیarXiv (cs.AI)ارزیابی انسانی توسط سه کارشناس روی دو جفت سند،. هوش مصنوعی (cs.AI) استناد به عنوان:. 2604.03533 [cs.AI] (یا arXiv:.StoryBlender: استوری‌بورد سه‌بعدی سازگار و قابل ویرایش Inter-Shot با دینامیک مکانی-زمانیarXiv (cs.CV)(1) زمینه سازی معنایی فضایی،. arXiv:. 2604.03315 [cs.CV] (یا arXiv:.روش مرزی اعتماد غیر گاوسی تحلیلی برای کنترل مسیر با محدودیت شانسarXiv (math.OC)آمار گاوسی تبعیت می کنند. arXiv:. 2604.04304 [math.OC] (یا arXiv:.
دسته‌های مرتبط:پژوهشیادگیری
برچسب‌ها:ComputeNLPVision
فهرست خبرها