TL;DR
- چکیده:.
- عملگرهای معنایی بهطور فزایندهای در سیستمهای داده ادغام شده اند تا پردازش دادهها را با.
- استفاده از مدلهای زبان بزرگ (LLM) فعال کنند.
چه اتفاقی افتاد
چکیده:. عملگرهای معنایی بهطور فزایندهای در سیستمهای داده ادغام شده اند تا پردازش دادهها را با.
استفاده از مدلهای زبان بزرگ (LLM) فعال کنند. علیرغم تلاشهای قابل توجه اخیر در بهبود این اپراتورها،.
دقت آنها به دلیل یک نقص اساسی در اجرای آنها محدود است:. عدم درک کلنگر دادهها.
در سیستمهای موجود،. اپراتورهای معنایی اغلب هر رکورد داده را بهطور مستقل با استفاده از یک LLM،.
بدون در نظر گرفتن زمینه داده،. پردازش میکنند،.
و تنها از تفسیر آگنوستیک دادههای LLM از وظیفه ارائهشده توسط کاربر استفاده میکنند. با این حال،.
زبان طبیعی نادقیق است،. بنابراین یک کار تنها در صورتی میتواند با دقت انجام شود که به درستی در زمینه مجموعه داده.
تفسیر شود. بهعنوان مثال،.
برای طبقه بندی و امتیازدهی وظایف،. که وظایف نقشه معنایی معمولی هستند،.
روش استاندارد پردازش هر ردیف رکورد به سطر نتایج نادرستی در طیف وسیعی از مجموعه دادهها ما. HoldUp،.
یک روش جدید برای پردازش دادههای معنایی با درک کل نگر دادهها را پیشنهاد میکنیم. HoldUp رکوردها را بهطور مشترک پردازش میکند و از روابط بین رکوردها برای تفسیر صحیح کار در.
بافت داده استفاده میکند. با این حال،.
فعال کردن درک کلنگر دادهها به دلیل آنچه که ما آن را پارادوکس درک دادههای LLM مینامیم،. چالش برانگیز است:.
در حالی که زیر مجموعههای بزرگ داده نماینده برای ارائه زمینه لازم هستند،. تغذیه ورودیهای طولانی به LLMها به دلیل مسائل شناخته شده با زمینه طولانی باعث کاهش کیفیت میشود.
برای حل این پارادوکس،. ما یک الگوریتم خوشهبندی جدید را برای شناسایی ساختار پنهان در مجموعه داده از طریق استفاده خردمندانه از.
LLMs،. با الهام از بستهبندی توسعه میدهیم.
با استفاده از این رویکرد بهعنوان یک روش ابتدایی،. ما روشهای طبقهبندی و امتیازدهی مبتنی بر خوشهبندی جدید را برای انجام این دو کار با دقت بالا.
توسعه میدهیم. آزمایش در 15 مجموعه داده دنیای واقعی نشان میدهد که HoldUp بهطور مداوم از راهحلهای.
موجود بهتر عمل میکند و تا 33 ٪ دقت بالاتر برای طبقه بندی و 30 ٪ دقت. بالاتر برای امتیاز دهی و کارهای خوشه بندی ارائه میدهد.
پایگاههای داده (cs. DB) استناد بهعنوان: (یا v1 [cs.
DB] برای این نسخه) https:. // شده توسط arXiv از طریق DataCite (در انتظار ثبت نام) تاریخچه ارسال از:.
سپنتا ضیغمی [مشاهده ایمیل] [v1] جمعه،. 3 آوریل 2026،.
02:. 37:.
06 UTC (2,. 638 KB).
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
