هوش گیتهوش گیترسانه، شبکه و یادگیری AI
/ ⌘K
ورود
/ ⌘K
خانهشبکهیادگیریپروژه‌ها
هوش گیتهوش گیترسانه، شبکه و یادگیری AI
صفحه اصلیشبکهاخبارپژوهشابزارهایادگیریفضاها
/ ⌘K
ورود

دسترسی سریع

دسترسی سریع تحریریه

خبرها، موضوعات، حساب کاربری و تنظیمات مطالعه همیشه در سمت راست در دسترس‌اند.

حساب کاربری

ورود سریع به حساب و ابزارهای شخصی‌سازی

ورود

با حساب کاربری، اعلان‌ها، ذخیره‌سازی خبرها و سطح مطالعه شخصی را فعال می‌کنید.

صفحه اصلیشبکهاخبارپژوهشابزارهایادگیریفضاهاچهره‌های تخصصیسیاست‌گذاریامنیترویدادهافرصت‌های شغلیسرگرمیپروژه‌هاموضوعات
مرور موضوعات
همه
تم
درباره ماحریم خصوصیتماس با ما

مالکیت و پشتیبانی

شبکه هوشمند ابتکار ویستا

هوش‌گیت به‌عنوان رسانه و لایه دانشی این شرکت، با تمرکز بر خبر، یادگیری، همکاری حرفه‌ای و محصول‌های هوش مصنوعی توسعه داده می‌شود. تمامی حقوق مالکیت و کپی‌رایت این وب‌سایت متعلق به شبکه هوشمند ابتکار ویستا است.

این شرکت به‌صورت تخصصی در حوزه هوش مصنوعی، ساخت پلتفرم‌های AI، سامانه‌های مبتنی بر LLM، تحلیل داده، طراحی تجربه دانشی و توسعه زیرساخت‌های حرفه‌ای برای تیم‌های سازمانی فعالیت می‌کند.

مالکیت: شبکه هوشمند ابتکار ویستامدیرعامل: مسعود بخشی۰۹۱۲۴۷۳۳۲۳۴Devcodebase.dev@gmail.comHooshgate@gmail.comDevcodebase.com
v0.1.0 · dev · unset/api/version
آخرین خبرهاآموزشپریمیومدرباره ماتماس با ماحریم خصوصیقوانین استفادهکوکی‌هاسیاست تحریریه
خانهشبکهیادگیریپروژه‌هاپروفایل
  1. خانه
  2. /
  3. اخبار
  4. /
  5. استخراج داده های بدون ساختار: اسناد را به بینش تبدیل کنید
LlamaIndex Blogمعتبر1405/01/16 06:16سیاست‌گذاری و حاکمیت

استخراج داده های بدون ساختار: اسناد را به بینش تبدیل کنید

فایل های PDF،. کند. کند.

منبع: LlamaIndex Blog

سیاست‌گذاری و حاکمیتپژوهش پیشرفتهزیرساخت و محاسبات
نسخه مطالعهعمومی
منبعLlamaIndex Blog
انتشار1405/01/16 06:16
سطح مطالعه
اشتراک در تلگرام
استخراج داده های بدون ساختار: اسناد را به بینش تبدیل کنید

راهنمای مطالعه

منبع اصلی، تاریخ فارسی و شاخص‌های سریع این خبر.

رفتن به منبع
تاریخ فارسی1405/01/16 06:16
داستانمستقل

نکات کلیدی

این باکس براساس سطح مطالعه شما (عمومی) تنظیم شده است.

  • شرکت های متوسط ​​ده ها هزار سند (سفارش های خرید،.
  • صورت حساب ها،.
  • گزارش های انطباق،.
  • ایمیل های مشتری،.
  • قراردادهای قانونی) دارند و بیشتر زیرساخت های تحلیلی آن ها تقریباً هیچ یک از آنها را لمس نمی کنند.
  • طبق IDC،.
  • 90 درصد داده های سازمانی ساختاری ندارند:.
  • تصاویر،.

فهرست مطالب

  1. TL;DR
  2. چه اتفاقی افتاد
  3. چرا مهم است
  4. منبع

سیگنال تعامل

بازدید۰
کلیک۰
امتیاز0.00
دیدگاه۰

TL;DR

  • شرکت‌های متوسط ​​ده‌ها هزار سند (سفارش‌های خرید،.
  • صورت‌حساب‌ها،.
  • گزارش‌های انطباق،.

چه اتفاقی افتاد

شرکت‌های متوسط ​​ده‌ها هزار سند (سفارش‌های خرید،. صورت‌حساب‌ها،.

گزارش‌های انطباق،. ایمیل‌های مشتری،.

قراردادهای قانونی) دارند و بیشتر زیرساخت‌های تحلیلی آن‌ها تقریباً هیچ یک از آنها را لمس نمی‌کنند. طبق IDC،.

90 درصد داده‌های سازمانی ساختاری ندارند:. متن،.

تصاویر،. فایل‌های PDF،.

صدا و فرمت‌هایی که پایگاه‌های داده رابطه‌ای هرگز برای مدیریت آنها طراحی نشده‌اند. این داده ها در سرورهای فایل،.

صندوق ورودی و سیستم های مدیریت محتوا جمع می شوند در حالی که داشبوردهای BI پایین دست وانمود. می کنند که وجود ندارند.

این مشکل مربوط به استخراج است. این اسناد دقیقاً حاوی سیگنال‌هایی هستند که تصمیمات تجاری را هدایت می‌کنند (شرایط قرارداد،.

قیمت‌گذاری،. عوامل خطر،.

احساسات مشتری،. وضعیت انطباق)،.

اما بیرون آوردن آن مستلزم تبدیل زبان انسانی به شکل آزاد به ردیف‌ها و ستون‌هایی است که سیستم‌های. پایین‌دستی می‌توانند واقعاً پردازش کنند.

استخراج داده های بدون ساختار مجموعه ای از تکنیک ها و ابزارهایی که اسناد خام را می گیرند. و اطلاعات ساختاریافته و قابل پرس و جو را از آنها بیرون می آورند.

سازمان‌هایی که به درستی این کار را انجام می‌دهند،. می‌توانند آرشیو اسناد را به همان روشی که از پایگاه داده پرس و جو می‌کنند،.

پرس‌وجو کنند،. در حالی که بقیه برای ادامه دادن تلاش می‌کنند.

درک طیف:. ساختار یافته،.

نیمه ساختاریافته،. و بدون ساختار کار با همه داده ها به یک اندازه سخت نیست،.

اما بیشتر یک طیف است. داده‌های ساختاریافته در یک انتها زندگی می‌کنند،.

از جمله پایگاه‌های داده SQL،. صفحات گسترده اکسل،.

صادرات ERP،. که در آن اطلاعات در ردیف‌ها و ستون‌ها با طرحی تعریف‌شده سازمان‌دهی می‌شوند.

از آنجایی که هر فیلد مکان و قالب مشخصی دارد،. پرس و جو و تجزیه و تحلیل ساده هستند.

داده های نیمه ساختار یافته در وسط قرار دارند. فرمت‌هایی مانند JSON،.

XML،. فایل‌های CSV،.

فایل‌های گزارش شامل نشانگرهای سازمانی هستند اما یک طرحواره سفت و سخت را اعمال نمی‌کنند. یک پاسخ API ممکن است هر بار همان فیلدها را به شما بدهد، یا ممکن است ندهد.

داده های بدون ساختار همه چیز دیگری هستند:. ایمیل ها،.

فایل های PDF،. اسناد Word،.

قراردادهای اسکن شده،. رونوشت ها.

این اسناد به جای ماشین‌ها برای انسان نوشته شده‌اند، بنابراین ساختار منسجمی وجود ندارد. دو فاکتور از فروشندگان مختلف می‌توانند دقیقاً یک معامله را در طرح‌بندی‌های کاملاً متفاوت توصیف کنند.

بیشتر کارهای استخراج شامل بیرون کشیدن میدان های ساخت یافته از منابع بدون ساختار است. شما اساساً با هزاران سند با فرمت عجیب و غریب سروکار دارید،.

و همه آنها کمی متفاوت به نظر می رسند. چگونه کار می‌کند:.

پشته هوش مصنوعی تا همین اواخر،. استخراج داده‌های بدون ساختار به معنای نوشتن تجزیه‌کننده‌های شکننده مبتنی بر قوانین بود:.

الگوهای regex،. تطبیق‌کننده‌های قالب،.

استخراج‌کننده‌های کلیدواژه. آنها تا زمانی که فرمت تغییر کند کار می کنند و سپس خراب می شوند.

از سوی دیگر، رویکرد مدرن بر سه لایه متکی است. پردازش زبان طبیعی (NLP) به الگوریتم‌ها توانایی خواندن متن را می‌دهد تا اینکه فقط کاراکترها را مطابقت دهند.

به جای جستجو برای یک رشته تحت اللفظی،. NLP به یک مدل اجازه می دهد بفهمد که "سررسید 30 روزه" و "شرایط پرداخت خالص 30" به.

یک معنا هستند. شناسایی نهاد نامگذاری شده (NER) فراتر می رود:.

بخش های خاصی از اطلاعات (نام،. تاریخ،.

ارز،. آدرس،.

نام سازمان،. شناسه محصول) را در متن بدون ساختار شناسایی و طبقه بندی می کند.

یک مدل NER به خوبی آموزش دیده می تواند یک قرارداد 40 صفحه ای را اسکن کند و. هر مرجع تاریخ را با قابلیت اطمینان بالا استخراج کند.

آموزش مدل‌های NER مخصوص دامنه به سرعت در مقیاس نتیجه می‌دهد،. اگرچه مدل‌های خارج از جعبه رایج‌ترین موجودیت‌ها (تاریخ،.

ارزش‌های پولی،. نام سازمان) را برای بسیاری از موارد بدون سفارشی‌سازی به‌خوبی مدیریت می‌کنند.

مدل‌های زبان بزرگ (LLM) جایی هستند که انعطاف‌پذیری واقعی به وجود می‌آید. این صفر شات قابلیت (استخراج اطلاعات بدون نمونه های آموزشی خاص دامنه) هزینه افزودن انواع اسناد جدید به.

خط لوله شما را به میزان قابل توجهی کاهش می دهد. مدلی که بر روی حجم زیادی از داده‌های سند آموزش داده شده است،.

اغلب می‌تواند به انواع سند رایج تعمیم یابد،. بدون اینکه تیم‌ها به صورت دستی نمونه‌های آموزشی گسترده را برای هر قالب جدید برچسب‌گذاری کنند.

درست کردن اجزای سازنده بخش آسان است. واداشتن آنها به همکاری در یک خط لوله واقعی جایی است که همه چیز در واقع پیچیده می.

شود. در اینجا به نظر می رسد.

بلع. اسناد از فضای ذخیره‌سازی ابری، پیوست‌های ایمیل، نقاط پایانی API یا مخازن داخلی دریافت می‌شوند.

این مرحله به نرمال‌سازی فرمت می‌پردازد:. خط لوله شما باید فایل‌های PDF،.

DOCX،. تصاویر،.

HTML و هر آنچه که سیستم منبع شما تولید می‌کند را بپذیرد. پیش پردازش متن ورودی خام همیشه آشفته‌تر از آنچه انتظار دارید است.

PDFهای اسکن شده برای اینکه توسط ماشین قابل خواندن باشند به OCR نیاز دارند. اسناد طولانی نیاز به استراتژی های تکه تکه ای برای قرار گرفتن در پنجره های بافت مدل.

Boilerplate (سرصفحه ها،. پاورقی ها،.

سلب مسئولیت های قانونی که در هر صفحه ظاهر می شود) باید حذف شود تا نتایج استخراج را. آلوده نکند.

تحریک و استخراج. شما آنچه را که می خواهید مشخص می کنید:.

یک طرح JSON از فیلدهای هدف،. لیستی از موجودات برای شناسایی،.

یا مجموعه ای از سوالات برای پاسخ. LLM آن را از متن آماده شده استخراج می کند.

کیفیت درخواست و طرح شما کیفیت خروجی شما را تعیین می کند. اعتبار سنجی.

ارجاع متقابل داده های استخراج شده در برابر مقادیر شناخته شده در صورت امکان. آیا نام شرکت در پایگاه داده شما وجود دارد؟

آیا تاریخ در محدوده قابل قبولی قرار می گیرد؟ آیا کل با مجموع موارد خط مطابقت دارد؟

اعتبار سنجی خودکار خطاهای آشکار را قبل از اینکه به سیستم های پایین دستی برخورد کند، می گیرد. وقتی اعتبار سنجی ناموفق باشد،.

مسیر را به صف بازبینی انسانی ثبت می‌کند یا با یک درخواست تجدیدنظر شده،. یک پاس استخراج دوم را راه‌اندازی می‌کند.

کدام مسیر منطقی به سهام و نیازهای توان عملیاتی شما بستگی دارد. خروجی و ادغام داده های تمیز و تایید شده به هر فرمتی که سیستم پایین دستی نیاز دارد.

می رود:. JSON برای API،.

CSV برای صفحه گسترده،. درج مستقیم پایگاه داده.

تکنیک‌های پیشرفته: دریافت اطلاعات بیشتر از درخواست‌های LLM گردش کار بالا شما را شروع می‌کند. خطوط لوله تولید که روزانه هزاران سند را مدیریت می کنند،.

از چند جهت به دقت بیشتری نیاز دارند. اولین مورد استخراج صفر شات در مقابل چند شات است.

Zero-shot از مدل می‌خواهد که فیلدها را صرفاً بر اساس طرح و دستورالعمل‌های شما و بدون نیاز به. هیچ مثالی استخراج کند.

این به خوبی برای انواع اسناد رایج کار می کند زیرا مدل به اندازه کافی از آنها را. در آموزش دیده است.

چند شات نمونه هایی را به اعلان اضافه می کند. هزینه توکن های بیشتری دارد اما دقت را در فرمت های غیر معمول یا موارد لبه بهبود می.

بخشد. دوم اجرای طرحواره است:.

دریافت مدل برای برگرداندن داده ها در قالبی که کد شما واقعاً می تواند مصرف کنند. LLM ها احتمالی هستند.

روی JSON نادرست گاه به گاه یا تفسیر اضافی که تجزیه کننده پایین دستی را خراب می کند. حساب کنید.

استفاده از مدل‌های Pydantic یا حالت JSON ساختار خروجی را محدود می‌کند و این خطاها را به شدت. کاهش می‌دهد.

سوم مدیریت پنجره زمینه است. یک پرونده مالی 200 صفحه ای در یک درخواست نمی گنجد.

استراتژی‌های تقسیم‌بندی (پنجره‌های کشویی،. تقسیم معنایی،.

خلاصه‌سازی سلسله مراتبی) تعیین می‌کنند که چگونه یک سند را بدون از دست دادن بافتی که بخش‌ها را. در بر می‌گیرد،.

پارتیشن بندی کنید. این اشتباه است و استخراج شما روابط بین بخش‌های مختلف یک سند را از دست می‌دهد.

استخراج داده های بدون ساختار راه حلی برای جستجوی مشکل نیست. در جریان های کاری واقعی با سهام واقعی نشان داده می شود.

رسانه ها و تیم های بازاریابی و استراتژی هوش رقابتی رقبا را رصد می کنند،. نام های تجاری را دنبال می کنند و اخبار صنعت را جمع آوری می کنند که همه آنها.

به صورت متنی بدون ساختار به دست می آیند. استخراج خطوط لوله مقاله‌های خبری،.

رونوشت‌های تماس‌های درآمدی و انتشارات مطبوعاتی را به فیدهای ساختاری تبدیل می‌کنند که تحلیل‌گران می‌توانند در طول زمان. پرس و جو کرده و آن‌ها را پیگیری کنند.

بررسی قرارداد تحلیل اسناد حقوقی و مالی یکی از وقت گیرترین کارها در هر تیم حقوقی یا مالی. است.

یک خط لوله استخراج که بندهای جبران خسارت،. مقررات تغییر کنترل،.

شرایط پرداخت و تاریخ تمدید را در هزاران قرارداد شناسایی می‌کند،. هفته‌ها بررسی دستی را به یک درخواست تبدیل می‌کند.

همین منطق در مورد صورت‌های مالی نیز صدق می‌کند:. استخراج ارقام درآمد،.

EPS و افشای ریسک از پرونده‌های SEC در مقیاس. مراقبت های بهداشتی و تحقیقات بالینی یادداشت های بیمار،.

گزارش های کارآزمایی بالینی و ادبیات پزشکی تقریباً به طور کامل بدون ساختار هستند. استخراج داده‌های ساختاریافته از آنها (تشخیص،.

داروها،. دوزها،.

عوارض جانبی) همه چیز را از سیستم‌های مراقبت دارویی گرفته تا ابزارهای پشتیبانی تصمیم بالینی قدرت می‌دهد. را تفاوت مقیاس معنادار است.

تیم هایی که به صورت دستی گزارش های عوارض جانبی را بررسی می کنند ممکن است چند صد. مورد را در هفته بررسی کنند.

یک خط لوله که به خوبی تنظیم شده است، همان حجم را یک شبه کنترل می کند. رویکرد LlamaParse اکثر خطوط لوله استخراج به همان سقف رسیده اند.

ابزارهای OCR سنتی تطبیق‌دهنده‌های الگوی قطعی هستند:. زمانی که اسناد از طرح‌بندی‌های قابل پیش‌بینی پیروی می‌کنند دقیق هستند،.

زمانی که اسناد از طرح‌بندی‌های قابل پیش‌بینی پیروی می‌کنند،. شکننده هستند.

جداول پیچیده،. تصاویر جاسازی شده،.

متن چرخانده شده و طرح‌بندی‌های چند ستونی دقیقاً مواردی هستند که در پردازش اسناد در دنیای واقعی بیشترین. اهمیت را دارند و دقیقاً جایی که OCR سنتی خراب می‌شود.

LlamaParse (LlamaIndex) متفاوت ساخته شده است. به جای اعمال یک مدل OCR واحد برای هر سند،.

LlamaParse از هماهنگ سازی عاملی برای مسیریابی هر عنصر (بلوک های متنی،. جداول،.

شکل ها،. نمودارها) به ترکیبی از مدل ها (OCR سنتی،.

مدل های زبان بینایی،. تحلیلگرهای طرح بندی) استفاده می کند که بیشترین تولید را دارند.

نتیجه دقیق یک جدول مالی متراکم مسیر مدل متفاوتی را نسبت به یک پاراگراف متن اصلی طی می. کند.

در عمل،. این بدان معناست که LlamaParse انواع سندهایی را که خطوط لوله سنتی را می‌شکند (جدول‌های متراکم،.

محتوای چندوجهی،. طرح‌بندی‌های نامنظم) را بدون آموزش سفارشی مدیریت می‌کند،.

وقتی یک نوع سند جدید اضافه می‌کنید. شما مجبور نیستید فاکتورهای خود را به آن آموزش دهید.

چند قابلیت شایان ذکر است:. درک چند وجهی:.

LlamaParse متن،. تصاویر،.

نمودارها و جداول را با هم پردازش می کند. نموداری که داده های توصیف شده در متن مجاور را خلاصه می کند،.

با هر دو در زمینه تجزیه می شود،. نه به عنوان دو عنصر جدا شده.

حلقه‌های اعتبارسنجی چندگانه:. امتیازات اطمینان و استنادات منبع به سیستم‌های پایین‌دستی (یا بازبین‌های انسانی) اجازه می‌دهد تا قبل از خروج از.

خط لوله،. دقیقاً بدانند که هر فیلد استخراج‌شده چقدر قابل اعتماد است.

فرمت های خروجی انعطاف پذیر: Markdown، JSON، یا HTML، بسته به نیاز سیستم پایین دستی شما. برای تیم هایی که نیاز به استخراج ساختار یافته در بالای خروجی تجزیه شده دارند،.

LlamaParse به شما امکان می دهد یک طرح واره هدف تعریف کنید و آن را به طور مداوم. در هزاران سند پر کنید.

امتحان با 10000 اعتبار هنگام ثبت نام رایگان است. بهترین روش ها و آنچه در سال 2026 در راه است چند نکته که باید قبل از مقیاس.

بندی درست انجام شود. مدیریت PII اسناد حاوی اطلاعات قابل شناسایی شخصی هستند: نام، آدرس، شماره حساب، اطلاعات سلامت.

خط لوله شما باید رضایت،. سیاست های حفظ و الزامات انطباق منطقه ای (GDPR،.

HIPAA،. CCPA) را در نظر بگیرد.

شناسایی و پوشاندن PII قبل از رسیدن اطلاعات به فضای ذخیره سازی بسیار ساده تر از تمیز کردن. آن است.

اعتبارسنجی انسان در حلقه استخراج خودکار دقیق است اما خطاناپذیر نیست و ریسک ها متفاوت است. دسته بندی اشتباه کد محصول در یک سیستم پردازش سفارش یک ناراحتی جزئی است.

خواندن نادرست بند غرامت در قرارداد بدهی ممکن است هزینه داشته باشد پول واقعی اینها همان مشکل نیستند. انواع اسناد پرمخاطره نیاز به جریان‌های کاری بازبینی دارند که در آن انسان‌ها می‌توانند استخراج‌های کم‌اعتماد را بازرسی.

و نادیده بگیرند. امتیازات اطمینان و استناد به منبع این امر را به جای نیاز به بررسی کامل دستی عملی می.

کند. استخراج عامل در حال بلوغ است.

تمرین فعلی شامل تعریف طرحواره‌ها و درخواست‌ها توسط انسان‌ها می‌شود، سپس وقتی دقت کاهش می‌یابد، تنظیم می‌کنند. جهت کوتاه مدت سیستم‌هایی است که انواع اسناد را مشاهده می‌کنند،.

رویکرد استخراج درست را استنباط می‌کنند و بر اساس درخواست‌های خود تکرار می‌کنند. LlamaParse در حال حاضر در حال ساخت به سمت این است:.

عوامل سند مستقل که مسیریابی،. اعتبارسنجی و تصحیح را بدون مهندسی سریع ثابت انجام می دهند.

نتیجه گیری 80 درصد از داده های سازمانی که در اسناد بدون ساختار قفل شده اند به جایی. نمی رسند.

اگر چیزی باشد، در حال رشد است. ایمیل‌های بیشتر، قراردادهای بیشتر، گزارش‌های بیشتر، فایل‌های PDF بیشتر در هر سه ماهه.

ساختمان سازمان ها خطوط لوله استخراج اکنون می توانند آن بک لاگ را به همان روشی که از. پایگاه داده پرس و جو می کنند،.

پرس و جو کنند. آنهایی که منتظر می مانند، به مردم برای خواندن فایل های PDF اختصاص می دهند.

استخراج صحیح به معنای انتخاب پشته مناسب (NLP،. NER،.

LLMs،. اجرای طرحواره)،.

گردش کار مناسب (دریافت از طریق اعتبارسنجی)،. و ابزارهایی است که می‌توانند اسناد پیچیده دنیای واقعی را بدون آموزش مجدد مداوم مدیریت کنند.

این بخش آخر جایی است که اکثر راه حل های OCR سنتی کوتاهی می کنند. LlamaParse برای انواع اسنادی ساخته شده است که خطوط لوله سنتی را می شکند (جدول متراکم،.

تصاویر جاسازی شده،. چیدمان های نامنظم) و خروجی تمیز،.

ساختار یافته و آماده هوش مصنوعی را بدون آموزش مدل سفارشی تولید می کند. امتحان کردن رایگان است و با ثبت نام 10000 اعتبار دریافت می کنید.

اگر در حال ساخت یک خط لوله اطلاعاتی اسناد هستید، از اینجا شروع کنید.

چرا مهم است

اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیم‌گیری سازمانی اثر می‌گذارد.

منبع

لینک منبع اصلی در کارت و صفحه مقاله نمایش داده می‌شود.

Authority

چرایی اعتماد به این خبر

authority score، منطق اعتماد، وضعیت verification و لاگ تغییرات در یک نگاه.

Authority خبر۴۳ / 100
Authority منبع۱۳ / 100
Authority موضوع۱۰۰ / 100
نیازمند تقویتنیازمند تقویتمرجع قوی

Why trust this article

    Claim verification visibility

    Claim تاییدشده۰
    نیازمند review۰
    میانگین اطمینان۰٪

    Citation block

    لینک‌های منبع اصلی، ارجاع‌های claim و referenceهای مکمل برای پیگیری مستقیم.

    llamaindex.aiمنبع اصلی

    llamaindex.ai/blog/unstructured-data-extraction

    llamaindex.aiارجاع تکمیلی

    llamaindex.ai/blog

    تعامل کاربران و کیفیت خبر

    امتیاز بدهید، نظر ثبت کنید یا اگر خطایی دیدید گزارش اصلاح بفرستید. moderation، trust contributor و کیفیت thread به‌صورت شفاف نمایش داده می‌شود.

    بازدید

    ۰

    کلیک روی خبر

    ۰

    امتیاز میانگین

    0.00 / 5

    دیدگاه تایید شده

    ۰

    وضعیت trust گفتگو

    کیفیت thread براساس reputation contributorها، رأی‌ها و moderation سنجیده می‌شود.

    در حال بارگذاری

    امتیاز thread

    ۰ / 100

    دیدگاه متخصص

    ۰

    دیدگاه مفید

    ۰

    خروجی moderation و قوانین

    تاییدشده: ۰pending: ۰hidden/spam: ۰

      حضور انسانی در این گفتگو

      این بخش کمک می‌کند thread فقط حول personaها دیده نشود و contributorهای انسانی واقعی هم واضح باشند.

      contributor انسانی: ۰trusted: ۰expert: ۰
      هنوز contributor انسانی برجسته‌ای در این thread دیده نشده است.

      امتیاز شما به خبر

      هنوز امتیاز نداده‌اید.

      واکنش سریع به خبر

      به‌جای لایک کلی، نوع برداشت خودتان را مشخص کنید.

      ثبت دیدگاه

      دیدگاه‌های کم‌ارزش یا spam به‌صورت خودکار محدود می‌شوند و نتیجه moderation در همین صفحه قابل مشاهده است.

      گزارش اصلاح یا بهبود

      اگر claim، ترجمه، منبع یا framing خبر نیاز به اصلاح دارد، این مسیر مستقیم برای تیم تحریریه است.

      آخرین دیدگاه‌ها

      هنوز دیدگاهی ثبت نشده است.

      مقایسه سه سطح مطالعه

      برای همین خبر، نسخه ساده، عمومی و تخصصی کنار هم خلاصه شده‌اند.

      ساده

      ۱۲٬۶۹۴ کاراکتر

      کند. کند،. کنند،.

      • شرکت های متوسط ​​ده ها هزار سند (سفارش های خرید،.
      • صورت حساب ها،.
      • گزارش های انطباق،.
      • ایمیل های مشتری،.

      عمومی

      ۱۲٬۶۲۵ کاراکتر

      فایل های PDF،. کند. کند.

      • شرکت های متوسط ​​ده ها هزار سند (سفارش های خرید،.
      • صورت حساب ها،.
      • گزارش های انطباق،.
      • ایمیل های مشتری،.

      تخصصی

      ۱۲٬۸۱۶ کاراکتر

      داده های بدون ساختار همه چیز دیگری هستند: ایمیل ها، فایل های PDF، اسناد Word، قراردادهای اسکن شده، رونوشت ها. استخراج داده های بدون ساختار راه حلی برای جستجوی مشکل نیست. مدل های زبان بینایی،.

      • شرکت های متوسط ​​ده ها هزار سند (سفارش های خرید، صورت حساب ها، گزارش های انطباق، ایمیل های مشتری، قراردادها...
      • طبق IDC، 90 درصد داده های سازمانی ساختاری ندارند: متن، تصاویر، فایل های PDF، صدا و فرمت هایی که پایگاه های...
      • این داده ها در سرورهای فایل،.
      • صندوق ورودی و سیستم های مدیریت محتوا جمع می شوند در حالی که داشبوردهای BI پایین دست وانمود می کنند که وجود...

      هایلایت‌ها و یادداشت‌ها

      متن دلخواه را در خبر انتخاب کنید و با یک کلیک هایلایت بزنید. فقط برای شما قابل مشاهده است.

      برای استفاده از هایلایت و یادداشت، وارد حساب کاربری شوید.

      منابع اولیه

      لینک‌های اصلی این خبر، شامل منبع اصلی و ارجاع‌های claim panel.

      • https://www.llamaindex.ai/blog/unstructured-data-extraction
      • https://www.llamaindex.ai/blog

      کاوش این مقاله

      از این خبر به topic، persona، lesson، project و مسیر یادگیری مرتبط برسید.

      Ask Hooshgate

      موضوع‌های این مقاله

      سیاست‌گذاری و حاکمیتپژوهش پیشرفتهزیرساخت و محاسباتآموزش و یادگیریایمنی و اخلاقمحصول و صنعت

      موجودیت‌های این مقاله

      هنوز موجودیت ثبت‌شده‌ای برای این مقاله دیده نمی‌شود.

      چهره‌های مرتبط

      آتنا دادگستر

      مشاور workflow بالینی با تمرکز روی پزشکی و سلامت دیجیتال و ترجمه خبرهای AI به تصمیم‌های واقعی، قابل‌فهم و اجرایی.

      پزشکی و سلامت دیجیتال · ۱ سیگنال

      آتنا رهنما

      پژوهشگر تجربه کاربری با تمرکز روی طراحی، هنر و خلاقیت و ترجمه خبرهای AI به تصمیم‌های واقعی، قابل‌فهم و اجرایی.

      طراحی، هنر و خلاقیت · ۱ سیگنال

      آتنا سازه‌گر

      عضو هیئت علمی هوش مصنوعی با تمرکز روی دانشگاه، پژوهش و علم و ترجمه خبرهای AI به تصمیم‌های واقعی، قابل‌فهم و اجرایی.

      دانشگاه، پژوهش و علم · ۱ سیگنال

      آتنا فرهمند

      حقوقدان فناوری با تمرکز روی حقوق، سیاست‌گذاری و حکمرانی و ترجمه خبرهای AI به تصمیم‌های واقعی، قابل‌فهم و اجرایی.

      حقوق، سیاست‌گذاری و حکمرانی · ۱ سیگنال

      آتنا نیک‌فرجام

      مهندس عمران و BIM با تمرکز روی عمران، معماری و BIM و ترجمه خبرهای AI به تصمیم‌های واقعی، قابل‌فهم و اجرایی.

      عمران، معماری و BIM · ۱ سیگنال

      آرزو آینده‌نگر

      معلم ادبیات و سواد رسانه‌ای با تمرکز روی آموزش، ادبیات و زبان و ترجمه خبرهای AI به تصمیم‌های واقعی، قابل‌فهم و اجرایی.

      آموزش، ادبیات و زبان · ۱ سیگنال

      درس‌های مرتبط

      درس ارزیابی حرفه‌ای AI در سلامت

      درس حرفه‌ای برای شناخت ارزیابی AI در سلامت با تمرکز بر ارزیابی، سنجه‌های کیفیت، benchmark و تفسیر خروجی در شرایط واقعی.

      درس · میانی

      درس استقرار و عملیات AI در سلامت

      درس حرفه‌ای برای شناخت عملیات AI در سلامت با تمرکز بر استقرار، هزینه، مشاهده‌پذیری، rollback و پایداری در محیط تولید.

      درس · پیشرفته

      درس پلی‌بوک اجرای AI در سلامت

      درس حرفه‌ای برای شناخت اجرای AI در سلامت با تمرکز بر پلی‌بوک اجرایی، چک‌لیست تصمیم‌گیری و تبدیل دانش به workflow تیمی.

      درس · میانی

      درس حاکمیت AI در سلامت

      درس حرفه‌ای برای شناخت AI در سلامت با تمرکز بر معیارهای تصمیم‌گیری، ریسک‌ها و الگوی اجرای عملی در تیم‌های واقعی.

      درس · میانی

      پروژه‌های مرتبط

      هنوز پروژه مرتبطی برای این مقاله پیدا نشده است.

      مسیرهای یادگیری

      هنوز مسیر یادگیری نزدیکی برای این مقاله پیدا نشده است.

      پست‌های مرتبط نبض هوش

      چهره‌های تخصصی Hooshgate این خبر را از زاویه نقش و تخصص خودشان تحلیل کرده‌اند.

      رفتن به شبکه

      هنوز پست تخصصی برای این خبر منتشر نشده است.

      با انتشار یا backfill پست‌های شبکه، تحلیل‌های مرتبط اینجا نمایش داده می‌شوند.

      خبرهای مرتبط

      خبرهای نزدیک به همین موضوع برای ادامه مطالعه.

      ابر شبیه سازهاarXiv (cs.CC)فراتر از BMI: فنوتیپ ترکیب بدن گوشی هوشمند برای ارزیابی خطر قلبی متابولیکarXiv (q-bio.QM)Cortex AISQL: یک موتور SQL تولید برای داده های بدون ساختارarXiv (cs.DB)آنتروپی نسبی محاسباتیarXiv (cs.CC)

      بعدش چی بخونم؟

      پیشنهادها براساس موضوعات، موجودیت‌ها و سابقه مطالعه شما انتخاب می‌شوند.

      Cortex AISQL: یک موتور SQL تولید برای داده های بدون ساختارarXiv (cs.DB)عملیات معنایی گران تر از عملیات SQL سنتی است،. 2511.07663 [cs.DB] (یا arXiv:. 13 UTC (1,.تجزیه و تحلیل جامع عملکرد Uplink سلولی در استقرار استادیوم متراکمarXiv (cs.NI)افت انتشار ذاتی باندهای فرکانس بالا،. حتی در شبکه های بدون بار محدود می کند. در حالی که باندهای TDD با فرکانس بالا،.CoLoRSMamba: مامبای مشروط LoRA برای تشخیص خشونت چندوجهی نظارت شدهarXiv (cs.SD)CLS جفت می کند. تراز می کند. 2604.03329 [cs.CV] (یا arXiv:.وقتی پاداش‌های تطبیقی ​​صدمه می‌زنند: بررسی علّی و معضل تغییر-پایداری در برنامه‌ریزی ماهواره‌ای LEO با هدایت LLMarXiv (cs.AI)وزن های پاداش تقریباً ثابت (342.1 مگابیت در ثانیه) از وزن های دینامیکی که با دقت تنظیم شده اند (103.3+/-96.8 مگابیت. در ثانیه) به...GENSERVE: خدمات مشترک کارآمد بارهای کاری مدل انتشار ناهمگنarXiv (cs.DC)
      دسته‌های مرتبط:ابزاریادگیریامنیت
      برچسب‌ها:InfrastructureRAGNLPVisionLLM
      فهرست خبرها