TL;DR
- در نگاه اول، رسیدها ساده به نظر میرسند.
- آنها معمولاً اسناد کوتاه هستند،.
- اغلب از نظر طرح بندی باریک،.
چه اتفاقی افتاد
در نگاه اول، رسیدها ساده به نظر میرسند. آنها معمولاً اسناد کوتاه هستند،.
اغلب از نظر طرح بندی باریک،. و به ندرت فراتر از چند ده مورد خطی هستند.
به همین دلیل، آنها اغلب بهعنوان وظایف OCR آسان دست کم گرفته میشوند. با این حال،.
رسیدها یکی از سریعترین راهها برای افشای اینکه آیا سیستم پردازش اسناد شما درجه تولید است یا توسط. regex و امید در کنار هم قرار دارد،.
هستند. در سیستمهای اتوماسیون دنیای واقعی، رسیدها یک مشکل OCR نیستند، بلکه یک مشکل هوشمندی اسناد هستند.
متأسفانه، اکثر پشتههای OCR قدیمیبرای این سطح از قابلیت اطمینان ساختاری طراحی نشده اند. در این مقاله،.
ما بررسی میکنیم که چرا خطوط لوله OCR سنتی تحت تغییرپذیری دریافت در دنیای واقعی شکسته میشوند و. رویکرد عاملی و معماری اول بهطور متفاوتی انجام میدهد.
توهم «OCR خوب» بسیاری از تیمها استخراج رسید را با این سؤال ارزیابی میکنند:. «آیا ما متن را دریافت کردیم؟» این سوال اشتباهی است حق سوال این است:.
«آیا میتوانیم دادههای مالی ساختاریافته را در هزاران طرحبندی متغیر بدون حفظ قوانین ثابت بهطور قابل اعتماد بازسازی. کنیم؟» در سیستمهای تولید،.
استخراج هدف نیست،. بلکه اتوماسیون است.
زمانی که اقلام خط دیگر به درستی گروه بندی نمیشوند،. مجموعها به اشتباه شناسایی میشوند یا با مقادیر کارت اشتباه گرفته میشوند،.
نام تاجران فقط تا حدی شناسایی میشوند،. یا زمانی که توضیحات چند خطی از قیمتهای مرتبط دور میشوند،.
اتوماسیون شروع به تنزل میکند. در محیطهای پردازش رسید در مقیاس بزرگ،.
این شرایط بهطور منظم رخ میدهد و منجر به پیچیده شدن پایین دست میشود. موتورهای OCR سنتی برای رونویسی کاراکترها به جای تفسیر ساختاری بهینه شده اند.
آنها متن را برمیگردانند،. اما روابط بین فیلدها،.
سلسله مراتب عددی یا گروه بندیهای مبتنی بر طرح را حفظ نمیکنند. نتیجه یک خروجی متن مسطح است که سیستمهای پایین دستی باید آن را دوباره تفسیر کنند و.
عادی سازی کنید. هنگامیکه ساختار در طول استخراج حفظ نشود،.
تیمها در نهایت با بررسیهای دستی و قوانین اضافی در پایین دست جبران میکنند. چرا رسیدها یک آزمون استرس برای سیستمهای اسنادی هستند رسیدها اسناد مالی فریبندهای کوچکی هستند که.
تقریباً هیچ استانداردی ندارند. برخلاف صورتحسابها یا فرمهای مالیاتی،.
هیچ الگوی منسجمیوجود ندارد که بر نحوه ساختاربندی اقلام خط،. مجموع،.
مالیات یا جزئیات پرداخت توسط بازرگانان حاکم باشد. در واقع، غیرمعمول نیست که دو رسید از یک خرده فروش تفاوت زیادی با یکدیگر داشته باشند.
آنها همچنین با پیچیدگی ساختاری و بصری همراه هستند. بهعنوان مثال،.
موارد خط اغلب به اختصار خلاصه میشوند،. توضیحات بهطور غیرقابل پیشبینی بسته میشوند و چندین مقدار عددی نزدیک به هم و بدون ی واضح ظاهر.
میشوند. لوگوها و فونتهای سبکدار نویز بصری ایجاد میکنند،.
در حالی که تصاویر گرفتهشده با موبایل تمایل دارند نوری کج و ناهموار ایجاد کنند. با گذشت زمان،.
چاپ حرارتی کنتراست را کاهش میدهد و خوانایی در مجموع،. آنها برای سیستمهایی که بر اساس مفروضات موقعیتی یا پس پردازش مبتنی بر قانون ساخته شده اند،.
چالش برانگیز هستند. آنچه برای یک الگو کار میکند اغلب برای قالب بعدی شکست میخورد.
با افزایش تعداد بازرگانان،. حجم موارد لبه نیز افزایش مییابد و حفظ دقت به یک روند ثابت برای افزودن قوانین جدید تبدیل.
میشود. بازنگری در معماری:.
از خطوط لوله OCR تا تجزیه با عوامل هوش مصنوعی پشتههای اسناد سنتی از یک الگوی آشنا پیروی. میکنند:.
OCR → Heuristics → Regex → Cleanup → Validation → اصلاحات دستی وقتی طرحبندی تغییر میکند یا قالببندی. تغییر میکند،.
تیمها معمولاً با افزودن قوانین جدید یا گسترش درخواستها پاسخ میدهند. با گذشت زمان، تلاش مورد نیاز برای حفظ این تنظیمات میتواند از هزینه استخراج اصلی فراتر رود.
LlamaCloud رویکرد متفاوتی به این موضوع دارد. این موتور بهعنوان یک موتور OCR عامل یکپارچه با قدرت VLM عمل میکند که تشخیص بصری،.
درک طرح بندی،. ساختاری را انجام میدهد.
استدلال، و اعتبار در یک سیستم هماهنگ واحد. این منجر به موارد زیر میشود:.
بخشهای بینایی رایانهای آگاه از طرحبندی،. مناطق مستند را مدلهای زبان بینایی عناصر بصری پیچیده را تفسیر میکنند مدلهای زبان دلیل در مورد ساختار.
و گروهبندی استقرار مدل تخصصی مناسب برای کار (نمودار،. متن،.
جداول،. و غیره) حلقههای اعتبارسنجی سازگاری عددی را بررسی میکنند بازسازی هوشمند به جای JSON،.
Markdown یا HTML ساختار یافته تولید میکند. مثال عملی:.
رسید واقعی،. شرایط واقعی برای ارزیابی این رویکرد،.
چندین رسید خردهفروشی واقعی را تحت شرایط معمولی پردازش کردیم:. انحراف جزئی روشنایی ناهموار قالببندی خطی ترکیبی فیلدهای فرعی،.
مالیات و کل فیلدهای کل رسید برند تجاری جاسازیشده در LlamaCloud Playground بارگذاری شد (P) مستقیماً در محیط. تجزیه LlamaCloud.
OCR یک مرحله پیش پردازش جداگانه نیست. در LlamaParse،.
تشخیص بصری،. درک طرحبندی،.
استدلال ساختاری و بازسازی ساختاریافته بهعنوان یک سیستم عاملی یکپارچه و مبتنی بر VLM عمل میکند که مستقیماً. خروجیهای ساختاریافته را تولید میکند.
به عبارت دیگر، تجزیه و استخراج ساختار یافته در یک موتور هماهنگ اتفاق میافتد. پیکربندی تجزیه و تحلیل عاملی و لایه جذب در LlamaCloud به جای متن مسطح،.
خروجی حفظ میشود:. نام تاجر تاریخ و مُهر زمان موارد خط سفارشی قیمتهای مرتبط مالیات فرعی کل نهایی خروجی JSON ساختار.
یافته موارد خط حتی زمانی که توضیحات در خطوط پیچیده میشوند بهدرستی گروهبندی میشوند. مجموعها از نظر معنایی متمایز شدند - نه فقط با بزرگی عددی.
خروجی JSON ساختاریافته با اقلام خط گروه بندی شده و فیلدهای مالی JSON کامل -> output. json خروجی متن حفظ شده با چیدمان تولید شده توسط LlamaParse هر فیلد استخراجشده با فرادادههای مرتبط و.
سیگنالهای اطمینان بازگردانده میشود و در صورت نیاز اعتبارسنجی انسان در حلقه را ممکن میسازد. جایی که تجزیه عاملی بهتر از OCR سنتی عمل میکند تفاوت بین OCR سنتی و تجزیه عاملی.
زمانی آشکارتر میشود که پیچیدگی طرح افزایش یابد. فراتر از دقت کاراکتر،.
معیار کلیدی این است که آیا ساختار و روابط میدانی قبل از استفاده پایین دستی حفظ و اعتبار. سنجی میشوند یا خیر.
برای دقیقتر شدن،. در اینجا آمده است که چگونه OCR عامل بر ابزارهای سنتی غلبه میکند:.
آگاهی از چیدمان:. بخشهای هدر،.
بدنه و پاورقی به جای صاف شدن،. دست نخورده باقی میمانند.
گروه بندی اقلام خط: توضیحات بسته بندی شده به قیمتهای صحیح پیوست میشوند. تشخیص مجموع معنایی:.
موتور با استفاده از استدلال،. نه فقط تطبیق الگو،.
کل فرعی را از کل کل متمایز میکند. حلقههای اعتبارسنجی: مجموع عددی برای سازگاری داخلی بررسی میشوند.
خروجیهای قابل تایید: نمرات اعتماد و ابرداده از بررسی انسان در حلقه پشتیبانی میکند. عوامل فوق نیاز به منطق نرمال سازی پایین دستی شکننده را برطرف میکند.
این تغییر اقتصاد اتوماسیون اسناد را با کاهش نگهداری قوانین پایین دستی و افزایش قابلیت اطمینان پردازش مستقیم. تغییر میدهد.
سیستمهای OCR سنتی سعی میکنند متن را استخراج کنند و سپس برای تعمیر خطاها به سیستمهای پاییندستی تکیه. میکنند.
LlamaCloud آن مدل را معکوس میکند. این OCR عاملی پیشرفته،.
دید کامپیوتری آگاه از چیدمان،. ارکستراسیون چند مدل،.
و اعتبار سنجی ساختار یافته را در یک موتور هماهنگ ترکیب میکند،. که حفظ قوانین پایین دستی را کاهش میدهد و پردازش مستقیم را افزایش میدهد.
سیستمهای OCR سنتی عمدتاً بر استخراج شخصیت تمرکز دارند. هنگامیکه طرحبندی تغییر میکند،.
این سیستمها اغلب به بازآموزی،. الگوهای جدید یا منطق تصحیح پایین دست اضافی نیاز دارند.
آنها همچنین در زمانی که رسیدها حاوی تعبیه شده اند،. با مشکل مواجه میشوند تصاویر،.
قالب بندی غیرمعمول یا فاصله گذاری ناسازگار. در مقابل،.
یک رویکرد تجزیه سند عاملی از ابتدا با سند بهعنوان یک شی ساختار یافته برخورد میکند. درک چیدمان،.
هماهنگی چند مدل،. منطق اعتبارسنجی،.
و بازسازی ساختاریافته در یک سیستم واحد ادغام شدهاند و وابستگی به لایههای شکننده پس از پردازش را. کاهش میدهند.
این برای سیستمهای تولید به چه معناست تیمهای ساخت سیستمهایی مانند پلتفرمهای اتوماسیون هزینه،. خطوط لوله انتقال حسابداری،.
گردش کار حسابرسی و غیره نیاز به قابلیت اطمینان ساختار یافته در مقیاس دارند. این سیستمها به دادههای مالی بهطور مداوم بازسازی شدهاند که میتوانند مستقیماً به دفتر کل و ابزارهای گزارشدهی.
منتقل شوند - منهای بررسی دستی. وقتی جذب،.
استدلال،. اعتبارسنجی و بازسازی در یک سیستم هماهنگ اتفاق میافتد،.
سیستمهای پاییندست با قوانین کمتر،. شکستگیها و نرخهای پردازش مستقیم بالاتر سادهتر میشوند.
بهعنوان یک در نتیجه، تلاش مهندسی از تعمیر مداوم به گسترش پوشش و سختتر کردن سیستم تغییر میکند. دیدگاه نهایی اگرچه رسیدها اسناد نسبتاً کوچکی هستند،.
اما اغلب ضعفهای معماری را در سیستمهای پردازش اسناد در مقیاس آشکار میکنند. سیستمهای ساخته شده بر روی خطوط لوله OCR شکننده قوانین را جمع آوری میکنند.
سیستمهای ساخته شده بر اساس تجزیه اسناد عاملی قابلیت اطمینان را جمع آوری میکنند. LlamaParse نشان دهنده آن تغییر معماری است،.
با یک موتور OCR عامل یکپارچه و با قدرت VLM که برای تولید خروجیهای ساختاریافته و معتبر. بهطور مستقیم و پشتیبانی از عوامل سند انتها به انتها بدون لایههای شکننده پس از پردازش طراحی.
شده است.
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
