TL;DR
- v1 نوع اعلام:.
- جدید چکیده:.
- پشتو توسط تقریباً 60 تا 80 میلیون نفر صحبت میشود،.
چه اتفاقی افتاد
v1 نوع اعلام:. جدید چکیده:.
پشتو توسط تقریباً 60 تا 80 میلیون نفر صحبت میشود،. اما هیچ معیار منتشر شده برای تشخیص خودکار گفتار چند زبانه (ASR) در هر مجموعه آزمایشی عمومیمشترک.
ندارد. این مقاله اولین ارزیابی چند مدل قابل تکرار بر روی دادههای پشتو عمومیرا گزارش میکند که ASR.
صفر شات،. شکست در سطح اسکریپت و ارزیابی بین دامنهای مدلهای تنظیمشده را پوشش میدهد.
برای ASR صفر شات،. ده مدل (همه هفت اندازه Whisper،.
MMS-1B،. SeamlessM4T-v2-large،.
و OmniASR-CTC-300M) در مجموعه تست پشتو FLEURS و یک زیر مجموعه Common Voice ~24 فیلتر شده ارزیابی می. شوند.
Whisper WER صفر شات از 90 ٪ تا 297 ٪،. با مدل متوسط به 461 ٪ در Common Voice~24 سقوط میکند که با حلقه رمزگشا سازگار است.
SeamlessM4T به 39. 7% WER در Common Voice ~ 24 دست مییابد (بهترین نتیجه صفر شات گزارش شده تا به.
امروز،. از زمان ارسال).
MMS-1B به 43. 8 ٪ در FLEURS دست مییابد.
برای شکست فیلمنامه، ممیزی شناسایی زبان نشان میدهد که هیچ مدل Whisper در بیش از 0. 8% از گفتهها خروجی اسکریپت پشتو تولید نمیکند،.
در حالی که MMS-1B،. SeamlessM4T،.
و OmniASR هر کدام بیش از 93% وفاداری به اسکریپت پشتو هستند. WER به تنهایی این شکست را آشکار نمیکند،.
زیرا مدلی که خروجی خط عربی را روی صدای پشتو تولید میکند،. به ASR به هیچ معنای قابل تفسیری دست نیافته است.
برای ارزیابی بین دامنهای،. پنج مدل ASR پشتو با تنظیم دقیق در هر دو مجموعه آزمایشی ارزیابی میشوند:.
ارقام WER منتشر شده 14 درصدی به 32. 5--59 درصد در مجموعههای خارج از توزیع تنزل مییابند،.
در حالی که یک مدل تقویتشده در هر دو مجموعه با تخریب متقابل دامنه صفر به 35. 1 درصد میرسد.
طبقهبندی خطای کلاس کاراکتر تأیید میکند که واجهای منحصربهفرد پشتو (سری retroflex و اصطکاکهای جانبی) جرم خطای نامتناسب. را بهحساب میآورند.
همه ارزیابیها فقط گفتار خواندنی را پوشش میدهند. پنج مانع ساختاری برای پیشرفت انباشته شناسایی شده است و پنج اولویتهای پژوهشی مرتب شده استدلال می.
شود.
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
