TL;DR
- چکیده:.
- مدلهای تبدیل متن به گفتار (TTS) به دلیل تولید شکل موج پیوسته و حساسیت ادراکی به اغتشاشات عددی.
- کوچک،.
چه اتفاقی افتاد
چکیده:. مدلهای تبدیل متن به گفتار (TTS) به دلیل تولید شکل موج پیوسته و حساسیت ادراکی به اغتشاشات عددی.
کوچک،. بهطور قابل توجهی از نظر عددی شکنندهتر از مدلهای زبان بزرگ (LLM) هستند.
در حالی که تکنیکهای کاهش دقت تهاجمیمانند BlockFloat8 (BFP8) و محاسبات با وفاداری پایین (LoFi) بهطور گسترده. در مدلهای زبان مورد استفاده قرار گرفتهاند،.
استفاده از استراتژیهای مشابه برای سیستمهای TTS اغلب منجر به مصنوعات شنیداری،. ناپایداری فاز و اعوجاج طیفی میشود.
در این کار،. ما Lightning V2 را ارائه میکنیم،.
یک مدل TTS درجه تولید که برای سختافزار Tenstorrent بهینه شده است. از طریق طراحی معماری دقیق و بهینهسازی مشترک سختافزار-نرمافزار،.
ما به بیش از 95 ٪ وفاداری محاسباتی LoFi و بیش از 80 ٪ استقرار BlockFloat8 بدون کاهش. قابل اندازهگیری کیفیت صدا دست پیدا میکنیم.
استفاده از شبکه روی تراشه Tenstorrent (NoC)،. SRAM توزیعشده و مدل اجرای قطعی،.
حرکت حافظه و واکشی وزن اضافی را کاهش میدهیم و استنتاج با دقت پایین کارآمد را امکانپذیر میکنیم. در مقایسه با خط پایه NVIDIA L40S،.
لایتنینگ V2 تقریباً 4 برابر هزینه شتابدهنده اولیه را با توان عملیاتی معادل کاهش میدهد،. در حالی که وفاداری صوتی تولید را حفظ میکند.
نتایج ما نشان میدهد که طراحی مشترک دقیق،. همراه با بهینهسازی سختافزاری،.
میتواند اساساً اقتصاد استنتاج گفتار بلادرنگ را تغییر دهد. پردازش صدا و گفتار (eess.
AS)؛ محاسبات توزیع شده، موازی و خوشهای (cs. DC)؛ صدا (cs.
SD) استناد بهعنوان: (یا v1 [eess. AS] برای این نسخه) https:.
// شده توسط arXiv از طریق DataCite تاریخچه ارسال از:. Ranjith M S [مشاهده ایمیل] [v1] سه شنبه،.
24 مارس 2026،. 13:.
02:. 58 UTC (112 KB).
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
