TL;DR
- نویسنده:.
- Xingchen Song،.
- Di Wu،.
چه اتفاقی افتاد
نویسنده:. Xingchen Song،.
Di Wu،. Dinghao Zhou،.
Pengyu Cheng،. Hongwu Ding،.
Yunchao He،. Jie Wang،.
Shengfan Shen،. Sixiang Lv،.
Lichun Fan،. Hang Su،.
Yifeng Wang،. Shuai Wang،.
Meng Meng،. Jian Luan texts یا جمله به جمله گفتار را ترکیب کنید و نتایج را به هم بچسبانید یا.
به تنهایی از دیالوگهای متن ساده ترکیب کنید. هر دو رویکرد،.
مدلها را با درک کمیاز زمینه جهانی یا نشانههای فرازبانی باقی میگذارند،. و گرفتن پدیدههای دنیای واقعی مانند تعاملات چند گوینده (وقفه،.
گفتار همپوشانی)،. قوسهای احساسی در حال تکامل،.
و محیطهای صوتی متنوع را دشوار میسازد. ما چارچوب سنتز گفتار بلند بدون حاشیه را برای سنتز صدای بلند بدون حاشیه و عامل محور معرفی.
میکنیم. به جای هدف قرار دادن یک کار باریک،.
سیستم بهعنوان یک مجموعه قابلیت یکپارچه طراحی شده است VoiceDesigner،. ترکیب چند بلندگو،.
دستورالعمل TTS،. و ترکیب متن طولانی.
در سمت داده،. ما یک استراتژی "برچسب گذاری بر روی فیلتر/تمیز کردن" را پیشنهاد میکنیم و یک طرح حاشیه نویسی.
چند سطحی از بالا به پایین طراحی میکنیم که آن را Global-Sentence-Token مینامیم. در سمت مدل،.
ما یک ستون فقرات با توکنایزر پیوسته اتخاذ میکنیم و استدلال زنجیرهای از فکر (CoT) را به همراه. Dimension Dropout اضافه میکنیم،.
که هر دو بهطور قابلتوجهی دنبال کردن دستورالعملها را در شرایط پیچیده بهبود میبخشند. ما همچنین نشان میدهیم که سیستم با طراحی Native Agentic است:.
حاشیهنویسی سلسله مراتبی بهعنوان یک رابط معنایی ساختاریافته بین عامل LLM و موتور سنتز دو برابر میشود و. یک پشته پروتکل کنترل لایهای ایجاد میکند که از معنای صحنه تا جزئیات آوایی را در بر میگیرد.
بدین ترتیب متن به یک کانال کنترلی با اطلاعات کامل و باند وسیع تبدیل میشود و یک LLM. جلویی را قادر میسازد تا ورودیهای هر روشی را به تولید ساختاریافته تبدیل کند.
دستورات، گسترش پارادایم از Text2Speech به سنتز گفتار طولانی بدون حاشیه. صدا (cs.
SD); محاسبات و زبان (cs. CL); پردازش صدا و گفتار (eess.
AS) بهعنوان: (یا v2 [cs. SD] برای این نسخه) استناد کنید) https: // arXiv.
2603. 19798 arXiv.
از:. Xingchen Song [مشاهده ایمیل] [v1] جمعه،.
20 مارس 2026،. 09:.
37:. 54 UTC (13 KB) [v2] جمعه،.
3 آوریل 2026،. 08:.
41:. 19 UTC (13 KB).
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
