TL;DR
- امروز ما Voxtral TTS را منتشر میکنیم،.
- اولین مدل تبدیل متن به گفتار ما با عملکرد پیشرفته در تولید صدای چندزبانه.
- این مدل با پارامترهای 4B سبک وزن است و عواملی که با Voxtral کار میکنند طبیعی،.
چه اتفاقی افتاد
امروز ما Voxtral TTS را منتشر میکنیم،. اولین مدل تبدیل متن به گفتار ما با عملکرد پیشرفته در تولید صدای چندزبانه.
این مدل با پارامترهای 4B سبک وزن است و عواملی که با Voxtral کار میکنند طبیعی،. قابل اعتماد و مقرون به صرفه در مقیاس میباشد.
نکات برجسته. گفتار واقع گرایانه و احساسی به 9 زبان رایج با پشتیبانی از گویشهای متنوع.
تأخیر بسیار کم برای زمان تا اول صدا. به راحتی با صداهای جدید سازگار است.
برای تست در استودیو Mistral موجود است. تبدیل متن به گفتار در سطح ی، که جریانهای کاری عامل صوتی مهم را تقویت میکند.
تولید صدای طبیعی به توانایی مدل نه تنها در بازخوانی، بلکه تفسیر دقیق متن بستگی دارد. درک متنی - مانند خنثی،.
شاد،. طعنه آمیز و غیره - تعیین میکند که شنونده نسل را دقیق یا روباتیک میداند.
مدل ما هم در درک زمینهای و هم در مدلسازی گوینده برتر است:. به تصویر کشیدن اینکه چگونه یک شخص خاص بهطور طبیعی صحبت میکند.
انطباق صدای ما با ثبت شخصیت گوینده،. از جمله مکثهای طبیعی،.
ریتم،. لحن و مهارت احساسی،.
فراتر از گفتار خواندنی سنتی است. Voxtral TTS با اندازه جمع و جور،.
هزینه و تأخیر کم و سازگاری آسان،. کنترل و سفارشی سازی کامل را برای شرکتهایی که به دنبال داشتن پشته هوش مصنوعی صوتی خود.
هستند،. میدهد.
صدا UX جدید است. تعاملات جدیدی برای همکاری و تفاهم ایجاد کنید که فقط در گفتار یافت میشود.
اکنون در استودیوی هوش مصنوعی با صدای Mistral ما به زبانهای آمریکایی،. انگلیسی و فرانسوی شروع کنید لهجهها گوش کنید و تصمیم بگیرید:.
آیا میتوانید تفاوت را تشخیص دهید؟ تیم ما به دهها زبان در گویشهای مختلف صحبت میکند،.
ما اهمیت تفاوتهای فرهنگی را درک میکنیم و مدلی ساخته ایم که بازتابی از ماست. تولید گفتار از طریق ریتم طبیعی، احساسات و حتی استفاده از شوخ طبعی اعتماد ایجاد میکند.
به همین دلیل است که با تقلید صدا، بر اصالت و بیان احساسی تمرکز کردیم. اجرای مدرن.
معیارهای خودکار مانند نرخ خطای کلمه و نمرات کیفیت صدا برای سیستمهای چندزبانه تبدیل متن به گفتار. قادر به اندازهگیری طبیعی بودن گفتار نیستند.
چیزی که گفتار را طبیعی میکند بسیار ظریف است و نیاز به درک عمیق تفاوتهای فرهنگی. و الگوهای معمول گفتاری دارد.
از این رو، ارزیابیهای مقایسهای انسانی انجام شده توسط سخنرانان بومیبسیار مهم است. برای عوامل صوتی، تأخیر و کیفیت در تنش ثابت هستند.
ارزیابیهای انسانی نشان میدهد که Voxtral TTS در مقایسه با ElevenLabs Flash نسخه 2. 5 به طبیعی بودن برتری دست مییابد و در عین حال مشابه Time-to-First-Audio (TTFA) را حفظ میکند.
Voxtral همچنین با کیفیت ElevenLabs v3 برابری میکند و با موفقیت از هدایت احساسات برای تعاملات واقعی. تر پشتیبانی میکند.
ما یک ارزیابی مقایسهای انسانی از Voxtral TTS و ElevenLabs v2. 5 Flash در زمینه صدای سفارشی صفر شات انجام دادیم.
با استفاده از دو صدای قابل تشخیص در گویشهای بومیخود برای هر یک از 9 زبان. پشتیبانی شده،.
3 حاشیه نویس یک تست ترجیحی کنار هم در هر جفت در مورد طبیعی بودن،. پایبندی لهجه و شباهت صوتی به مرجع اصلی انجام دادند.
Voxtral TTS در این تنظیم صدای سفارشی چندزبانه صفر شات شکاف کیفیت را به فلاش v2. 5 افزایش میدهد و قابلیت سفارشیسازی فوری Voxtral TTS را برای هر صدایی برجسته میکند.
بومیصحبت میشود. Voxtral TTS که بر روی یک مجموعه داده گفتاری بزرگ آموزش دیده است،.
برای کاربرد جهانی ساخته شده است. این برنامه از اجرای پیشرفته در 9 زبان پشتیبانی میکند:.
انگلیسی،. فرانسوی،.
آلمانی،. اسپانیایی،.
هلندی،. پرتغالی،.
ایتالیایی،. هندی و عربی.
این مدل برای انطباق با صدای سفارشی با مرجعی به اندازه 3 ثانیه آموزش داده شده است و. نه تنها صدا،.
بلکه تفاوتهای ظریف را نیز ثبت میکند. مانند لهجه لطیف، عطف، لحن و حتی ناروانی مشابه آنچه در مرجع بیان شده است.
ما برخی از گزینههای صوتی از پیش تعیینشده را در API ارائه میدهیم،. اما گسترش آن به کتابخانه صوتی داخلی شما،.
سفارشیسازی آن در مورد مورد استفاده،. بومیسازی آن به زبان و لهجه،.
حفظ آن خنثیتر یا احساسیتر،. معمولی یا رسمی،.
طبیعیتر و محاورهای یا روباتیک است. این مدل همچنین انطباق صدای متقابل زبانی صفر شات را نشان میدهد،.
حتی اگر به صراحت برای آن آموزش ندیده باشد. بهعنوان مثال،.
این مدل میتواند گفتار انگلیسی را با یک فرمان صوتی فرانسوی و متن انگلیسی تولید کند. گفتار حاصل در حالی که لهجه فرمان صوتی ارائه شده را میپذیرد،.
طبیعی به نظر میرسد (در این مثال،. گفتار تولید شده دارای یک انگلیسی طبیعی با لهجه فرانسوی است).
این باعث میشود این مدل برای ساختن سیستمهای ترجمه گفتار به گفتار آبشاری مفید باشد. ترجمه گفتار به گفتار آبشاری روی یا کلیک کنید یک بلندگو را به بلوک اعلان متصل کنید تا.
ترجمه گفتار به متن آبشاری فعال شود. برای پخش جریانی با تاخیر کم ساخته شده است.
تأخیر برای برنامههای عامل صوتی بسیار مهم است. Voxtral TTS به تأخیر مدل 70 میلیثانیه برای نمونه صدای ورودی معمولی 10 ثانیه و 500 کاراکتر،.
با ضریب بلادرنگ (RTF) ≈9. 7x دست مییابد.
این مدل به صورت بومیتا دو دقیقه صدا تولید میکند و API ما بهطور دلخواه نسلهای طولانی. را با interleaving هوشمند مدیریت میکند.
معماری Voxtral TTS. این مدل یک مدل مبتنی بر ترانسفورماتور،.
اتورگرسیو،. مطابق با جریان است که بر روی Ministral 3B ساخته شده است.
از اجزای زیر تشکیل شده است: ستون فقرات رسیور ترانسفورماتور پارامترهای 3. 4B ترانسفورماتور صوتی 390M کدک صوتی عصبی 300M (رمزگذار-رمزگذار متقارن) این مدل یک پیام صوتی (5 تا 25.
ثانیه) و یک پیام متنی به 9 زبان پشتیبانی میکند. برای هر فریم صوتی،.
ستون فقرات ترانسفورماتور یک نشانه معنایی را پیشبینی میکند،. سپس ترانسفورماتور تطبیق جریان 16 ارزیابی عملکرد (NFEs) را برای تولید نهفته صوتی اجرا میکند.
ما یک کدک داخلی ایجاد کردیم که صدا را با استفاده از یک VQ معنایی (واژگان 8192) و. یک FSQ صوتی (36 کم نور و 21 سطح) نهفته پردازش میکند و آنها را با نرخ.
فریم 12. 5 هرتز تولید میکند.
قدرت بخشیدن به گردش کار صدای ی. Voxtral TTS حلقه هوش صوتی را میبندد و به خطوط لوله صدای ی یک لایه خروجی می.
دهد که آزمایش انسانی را با موفقیت پشت سر میگذارد. این برنامه در کنار Voxtral Transcript برای گفتار به گفتار کامل کار میکند،.
یا با پشتیبانی چند زبانه،. در هر پشته گفتار به متن و LLM موجود ادغام میشود.
WorkflowsCustomer SupportVoice عواملی که پرس و جوها را در کانالها با گفتار طبیعی و متناسب با نام. تجاری مسیریابی و حل میکنند.
Voxtral TTS را برای پاسخهای گفتاری خودکار،. با خروجیهایی که در جریانهای کاری موجود ادغام میشود،.
در سیستمهای تماس پشتیبانی تماس موجود قرار دهید. مدل را در استودیو میسترال آزمایش کنید.
با Voxtral TTS مستقیماً در زمین بازی استودیو Mistral آزمایش کنید. یکی از صداهای Mistral را انتخاب کنید یا صدای خود را ضبط کنید.
با Voxtral TTS شروع کنید. Voxtral TTS اکنون از طریق API با قیمت 0.
016 دلار به ازای هر هزار کاراکتر در دسترس است. اکنون آن را در Mistral Studio یا Le Chat امتحان کنید.
مدلی با چندین صدای مرجع بهعنوان وزنه باز در Hugging Face تحت مجوز CC BY NC 4. 0 موجود است.
اسناد مدل را کاوش کنید یا مقاله تحقیقاتی ما را بخوانید. برای کسب اطلاعات بیشتر در وبینار آینده ما ثبت نام کنید!
ما استخدام میکنیم! ما در حال ساخت لایه صوتی برای هوش مصنوعی هستیم،.
و اگر این مشکلی است که میخواهید روی آن کار کنید،. خوشحال میشویم از شما بشنویم.
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
