مدل های سنتی هوش مصنوعی برای صدا به تشخیص خودکار گفتار برای پردازش ورودی گفتاری قبل از ترکیب آن با یک مدل زبان، که سپس با استفاده از تکنیک های متن به گفتار به گفتار تبدیل می شود، متکی هستند.
اگرچه این فرآیند مؤثر است، اما اغلب ویژگی های بیانی ذاتی گفتار انسان، مانند لحن و احساسات را قربانی می کند. این مدل راه حل پیشرفته تری را با ترکیب نشانه های آوایی، زیر و بمی و آهنگ برای غلبه بر این محدودیت ها معرفی می کند.
متا دو نسخه Spirit LM را منتشر کرده است:
• Spirit LM Base:
از نشانه های آوایی برای پردازش و تولید گفتار استفاده می کند.
• Spirit LM Expressive:
شامل نشانه های اضافی برای زیر و بم و لحن است، که به مدل اجازه می دهد حالتهای احساسی ظریف تری مانند هیجان یا غم را ثبت کند و آن ها را در گفتار تولید شده منعکس کند.
هر دو مدل بر روی ترکیبی از مجموعه داده های متن و گفتار آموزش دیده اند و به آن اجازه می دهد تا وظایف متقابل وجهی مانند گفتار به نوشتار و متن به گفتار را انجام دهد و در عین حال بیان طبیعی گفتار را در خروجی های خود حفظ کند.