محققان در این مقاله نوشتند :« VALL-E 2 آخرین پیشرفت در مدل های زبان کدک عصبی است که نقطه عطفی در تبدیل متن به گفتار (TTS) با شات صفر است و برای اولین بار به برابری انسانی دست می یابد.
علاوه بر این، این ابزا رتولید گفتار به طور مداوم گفتار با کیفیت بالا را ترکیب می کند، حتی برای جملاتی که به دلیل پیچیدگی یا عبارات تکراری به طور سنتی چالش برانگیز هستند.
برابری انسانی در این زمینه به این معنی است که گفتار تولید شده توسط VALL-E 2 با کیفیت گفتار انسانی در معیارهای استفاده شده توسط مایکروسافت مطابقت دارد یا از آن فراتر رفته است.
موتور هوش مصنوعی با توجه به گنجاندن دو ویژگی کلیدی نمونه برداری آگاهانه از تکرار و مدل سازی کد گروهی قادر به انجام این کار است.
Repetition Aware Sampling روشی را که هوش مصنوعی با پرداختن به تکرار های نشان ها (واحد های کوچک زبان، مانند کلمات یا بخش هایی از کلمات) تبدیل می کند، به گفتار بهبود میبخشد و از حلقه های نا محدود صدا یا عبارات در طول فرآیند رمزگشایی جلوگیری میکند.
به عبارت دیگر، این ویژگی به تغییر الگوی گفتار آن کمک می کند و باعث می شود صدا روان تر و طبیعی تر به نظر برسد.
در همین حال، مدل سازی کد گروهی، کارایی را با کاهش طول توالی، یا تعداد نشانه های جداگانه ای که مدل در یک دنباله ورودی واحد پردازش می کند، بهبود می بخشد. این کار سرعت تولید گفتار VALL-E 2 را افزایش می دهد و به مدیریت مشکلاتی که با پردازش رشته های بلند صدا ها می آیند کمک می کند.
محققان از نمونه های صوتی کتابخانه های گفتار LibriSpeech و VCTK برای ارزیابی میزان مطابقت این ابزار تولید گفتار با ضبط های سخنرانان انسانی استفاده کردند.
آن ها همچنین از این ابزار یک چارچوب ارزیابی طراحی شده برای اندازه گیری دقت و کیفیت گفتار تولید شده، برای تعیین اینکه ابزار تولید گفتار به طور موثر وظایف تولید گفتار پیچیده تر را انجام می دهد، استفاده کردند.
به گفته محققان آزمایش های ما که بر روی مجموعه داده های LibriSpeech و VCTK انجام شد، نشان داد که VALL-E 2 از سیستم های TTS صفر شات قبلی در استحکام گفتار، طبیعی بودن و شباهت بلندگو پیشی می گیرد. این اولین مورد از نوع خود است که به برابری انسانی در این معیار ها می رسد.
محققان در این مقاله اشاره کردند که کیفیت خروجی VALL-E 2 به طول و کیفیت پیام های گفتاری و همچنین عوامل محیطی مانند نویز پس زمینه بستگی دارد.