VALL-E 2 ، معرفی هوش مصنوعی تولید گفتار مایکروسافت .

به وبلاگ روبو خوش آمدید، در این مقاله می خواهیم درباره هوش مصنوعی تولید گفتار مایکروسافت صحبت کنیم، پس در ادامه مطلب همراهمان باشید. 

اگر به اخبار صفر تا صد هوش مصنوعی علاقه دارید وبلاگ روبو را دنبال کنید.

معرفی هوش مصنوعی تولید گفتار مایکروسافت

هوش مصنوعی تولید گفتار مایکروسافت

مایکروسافت یک تولید کننده گفتار هوش مصنوعی جدید (AI) توسعه داده است که ظاهرا آنقدر متقاعد کننده است که نمی تواند برای عموم منتشر شود.

VALL-E 2 یک تولید کننده متن به گفتار (TTS) است که می تواند صدای گوینده انسان را تنها با استفاده از چند ثانیه صدا تولید کند.

در مقاله ای که در 17 ژوئن در سرور پیش از چاپ arXiv منتشر شد، محققان مایکروسافت گفتند که این هوش مصنوعی قادر به تولید گفتار دقیق و طبیعی با صدای دقیق بلندگوی اصلی، قابل مقایسه با عملکرد انسان است.

به عبارت دیگر طبق گفته سازندگان آن، تولید کننده صدای جدید هوش مصنوعی به اندازه کافی متقاعد کننده است که با یک شخص واقعی اشتباه گرفته شود. 

محققان در این مقاله نوشتند :« VALL-E 2 آخرین پیشرفت در مدل های زبان کدک عصبی است که نقطه عطفی در تبدیل متن به گفتار (TTS) با شات صفر است و برای اولین بار به برابری انسانی دست می یابد.

علاوه بر این، این ابزا رتولید گفتار به طور مداوم گفتار با کیفیت بالا را ترکیب می کند، حتی برای جملاتی که به دلیل پیچیدگی یا عبارات تکراری به طور سنتی چالش برانگیز هستند.

برابری انسانی در این زمینه به این معنی است که گفتار تولید شده توسط VALL-E 2 با کیفیت گفتار انسانی در معیارهای استفاده شده توسط مایکروسافت مطابقت دارد یا از آن فراتر رفته است.

موتور هوش مصنوعی با توجه به گنجاندن دو ویژگی کلیدی نمونه برداری آگاهانه از تکرار و مدل سازی کد گروهی قادر به انجام این کار است.

Repetition Aware Sampling روشی را که هوش مصنوعی با پرداختن به تکرار های نشان ها (واحد های کوچک زبان، مانند کلمات یا بخش هایی از کلمات) تبدیل می کند، به گفتار بهبود می‌بخشد و از حلقه های نا محدود صدا یا عبارات در طول فرآیند رمزگشایی جلوگیری می‌کند.

به عبارت دیگر، این ویژگی به تغییر الگوی گفتار آن کمک می کند و باعث می شود صدا روان تر و طبیعی تر به نظر برسد.

در همین حال، مدل سازی کد گروهی، کارایی را با کاهش طول توالی، یا تعداد نشانه های جداگانه ای که مدل در یک دنباله ورودی واحد پردازش می کند، بهبود می بخشد. این کار سرعت تولید گفتار VALL-E 2 را افزایش می دهد و به مدیریت مشکلاتی که با پردازش رشته های بلند صدا ها می آیند کمک می کند.

محققان از نمونه های صوتی کتابخانه های گفتار LibriSpeech و VCTK برای ارزیابی میزان مطابقت این ابزار تولید گفتار با ضبط های سخنرانان انسانی استفاده کردند.

آن ها همچنین از این ابزار یک چارچوب ارزیابی طراحی شده برای اندازه گیری دقت و کیفیت گفتار تولید شده، برای تعیین اینکه ابزار تولید گفتار به طور موثر وظایف تولید گفتار پیچیده تر را انجام می دهد، استفاده کردند.

به گفته محققان آزمایش های ما که بر روی مجموعه داده های LibriSpeech و VCTK انجام شد، نشان داد که VALL-E 2 از سیستم های TTS صفر شات قبلی در استحکام گفتار، طبیعی بودن و شباهت بلندگو پیشی می گیرد. این اولین مورد از نوع خود است که به برابری انسانی در این معیار ها می رسد.

محققان در این مقاله اشاره کردند که کیفیت خروجی VALL-E 2 به طول و کیفیت پیام های گفتاری و همچنین عوامل محیطی مانند نویز پس زمینه بستگی دارد.

تولید گفتار

خطرات و کاربرد این هوش مصنوعی تولید گفتار چیست ؟

مایکروسافت برخلاف توانایی هایش، VALL-E 2 را به دلیل خطرات احتمالی سواستفاده برای عموم منتشر نخواهد کرد. این همزمان با افزایش نگرانی ها در مورد شبیه سازی صدا و فناوری دیپ فیک است.

سایر شرکت های هوش مصنوعی مانند OpenAI محدودیت های مشابهی را بر روی فناوری صوتی خود اعمال کرده‌اند.

به گفته برخی VALL-E 2 صرفا یک پروژه تحقیقاتی است و در حال حاضر، هیچ برنامه ای برای ترکیب آن در یک محصول یا گسترش دسترسی به عموم وجود ندارد. ممکن است در استفاده نادرست از مدل، خطرات بالقوه ای داشته باشد، مانند جعل هویت صدا یا جعل هویت یک گوینده خاص.

به گفته آن ها، پیشنهاد کردند که فناوری گفتار هوش مصنوعی می تواند در آینده کاربرد های عملی داشته باشد. ابن هوش مصنوعی می تواند گفتاری را ترکیب کند که هویت گوینده را حفظ می کند و می تواند برای یادگیری آموزشی، سرگرمی، روزنامه نگاری، محتوای خودنویس، ویژگی های دسترسی، سیستم های پاسخ صوتی تعاملی، ترجمه، چت بات و … استفاده شود.

اگر این مدل به سخنرانان غیر قابل مشاهده در دنیای واقعی تعمیم داده شود، باید شامل پروتکلی برای اطمینان از تایید استفاده از صدای آن ها توسط گوینده و یک مدل تشخیص گفتار ترکیبی باشد.

برای استفاده از امکانات هوش مصنوعی ChatGPT-4o میتوانید از روبو، هوش مصنوعی فارسی، به راحتی استفاده کنید. 

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *