هوش مصنوعی Spirit LM ، برای تولید مکالمات صوتی طبیعی.

به وبلاگ روبو خوش آمدید، در این مقاله می خواهیم درباره هوش مصنوعی Spirit LM ، که محصول شرکت متا برای تولید مکالمات صوتی طبیعی میباشد صحبت کنیم، پس در ادامه مطلب همراهمان باشید. 

اگر به اخبار صفر تا صد هوش مصنوعی علاقه دارید وبلاگ روبو را دنبال کنید.  

Spirit LM

متا هوش مصنوعی Spirit LM را معرفی کرد

درست در زمان هالووین 2024، متا از Meta Spirit LM، اولین مدل زبان چندوجهی منبع باز این شرکت که قادر به ادغام یکپارچه ورودی ها و خروجی های متن و گفتار است، رونمایی کرد.

به این ترتیب، به طور مستقیم با GPT-4o OpenAI (همچنین به صورت بومی چندوجهی) و سایر مدل های چندوجهی مانند Hume's EVI 2، و همچنین ارائه های اختصاصی تبدیل متن به گفتار و گفتار به متن مانند ElevenLabs رقابت می کند.

این مدل هوش مصنوعی که توسط تیم تحقیقاتی بنیادی هوش مصنوعی متا (FAIR) طراحی شده است، قصد دارد محدودیت های تجربیات صوتی هوش مصنوعی موجود را با ارائه یک تولید گفتار گویا تر و با صدای طبیعی تر، در عین حال یادگیری وظایف با روش هایی مانند تشخیص خودکار گفتار (ASR)، متن، برطرف کند. به گفتار (TTS) و طبقه بندی گفتار.

متأسفانه برای کارآفرینان و رهبران تجاری، این مدل در حال حاضر فقط برای استفاده غیرتجاری تحت مجوز تحقیقات غیر تجاری متا FAIR در دسترس است، که به کاربران حق استفاده، بازتولید، اصلاح و ایجاد آثار مشتق شده از مدل های Meta Spirit LM را می دهد، اما فقط برای مقاصد غیرتجاری هرگونه توزیع این مدل ها یا مشتقات نیز باید با محدودیت غیرتجاری مطابقت داشته باشد.

مدلی برای تولید مکالمات صوتی طبیعی

رویکردی جدید به متن و گفتار

مدل های سنتی هوش مصنوعی برای صدا به تشخیص خودکار گفتار برای پردازش ورودی گفتاری قبل از ترکیب آن با یک مدل زبان، که سپس با استفاده از تکنیک های متن به گفتار به گفتار تبدیل می شود، متکی هستند.

اگرچه این فرآیند مؤثر است، اما اغلب ویژگی های بیانی ذاتی گفتار انسان، مانند لحن و احساسات را قربانی می کند. این مدل راه حل پیشرفته تری را با ترکیب نشانه های آوایی، زیر و بمی و آهنگ برای غلبه بر این محدودیت ها معرفی می کند.

متا دو نسخه Spirit LM را منتشر کرده است:

Spirit LM Base:
از نشانه های آوایی برای پردازش و تولید گفتار استفاده می کند.

Spirit LM Expressive:
شامل نشانه های اضافی برای زیر و بم و لحن است، که به مدل اجازه می دهد حالت‌های احساسی ظریف تری مانند هیجان یا غم را ثبت کند و آن ها را در گفتار تولید شده منعکس کند.

هر دو مدل بر روی ترکیبی از مجموعه داده های متن و گفتار آموزش دیده اند و به آن اجازه می دهد تا وظایف متقابل وجهی مانند گفتار به نوشتار و متن به گفتار را انجام دهد و در عین حال بیان طبیعی گفتار را در خروجی های خود حفظ کند.

Meta

منبع باز غیر تجاری فقط برای تحقیق در دسترس است

در راستای تعهد متا به علم باز، این شرکت این مدل هوش مصنوعی را کاملاً منبع باز قرار داده است و وزن مدل، کد و اسناد پشتیبانی را برای محققان و توسعه دهندگان فراهم می کند.

متا امیدوار است که ماهیت باز Spirit LM جامعه تحقیقاتی هوش مصنوعی را تشویق کند تا روش های جدیدی را برای ادغام گفتار و متن در سیستم های هوش مصنوعی کشف کنند.

این نسخه همچنین شامل یک مقاله تحقیقاتی است که جزئیات معماری و قابلیت های مدل را نشان می دهد.

مارک زاکربرگ، مدیر عامل متا، مدافع قوی هوش مصنوعی منبع باز بوده است و در نامه ای سرگشاده اخیر بیان کرده است که هوش مصنوعی پتانسیل افزایش بهره وری، خلاقیت و کیفیت زندگی انسان را دارد و در عین حال پیشرفت ها را در زمینه هایی مانند تحقیقات پزشکی و تحقیقات پزشکی سرعت می بخشد.

کاربردها و پتانسیل آینده

این هوش مصنوعی برای یادگیری وظایف جدید در مدالیته های مختلف طراحی شده است، مانند:

تشخیص خودکار گفتار (ASR):
تبدیل زبان گفتاری به متن نوشتاری.

تبدیل متن به گفتار (TTS):
ایجاد زبان گفتاری از متن نوشتاری.

طبقه بندی گفتار:
شناسایی و دسته بندی گفتار بر اساس محتوا یا لحن عاطفی آن.

مدل Spirit LM Expressive با گنجاندن نشانه های احساسی در تولید گفتار خود یک قدم فراتر می رود.

به عنوان مثال، می تواند حالت های احساسی مانند خشم، غافلگیری یا شادی را در خروجی اش تشخیص داده و منعکس کند و تعامل با هوش مصنوعی را شبیه تر و جذاب تر کند.

این پیامد های قابل توجهی برای برنامه هایی مانند دستیاران مجازی، ربات های خدمات مشتری و سایر سیستم های هوش مصنوعی تعاملی دارد که در آنها ارتباطات دقیق تر و واضح تر ضروری است.

تلاش گسترده تر

Meta Spirit LM بخشی از مجموعه گسترده تری از ابزار ها و مدل های تحقیقاتی است که Meta FAIR در حال انتشار برای عموم است. این شامل به روزرسانی Segment Anything Model 2.1 (SAM 2.1) Meta برای تقسیم بندی تصویر و ویدیو است که در رشته هایی مانند تصویر برداری پزشکی و هواشناسی و تحقیق در مورد افزایش کارایی مدل های زبان بزرگ استفاده شده است.

هدف کلی متا دستیابی به هوش ماشینی پیشرفته (AMI)، با تاکید بر توسعه سیستم های هوش مصنوعی قدرتمند و قابل دسترس است.

تیم FAIR بیش از یک دهه است که تحقیقات خود را به اشتراک می گذارد و هدف آن ارتقای هوش مصنوعی به گونه ای است که نه تنها برای جامعه فناوری، بلکه برای کل جامعه مفید باشد.

این هوش مصنوعی یکی از اجزای کلیدی این تلاش است که از علم باز و تکرار پذیری پشتیبانی می کند و در عین حال مرز های آنچه را که هوش مصنوعی می تواند در پردازش زبان طبیعی به دست آورد، افزایش دهد.

آینده Spirit LM چیست ؟

با انتشار این هوش مصنوعی، متا گام مهمی در جهت ادغام گفتار و متن در سیستم های هوش مصنوعی برداشته است.

متا با ارائه یک رویکرد طبیعی تر و گویا تر به گفتار تولید شده توسط هوش مصنوعی و تبدیل این مدل به منبع باز، جامعه تحقیقاتی گسترده تر را قادر می سازد تا امکانات جدیدی را برای کاربردهای هوش مصنوعی چندوجهی کشف کنند.

چه در تشخیص خودکار گفتار ، چه در تبدیل متن به گفتار و چه فراتر از آن، این مدل نشان دهنده یک پیشرفت امیدوار کننده در زمینه یادگیری ماشینی است، با پتانسیل قدرت بخشیدن به نسل جدیدی از تعاملات هوش مصنوعی شبیه انسان.

برای استفاده از امکانات هوش مصنوعی ChatGPT-4o میتوانید از روبو، هوش مصنوعی فارسی، به راحتی استفاده کنید.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *