معرفی هوش مصنوعی Sora | ساخت ویدیوهای باورنکردنی با سورا


به وبلاگ روبو خوش آمدید، امروز می خواهیم با شاهکار دیگری از شرکت OpenAI یعنی هوش مصنوعی Sora آشنا شویم. در ادامه مطلب همراهمان باشید.


هوش مصنوعی Sora
هوش مصنوعی Sora ویدئو ساز جدید شرکت OpenAI می باشد که به تازگی رونمایی شده و قادر است متن و توصیفات شما را به ویدئو هایی یک دقیقه ای با کیفیت های فوقولاده تبدیل کند، بصورتی که تشخیص آن از ویدئو های ضبط شده بسیار دشوار و سخت است! «Text-to-Video»
هوش مصنوعی Sora دارای معماری مبدل (transformer architecture) است؛ یعنی عملکرد شبکه عصبی آن مشابه ChatGPT است. شرکت OpenAI با عرضه این فناوری میخواهد آینده هوش مصنوعی را متحول کند.
OpenAI در بلاگ پست اخیرش، این گونه توضیح میدهد: « هوش مصنوعی Sora میتواند صحنههای پیچیده با شخصیتهای متعدد، انواع حرکت خاص و جزئیات دقیق سوژه و پسزمینه را تولید کند.» این مدل هوش مصنوعی، محتوای متنی که کاربر درخواست کرده را میفهمد و چگونگی وجود آن چیزها در دنیای واقعی را تشخیص میدهد.
هوش مصنوعی Sora در حال حاضر از جانب محققان امنیتی در حال بررسی است. آنها باید از ایمن بودن آن قبل از انتشار عمومی، اطمینان پیدا کنند و خطرات حیاتی را ارزیابی نمایند.
با این حال، به گفته OpenAI، گروه کوچکی از هنرمندان تجسمی، فیلمسازان و طراحان نیز به هوش مصنوعی Sora دسترسی دارند. ولی نامی از هیچ هنرمند یا طراحی برده نشده است.
به نقل از برخی اکانتهای موجود در انجمن OpenAI، لیست انتظار تکمیل خواهد شد که اولین فرصت برای دستیابی به این فناوری است. اما زمان دقیق ثبت نام عمومی برای استفاده از هوش مصنوعی Sora مشخص نیست.
بنابراین تا به حال، تاریخ انتشاری برای هوش مصنوعی Sora اعلام نشده است. تمام محتوایی که در اینترنت پخش شده هم از بلاگ پست شرکت OpenAI گرفته شده است. این شرکت حتی نشانهای مبهم از زمان احتمالی یا نشانهای مبنی بر عرضه آن در سال جاری را بروز نداده است.


نحوه عملکرد Sora
شرکت OpenAI اعلام کرده: « هوش مصنوعی Sora نوعی مدل انتشاری (diffusion model) است که با یک ویدئو، شبیه به نویز استاتیک (static noise) آغاز شده و به تدریج با حذف نویز در طی مراحل مختلف، آن را تغییر میدهد».
این فناوری مشابه خانواده مدلهای زبانی GPT عمل میکند که ربات چت این شرکت، یعنی ChatGT از آن بهره میبرد. همه آنها از معماری ترانسفورمر یا مبدل استفاده میکنند. این نوع از شبکه عصبی، ورودیها را میگیرد و آنها را به خروجی تبدیل میکند.
این مدل، درک عمیقی از زبان دارد تا بتواند درخواست کاربر را تفسیر کند و در نهایت کاراکترهای قانعکننده، پر احساس و فعال را بسازد. همچنین میتواند چندین عکس از ویدئوی ساخته شده بگیرد تا ثبات کاراکترها و سبک بصری را با دقت حفظ کند.
شرکت OpenAI ویدئوساز سورا را با کمک ویدئوها و تصاویری تغذیه کرده که آنها را واحدهای داده یا «patches» میداند. با یکپارچه سازی این دادهها میتوان اطلاعات بصری متفاوتی را از نظر بازه زمانی، وضوح و ابعاد فیلم در اختیار هوش مصنوعی Sora قرار داد تا بیشتر از قبل آموزش ببیند.
مدل فعلی، نقطه ضعف هم دارد. شاید در شبیه سازی دقیق صحنههای پیچیده به مشکل خورده و موارد خاصی را نفهمد. به عنوان مثال، شاید فردی یک کلوچه را گاز بزند ولی جای گاز گرفتگی روی کلوچه نماند یا شاید جزئیات مکانی را اشتباه بگیرد.
درحالحاضر ویدئوهای Sora یکدقیقهای و بیصدا هستند. شرکت ElevenLabs نیز با عرضه هوش مصنوعی جدیدی اعلام کرد که حالا با پرامپتهای متنی میتوانید به این ویدئوها افکتهای صوتی اضافه کنید. صداهای واقعگرایانه این شرکت باعث میشود ویدئوهای Sora گیرایی بیشتری داشته باشند.
مایکروسافت و Sora
«میخائیل پاراخین»، مدیر تبلیغات و خدمات وب مایکروسافت، در پستی در شبکه اجتماعی ایکس تأیید کرد که Copilot به هوش مصنوعی Sora مجهز خواهد شد، اما این امر کمی زمانبر خواهد بود.
ادغام Copilot و Sora میتواند ابزار قدرتمندی برای کاربران فراهم کند و به آنها اجازه میدهد از قابلیتهای این دو هوش مصنوعی بهتر استفاده کنند. بهنظر میرسد که مایکروسافت درحال کار روی جنبههای فنی ادغام این دو است و البته مدتی طول میکشد تا Sora در Copilot در دسترس قرار بگیرد.
از آنجایی که مایکروسافت یکی از سرمایهگذاران بزرگ شرکت OpenAI است، معمولاً فناوریها و مدلهای هوش مصنوعی این شرکت با فاصله زمانی اندکی در پلتفرمهای این غول فناوری نیز منتشر میشوند. مایکروسافت تمرکز زیادی روی توسعه Copilot داشته است و قابلیتهای متنوعی برای این دستیار هوش مصنوعی عرضه میکند.
اگر شما هم دوست دارید برای آسان تر شدن کار های خود از هوش مصنوعی کمک بگیرید، هوش مصنوعی فارسی روبو اینجاست تا در پیچیده ترین کار ها به شما کمک کند.



