Imagen 3 توسط گوگل در جریان رویداد I/O در اوایل سال جاری رونمایی شد. ساخته شده توسط آزمایشگاه تحقیقاتی این شرکت، DeepMind، می تواند تصاویری با فرمت مربعی با سطح واقع گرایی مشابه تصاویر Midjourney یا Flux ایجاد کند.
برخی از محدودیت ها، به خصوص برای کاربران رایگان Gemini وجود دارد. در حال حاضر، نمی توانید از آن برای تولید تصاویر افراد استفاده کنید، مگر اینکه 19 دلار در ماه برای Gemini Advanced بپردازید، و حتی در آن صورت، تصاویری از افراد واقعی نمی سازد.
قدرت واقعی Gemini از نظر تولید تصویر ناشی از توانایی آن در تطبیق آسان یا حتی تغییر کامل تصویر از یک توضیح متنی ساده است. برای دریافت توانایی های ایجاد تصویر، ممکن است لازم باشد برنامه را به روز کنید.
Imagen 3 یک ارتقای بصری در Imagen 2 قبلی است. تصاویر غنی تر و دقیق تر هستند و مدل بهتر است دستورالعمل هایی را که Gemini به آن داده است دنبال کند.
گوگل قابلیت های تولید تصویر را از Gemini برای مدتی به دلیل نگرانی بیش از حد محتاطانه هنگام ارائه تصاویر افراد حذف کرد. مدل قبلی همچنین تمایل داشت که همه چیز را پلاستیکی جلوه دهد.
مدل جدید قابلیت های تولید تصویر گوگل را با DALL-E 3 از OpenAI مطابقت می دهد، اگرچه هنوز فقط تصاویر مربعی تولید می کند، در حالی که ChatGPT می تواند از DALL-E 3 برای ساخت تصاویر با هر جهت و اندازه استفاده کند.
در آزمایش هایم، متوجه شدم که هنوز بیشتر از آنچه که بخواهم تصویری بسازم، امتناع می کند، به خصوص اگر چیز پیچیده تری باشد، مانند نشان دادن فردی که در کافه ای روی قمر نشسته است. اما برای تصاویر روزمره عالی است.