Google I/O 2024: Imagen 3 مدل AI از متن به تصویر رونمایی شد، قابلیت های بهبود یافته تولید تصویر را دریافت کرد

گوگل در رویداد سالانه Google I/O 2024 با تمرکز بر توسعه‌دهندگان، چندین اعلامیه جدید ارائه کرد. در میان بسیاری از اعلان‌های متمرکز بر هوش مصنوعی (AI) که در جلسه اصلی منتشر شد، یکی به‌ویژه شگفت‌انگیز بود. این غول فناوری نسل بعدی مدل هوش مصنوعی متن به تصویر خود، Imagen 3 را معرفی کرد. مدل جدید هوش مصنوعی تنها چند ماه پس از عرضه مدل قبلی خود Imagen 2 معرفی شد که در دسامبر 2023 عرضه شد و بعداً در ماه گذشته ارتقا یافت. این شرکت گفت که مدل جدید می‌تواند تصاویر واقعی واقعی را با دقت دنبال کند.

Imagen 3 توسط داگلاس اک، مدیر ارشد تحقیقات در Google DeepMind معرفی شد. او هنگام رونمایی از آن گفت: “امروز، من بسیار هیجان زده هستم که Imagen 3 را معرفی کنم. این توانمندترین مدل تولید تصویر ما تاکنون است. دستورات نوشته شده را به روشی که مردم می نویسند درک می کند. هرچه خلاق تر و جزئی تر باشید، بهتر است. به علاوه، این بهترین مدل ما برای رندر متن است که برای مدل‌های تولید تصویر یک چالش بوده است.»

گفته می‌شود که توانایی مدل هوش مصنوعی در درک اعلان‌ها به شدت بهبود یافته است، که اکنون به آن اجازه می‌دهد تا از نزدیک دستورات را برای ثبت جزئیات کوچک و ایجاد یک تصویر وفادار دنبال کند. همچنین به نظر می‌رسد که این یک جهت مشترک برای اکثر اعلامیه‌های مرتبط با هوش مصنوعی در طول رویداد باشد، زیرا اکثر مدل‌های هوش مصنوعی اکنون قادر به درک بهتر درخواست‌ها هستند. گوگل اضافه کرد که Imagen 3 در چندین نسخه در دسترس خواهد بود که هر مدل برای نوع خاصی از کار بهینه شده است که می تواند از ایجاد طرح های سریع تا ایجاد تصاویر با وضوح بالا را شامل شود.

برای فعال کردن Imagen 3 برای ثبت جزئیات کوچک و دستورالعمل‌های خاص مانند زوایای دوربین یا ترکیب‌بندی‌ها در اعلان‌های طولانی و پیچیده، گوگل مدل هوش مصنوعی را با تصاویری که حاوی توضیحات دقیق در زیرنویس‌ها هستند آموزش داده است و به آن اجازه می‌دهد تا نکات ظریف‌تر را نیز درک کند. همچنین می‌تواند بافت‌های مختلفی تولید کند و تصاویر مبتنی بر متن را ارائه دهد.

با تمرکز بر ایمنی، هر تصویری که توسط Imagen 3 تولید می‌شود، دارای برچسب واترمارک SynthID است. این واترمارک دیجیتال را مستقیماً در پیکسل های تصویر جاسازی می کند و حذف آن را از طریق برش، اشتراک گذاری یا ایجاد هرگونه تغییر در تصویر غیرممکن می کند. انتظار می رود مدل هوش مصنوعی در ماه های آینده در یک پیش نمایش عمومی ارائه شود. در حال حاضر، گوگل در حال کار بر روی اضافه کردن گزینه‌های ویرایش داخلی و نقاشی خارجی است. Imagen 3 در حال حاضر در پیش نمایش خصوصی در ImageFX برای سازندگان منتخب موجود است. به زودی برای مشتریان شرکتی غول فناوری در دسترس قرار خواهد گرفت.

پیوندهای وابسته ممکن است به طور خودکار ایجاد شوند – برای جزئیات بیشتر به بیانیه اخلاقی ما مراجعه کنید.

منبع