DALL·E: ایجاد تصاویر از متن با هوش مصنوعی

19 تیر 1405
ارسال شده توسط عصر گویش پرداز

شبکه عصبی DALL·E محصولی از لابراتوار تحقیقاتی OpenAI است که تصاویر را از زیرنویس‌های متنی برای طیف وسیعی از مفاهیم قابل بیان به زبان طبیعی ایجاد می‌کند.

DALL·E یک نسخه 12 میلیارد پارامتری از GPT-3 است که برای تولید تصویر از متن، با استفاده از مجموعه داده‌ای از جفت‌های متن-تصویر است. از جمله توانایی های این هوش مصنوعی این است که با ترکیب کلمات نامرتبط می‌توان خروجی مورد نظر را ایجاد کرد.

چند نمونه تبدیل متن به عکس با استفاده از هوش مصنوعی:

متن: an illustration of a baby daikon radish in a tutu walking a dog.

تصویر:

متن: an armchair in the shape of an avocado. . . .

تصویر:

متن: the exact same cat on the top as a sketch on the bottom

تصویر:

بررسی DALL·E

مانند GPT-3، DALL·E یک مدل زبان ترانسفورماتور است. هم متن و هم تصویر را به‌عنوان یک جریان واحد از داده‌ها که تا 1280 توکن را شامل می‌شود، دریافت می‌کند و با استفاده از حداکثر احتمال برای تولید همه نشانه‌ها، یکی پس از دیگری آموزش داده می‌شود.

نشانه هر نمادی از یک واژگان مجزا است. برای انسان ها، هر حرف انگلیسی نشانه ای از یک الفبای 26 حرفی است. واژگان DALL·E دارای نشانه هایی برای مفاهیم متن و تصویر است. یعنی، هر عنوان تصویر با استفاده از حداکثر 256 نشانه رمزگذاری شده با BPE با اندازه واژگان 16384 و تصویر با استفاده از 1024 توکن با اندازه واژگان 8192 نمایش داده می شود.

توانایی ها

DALL·E قادر است تصاویر ,واقع گرایانه برای جملات مختلف ایجاد کند که ساختار ترکیبی زبان را بررسی می کند.

ترسیم چندین شی

کنترل همزمان چندین شیء، ویژگی‌های آنها و روابط فضایی آنها چالش جدیدی را ارائه می‌کند. به عنوان مثال، عبارت “جوجه تیغی با کلاه قرمز، دستکش زرد، پیراهن آبی و شلوار سبز” را در نظر بگیرید. برای تفسیر صحیح این جمله، DALL·E نه تنها باید هر لباس را به درستی با حیوان ترکیب کند، بلکه باید ترکیبات (کلاه، قرمز)، (دستکش، زرد)، (پیراهن، آبی) و (شلوار، سبز) را نیز ایجاد کند.

چند نمونه از توانایی تبدیل متن به تصویر توانایی DALL·E:

متن: a small red block sitting on a large green block

تصویر:

متن: a stack of 3 cubes. a red cube is on the top, sitting on a green cube. the green cube is in the middle, sitting on a blue cube. the blue cube is on the bottom.

تصویر:

متن: an emoji of a baby penguin wearing a blue hat, red gloves, green shirt, and yellow pants

تصویر:

میزان موفقیت DALL·E به نحوه بیان عنوان و تعداد اشیا و رنگ بستگی دارد، اگر تعداد رنگ و اشیا زیاد باشد ممکن است DALL·E نتیجه موفقی را ارائه ندهد.

منبع: openai.com
https://deepai.org/machine-learning-model/text2img

با ما در ارتباط باشید و نظرات خودتان را با ما در میان بگذارید.
برای حمایت از ما، کافی است ما را به دوستان خود معرفی کنید.

مقالات

DALL·E: ایجاد تصاویر از متن با هوش مصنوعی

بررسی DALL·E

توانایی ها

ترسیم چندین شی