شبکه عصبی DALL·E محصولی از لابراتوار تحقیقاتی OpenAI است که تصاویر را از زیرنویسهای متنی برای طیف وسیعی از مفاهیم قابل بیان به زبان طبیعی ایجاد میکند.
DALL·E یک نسخه 12 میلیارد پارامتری از GPT-3 است که برای تولید تصویر از متن، با استفاده از مجموعه دادهای از جفتهای متن-تصویر است. از جمله توانایی های این هوش مصنوعی این است که با ترکیب کلمات نامرتبط میتوان خروجی مورد نظر را ایجاد کرد.
چند نمونه تبدیل متن به عکس با استفاده از هوش مصنوعی:
متن: an illustration of a baby daikon radish in a tutu walking a dog.
تصویر:
متن: an armchair in the shape of an avocado. . . .
تصویر:
متن: the exact same cat on the top as a sketch on the bottom
تصویر:
بررسی DALL·E
مانند GPT-3، DALL·E یک مدل زبان ترانسفورماتور است. هم متن و هم تصویر را بهعنوان یک جریان واحد از دادهها که تا 1280 توکن را شامل میشود، دریافت میکند و با استفاده از حداکثر احتمال برای تولید همه نشانهها، یکی پس از دیگری آموزش داده میشود.
نشانه هر نمادی از یک واژگان مجزا است. برای انسان ها، هر حرف انگلیسی نشانه ای از یک الفبای 26 حرفی است. واژگان DALL·E دارای نشانه هایی برای مفاهیم متن و تصویر است. یعنی، هر عنوان تصویر با استفاده از حداکثر 256 نشانه رمزگذاری شده با BPE با اندازه واژگان 16384 و تصویر با استفاده از 1024 توکن با اندازه واژگان 8192 نمایش داده می شود.
توانایی ها
DALL·E قادر است تصاویر ,واقع گرایانه برای جملات مختلف ایجاد کند که ساختار ترکیبی زبان را بررسی می کند.
ترسیم چندین شی
کنترل همزمان چندین شیء، ویژگیهای آنها و روابط فضایی آنها چالش جدیدی را ارائه میکند. به عنوان مثال، عبارت “جوجه تیغی با کلاه قرمز، دستکش زرد، پیراهن آبی و شلوار سبز” را در نظر بگیرید. برای تفسیر صحیح این جمله، DALL·E نه تنها باید هر لباس را به درستی با حیوان ترکیب کند، بلکه باید ترکیبات (کلاه، قرمز)، (دستکش، زرد)، (پیراهن، آبی) و (شلوار، سبز) را نیز ایجاد کند.
چند نمونه از توانایی تبدیل متن به تصویر توانایی DALL·E:
متن: a small red block sitting on a large green block
تصویر:
متن: a stack of 3 cubes. a red cube is on the top, sitting on a green cube. the green cube is in the middle, sitting on a blue cube. the blue cube is on the bottom.
تصویر:
متن: an emoji of a baby penguin wearing a blue hat, red gloves, green shirt, and yellow pants
تصویر:
میزان موفقیت DALL·E به نحوه بیان عنوان و تعداد اشیا و رنگ بستگی دارد، اگر تعداد رنگ و اشیا زیاد باشد ممکن است DALL·E نتیجه موفقی را ارائه ندهد.
منبع: openai.com
https://deepai.org/machine-learning-model/text2img
با ما در ارتباط باشید و نظرات خودتان را با ما در میان بگذارید.
برای حمایت از ما، کافی است ما را به دوستان خود معرفی کنید.