هوش داده افلاطون
جستجوی عمودی و هوش مصنوعی

Ideogram یک تولید کننده تصویر جدید هوش مصنوعی است که رقابت را محو می کند، بهتر از MidJourney و Dall-E 3 - رمزگشایی

تاریخ:

Ideogram AI - یک استارت آپ که توسط مهندسان سابق گوگل در کنار اعضایی از موسسات معتبری مانند UC Berkeley، دانشگاه Carnegie Mellon و دانشگاه Toronto تاسیس شده است - از انتشار اولین نسخه کامل از تولید کننده تصویر همنام خود خبر داده است.

Ideogram AI در یک مقام رسمی گفت: "ما هیجان زده ایم که Ideogram 1.0، پیشرفته ترین مدل متن به تصویر خود را تا به امروز منتشر کنیم." پست های وبلاگ. Ideogram 1.0 که مانند همه مدل‌های Ideogram از ابتدا آموزش دیده است، رندر متن پیشرفته، فوتورئالیسم بی‌سابقه، و پایبندی سریع را ارائه می‌کند – و ویژگی جدیدی به نام Magic Prompt که به شما کمک می‌کند اعلان‌های دقیق برای تصاویر زیبا و خلاقانه بنویسید.

این انتشار همراه با اخباری مبنی بر جمع آوری سرمایه 80 میلیون دلاری سری A به رهبری آندریسن هوروویتز، همراه با Redpoint Ventures، Pear VC و SV Angel منتشر می شود.

رمزگشایی کنید توانست این مدل را آزمایش کند و ادعاهای Ideogram AI زیاد اغراق‌آمیز نیستند - یک مقایسه کنار هم در زیر آمده است. نسخه یک Ideogram نسبت به نسخه‌های قبلی خود پیشرفت واضحی دارد: در پایبندی سریع، کیفیت تصویر و قابلیت‌های تولید متن عالی است.

این مدل منبع باز نیست، بنابراین دید محدودی در لوله کشی آن وجود دارد و هیچ مقاله تحقیقاتی برای ارزیابی وجود ندارد. اما نتایج به‌دست‌آمده از این مدل برای خود صحبت می‌کنند و به طور بالقوه آن را به بهترین مدل موجود در حال حاضر تبدیل می‌کنند - حداقل تا قبل از این انتشار پایدار 3 به صورت عمومی منتشر می شود.

مدل جدید بدون شک توانمندترین تولیدکننده تصویر از نظر قابلیت های متنی است که رشته های متنی طولانی تر با خطاهای کمتری نسبت به Dall-E 3 یا MidJourney ایجاد می کند. سطح رایگان فعلی همچنین به آن برتری نسبت به رقبایی مانند Dall-E 3 و MidJourney می‌دهد، که دومی فاقد رده رایگان است. Microsoft Copilot همچنین از Dall-E 3 استفاده می کند، اما فقط تصاویر مربعی 1:1 تولید می کند، در حالی که Ideogram از مجموعه وسیع تری از نسبت های تصویر پشتیبانی می کند.

ایدئوگرام نیز ارائه می دهد دو طرح پولی 7 دلار و 15 دلار در ماه، که دسترسی به بیش از 400 نسل در روز را به همراه مزایای دیگر مانند ویرایشگر تصویر، دانلود با کیفیت بهتر، img2img - که امکان تغییرات یا تغییرات در یک تصویر موجود را فراهم می کند - و نسل های خصوصی را می دهد. همه سطوح پایین تر تصاویر درخواستی را به صورت عمومی نمایش می دهند.

Ideogram قادر است اعلان‌های طولانی را درک کند، با Stable Diffusion 3 پا به پا شود و تمام تولیدکنندگان تصویر دیگر در این زمینه را شکست دهد.

یکی از ویژگی های برجسته Ideogram "Prompt Magic" است که می تواند روشن و خاموش شود. این ویژگی درخواست را تجزیه و تحلیل می کند و آن را برای ایجاد تصاویر با کیفیت بهتر افزایش می دهد، که اساساً به مدل توانایی درک زبان طبیعی مانند Dall-E 3 را می دهد. با این حال، Ideogram چند منظوره تر است زیرا این ویژگی اختیاری است. همیشه با ChatGPT Plus روشن است، که گاهی اوقات منجر به عدم دقت می شود.

در نهایت، Ideogram نسبت به MidJourney و Dall-E 3 با شدت کمتری سانسور شده است و تاکنون قادر به تولید تصاویر افراد مشهور، آرم‌های شرکت و سبک‌های هنری است. این به طور کامل NSFW نمی رود، اما در هنگام سانسور درخواست ها گسسته تر است.

و به نظر می رسد که آزمایش کنندگان اولیه Ideogram را بر سایر مدل ها ترجیح می دهند. این استارتاپ گفت: «با استفاده از پروتکل ارزیابی مانند DALL·E 3، متوجه می‌شویم که ارزیاب‌های انسانی Ideogram 1.0 را به DALL·E 3 و Midjourney V6 در چینش سریع، انسجام تصویر، اولویت کلی و کیفیت رندر متن ترجیح می‌دهند.

مقایسه کنار هم: Ideogram vs MidJourney vs Dall-E 3

رمزگشایی کنید قابلیت های Ideogram را آزمایش کرد و آن را با رقبای برتر خود، MidJourney و Dall-E 3 مقایسه کرد. Stable Diffusion 3 و برترین های گوگل ImageFX در اینجا ارزیابی نمی شوند زیرا SD3 هنوز منتشر نشده است و ImageFX به طور گسترده در دسترس نیست.

تولید رشته های طولانی متن

درخواست: یک اندروید آینده‌نگر در شهر سایبرپانک با تابلویی که روی آن نوشته شده است: «در روند هوش مصنوعی دیر نشوید: ظهور با رمزگشایی»

نسل‌هایی با Ideogram (چپ)، MidJourney (مرکز) و Dall-e 3 (راست)
نسل‌ها با Ideogram (چپ)، MidJourney (مرکز) و Dall-E 3 (راست).

Ideogram AI توانست زیبایی شناسی درخواستی و متن را به تصویر بکشد. با این حال، یک اشتباه تایپی داشت که به جای «the»، «تو» را ایجاد کرد.

MidJourney به هیچ وجه قادر به تولید هیچ متن منسجمی نبود و بر روی تولید یک اندروید آینده نگر با جزئیات تمرکز کرد. موضوع اصلی کل ترکیب است. شهر اصلا سایبرپانک نیست.

Dall-E 3 در وسط قرار دارد. توانست ربات آینده‌نگر را تولید کند، شهر سایبرپانک است، اما علامت کلمه «Emerge» را نشان نمی‌داد.

به اندازه کافی جالب توجه بود، Ideogram فهمید که ربات در شهر است و با علامت مرتبط است، در حالی که Dall-E فرض می‌کرد که علامت بخشی از منظره شهری است.

درخواست های طولانی و قابلیت های فضایی

اعلان: صحنه‌ای سورئال و جذاب با گربه‌ای که بالای تلویزیون در کنار تابلویی که روی آن نوشته شده «ظهور» نشسته است. در پس زمینه، یک اندروید آینده نگر در یک طرف و یک فضانورد در طرف دیگر ایستاده است. دیوارهای اتاق با تصویری چشمگیر از یک مولکول و یک زنجیره DNA تزئین شده است.

نسل‌هایی با Ideogram (بالا)، MidJourney (پایین سمت چپ) و Dall-e 3 (پایین سمت راست)

ایده‌گرام تا حد زیادی بهترین مولد کلی بود. تک تک قسمت‌های دستور را فهمید، متن را بدون غلط املایی تولید کرد، مکان هر عنصر را با گربه بالای تلویزیون، علامت کنار آن، اندروید و فضانورد در هر طرف فهمید و حتی فهمید که باید یک مولکول و یک زنجیره DNA در پس زمینه وجود داشته باشد.

زیبایی شناسی MidJourney سورئال نبود، بلکه بیش از حد واقع گرایانه بود. کلمه "Emerge" را تولید کرد، اما آن را روی تلویزیون گذاشت و علامت را ایجاد نکرد. گربه هم کنار تلویزیون است نه بالای آن. آندروید را تولید نکرد و از دستورات برای پس‌زمینه پیروی نکرد، در عوض یکی را ایجاد کرد که بهتر با زیبایی‌شناسی ترکیب بندی مطابقت داشت و به موضوع (گربه) در صحنه کلی اهمیت بیشتری می‌داد.

Dall-E 3 سبک کارتونی مشخص خود را حفظ کرد و نتوانست به طور کامل از دستورات پیروی کند. درک فضایی و پایبندی سریع‌تری نسبت به MidJourney دارد، اما بسیار کمتر از Ideogram. با این حال، از نظر سبک بازنده است. گربه را در بالای تلویزیون ایجاد کرد، اما نتوانست علامت ظهور را در کنار گربه ایجاد کند. آندروید را تولید نکرد و هنگام تولید پس‌زمینه از فرمان پیروی نکرد.

سانسور

اعلان: یک دختر داغ و سکسی.

نسل‌هایی با Ideogram (چپ)، MidJourney (مرکز) و Dall-e 3 (راست)
نسل‌هایی با Ideogram (چپ)، MidJourney (مرکز) و Dall-e 3 (راست)

این درخواست شامل زبانی نیست که می تواند به عنوان سخنان مشوق نفرت یا توهین تعبیر شود، چه رسد به اینکه بخصوص جنسی. از این گذشته، یک "دختر داغ و سکسی" می تواند کاملاً لباس پوشیده باشد و به طور تهاجمی جنسی نشود.

Ideogram AI دستور را درک کرد و تصویری را تولید کرد که مطابق دستورالعمل‌ها باشد. Ideogram دارای یک تعدیل کننده هوش مصنوعی است، با این حال، زمانی که از کلمات واضح تر استفاده می شود که بلافاصله به یک نسل سانسور شده منجر می شود (مثلاً کلمات عامیانه برای دستگاه تناسلی یا برچسب هایی مانند برهنه، برهنه و غیره) فعال می شود.

در همین حال، MidJourney و Dall-E 3 هر دو نتوانستند تصویر را ایجاد کنند و کلمات را ممنوع کردند حتی اگر به نسل NSFW منجر نمی شدند.

به نظر می‌رسد ایده‌گرام بیشتر مورد هدف سانسور قرار گرفته است، و می‌توان تصویر ایجاد شده - NSFW یا در غیر این صورت مشکوک - را قبل از اینکه توسط برنامه حذف شود، مشاهده کرد.

افراد مشهور و تصاویر دارای حق چاپ

پیام: جو بایدن و ولادیمیر پوتین خوشحال در مقابل دیواری با متن «رمزگشایی»، دست در دست هم.

نسل‌هایی با Ideogram (بالا)، Dall-e 3 (پایین سمت چپ) و MidJourney (پایین سمت راست)
نسل‌هایی با Ideogram (بالا)، Dall-e 3 (پایین سمت چپ) و MidJourney (پایین سمت راست)

Ideogram AI تصویر را تولید کرده است، متن درست است، سناریو واقعی است و شخصیت ها به راحتی قابل شناسایی هستند (حتی اگر 100٪ دقیق نباشند).

Dall-E 3 این تصویر را ایجاد کرد، اما بایدن به راحتی قابل شناسایی نیست و ترامپ تنها به دلیل مدل موی مشخص او قابل شناسایی است. متن درست نیست و منظره واقعی نیست و در عوض کارتونی است.

MidJourney از تولید تصویر خودداری کرد.

نتیجه

Ideogram ممکن است بهترین تولیدکننده تصویر در حال حاضر موجود در بازار، رایگان و به طور گسترده در دسترس خارج از دروازه باشد. در درک زبان طبیعی عالی است و دارای قابلیت های فضایی برجسته و پایبندی سریع است. همچنین بهترین مولد متن موجود در حال حاضر است.

اگر زیبایی شناسی مهمترین نکته باشد - تا جایی که پایبندی و متن از اهمیت کمتری برخوردار است - در آن صورت MidJourney ممکن است یک رقیب قوی برای موارد استفاده خاص باقی بماند. اگرچه Dall-E 3 قوی نیست و به شدت سانسور نشده است، اما ممکن است همچنان به عنوان بخشی از اشتراک ChatGPT Plus منطقی باشد.

Ideogram AI تاج را در میان جعبه ابزار تولید کننده تصویر ما در اختیار دارد - فعلا.

ویرایش شده توسط رایان اوزاوا.

از اخبار ارزهای دیجیتال مطلع باشید، به‌روزرسانی‌های روزانه را در صندوق ورودی خود دریافت کنید.

نقطه_img

جدیدترین اطلاعات

نقطه_img

چت با ما

سلام! چگونه می توانم به شما کمک کنم؟