متا یکی از بزرگان صنعت فناوری است که به طور جدی در حوزه هوش مصنوعی فعالیت میکند و قصد دارد در این زمینه به عنوان یک پیشگام مطرح شود.
به منظور دستیابی به این هدف، محققان متا از یک مدل هوش مصنوعی جدید با نام CM3leon برای تبدیل متن به تصویر استفاده میکنند که نتایج بهتری نسبت به سایر مدلهای AI موجود ارائه میدهد.
هوش مصنوعی CM3leon چیست؟
به تازگی، شرکت متا تمرکز خود را بر روی پیشبرد تحقیقات خود در زمینه اشکال مختلف هوش مصنوعی مولد گذاشته است و در این راستا، مدل AI جدید CM3leon را به جامعه علمی معرفی کرده است.
این مدل توانایی تبدیل متن به تصویر با دقت و کیفیت بسیار بالا را داراست و نتایج بهتری نسبت به سایر مدلهای موجود در این زمینه ارائه میدهد.
به نظر میرسد که این دستاورد جدید شرکت متا، در ارتقای کارایی و دقت هوش مصنوعی مولد، گام مهمی به سوی پیشرفت در این حوزه محسوب میشود.
CM3leon یک مدل هوش مصنوعی چند وظیفهای برای تولید تصویر بر اساس متن است که علاوه بر تبدیل متن به تصویر، قابلیت تولید متن از عکس و تولید زیرنویس و توضیحات برای تصاویر را نیز داراست.
راهکارهای هوش مصنوعی برای تولید تصویر از متن قبلی نیز شناخته شده است و ابزارهایی مانند Stable Diffusion، DALL-E و Midjourney در این زمینه ارائه شدهاند.
اما، CM3leon با اتخاذ تکنیکهای جدید برای ساخت و آموزش مدل هوش مصنوعی، قابلیتهای ویژهای را به همراه دارد. شرکت متا ادعا کرده است که این مدل، یک مدل هوش مصنوعی چند وجهی است که علاوه بر تولید تصویر، قادر به تولید متن از عکس و تولید زیرنویس و توضیحات برای تصاویر است.
به عبارت دیگر، CM3leon یک ابزار کامل برای تبدیل بین متن و تصویر است که نتایجی بسیار دقیق و کیفیت بالا را ارائه میدهد. در نتیجه، این دستاورد جدید شرکت متا میتواند گام مهمی در پیشرفت حوزه هوش مصنوعی مولد باشد.
فرق هوش مصنوعی CM3leon با سایر هوش های مصنوعی
بر اساس گزارش Venturebeat، بسیاری از مدلهای تولید تصویر از متن در حال حاضر از فناوری مدلهای انتشاری (Diffusion models) استفاده میکنند. با این حال، CM3leon از فناوری متفاوتی به نام مدل خود کاهنده مبتنی بر توکن (Token-based Autoregressive Model) استفاده میکند.
شرکت متا با استفاده از فناوریهای مدلهای خود کاهنده مبتنی بر توکن، قابلیتهای ویژهای را در CM3leon فراهم کرده است.
به عنوان نمونه، این مدل هوش مصنوعی علاوه بر تولید تصویر، قادر به تولید متن از عکس و تولید زیرنویس و توضیحات برای تصاویر نیز است. به نظر میرسد که این دستاورد جدید شرکت متا، در خلق مدلهای پیشرفتهتر برای هوش مصنوعی مولد و افزایش کارایی آن، نقش مهمی دارد.
محققان شرکت متا در یک مقاله با عنوان “مقیاسگذاری مدلهای چندوظیفهای خودکار”، درباره آموزش و تنظیم دستورالعملهای این مدل هوش مصنوعی جدید گفته اند:
در حوزه تولید تصویر، هوش مصنوعی مبتنی بر مدلهای انتشاری به دلیل عملکرد قوی و هزینه محاسباتی نسبتاً متوسط، بسیار محبوب شدهاند.
با این حال، مدلهای اتورگرسیو مبتنی بر توکن میتوانند نتایج فوقالعاده بهتری را ارائه کنند، هرچند که آموزش و استفاده از آنها برای استنتاج بسیار گرانتر خواهد بود.
به عبارت دیگر، در حوزه تولید تصویر، مدلهای انتشاری به دلیل سرعت و هزینه محاسباتی نسبتاً کم، بیشتر مورد استفاده قرار میگیرند.
اما، مدلهای اتورگرسیو مبتنی بر توکن، نتایج بهتری را ارائه میدهند، با این حال آموزش و استفاده از آنها بسیار هزینهبر خواهد بود. به همین دلیل، استفاده از مدلهای اتورگرسیو مبتنی بر توکن، غالباً در حوزههایی مانند پردازش زبان طبیعی و تولید متن استفاده میشود، در حالی که در حوزه تولید تصویر، مدلهای انتشاری هنوز مورد استفاده قرار دارند.
نحوه عملکرد هوش مصنوعی CM3leon
نحوه عملکرد CM3leon تا حدی شبیه به مدلهای تولید کننده متن موجود است. با این حال، شرکت متا به جای استفاده از تصاویر موجود در فضای اینترنت (که برای برخی مدلهای هوش مصنوعی چالشهای قانونی را به همراه داشته است)، از راههای دیگری برای آموزش CM3leon استفاده میکند.
مدل CM3leon پیش از شروع فرآیند آموزش بر روی تصاویر، یک مرحله تنظیم دقیق تحت نظارت (SFT) را طی میکند. این رویکرد باعث شده است که نتایج به دست آمده از CM3leon در مقایسه با رقبای دیگر، به لحاظ استفاده از منابع و کیفیت تصویر بهتر باشد.
واجدین شرکت متا ادعا میکنند که مرحله SFT باعث بهبود نتایج CM3leon در درک متنهای پیچیده و چند مرحلهای شده است. این روش نظارتی، به همان روشی است که شرکت OpenAI برای آموزش ChatGPT استفاده میکند.
با نگاه به مجموعه نمونههایی که CM3leon تولید کرده است، قابل مشاهده است که این هوش مصنوعی جدید قادر به درک متنهای پیچیده و چند مرحلهای است و نتایج چشمگیری را ارائه میدهد.