أعلنت شركة ميتا إطلاق نموذج CM3Leon الجديد لتوليد الصور بالذكاء الاصطناعي وفقاً للإرشادات النصية المدخلة.
النموذج يقوم بتوليد صور أكثر اتساقاً مع الأوامر النصية، إذ إنه أكثر كفاءة، ويتطلب حوسبة أقل بخمس مرات، ومجموعة بيانات أصغر للتدرب مقارنةً بالنماذج الأخرى، حسبما أوردت “البوابة التقنية للأخبار التقنية”.
وتعتمد معظم مولدات الصور التي تعمل بالذكاء الاصطناعي على تقنية تُعرف باسم “الانتشار Diffusion” وهي تقنية تتطلب حوسبة أكبر فضلاً عن كونها بطيئة ومكلفة لتشغيلها، وهي موجودة في أدوات مثل DALL-E التي تطورها شركة “أوبن إيه آي/ OpenAI، و”إيمجن/ Imagen” التي تطورها “جوجل”، بالإضافة إلى Stable Diffusion وغيرها، بينما يعتمد نموذج ميتا CM3Leon على تقنية مختلفة تُعرف باسم “الاهتمام Attention” تجعل النموذج أسرع في التدرب وخلق النتائج وأقل كلفة في التشغيل.
ويتفرد نموذج “CM3Leon” بقدرته على توليد وصف للصور، ما يمهد الطريق لنماذج فهم الصور ذات القدرات الأكبر في المستقبل، وفقاً للشركة.
يمكن لأدوات توليد الصور إنتاج صور أكثر اتساقاً وفقاً للإرشادات النصية المدخلة، ونحن نعتقد أن الأداء القوي للنموذج – عبر مجموعة متنوعة من المهام – يمثل خطوة نحو تحسين جودة توليد الصور وفهمها”.