مستقبل
الذكاء الاصطناعي

وضع علامة المستقبل على الذكاء الاصطناعي اليوم

Minigpt-4

Minigpt-4
Minigpt-4

ما هو Minigpt-4؟ MiniGPT-4 هو نموذج ذكاء اصطناعي يركز على تعزيز فهم اللغة البصرية باستخدام نماذج لغوية كبيرة متقدمة. وهو يعتمد على فكرة مفادها أن قدرات التوليد المتعددة الوسائط المتقدمة لنماذج مثل gpt-4 يمكن أن تُعزى إلى استخدام نموذج لغوي كبير (llm). يقوم minigpt-4 بمحاذاة مشفر بصري مجمد مع llm مجمد يسمى vicuna باستخدام طبقة إسقاط واحدة. إنه يُظهر قدرات مماثلة لـ gpt-4، مثل إنشاء أوصاف صور مفصلة وإنشاء مواقع ويب بناءً على مسودات مكتوبة بخط اليد. بالإضافة إلى ذلك، يمكن لـ minigpt-4 كتابة قصص وقصائد مستوحاة من صور معينة، وتقديم حلول للمشاكل التي تظهر في الصور، وحتى تعليم المستخدمين كيفية الطهي بناءً على صور الطعام. تتكون بنية minigpt-4 من مشفر بصري مُدرب مسبقًا باستخدام vit q-former، وطبقة إسقاط خطية واحدة، ونموذج لغة vicuna الكبير المتقدم. إن تدريب الطبقة الخطية ضروري لمواءمة الميزات المرئية مع الفكونا. النموذج فعال للغاية من الناحية الحسابية، ويتطلب ما يقرب من 5 ملايين زوج من الصور والنصوص المحاذية لتدريب طبقة الإسقاط.


تقييم الجمهور
تقييم الخبراء
تقييم المختصين