MAGI-1: توليد الفيديو ذاتي الانحدار على نطاق واسع
أداء عالي·خفيف الوزن·مفتوح المصدر بالكاملهندسة MoE للتوليد والفهم متعدد الوسائط
ما هو MAGI-1 AI؟
MAGI-1 هو نموذج متقدم لتوليد الفيديو ذاتي الانحدار تم تطويره بواسطة SandAI، مصمم لتوليد مقاطع فيديو عالية الجودة من خلال التنبؤ بتسلسلات من مقاطع الفيديو بطريقة ذاتية الانحدار. تم تدريب هذا النموذج لإزالة الضوضاء من مقاطع الفيديو، مما يتيح النمذجة الزمنية السببية ويدعم التوليد المتدفق. يتفوق MAGI-1 في مهام تحويل الصورة إلى فيديو (I2V)، ويوفر اتساقاً زمنياً عالياً وقابلية للتطوير، بفضل العديد من الابتكارات الخوارزمية ومجموعة البنية التحتية المخصصة.
نظرة عامة على MAGI-1
الميزة | الوصف |
---|---|
أداة AI | MAGI-1 |
الفئة | نموذج توليد الفيديو ذاتي الانحدار |
الوظيفة | توليد الفيديو |
سرعة التوليد | توليد فيديو عالي الكفاءة |
الورقة البحثية | الورقة البحثية |
الموقع الرسمي | GitHub - SandAI-org/MAGI-1 |
MAGI-1 AI: ميزات النموذج
VAE المعتمد على Transformer
يستخدم التشفير التلقائي المتغير مع بنية معتمدة على Transformer، مما يوفر ضغطاً مكانياً 8x وزمنياً 4x. يؤدي هذا إلى أوقات فك تشفير سريعة وجودة إعادة بناء تنافسية.
خوارزمية إزالة الضوضاء ذاتية الانحدار
يولد مقاطع الفيديو جزءاً تلو الآخر، مما يسمح بالمعالجة المتزامنة لما يصل إلى أربعة أجزاء لتوليد الفيديو بكفاءة. تتم إزالة الضوضاء من كل جزء (24 إطاراً) بشكل شامل، ويبدأ الجزء التالي بمجرد وصول الجزء الحالي إلى مستوى معين من إزالة الضوضاء.

بنية نموذج الانتشار
مبني على Diffusion Transformer، ويتضمن ابتكارات مثل Block-Causal Attention وParallel Attention Block وQK-Norm وGQA. يتميز بـ Sandwich Normalization في FFN وSwiGLU وSoftcap Modulation لتعزيز كفاءة التدريب والاستقرار على نطاق واسع.

خوارزمية التقطير
يستخدم التقطير المختصر لتدريب نموذج واحد قائم على السرعة يدعم ميزانيات الاستدلال المتغيرة. يضمن هذا النهج استدلالاً فعالاً مع الحد الأدنى من فقدان الدقة.
MAGI-1: مجموعة النماذج
نوفر الأوزان المدربة مسبقاً لـ MAGI-1، بما في ذلك نماذج 24B و4.5B، بالإضافة إلى نماذج التقطير والتقطير+التكميم المقابلة. روابط أوزان النموذج موضحة في الجدول.
النموذج | الرابط | الجهاز الموصى به |
---|---|---|
T5 | T5 | - |
MAGI-1-VAE | MAGI-1-VAE | - |
MAGI-1-24B | MAGI-1-24B | H100/H800 * 8 |
MAGI-1-24B-distill | MAGI-1-24B-distill | H100/H800 * 8 |
MAGI-1-24B-distill+fp8_quant | MAGI-1-24B-distill+fp8_quant | H100/H800 * 4 or RTX 4090 * 8 |
MAGI-1-4.5B | MAGI-1-4.5B | RTX 4090 * 1 |
MAGI-1: نتائج التقييم
التقييم البشري
يتفوق MAGI-1 على النماذج مفتوحة المصدر الأخرى مثل Wan-2.1, ، Hailuo، وHunyuanVideo من حيث اتباع التعليمات وجودة الحركة، مما يجعله منافساً قوياً للنماذج التجارية مغلقة المصدر.

التقييم الفيزيائي
يظهر MAGI-1 دقة متفوقة في التنبؤ بالسلوك الفيزيائي من خلال استمرارية الفيديو، متفوقاً بشكل كبير على النماذج الحالية.
Model | Phys. IQ Score ↑ | Spatial IoU ↑ | Spatio Temporal ↑ | Weighted Spatial IoU ↑ | MSE ↓ |
---|---|---|---|---|---|
V2V Models | |||||
Magi (V2V) | 56.02 | 0.367 | 0.270 | 0.304 | 0.005 |
VideoPoet (V2V) | 29.50 | 0.204 | 0.164 | 0.137 | 0.010 |
I2V Models | |||||
Magi (I2V) | 30.23 | 0.203 | 0.151 | 0.154 | 0.012 |
Kling1.6 (I2V) | 23.64 | 0.197 | 0.086 | 0.144 | 0.025 |
VideoPoet (I2V) | 20.30 | 0.141 | 0.126 | 0.087 | 0.012 |
Gen 3 (I2V) | 22.80 | 0.201 | 0.115 | 0.116 | 0.015 |
Wan2.1 (I2V) | 20.89 | 0.153 | 0.100 | 0.112 | 0.023 |
Sora (I2V) | 10.00 | 0.138 | 0.047 | 0.063 | 0.030 |
GroundTruth | 100.0 | 0.678 | 0.535 | 0.577 | 0.002 |
لماذا تختار Magi-1
اختبر الجيل القادم من إنشاء الفيديو بالذكاء الاصطناعي مع Magi-1، حيث تلتقي التكنولوجيا المتطورة مع شفافية المصدر المفتوح.
توليد فيديو سلس
تحكم في محتواك مع تعديلات توقيت دقيقة للإطارات، لضمان تلبية مقاطع الفيديو للمواصفات الإبداعية المطلوبة.
تحكم دقيق في الجدول الزمني
إنتاج مقاطع فيديو بمرئيات واضحة ومفصلة وحركة سلسة، لضمان تجربة احترافية وجذابة.
جودة حركة محسنة
اختبر حركة واقعية مع معالجة الحركة المتقدمة لدينا، مما يزيل الانتقالات الآلية للحصول على مقاطع فيديو تبدو طبيعية حقاً.
ابتكار مفتوح المصدر
انضم إلى نظام بيئي شفاف حيث جميع النماذج والأبحاث متاحة مجاناً، مما يعزز التحسين والابتكار التعاوني.
الأسئلة الشائعة حول MAGI-1
ما هو MAGI-1؟
MAGI-1 AI هو نموذج متقدم لتوليد الفيديو ذاتي الانحدار تم تطويره بواسطة SandAI، مصمم لتوليد مقاطع فيديو عالية الجودة من خلال التنبؤ بتسلسلات من مقاطع الفيديو بطريقة ذاتية الانحدار. تم تدريب هذا النموذج لإزالة الضوضاء من مقاطع الفيديو، مما يتيح النمذجة الزمنية السببية ويدعم التوليد المتدفق.
ما هي الميزات الرئيسية لـ MAGI-1؟
تتضمن ميزات نموذج توليد الفيديو MAGI-1 AI تشفيراً تلقائياً متغيراً معتمداً على Transformer لفك التشفير السريع وجودة إعادة البناء التنافسية، وخوارزمية إزالة الضوضاء ذاتية الانحدار لتوليد الفيديو بكفاءة، وبنية نموذج انتشار تعزز كفاءة التدريب والاستقرار على نطاق واسع. كما يدعم التوليد القابل للتحكم من خلال التوجيه حسب الأجزاء، مما يتيح انتقالات سلسة للمشاهد، وتوليفاً طويل المدى، وتحكماً دقيقاً مدفوعاً بالنص.
كيف يتعامل MAGI-1 مع توليد الفيديو؟
يقوم MAGI-1 AI بتوليد مقاطع الفيديو جزءاً تلو الآخر بدلاً من توليدها كوحدة واحدة. تتم إزالة الضوضاء من كل جزء (24 إطاراً) بشكل شامل، ويبدأ توليد الجزء التالي بمجرد وصول الجزء الحالي إلى مستوى معين من إزالة الضوضاء. يتيح تصميم خط الأنابيب هذا المعالجة المتزامنة لما يصل إلى أربعة أجزاء لتوليد الفيديو بكفاءة.
ما هي أنواع النماذج المتاحة لـ MAGI-1؟
تتضمن أنواع نماذج فيديو MAGI-1 نموذج 24B المحسن لتوليد فيديو عالي الدقة ونموذج 4.5B المناسب للبيئات محدودة الموارد. تتوفر أيضاً نماذج مقطرة ومكممة للاستدلال الأسرع.
كيف يؤدي MAGI-1 في التقييمات؟
يحقق MAGI-1 AI أداءً متطوراً بين النماذج مفتوحة المصدر، متفوقاً في اتباع التعليمات وجودة الحركة، مما يجعله منافساً قوياً محتملاً للنماذج التجارية مغلقة المصدر مثل Kling1.6. كما يظهر دقة متفوقة في التنبؤ بالسلوك الفيزيائي من خلال استمرارية الفيديو، متفوقاً بشكل كبير على جميع النماذج الحالية.
كيف يمكنني تشغيل MAGI-1؟
يمكن تشغيل MAGI-1 AI باستخدام Docker أو مباشرة من الكود المصدري. يوصى باستخدام Docker لسهولة الإعداد. يمكن للمستخدمين التحكم في المدخلات والمخرجات من خلال تعديل المعلمات في نصوص run.sh المتوفرة.
ما هو ترخيص MAGI-1؟
تم إصدار MAGI-1 تحت ترخيص Apache License 2.0.
ما هي ميزة 'التوسيع اللانهائي للفيديو' في MAGI-1؟
تتيح وظيفة 'التوسيع اللانهائي للفيديو' في MAGI-1 التمديد السلس لمحتوى الفيديو، مع 'التحكم في المحور الزمني على مستوى الثانية'، مما يمكن المستخدمين من تحقيق انتقالات المشاهد والتحرير الدقيق من خلال التوجيه حسب الأجزاء، مما يلبي احتياجات إنتاج الأفلام ورواية القصص.
ما هي أهمية البنية ذاتية الانحدار لـ MAGI-1؟
بفضل المزايا الطبيعية للبنية ذاتية الانحدار، يحقق Magi دقة متفوقة بكثير في التنبؤ بالسلوك الفيزيائي من خلال استمرارية الفيديو—متفوقاً بشكل كبير على جميع النماذج الحالية.
ما هي تطبيقات MAGI-1؟
تم تصميم MAGI-1 لتطبيقات متنوعة مثل إنشاء المحتوى، وتطوير الألعاب، وما بعد إنتاج الأفلام، والتعليم. يوفر أداة قوية لتوليد الفيديو يمكن استخدامها في سيناريوهات متعددة.