أعلنت جوجل حديثًا عن إطلاق نموذجها
اللغوي الابتكاري، المسمى بـ VideoPoet،
الذي يُصمم خصيصًا لأداء مجموعة متنوعة من المهام المتقدمة. يأتي هذا النموذج ليحل
تحديات توليد الفيديو، حيث يستطيع تحويل النصوص إلى مقاطع فيديو، وتحويل الصور إلى
فيديو، وحتى تحويل محتوى الفيديو إلى صوت.
يتميز VideoPoet
بالقدرة على إنشاء حركات متناغمة ومتماسكة في مقاطع الفيديو، مما يمثل تطورًا
ملحوظًا في مجال تقنيات توليد الفيديو. يبرز هذا النموذج بفضل دمجه لقدرات توليد
الفيديو المتعددة في إطار واحد، وهو يختلف بشكل واضح عن النماذج الحالية التي تتبع
نهجًا مجزأً.
يعتمد VideoPoet
على تقنيات متنوعة وتدريبه يشمل استخدام العديد من الرموز المميزة، مثل MAGVIT
V2 لمعالجة الفيديو والصور، و SoundStream
للتعامل مع الصوت.
يُمكّن هذا النموذج من أداء مهام
متنوعة، بدءًا من تحريك الصور إلى تحرير وتصميم مقاطع الفيديو، وذلك باستناد إلى
مدخلات النص. يتفوق VideoPoet
على نظرائه من خلال تحقيق توازن مثالي بين دقة النص وحيوية الحركة.
يُظهر هذا النموذج التقدم الكبير في
مجال تقنيات الذكاء الاصطناعي المتعلقة بتوليد الفيديو، حيث يبرز بفاعلية عن نماذج
مثل Imagen Video و RunwayML
و Stable Video Diffusion
و Pika و Animate
Anywhere. ويتفوق VideoPoet
بشكل خاص في قدرته على تحقيق دقة ممتازة في ترجمة النصوص إلى مقاطع فيديو، وهو ما
يُعزز تجربة المستخدم من خلال تقديم محتوى ديناميكي وجذاب بأقل قدر من المدخلات،
مما يجعله متميزًا في عالم التكنولوجيا الحديثة.