تاریخ : چهارشنبه, ۱۴ آذر , ۱۴۰۳ Wednesday, 4 December , 2024
2

نرم افزارهای تبدیل متن به ویدئو

  • کد خبر : 39077
  • 02 اسفند 1402 - 15:00
نرم افزارهای تبدیل متن به ویدئو
پس از آن که DALL-E هوش مصنوعی تبدیل متن به تصویر را تولید کرد، دیگر شرکت‌ها قدمی فراتر برداشته و شروع به ساخت مدل‌های تبدیل متن به تصویر متفاوتی کردند.

«صبح من» با علم و فناوری: در حال حاضر چندین مدل هوش مصنوعی وجود دارند که دارای درجه بالایی از کنترل و توانایی تولید فیلم در سبک‌های هنری مختلف هستند.

به گزارش مجله خبری «صبح من»، پس از آن که DALL-E هوش مصنوعی تبدیل متن به تصویر را تولید کرد، دیگر شرکت‌ها قدمی فراتر برداشته و شروع به ساخت مدل‌های تبدیل متن به تصویر متفاوتی کردند.

در حالی که هنوز هم ممکن است نتایج کمی ناقص به نظر برسند، اما چندین مدل هوش مصنوعی وجود دارند که دارای درجه بالایی از کنترل و توانایی تولید فیلم در سبک‌های هنری مختلف هستند.

در اینجا شش مدل جدید هوش مصنوعی مناسب تبدیل متن به ویدیو را معرفی می‌کنیم:

شرکت OpenAI خالق چت‌جی‌پی‌تی به‌تازگی “سورا”، مدل جدید تبدیل متن به ویدیو خود را به نمایش گذاشته است.
این مدل “درکی عمیق از زبان” دارد و می‌تواند “شخصیت‌های قابل قبولی را ایجاد کند که احساسات را بیان می‌کنند.”

گوگل هوش مصنوعی ویدیویی خود به نام Lumiere را دارد که توسط یک مدل انتشار جدید به نام Space-Time-U-Net طراحی شده است. لومیر مکان اشیاء را در یک ویدیو مشخص می‌کند و نحوه حرکت و تغییر همزمان آنها را ردیابی می‌کند.
لومیر هنوز برای کاربران عادی آماده نشده است. اما به مهارت گوگل در ایجاد نیروگاه ویدئویی هوش مصنوعی اشاره می‌کند که ممکن است از مدل‌های عمومی موجود مانند Runway و Pika پیشی بگیرد.
گوگل طی دو سال اخیر جهش فنی در بازی های ویدئویی هوش مصنوعی نیز داشته است.

VideoPoet یک مدل زبان بزرگ است که بر روی مجموعه داده عظیمی از فیلم‌ها، تصاویر، صدا و متن آموزش داده شده است. این مدل می‌تواند وظایف مختلف تولید ویدیو را انجام دهد، از تبدیل متن یا تصاویر به ویدیو گرفته تا جذاب‌تر کردن ویدیوها با سبک، رنگ‌آمیزی درونی و بیرونی ویدیو، و ویدیو به صدا.

این مدل بر اساس یک ایده ساده ساخته شده است: تبدیل هر مدل زبان خودبازگشتی به یک سیستم تولید ویدئو.
مدل‌های زبان خودبازگشتی می‌توانند متن و کد را بطور بی‌نظیری ایجاد کنند. اما وقتی نوبت به ویدیو می‌رسد، آنها به یک مانع برمی‌خورند. برای مقابله با آن، VideoPoet از چند واسطه استفاده می‌کند که می‌تواند ویدیو، تصویر و کلیپ‌های صوتی را به زبانی که می‌فهمد تبدیل کند.

مدل هوش مصنوعی متا شامل دو مرحله است. ابتدا از متن یک عکس می‌سازد. سپس، از آن متن و تصویر برای ایجاد یک ویدیوی درجه یک استفاده می‌کند.
نکته جالب اینکه ۸۱ درصد کاربران Emu Video را به Imagen Video Google ترجیح می‌دهند، ۹۰ درصد آن را به PYOCO NVIDIA ترجیح می‌دهند و ۹۶ درصد می‌گویند که بهتر از Make-A-Video خود متا است. نه فقط این، بلکه حتی گزینه‌های تجاری مانند RunwayML’s Gen2 و Pika Labs را نیز شکست می‌دهد.

تیم پشتیبان Phenaki Video از Mask GIT برای تولید ویدیوهای هدایت‌شده متنی در PyTorch استفاده کرد. این مدل می‌تواند ویدیوهایی با هدایت متن تولید کرده که تا مدت زمان ۲ دقیقه‌ای، بسازد
Phenaki همه کاره است و برای محققان جهت آموزش متن به تصویر و متن به ویدئو باز است. آنها می‌توانند با تصاویر شروع کرده و سپس برای آموزش بدون قید و شرط روی تنظیم ویدیو تمرکز کنند.

گروهی از محققان دانشگاه Tsinghua در پکن CogVideo را توسعه دادند که یک مدل تولید متن به ویدئوی از قبل آموزش دیده در مقیاس بزرگ است.
آنها این مدل را با استفاده از یک مدل از پیش آموزش داده شده متن به تصویر به نام CogView2 ساختند تا از آموخته‌های قبلی خود، استفاده کنند.

لینک کوتاه : https://sobheman.com/?p=39077

ثبت دیدگاه

قوانین ارسال دیدگاه
  • دیدگاه های ارسال شده توسط شما، پس از تایید توسط تیم مدیریت در وب منتشر خواهد شد.
  • پیام هایی که حاوی تهمت یا افترا باشد منتشر نخواهد شد.
  • پیام هایی که به غیر از زبان فارسی یا غیر مرتبط باشد منتشر نخواهد شد.