منو سایت

  • خانه
  • وبلاگ
  • QuickVid از هوش مصنوعی برای تولید ویدیوهای کوتاه و کامل با صدا استفاده می کند • TechCrunch

QuickVid از هوش مصنوعی برای تولید ویدیوهای کوتاه و کامل با صدا استفاده می کند • TechCrunch

 تاریخ انتشار :
/
  وبلاگ
QuickVid از هوش مصنوعی برای تولید ویدیوهای کوتاه و کامل با صدا استفاده می کند • TechCrunch

هوش مصنوعی مولد در راه است برای ویدیوها وب سایت جدیدی به نام QuickVid چندین سیستم هوش مصنوعی مولد را در یک ابزار ترکیب می کند تا به طور خودکار ویدیوهای کوتاه را در YouTube، Instagram، TikTok و Snapchat ایجاد کند. با در نظر گرفتن یک کلمه، QuickVid یک ویدیوی پس‌زمینه را از یک کتابخانه انتخاب می‌کند، یک اسکریپت و کلمات کلیدی می‌نویسد، تصاویر تولید شده توسط DALL-E 2 را پوشش می‌دهد، و صداهای مصنوعی و موسیقی پس‌زمینه را از کتابخانه موسیقی رایگان YouTube اضافه می‌کند.

خالق QuickVid، دانیل حبیب، می گوید که او در حال ساخت این سرویس است تا به سازندگان کمک کند تا تقاضای “همیشه رو به رشد” طرفداران خود را برآورده کنند.

حبیب در مصاحبه ایمیلی با TechCrunch گفت: «QuickVid با ارائه ابزارهایی به سازندگان برای ایجاد سریع و آسان محتوای با کیفیت، به سازندگان کمک می‌کند تا محتوای خود را مقیاس‌بندی کنند و خطر فرسودگی شغلی را کاهش دهند. “هدف ما این است که با استفاده از پیشرفت‌های هوش مصنوعی، خالق مورد علاقه شما را قادر کنیم تا با خواسته‌های مخاطبان خود مطابقت داشته باشد.”

اما بسته به نحوه استفاده از آنها، ابزارهایی مانند QuickVid تهدید می‌کنند که کانال‌های پرجمعیت را با هرزنامه و محتوای تکراری پر می‌کنند. آن‌ها همچنین با واکنش شدید سازندگانی مواجه می‌شوند که تصمیم می‌گیرند از این ابزارها استفاده نکنند، چه به دلیل هزینه (۱۰ دلار در ماه) و چه اصولاً، اما ممکن است مجبور شوند با مجموعه‌ای از ویدیوهای جدید تولید شده توسط هوش مصنوعی رقابت کنند.

تعقیب و گریز ویدیویی

QuickVid که حبیب، یک توسعه‌دهنده خودآموخته که قبلاً در متا در فیس‌بوک لایو و زیرساخت‌های ویدئویی کار می‌کرد، ظرف چند هفته ساخته شد، در 27 دسامبر راه‌اندازی شد. در حال حاضر استخوان‌های نسبتاً خالی است – حبیب می‌گوید گزینه‌های سفارشی‌سازی بیشتری در ژانویه ارائه می‌شود – اما QuickVid می‌تواند اجزایی را که یک ویدیوی معمولی YouTube Short یا TikTok را تشکیل می‌دهند، از جمله زیرنویس‌ها و حتی آواتارها ترکیب کند.

کاربردش ساده است. ابتدا کاربر درخواستی را وارد می‌کند که موضوع ویدیویی را که می‌خواهد بسازد، توضیح می‌دهد. QuickVid از فرمان برای تولید یک اسکریپت با استفاده از قابلیت های تولید متن GPT-3 استفاده می کند. از میان کلمات کلیدی استخراج‌شده از اسکریپت به‌طور خودکار یا وارد شده به‌صورت دستی، QuickVid یک ویدیوی پس‌زمینه را از کتابخانه رسانه رایگان Pexels انتخاب می‌کند و تصاویر همپوشانی را با استفاده از DALL-E 2 تولید می‌کند. سپس از طریق Google Cloud API برای تبدیل متن به گفتار، یک صدا پخش می‌کند. حبیب می گوید که کاربران به زودی می توانند صدای خود را شبیه سازی کنند – قبل از اینکه همه آن عناصر را در یک ویدیو ترکیب کنند.

QuickVid

اعتبار تصویر: QuickVid

این ویدیو را که با دستور «گربه‌ها» ساخته شده است، ببینید:

یا این یکی:

QuickVid مطمئناً مرزهای آنچه را که با هوش مصنوعی مولد امکان پذیر است تغییر نمی دهد. هم متا و هم گوگل سیستم‌های هوش مصنوعی را نشان داده‌اند که می‌توانند ویدیوهای کاملاً اصلی را در یک پیام متنی تولید کنند. اما QuickVid هوش مصنوعی موجود را گرد هم می‌آورد تا از قالب تکراری ویدیوهای کوتاه استفاده کند و مشکل تولید خود مواد را دور بزند.

حبیب گفت: سازندگان موفق کیفیت فوق العاده بالایی دارند و علاقه ای به انتشار محتوایی ندارند که احساس می کنند در صدای خودشان نیست. “این مورد استفاده ای است که ما روی آن تمرکز کرده ایم.”

همانطور که گفته شد، ویدیوهای QuickVid از نظر کیفیت معمولاً ترکیبی هستند. ویدیوهای پس‌زمینه کمی تصادفی هستند یا فقط به صورت مماس با موضوع مرتبط هستند، که با توجه به اینکه QuickVid در حال حاضر محدود به کاتالوگ Pexels است، تعجب آور نیست. در همین حال، تصاویر تولید شده توسط DALL-E 2 محدودیت های تکنولوژی متن به تصویر امروزی مانند متن تحریف شده و نسبت های نادرست را نشان می دهد.

حبیب در پاسخ به بازخورد من گفت که QuickVid “هر روز تست و بهینه سازی می شود.”

مسائل کپی رایت

به گفته حبیب، کاربران QuickVid این حق را برای خود محفوظ می دارند که از محتوایی که به صورت تجاری ایجاد می کنند استفاده کنند و اجازه کسب درآمد از آن را در پلتفرم هایی مانند YouTube دارند. اما وضعیت کپی رایت در مورد محتوای تولید شده توسط هوش مصنوعی… حداقل در حال حاضر مبهم است. اداره ثبت اختراع و علائم تجاری ایالات متحده (USPTO) اخیراً تصمیم گرفت حفاظت از حق چاپ را برای یک کتاب مصور تولید شده توسط هوش مصنوعی لغو کند، به عنوان مثال، گفت که آثار دارای حق چاپ نیاز به تألیف انسانی دارند.

حبیب وقتی از او پرسیده شد که حکم USPTO چگونه می‌تواند روی QuickVid تأثیر بگذارد، گفت که او معتقد است که این حکم فقط به «قابلیت ثبت اختراع» محصولات تولید شده توسط هوش مصنوعی می‌پردازد، نه حقوق سازندگان برای استفاده و کسب درآمد از محتوای آنها. او اشاره کرد که سازندگان اغلب برای ویدیوها حق ثبت اختراع ثبت نمی‌کنند و معمولاً به اقتصاد سازندگان تکیه می‌کنند و به سازندگان دیگر اجازه می‌دهند ویدیوهای خود را تغییر دهند تا دسترسی خود را افزایش دهند.

حبیب گفت: «سازندگان مطمئن می شوند که محتوای با کیفیت بالا را در صدای خود منتشر می کنند که به رشد کانال آنها کمک می کند.

یکی دیگر از چالش‌های حقوقی موجود در افق می‌تواند ادغام QuickVid DALL-E 2 را تحت تأثیر قرار دهد – و در نتیجه، توانایی سایت برای تولید پوشش‌های تصویری را تحت تأثیر قرار دهد. مایکروسافت، GitHub و OpenAI در یک دادخواست دسته جمعی مورد شکایت قرار گرفته اند که آنها را متهم به نقض قانون کپی رایت با اجازه دادن به Copilot، یک سیستم تولید کد، برای بازتولید بخش هایی از کد دارای مجوز بدون ارائه اعتبار می کند. (Copilot به طور مشترک توسط OpenAI و GitHub که متعلق به مایکروسافت است توسعه داده شده است.) این مورد پیامدهایی برای هوش مصنوعی مولد مانند DALL-E 2 دارد که به طور مشابه مشخص شده است که از مجموعه داده هایی که بر روی آنها آموزش داده شده است کپی و جایگذاری می کند (به عنوان مثال. تصاویر).

حبیب نگران نیست و ادعا می کند که جن مولد هوش مصنوعی از بطری خارج شده است. او با اشاره به سیستم منبع باز DALL-E 2-مانند Stable Diffusion گفت: «اگر شکایت دیگری پیش بیاید و OpenAI فردا از بین برود، چندین جایگزین وجود دارد که می تواند QuickVid را تقویت کند. QuickVid اکنون Stable Diffusion را برای تولید عکس های آواتار آزمایش می کند.

تعدیل و هرزنامه

جدای از معضلات قانونی، QuickVid ممکن است به زودی با مشکل تعدیل مواجه شود. در حالی که OpenAI فیلترها و تکنیک هایی را برای جلوگیری از آنها پیاده سازی کرده است، هوش مصنوعی مولد دارای مسائل شناخته شده ای با سمیت و دقت واقعی است. GPT-3 اطلاعات نادرست را پخش می کند، به ویژه در مورد رویدادهای اخیر که خارج از محدوده پایگاه دانش آن است. و ChatGPT، یک فرزند تنظیم شده GPT-3، نشان داده شده است که از زبان جنسی و نژادپرستانه استفاده می کند.

این به ویژه برای افرادی که از QuickVid برای ایجاد ویدیوهای اطلاعاتی استفاده می کنند نگران کننده است. در یک آزمایش سریع، از شریکم – که بسیار خلاق‌تر از من است، به خصوص در این زمینه – چند دستور توهین‌آمیز وارد کردم تا ببینم QuickVid چه چیزی ایجاد می‌کند. به اعتبار QuickVid، پیام‌های آشکارا مشکل‌ساز مانند «نظم جدید جهانی یهودی» و «تئوری توطئه 11 سپتامبر» به سناریوهای سمی منجر نشد. اما برای «نظریه نژاد انتقادی که دانش‌آموزان را تلقین می‌کند»، QuickVid ویدیویی تولید کرده است که نشان می‌دهد می‌توان از نظریه نژاد انتقادی برای شستشوی مغزی دانش‌آموزان استفاده کرد.

نگاه کن:

QuickVid

حبیب می‌گوید برای انجام بیشتر کارهای نظارتی به فیلترهای OpenAI تکیه می‌کند و ادعا می‌کند که بر عهده کاربران است که به صورت دستی هر ویدیوی ایجاد شده توسط QuickVid را بررسی کنند تا مطمئن شوند “همه چیز در محدوده قانون است”.

حبیب گفت: «به عنوان یک قاعده کلی، من معتقدم مردم باید بتوانند خود را ابراز کنند و هر محتوایی را که می خواهند ایجاد کنند.

این بدیهی است که شامل محتوای هرزنامه نیز می شود. حبیب استدلال کرد که الگوریتم‌های پلت‌فرم‌های ویدیویی، نه QuickVid، بهترین موقعیت را برای تعیین کیفیت ویدیو دارند و افرادی که محتوای با کیفیت پایین تولید می‌کنند «فقط به شهرت خود آسیب می‌زنند». او می‌گوید که آسیب‌های شهرت به طور طبیعی مردم را برای ایجاد کمپین‌های اسپم انبوه با QuickVid منصرف می‌کند.

او افزود: «اگر مردم نمی‌خواهند ویدیوی شما را تماشا کنند، پس نمی‌توانید در پلتفرم‌هایی مانند یوتیوب توزیع کنید. تولید محتوای بی کیفیت همچنین باعث می شود مردم کانال شما را با دید منفی ببینند.

اما نگاه به آژانس‌های تبلیغاتی مانند Fractl که در سال 2019 از یک سیستم هوش مصنوعی به نام Grover برای تولید یک سایت کامل از مواد بازاریابی استفاده کردند، آموزنده است. کریستین تینسکی، شریک فراکتل در مصاحبه ای با The Verge گفت که او در نظر داشت هوش مصنوعی مولد را قادر می سازد «سونامی در مقیاس بزرگ از محتوای تولید شده توسط رایانه در هر جایگاهی که بتوان تصور کرد.»

در هر صورت، پلتفرم‌های اشتراک‌گذاری ویدیو مانند TikTok و YouTube مجبور به مقابله با تعدیل محتوای تولید شده توسط هوش مصنوعی در مقیاس گسترده نبوده‌اند. Deepfakes – ویدیوهای مصنوعی که جایگزین یک شخص موجود با شبیه شخص دیگری می شود – چند سال پیش راه خود را به پلتفرم هایی مانند YouTube آغاز کردند، با استفاده از ابزارهایی که ساخت فیلم های جعلی عمیق را آسان تر می کردند. اما بر خلاف قانع‌کننده‌ترین دیپ‌فیک‌های امروزی، انواع ویدیوهایی که QuickVid ایجاد می‌کند، آشکارا به هیچ وجه توسط هوش مصنوعی تولید نمی‌شوند.

خط‌مشی نوشتاری ایجاد شده توسط هوش مصنوعی جستجوی Google ممکن است پیش‌نمایش چیزی باشد که در دامنه ویدیو قرار می‌گیرد. وقتی صحبت از رتبه بندی جستجو می شود، گوگل با متن مصنوعی متفاوت از متن نوشته شده توسط انسان رفتار نمی کند، اما در مورد محتوایی که “به جای کمک به کاربران قصد دستکاری رتبه های جستجو را دارد” اقدام می کند. این شامل محتوای ادغام شده یا ترکیب شده از صفحات وب مختلف است که “[doesn’t] اضافه کردن ارزش کافی’، و همچنین محتوای تولید شده از طریق فرآیندهای کاملاً خودکار، که هر دو را می توان در QuickVid اعمال کرد.

به عبارت دیگر، ویدیوهای تولید شده توسط هوش مصنوعی در صورت رشد قابل توجهی ممکن است به طور کامل توسط پلتفرم ها ممنوع نشوند، بلکه صرفاً به هزینه انجام تجارت تبدیل می شوند. بعید است که این ترس کارشناسانی را که معتقدند پلتفرم هایی مانند TikTok در حال تبدیل شدن به خانه جدیدی برای ویدیوهای گمراه کننده هستند، برطرف کند، اما – همانطور که حبیب در طول مصاحبه گفت – “هیچ مانعی برای انقلاب مولد هوش مصنوعی وجود ندارد”.