
هوش مصنوعی مولد در راه است برای ویدیوها وب سایت جدیدی به نام QuickVid چندین سیستم هوش مصنوعی مولد را در یک ابزار ترکیب می کند تا به طور خودکار ویدیوهای کوتاه را در YouTube، Instagram، TikTok و Snapchat ایجاد کند. با در نظر گرفتن یک کلمه، QuickVid یک ویدیوی پسزمینه را از یک کتابخانه انتخاب میکند، یک اسکریپت و کلمات کلیدی مینویسد، تصاویر تولید شده توسط DALL-E 2 را پوشش میدهد، و صداهای مصنوعی و موسیقی پسزمینه را از کتابخانه موسیقی رایگان YouTube اضافه میکند.
خالق QuickVid، دانیل حبیب، می گوید که او در حال ساخت این سرویس است تا به سازندگان کمک کند تا تقاضای “همیشه رو به رشد” طرفداران خود را برآورده کنند.
حبیب در مصاحبه ایمیلی با TechCrunch گفت: «QuickVid با ارائه ابزارهایی به سازندگان برای ایجاد سریع و آسان محتوای با کیفیت، به سازندگان کمک میکند تا محتوای خود را مقیاسبندی کنند و خطر فرسودگی شغلی را کاهش دهند. “هدف ما این است که با استفاده از پیشرفتهای هوش مصنوعی، خالق مورد علاقه شما را قادر کنیم تا با خواستههای مخاطبان خود مطابقت داشته باشد.”
اما بسته به نحوه استفاده از آنها، ابزارهایی مانند QuickVid تهدید میکنند که کانالهای پرجمعیت را با هرزنامه و محتوای تکراری پر میکنند. آنها همچنین با واکنش شدید سازندگانی مواجه میشوند که تصمیم میگیرند از این ابزارها استفاده نکنند، چه به دلیل هزینه (۱۰ دلار در ماه) و چه اصولاً، اما ممکن است مجبور شوند با مجموعهای از ویدیوهای جدید تولید شده توسط هوش مصنوعی رقابت کنند.
تعقیب و گریز ویدیویی
QuickVid که حبیب، یک توسعهدهنده خودآموخته که قبلاً در متا در فیسبوک لایو و زیرساختهای ویدئویی کار میکرد، ظرف چند هفته ساخته شد، در 27 دسامبر راهاندازی شد. در حال حاضر استخوانهای نسبتاً خالی است – حبیب میگوید گزینههای سفارشیسازی بیشتری در ژانویه ارائه میشود – اما QuickVid میتواند اجزایی را که یک ویدیوی معمولی YouTube Short یا TikTok را تشکیل میدهند، از جمله زیرنویسها و حتی آواتارها ترکیب کند.
کاربردش ساده است. ابتدا کاربر درخواستی را وارد میکند که موضوع ویدیویی را که میخواهد بسازد، توضیح میدهد. QuickVid از فرمان برای تولید یک اسکریپت با استفاده از قابلیت های تولید متن GPT-3 استفاده می کند. از میان کلمات کلیدی استخراجشده از اسکریپت بهطور خودکار یا وارد شده بهصورت دستی، QuickVid یک ویدیوی پسزمینه را از کتابخانه رسانه رایگان Pexels انتخاب میکند و تصاویر همپوشانی را با استفاده از DALL-E 2 تولید میکند. سپس از طریق Google Cloud API برای تبدیل متن به گفتار، یک صدا پخش میکند. حبیب می گوید که کاربران به زودی می توانند صدای خود را شبیه سازی کنند – قبل از اینکه همه آن عناصر را در یک ویدیو ترکیب کنند.

اعتبار تصویر: QuickVid
این ویدیو را که با دستور «گربهها» ساخته شده است، ببینید:
یا این یکی:
QuickVid مطمئناً مرزهای آنچه را که با هوش مصنوعی مولد امکان پذیر است تغییر نمی دهد. هم متا و هم گوگل سیستمهای هوش مصنوعی را نشان دادهاند که میتوانند ویدیوهای کاملاً اصلی را در یک پیام متنی تولید کنند. اما QuickVid هوش مصنوعی موجود را گرد هم میآورد تا از قالب تکراری ویدیوهای کوتاه استفاده کند و مشکل تولید خود مواد را دور بزند.
حبیب گفت: سازندگان موفق کیفیت فوق العاده بالایی دارند و علاقه ای به انتشار محتوایی ندارند که احساس می کنند در صدای خودشان نیست. “این مورد استفاده ای است که ما روی آن تمرکز کرده ایم.”
همانطور که گفته شد، ویدیوهای QuickVid از نظر کیفیت معمولاً ترکیبی هستند. ویدیوهای پسزمینه کمی تصادفی هستند یا فقط به صورت مماس با موضوع مرتبط هستند، که با توجه به اینکه QuickVid در حال حاضر محدود به کاتالوگ Pexels است، تعجب آور نیست. در همین حال، تصاویر تولید شده توسط DALL-E 2 محدودیت های تکنولوژی متن به تصویر امروزی مانند متن تحریف شده و نسبت های نادرست را نشان می دهد.
حبیب در پاسخ به بازخورد من گفت که QuickVid “هر روز تست و بهینه سازی می شود.”
مسائل کپی رایت
به گفته حبیب، کاربران QuickVid این حق را برای خود محفوظ می دارند که از محتوایی که به صورت تجاری ایجاد می کنند استفاده کنند و اجازه کسب درآمد از آن را در پلتفرم هایی مانند YouTube دارند. اما وضعیت کپی رایت در مورد محتوای تولید شده توسط هوش مصنوعی… حداقل در حال حاضر مبهم است. اداره ثبت اختراع و علائم تجاری ایالات متحده (USPTO) اخیراً تصمیم گرفت حفاظت از حق چاپ را برای یک کتاب مصور تولید شده توسط هوش مصنوعی لغو کند، به عنوان مثال، گفت که آثار دارای حق چاپ نیاز به تألیف انسانی دارند.
حبیب وقتی از او پرسیده شد که حکم USPTO چگونه میتواند روی QuickVid تأثیر بگذارد، گفت که او معتقد است که این حکم فقط به «قابلیت ثبت اختراع» محصولات تولید شده توسط هوش مصنوعی میپردازد، نه حقوق سازندگان برای استفاده و کسب درآمد از محتوای آنها. او اشاره کرد که سازندگان اغلب برای ویدیوها حق ثبت اختراع ثبت نمیکنند و معمولاً به اقتصاد سازندگان تکیه میکنند و به سازندگان دیگر اجازه میدهند ویدیوهای خود را تغییر دهند تا دسترسی خود را افزایش دهند.
حبیب گفت: «سازندگان مطمئن می شوند که محتوای با کیفیت بالا را در صدای خود منتشر می کنند که به رشد کانال آنها کمک می کند.
یکی دیگر از چالشهای حقوقی موجود در افق میتواند ادغام QuickVid DALL-E 2 را تحت تأثیر قرار دهد – و در نتیجه، توانایی سایت برای تولید پوششهای تصویری را تحت تأثیر قرار دهد. مایکروسافت، GitHub و OpenAI در یک دادخواست دسته جمعی مورد شکایت قرار گرفته اند که آنها را متهم به نقض قانون کپی رایت با اجازه دادن به Copilot، یک سیستم تولید کد، برای بازتولید بخش هایی از کد دارای مجوز بدون ارائه اعتبار می کند. (Copilot به طور مشترک توسط OpenAI و GitHub که متعلق به مایکروسافت است توسعه داده شده است.) این مورد پیامدهایی برای هوش مصنوعی مولد مانند DALL-E 2 دارد که به طور مشابه مشخص شده است که از مجموعه داده هایی که بر روی آنها آموزش داده شده است کپی و جایگذاری می کند (به عنوان مثال. تصاویر).
حبیب نگران نیست و ادعا می کند که جن مولد هوش مصنوعی از بطری خارج شده است. او با اشاره به سیستم منبع باز DALL-E 2-مانند Stable Diffusion گفت: «اگر شکایت دیگری پیش بیاید و OpenAI فردا از بین برود، چندین جایگزین وجود دارد که می تواند QuickVid را تقویت کند. QuickVid اکنون Stable Diffusion را برای تولید عکس های آواتار آزمایش می کند.
تعدیل و هرزنامه
جدای از معضلات قانونی، QuickVid ممکن است به زودی با مشکل تعدیل مواجه شود. در حالی که OpenAI فیلترها و تکنیک هایی را برای جلوگیری از آنها پیاده سازی کرده است، هوش مصنوعی مولد دارای مسائل شناخته شده ای با سمیت و دقت واقعی است. GPT-3 اطلاعات نادرست را پخش می کند، به ویژه در مورد رویدادهای اخیر که خارج از محدوده پایگاه دانش آن است. و ChatGPT، یک فرزند تنظیم شده GPT-3، نشان داده شده است که از زبان جنسی و نژادپرستانه استفاده می کند.
این به ویژه برای افرادی که از QuickVid برای ایجاد ویدیوهای اطلاعاتی استفاده می کنند نگران کننده است. در یک آزمایش سریع، از شریکم – که بسیار خلاقتر از من است، به خصوص در این زمینه – چند دستور توهینآمیز وارد کردم تا ببینم QuickVid چه چیزی ایجاد میکند. به اعتبار QuickVid، پیامهای آشکارا مشکلساز مانند «نظم جدید جهانی یهودی» و «تئوری توطئه 11 سپتامبر» به سناریوهای سمی منجر نشد. اما برای «نظریه نژاد انتقادی که دانشآموزان را تلقین میکند»، QuickVid ویدیویی تولید کرده است که نشان میدهد میتوان از نظریه نژاد انتقادی برای شستشوی مغزی دانشآموزان استفاده کرد.
نگاه کن:
حبیب میگوید برای انجام بیشتر کارهای نظارتی به فیلترهای OpenAI تکیه میکند و ادعا میکند که بر عهده کاربران است که به صورت دستی هر ویدیوی ایجاد شده توسط QuickVid را بررسی کنند تا مطمئن شوند “همه چیز در محدوده قانون است”.
حبیب گفت: «به عنوان یک قاعده کلی، من معتقدم مردم باید بتوانند خود را ابراز کنند و هر محتوایی را که می خواهند ایجاد کنند.
این بدیهی است که شامل محتوای هرزنامه نیز می شود. حبیب استدلال کرد که الگوریتمهای پلتفرمهای ویدیویی، نه QuickVid، بهترین موقعیت را برای تعیین کیفیت ویدیو دارند و افرادی که محتوای با کیفیت پایین تولید میکنند «فقط به شهرت خود آسیب میزنند». او میگوید که آسیبهای شهرت به طور طبیعی مردم را برای ایجاد کمپینهای اسپم انبوه با QuickVid منصرف میکند.
او افزود: «اگر مردم نمیخواهند ویدیوی شما را تماشا کنند، پس نمیتوانید در پلتفرمهایی مانند یوتیوب توزیع کنید. تولید محتوای بی کیفیت همچنین باعث می شود مردم کانال شما را با دید منفی ببینند.
اما نگاه به آژانسهای تبلیغاتی مانند Fractl که در سال 2019 از یک سیستم هوش مصنوعی به نام Grover برای تولید یک سایت کامل از مواد بازاریابی استفاده کردند، آموزنده است. کریستین تینسکی، شریک فراکتل در مصاحبه ای با The Verge گفت که او در نظر داشت هوش مصنوعی مولد را قادر می سازد «سونامی در مقیاس بزرگ از محتوای تولید شده توسط رایانه در هر جایگاهی که بتوان تصور کرد.»
در هر صورت، پلتفرمهای اشتراکگذاری ویدیو مانند TikTok و YouTube مجبور به مقابله با تعدیل محتوای تولید شده توسط هوش مصنوعی در مقیاس گسترده نبودهاند. Deepfakes – ویدیوهای مصنوعی که جایگزین یک شخص موجود با شبیه شخص دیگری می شود – چند سال پیش راه خود را به پلتفرم هایی مانند YouTube آغاز کردند، با استفاده از ابزارهایی که ساخت فیلم های جعلی عمیق را آسان تر می کردند. اما بر خلاف قانعکنندهترین دیپفیکهای امروزی، انواع ویدیوهایی که QuickVid ایجاد میکند، آشکارا به هیچ وجه توسط هوش مصنوعی تولید نمیشوند.
خطمشی نوشتاری ایجاد شده توسط هوش مصنوعی جستجوی Google ممکن است پیشنمایش چیزی باشد که در دامنه ویدیو قرار میگیرد. وقتی صحبت از رتبه بندی جستجو می شود، گوگل با متن مصنوعی متفاوت از متن نوشته شده توسط انسان رفتار نمی کند، اما در مورد محتوایی که “به جای کمک به کاربران قصد دستکاری رتبه های جستجو را دارد” اقدام می کند. این شامل محتوای ادغام شده یا ترکیب شده از صفحات وب مختلف است که “[doesn’t] اضافه کردن ارزش کافی’، و همچنین محتوای تولید شده از طریق فرآیندهای کاملاً خودکار، که هر دو را می توان در QuickVid اعمال کرد.
به عبارت دیگر، ویدیوهای تولید شده توسط هوش مصنوعی در صورت رشد قابل توجهی ممکن است به طور کامل توسط پلتفرم ها ممنوع نشوند، بلکه صرفاً به هزینه انجام تجارت تبدیل می شوند. بعید است که این ترس کارشناسانی را که معتقدند پلتفرم هایی مانند TikTok در حال تبدیل شدن به خانه جدیدی برای ویدیوهای گمراه کننده هستند، برطرف کند، اما – همانطور که حبیب در طول مصاحبه گفت – “هیچ مانعی برای انقلاب مولد هوش مصنوعی وجود ندارد”.