منو سایت

  • خانه
  • وبلاگ
  • دیپ‌فیک‌های سریع صدای VALL-E باید شما را نگران کند، اگر قبلاً این کار را نکرده‌اید • TechCrunch

دیپ‌فیک‌های سریع صدای VALL-E باید شما را نگران کند، اگر قبلاً این کار را نکرده‌اید • TechCrunch

 تاریخ انتشار :
/
  وبلاگ
دیپ‌فیک‌های سریع صدای VALL-E باید شما را نگران کند، اگر قبلاً این کار را نکرده‌اید • TechCrunch

ظهور یک مدل سنتز صدای یادگیری ماشینی به‌ویژه در هفته آخر به نام VALL-E موج جدیدی از نگرانی‌ها را در مورد امکان ساخت سریع و آسان صداهای جعلی عمیق ایجاد کرده است – اگر بخواهید جعلی‌های سریع. اما VALL-E بیشتر تکراری است تا پیشرفت، و احتمالات آن‌قدرها هم که فکر می‌کنید جدید نیستند. اینکه آیا این بدان معناست که شما باید بیشتر یا کمتر نگران باشید، به شما بستگی دارد.

کپی کردن صدا برای سال‌ها موضوع تحقیقات فشرده بوده است و نتایج آن به اندازه کافی خوب است که به بسیاری از استارت‌آپ‌ها مانند WellSaid، Papercup و Respeecher کمک می‌کند. مورد دوم حتی برای ایجاد صداپیشگان مجاز بازیگرانی مانند جیمز ارل جونز استفاده می شود. بله: دارث ویدر از این به بعد هوش مصنوعی تولید خواهد شد.

VALL-E که هفته گذشته توسط سازندگانش در مایکروسافت در GitHub منتشر شد، یک “مدل زبان کدک عصبی” است که رویکرد متفاوتی نسبت به بسیاری از موارد قبلی برای ارائه صداها دارد. مجموعه آموزشی بزرگ‌تر و برخی روش‌های جدید به آن اجازه می‌دهد تا با استفاده از تنها سه ثانیه صدا از بلندگوی هدف، «گفتار شخصی‌شده با کیفیت بالا» ایجاد کند.

به عبارت دیگر، تنها چیزی که نیاز دارید یک کلیپ بسیار کوتاه مانند زیر است (همه کلیپ ها از مقاله مایکروسافت):


برای ایجاد صدای مصنوعی که به طرز شگفت انگیزی شبیه است:

همانطور که می شنوید، از لحن، صدا، ظاهر لهجه و حتی “محیط صوتی” پشتیبانی می کند (به عنوان مثال، صدای فشرده شده در یک مکالمه تلفن همراه). من حوصله برچسب زدن به آنها را نداشتم زیرا به راحتی می توانید تشخیص دهید که کدام یک از موارد بالا کدام است. این بسیار چشمگیر است!

در واقع آنقدر تاثیرگذار است که به نظر می‌رسد این مدل خاص در پوست جامعه پژوهشی نفوذ کرده و «جریان اصلی» شده است. در حالی که دیشب در محله محلی مشروب می‌نوشیدم، متصدی بار با اشاره به تهدید جدید هوش مصنوعی در تولید گفتار توضیح داد. اینطوری میدونم که در مورد زیتگیست اشتباه قضاوت کردم.

اما اگر کمی به گذشته نگاه کنید، در سال 2017 تنها چیزی که نیاز داشتید یک دقیقه صدا بود تا یک نسخه جعلی بسازید که به اندازه کافی قانع کننده برای استفاده معمولی باشد. و این به دور از تنها پروژه بود.

بهبودی که در مدل‌های تولید تصویر مانند DALL-E 2 و Stable Diffusion یا مدل‌های زبانی مانند ChatGPT دیده‌ایم، تحول‌آفرین و کیفی بوده است: یک یا دو سال پیش، این سطح از محتوای دقیق و متقاعدکننده تولید شده توسط هوش مصنوعی غیرممکن بود. . نگرانی (و وحشت) پیرامون این مدل ها قابل درک و موجه است.

برعکس، بهبود ارائه شده توسط VALL-E است کمی کیفیت خوبی نداره بازیگران بدی که علاقه مند به انتشار محتوای صوتی جعلی هستند، مدت‌ها پیش می‌توانستند این کار را انجام دهند، فقط با هزینه محاسباتی بالاتر، نه چیزی که این روزها به‌خصوص سخت است. به‌ویژه بازیگران تحت حمایت دولت، منابع کافی برای انجام کارهای محاسباتی لازم برای ساختن یک کلیپ صوتی جعلی از رئیس‌جمهور که روی یک میکروفون داغ صحبت می‌کند، دارند.

من با جیمز بتکر، مهندس صحبت کردم که مدتی است روی سیستم تبدیل متن به گفتار دیگری به نام Tortoise-TTS کار می کند.

بتکر گفت VALL-E واقعا تکراری است و مانند دیگر مدل های محبوب این روزها، قدرت خود را از اندازه خود می گیرد.

این یک مدل بزرگ است، مانند ChatGPT یا Stable Diffusion. درک ذاتی از نحوه شکل گیری گفتار توسط انسان دارد. سپس می‌توانید لاک‌پشت و مدل‌های دیگر را روی بلندگوهای خاص تنظیم کنید، و این باعث می‌شود آنها واقعاً بسیار خوب باشند. نه “به نوعی به نظر می رسد”؛ خوب،” او توضیح داد.

هنگامی که انتشار پایداری را بر روی کار یک هنرمند خاص تنظیم می‌کنید، کل مدل عظیم را مجدداً آموزش نمی‌دهید (که قدرت بسیار بیشتری می‌گیرد)، اما همچنان می‌توانید توانایی آن را برای بازتولید آن محتوا تا حد زیادی بهبود بخشید.

اما بتکر توضیح داد که فقط به این دلیل که آشنا است به این معنی نیست که باید رد شود.

“خوشحالم که جذابیت خاصی پیدا کرده است زیرا واقعاً می خواهم مردم در مورد آن صحبت کنند. من واقعاً احساس می‌کنم که گفتار به نوعی مقدس است، آن گونه که فرهنگ ما در مورد آن فکر می‌کند،» و او در واقع به دلیل این نگرانی‌ها کار بر روی مدل خود را متوقف کرد. دالی تقلبی ایجاد شده توسط DALL-E 2 برای مردم تأثیری مشابه شنیدن چیزی در صدای خود، صدای یکی از عزیزان یا کسی که او را تحسین می کنند، ندارد.

بتکر حدس می‌زند که VALL-E ما را یک قدم به همه جا نزدیک‌تر می‌کند، و اگرچه مدلی که شما در تلفن یا رایانه خانگی خود استفاده می‌کنید نیست، خیلی دور نیست. چند سال شاید خودتان چنین چیزی را اجرا کنید. به عنوان مثال، او این کلیپ را که با استفاده از لاک پشت ساموئل ال. جکسون، بر اساس کتاب های صوتی که خوانده بود، روی رایانه شخصی خود تولید کرده بود:

خوبه، درسته؟ و چند سال پیش، ممکن است بتوانید به چیزی مشابه دست پیدا کنید، البته با تلاش بیشتر.

همه اینها به این معنی است که در حالی که VALL-E و جعل سریع سه ثانیه ای مطمئناً قابل توجه هستند، آنها یک پله پایین تر از مسیر طولانی هستند که محققان بیش از یک دهه است که آن را طی کرده اند.

این تهدید سال‌هاست که وجود دارد و اگر کسی می‌خواست صدای شما را بازتولید کند، مدت‌ها پیش می‌توانست به راحتی این کار را انجام دهد. این باعث نمی شود که فکر کردن به آن کمتر آزاردهنده باشد و هیچ ایرادی ندارد که شما را بترساند. و من هستم!

اما مزایای بازیگران بدخواه مشکوک است. کلاهبرداری های کوچکی که برای مثال از یک جعل سریع و معقول بر اساس تماس با یک شماره اشتباه استفاده می کنند، اکنون بسیار آسان هستند زیرا اقدامات امنیتی در بسیاری از شرکت ها در حال حاضر ضعیف است. سرقت هویت نیست باید تکیه بر تکرار صدا، زیرا راه های بسیار آسان تری برای پول و دسترسی وجود دارد.

در همین حال، مزایای بالقوه بسیار زیاد است – به افرادی فکر کنید که به دلیل بیماری یا تصادف توانایی صحبت کردن را از دست می دهند. این چیزها به قدری سریع اتفاق می‌افتند که آن‌ها وقت ندارند یک ساعت سخنرانی برای آموزش یک مدل ضبط کنند (نه اینکه این قابلیت به طور گسترده در دسترس است، اگرچه ممکن است سال‌ها پیش بوده است). اما با چیزی مانند VALL-E، تنها چیزی که نیاز دارید چند کلیپ از تلفن شخصی است که نشان دهد او در هنگام شام نان تست می‌کند یا با یک دوست صحبت می‌کند.

همیشه احتمال کلاهبرداری و جعل هویت و همه اینها وجود دارد – اگرچه افراد بیشتری از پول و هویت خود به روش های بسیار پیش پا افتاده تری مانند یک تلفن ساده یا کلاهبرداری فیشینگ جدا می شوند. پتانسیل این فناوری بسیار زیاد است، اما ما همچنین باید به غریزه جمعی خود گوش دهیم که چیزی در اینجا خطرناک است. فقط وحشت نکنید – هنوز.