
ظهور یک مدل سنتز صدای یادگیری ماشینی بهویژه در هفته آخر به نام VALL-E موج جدیدی از نگرانیها را در مورد امکان ساخت سریع و آسان صداهای جعلی عمیق ایجاد کرده است – اگر بخواهید جعلیهای سریع. اما VALL-E بیشتر تکراری است تا پیشرفت، و احتمالات آنقدرها هم که فکر میکنید جدید نیستند. اینکه آیا این بدان معناست که شما باید بیشتر یا کمتر نگران باشید، به شما بستگی دارد.
کپی کردن صدا برای سالها موضوع تحقیقات فشرده بوده است و نتایج آن به اندازه کافی خوب است که به بسیاری از استارتآپها مانند WellSaid، Papercup و Respeecher کمک میکند. مورد دوم حتی برای ایجاد صداپیشگان مجاز بازیگرانی مانند جیمز ارل جونز استفاده می شود. بله: دارث ویدر از این به بعد هوش مصنوعی تولید خواهد شد.
VALL-E که هفته گذشته توسط سازندگانش در مایکروسافت در GitHub منتشر شد، یک “مدل زبان کدک عصبی” است که رویکرد متفاوتی نسبت به بسیاری از موارد قبلی برای ارائه صداها دارد. مجموعه آموزشی بزرگتر و برخی روشهای جدید به آن اجازه میدهد تا با استفاده از تنها سه ثانیه صدا از بلندگوی هدف، «گفتار شخصیشده با کیفیت بالا» ایجاد کند.
به عبارت دیگر، تنها چیزی که نیاز دارید یک کلیپ بسیار کوتاه مانند زیر است (همه کلیپ ها از مقاله مایکروسافت):
برای ایجاد صدای مصنوعی که به طرز شگفت انگیزی شبیه است:
همانطور که می شنوید، از لحن، صدا، ظاهر لهجه و حتی “محیط صوتی” پشتیبانی می کند (به عنوان مثال، صدای فشرده شده در یک مکالمه تلفن همراه). من حوصله برچسب زدن به آنها را نداشتم زیرا به راحتی می توانید تشخیص دهید که کدام یک از موارد بالا کدام است. این بسیار چشمگیر است!
در واقع آنقدر تاثیرگذار است که به نظر میرسد این مدل خاص در پوست جامعه پژوهشی نفوذ کرده و «جریان اصلی» شده است. در حالی که دیشب در محله محلی مشروب مینوشیدم، متصدی بار با اشاره به تهدید جدید هوش مصنوعی در تولید گفتار توضیح داد. اینطوری میدونم که در مورد زیتگیست اشتباه قضاوت کردم.
اما اگر کمی به گذشته نگاه کنید، در سال 2017 تنها چیزی که نیاز داشتید یک دقیقه صدا بود تا یک نسخه جعلی بسازید که به اندازه کافی قانع کننده برای استفاده معمولی باشد. و این به دور از تنها پروژه بود.
بهبودی که در مدلهای تولید تصویر مانند DALL-E 2 و Stable Diffusion یا مدلهای زبانی مانند ChatGPT دیدهایم، تحولآفرین و کیفی بوده است: یک یا دو سال پیش، این سطح از محتوای دقیق و متقاعدکننده تولید شده توسط هوش مصنوعی غیرممکن بود. . نگرانی (و وحشت) پیرامون این مدل ها قابل درک و موجه است.
برعکس، بهبود ارائه شده توسط VALL-E است کمی کیفیت خوبی نداره بازیگران بدی که علاقه مند به انتشار محتوای صوتی جعلی هستند، مدتها پیش میتوانستند این کار را انجام دهند، فقط با هزینه محاسباتی بالاتر، نه چیزی که این روزها بهخصوص سخت است. بهویژه بازیگران تحت حمایت دولت، منابع کافی برای انجام کارهای محاسباتی لازم برای ساختن یک کلیپ صوتی جعلی از رئیسجمهور که روی یک میکروفون داغ صحبت میکند، دارند.
من با جیمز بتکر، مهندس صحبت کردم که مدتی است روی سیستم تبدیل متن به گفتار دیگری به نام Tortoise-TTS کار می کند.
بتکر گفت VALL-E واقعا تکراری است و مانند دیگر مدل های محبوب این روزها، قدرت خود را از اندازه خود می گیرد.
این یک مدل بزرگ است، مانند ChatGPT یا Stable Diffusion. درک ذاتی از نحوه شکل گیری گفتار توسط انسان دارد. سپس میتوانید لاکپشت و مدلهای دیگر را روی بلندگوهای خاص تنظیم کنید، و این باعث میشود آنها واقعاً بسیار خوب باشند. نه “به نوعی به نظر می رسد”؛ خوب،” او توضیح داد.
هنگامی که انتشار پایداری را بر روی کار یک هنرمند خاص تنظیم میکنید، کل مدل عظیم را مجدداً آموزش نمیدهید (که قدرت بسیار بیشتری میگیرد)، اما همچنان میتوانید توانایی آن را برای بازتولید آن محتوا تا حد زیادی بهبود بخشید.
اما بتکر توضیح داد که فقط به این دلیل که آشنا است به این معنی نیست که باید رد شود.
“خوشحالم که جذابیت خاصی پیدا کرده است زیرا واقعاً می خواهم مردم در مورد آن صحبت کنند. من واقعاً احساس میکنم که گفتار به نوعی مقدس است، آن گونه که فرهنگ ما در مورد آن فکر میکند،» و او در واقع به دلیل این نگرانیها کار بر روی مدل خود را متوقف کرد. دالی تقلبی ایجاد شده توسط DALL-E 2 برای مردم تأثیری مشابه شنیدن چیزی در صدای خود، صدای یکی از عزیزان یا کسی که او را تحسین می کنند، ندارد.
بتکر حدس میزند که VALL-E ما را یک قدم به همه جا نزدیکتر میکند، و اگرچه مدلی که شما در تلفن یا رایانه خانگی خود استفاده میکنید نیست، خیلی دور نیست. چند سال شاید خودتان چنین چیزی را اجرا کنید. به عنوان مثال، او این کلیپ را که با استفاده از لاک پشت ساموئل ال. جکسون، بر اساس کتاب های صوتی که خوانده بود، روی رایانه شخصی خود تولید کرده بود:
خوبه، درسته؟ و چند سال پیش، ممکن است بتوانید به چیزی مشابه دست پیدا کنید، البته با تلاش بیشتر.
همه اینها به این معنی است که در حالی که VALL-E و جعل سریع سه ثانیه ای مطمئناً قابل توجه هستند، آنها یک پله پایین تر از مسیر طولانی هستند که محققان بیش از یک دهه است که آن را طی کرده اند.
این تهدید سالهاست که وجود دارد و اگر کسی میخواست صدای شما را بازتولید کند، مدتها پیش میتوانست به راحتی این کار را انجام دهد. این باعث نمی شود که فکر کردن به آن کمتر آزاردهنده باشد و هیچ ایرادی ندارد که شما را بترساند. و من هستم!
اما مزایای بازیگران بدخواه مشکوک است. کلاهبرداری های کوچکی که برای مثال از یک جعل سریع و معقول بر اساس تماس با یک شماره اشتباه استفاده می کنند، اکنون بسیار آسان هستند زیرا اقدامات امنیتی در بسیاری از شرکت ها در حال حاضر ضعیف است. سرقت هویت نیست باید تکیه بر تکرار صدا، زیرا راه های بسیار آسان تری برای پول و دسترسی وجود دارد.
در همین حال، مزایای بالقوه بسیار زیاد است – به افرادی فکر کنید که به دلیل بیماری یا تصادف توانایی صحبت کردن را از دست می دهند. این چیزها به قدری سریع اتفاق میافتند که آنها وقت ندارند یک ساعت سخنرانی برای آموزش یک مدل ضبط کنند (نه اینکه این قابلیت به طور گسترده در دسترس است، اگرچه ممکن است سالها پیش بوده است). اما با چیزی مانند VALL-E، تنها چیزی که نیاز دارید چند کلیپ از تلفن شخصی است که نشان دهد او در هنگام شام نان تست میکند یا با یک دوست صحبت میکند.
همیشه احتمال کلاهبرداری و جعل هویت و همه اینها وجود دارد – اگرچه افراد بیشتری از پول و هویت خود به روش های بسیار پیش پا افتاده تری مانند یک تلفن ساده یا کلاهبرداری فیشینگ جدا می شوند. پتانسیل این فناوری بسیار زیاد است، اما ما همچنین باید به غریزه جمعی خود گوش دهیم که چیزی در اینجا خطرناک است. فقط وحشت نکنید – هنوز.