منو سایت

  • خانه
  • وبلاگ
  • «Riffusion» را امتحان کنید، یک مدل هوش مصنوعی که با تجسم آن موسیقی می‌سازد • TechCrunch

«Riffusion» را امتحان کنید، یک مدل هوش مصنوعی که با تجسم آن موسیقی می‌سازد • TechCrunch

 تاریخ انتشار :
/
  وبلاگ
«Riffusion» را امتحان کنید، یک مدل هوش مصنوعی که با تجسم آن موسیقی می‌سازد • TechCrunch

موسیقی تولید شده توسط هوش مصنوعی در حال حاضر یک مفهوم نوآورانه است، اما Riffusion آن را با رویکردی هوشمندانه و دمدمی به سطح دیگری می برد که موسیقی عجیب و جذاب و جذابی را با استفاده از صدا ایجاد نمی کند. تصاویر روی صدا

عجیب به نظر می رسد، این است. اما اگر کار کند، کار می کند. و واقعاً کار می کند! نوعی از.

Diffusion یک تکنیک یادگیری ماشینی برای تولید تصویر است که در طول سال گذشته دنیای هوش مصنوعی را تحت تاثیر قرار داده است. DALL-E 2 و Stable Diffusion دو مدل با مشخصات بالا هستند که با جایگزینی تدریجی نویز بصری با آنچه که هوش مصنوعی فکر می کند درخواست باید شبیه باشد، کار می کنند.

این روش در بسیاری از زمینه ها قدرتمند است و بسیار قابل تنظیم است، جایی که شما به آموزش دیده ترین مدل نوع بسیار خاصی از محتوا می دهید تا در تولید نمونه های بیشتری از آن محتوا تخصص پیدا کند. برای مثال، می‌توانید آن را روی آبرنگ یا عکس‌های ماشین تنظیم کنید، و در بازتولید یکی از آن چیزها مهارت بیشتری خواهد داشت.

کاری که ست فورسگرن و هیک مارتیروس برای پروژه سرگرمی خود Riffusion انجام دادند، تنظیم دقیق انتشار پایدار طیف‌نگارها بود.

فورسگرن می گوید: “من و هایک با هم در یک گروه کوچک می نوازیم و ما پروژه را صرفاً به این دلیل شروع کردیم که عاشق موسیقی هستیم و نمی دانستیم که آیا Stable Diffusion می تواند یک تصویر طیف نگاری با دقت کافی برای تبدیل به صدا ایجاد کند یا خیر.” به TechCrunch گفت. در هر مرحله از راه، ما بیشتر و بیشتر تحت تاثیر آنچه ممکن است قرار می گیریم و یک ایده به ایده بعدی منتهی می شود.”

می‌پرسید طیف‌نگارها چیست؟ آنها نمایش های بصری صدا هستند که دامنه فرکانس های مختلف را در طول زمان نشان می دهند. احتمالاً شکل موج هایی را دیده اید که در طول زمان حجم را نشان می دهند و صدا را شبیه به مجموعه ای از تپه ها و دره ها می کنند. تصور کنید که به جای تنها حجم کل، حجم هر فرکانس را از انتهای پایین به انتهای بالا نشان دهد.

در اینجا بخشی از آهنگی است که من از یک آهنگ ساخته ام (“رادیو مارکونی” توسط Secret Machines، اگر تعجب می کنید):

«Riffusion» را امتحان کنید، یک مدل هوش مصنوعی که با تجسم آن موسیقی می‌سازد • TechCrunch

اعتبار تصویر: دوین کلدوی

می‌توانید ببینید که چگونه در تمام فرکانس‌ها با ساخت آهنگ بلندتر می‌شود، و حتی می‌توانید نت‌ها و سازهای جداگانه را ببینید اگر بدانید به دنبال چه چیزی باشید. این فرآیند ذاتاً به هیچ وجه کامل یا بدون تلفات نیست، اما نمایش دقیق و منظم صدا است. و می توانید با انجام همین فرآیند به صورت معکوس آن را به صدا برگردانید.

فورسگرن و مارتیروس طیف‌نگاری‌هایی از یک دسته موسیقی گرفتند و تصاویر به دست آمده را با عبارات مرتبط مانند «گیتار بلوز»، «پیانو جاز»، «افروبیت» و مانند آن برچسب‌گذاری کردند. تغذیه مدل با این مجموعه به او ایده خوبی از اینکه برخی صداها “شبیه” هستند و چگونه می تواند آنها را بازسازی یا ترکیب کند، به او داد.

اگر آن را در حالی که تصویر را اصلاح می‌کند امتحان کنید، فرآیند انتشار چگونه به نظر می‌رسد:

«Riffusion» را امتحان کنید، یک مدل هوش مصنوعی که با تجسم آن موسیقی می‌سازد • TechCrunch

اعتبار تصویر: ست فورسگرن / هیک مارتیروس

و در واقع این مدل توانایی تولید طیف‌نگاری‌هایی را داشت که وقتی به صدا تبدیل می‌شدند، برای نشانه‌هایی مانند «پیانوی فانکی»، «سکس جاز» و غیره کاملاً خوب بودند. به عنوان مثال:

«Riffusion» را امتحان کنید، یک مدل هوش مصنوعی که با تجسم آن موسیقی می‌سازد • TechCrunch

اعتبار تصویر: ست فورسگرن / هیک مارتیروس


اما البته، طیف‌نگار مربع (512 x 512 پیکسل، وضوح استاندارد برای انتشار پایدار) تنها یک کلیپ کوتاه است. یک آهنگ سه دقیقه ای مستطیل بسیار بسیار گسترده تر خواهد بود. هیچ‌کس نمی‌خواهد هر بار پنج ثانیه به موسیقی گوش کند، اما محدودیت‌های سیستمی که آنها ساخته‌اند به این معنی است که نمی‌توانند طیف‌نگاری با ارتفاع ۵۱۲ پیکسل و عرض ۱۰۰۰۰ ایجاد کنند.

پس از آزمایش چند چیز، آنها از ساختار بنیادی مدل های بزرگ مانند Stable Diffusion که دارای “فضای نهفته” زیادی هستند، استفاده کردند. این به نوعی سرزمین هیچ مردی بین گره های تعریف شده بهتر است. به عنوان مثال، اگر یک ناحیه از مدل را به نمایندگی از گربه‌ها و دیگری نشان‌دهنده سگ‌ها دارید، چیزی که “در بین” آنها وجود دارد فضای پنهان است، که اگر فقط به هوش مصنوعی بگویید که نقاشی کند، نوعی گربه یا گربه سگ خواهد بود. ، حتی اگر چنین چیزی وجود نداشته باشد.

به هر حال، چیزهای فضای پنهان بسیار عجیب تر از این می شوند:

اما هیچ دنیای کابوس وحشتناکی برای پروژه Riffusion وجود ندارد. در عوض، آنها دریافتند که اگر شما دو اعلان داشته باشید، مانند “زنگ های کلیسا” و “ضربه های الکترونیکی”، می توانید به نحوی از یکی به دیگری رفته رفته رفته رفته و به طور طبیعی از یکی به دیگری محو شوید، حتی با ریتم. :

این یک صدای عجیب و جالب است، اگرچه آشکارا پیچیده یا بسیار دقیق نیست. به یاد داشته باشید، آن‌ها حتی مطمئن نبودند که مدل‌های دیفیوژن اصلاً بتوانند این کار را انجام دهند، بنابراین سهولتی که این مدل زنگ‌ها را به ضرب یا ضربه‌های ماشین تحریر را به پیانو و باس تبدیل می‌کند بسیار قابل توجه است.

ایجاد کلیپ های طولانی تر ممکن است، اما هنوز نظری است:

فورسگرن گفت: «ما واقعاً در تلاش نبودیم که یک آهنگ کلاسیک 3 دقیقه‌ای با کر و شعرهای تکراری بسازیم. «من فکر می‌کنم این کار را می‌توان با چند ترفند هوشمندانه انجام داد، مانند ساخت یک مدل سطح بالاتر برای ساختار آهنگ و سپس استفاده از مدل سطح پایین‌تر برای کلیپ‌های جداگانه. از طرف دیگر، می‌توانید مدل ما را با تصاویری با وضوح بسیار بالاتر از آهنگ‌های کامل آموزش دهید.»

از اینجا به کجا می رود؟ گروه‌های دیگر سعی می‌کنند موسیقی تولید شده توسط هوش مصنوعی را به روش‌های مختلف بسازند، از استفاده از مدل‌های سنتز گفتار گرفته تا صدای آموزش‌دیده‌ای خاص مانند Dance Diffusion.

Riffusion بیش از هر طرح بزرگی برای اختراع مجدد موسیقی یک ویترین “وای، به این نگاه کن” است، و فورسگرن گفت که او و مارتیروس از اینکه می بینند مردم با کارشان درگیر هستند، سرگرم می شوند و آن را تکرار می کنند خوشحال هستند:

مسیرهای زیادی وجود دارد که می‌توانیم از اینجا برویم، و ما هیجان‌زده هستیم که در طول مسیر به یادگیری ادامه دهیم.» دیدن اینکه چگونه افراد دیگر در حال حاضر ایده های خود را در بالای کد ما امروز صبح می سازند، جالب بود. یکی از چیزهای شگفت‌انگیز در مورد جامعه Stable Diffusion این است که مردم با چه سرعتی چیزهایی را در جهت‌هایی می‌سازند که نویسندگان اصلی نمی‌توانستند پیش‌بینی کنند.

می‌توانید آن را در یک نسخه نمایشی زنده در Riffusion.com امتحان کنید، اما ممکن است لازم باشد کمی صبر کنید تا کلیپ‌تان رندر شود – کمی بیشتر از آنچه سازندگان انتظار داشتند مورد توجه قرار گرفت. همه کدها از طریق صفحه اطلاعات در دسترس هستند، بنابراین اگر تراشه‌های آن را دارید، خود را نیز اجرا کنید.