
موسیقی تولید شده توسط هوش مصنوعی در حال حاضر یک مفهوم نوآورانه است، اما Riffusion آن را با رویکردی هوشمندانه و دمدمی به سطح دیگری می برد که موسیقی عجیب و جذاب و جذابی را با استفاده از صدا ایجاد نمی کند. تصاویر روی صدا
عجیب به نظر می رسد، این است. اما اگر کار کند، کار می کند. و واقعاً کار می کند! نوعی از.
Diffusion یک تکنیک یادگیری ماشینی برای تولید تصویر است که در طول سال گذشته دنیای هوش مصنوعی را تحت تاثیر قرار داده است. DALL-E 2 و Stable Diffusion دو مدل با مشخصات بالا هستند که با جایگزینی تدریجی نویز بصری با آنچه که هوش مصنوعی فکر می کند درخواست باید شبیه باشد، کار می کنند.
این روش در بسیاری از زمینه ها قدرتمند است و بسیار قابل تنظیم است، جایی که شما به آموزش دیده ترین مدل نوع بسیار خاصی از محتوا می دهید تا در تولید نمونه های بیشتری از آن محتوا تخصص پیدا کند. برای مثال، میتوانید آن را روی آبرنگ یا عکسهای ماشین تنظیم کنید، و در بازتولید یکی از آن چیزها مهارت بیشتری خواهد داشت.
کاری که ست فورسگرن و هیک مارتیروس برای پروژه سرگرمی خود Riffusion انجام دادند، تنظیم دقیق انتشار پایدار طیفنگارها بود.
فورسگرن می گوید: “من و هایک با هم در یک گروه کوچک می نوازیم و ما پروژه را صرفاً به این دلیل شروع کردیم که عاشق موسیقی هستیم و نمی دانستیم که آیا Stable Diffusion می تواند یک تصویر طیف نگاری با دقت کافی برای تبدیل به صدا ایجاد کند یا خیر.” به TechCrunch گفت. در هر مرحله از راه، ما بیشتر و بیشتر تحت تاثیر آنچه ممکن است قرار می گیریم و یک ایده به ایده بعدی منتهی می شود.”
میپرسید طیفنگارها چیست؟ آنها نمایش های بصری صدا هستند که دامنه فرکانس های مختلف را در طول زمان نشان می دهند. احتمالاً شکل موج هایی را دیده اید که در طول زمان حجم را نشان می دهند و صدا را شبیه به مجموعه ای از تپه ها و دره ها می کنند. تصور کنید که به جای تنها حجم کل، حجم هر فرکانس را از انتهای پایین به انتهای بالا نشان دهد.
در اینجا بخشی از آهنگی است که من از یک آهنگ ساخته ام (“رادیو مارکونی” توسط Secret Machines، اگر تعجب می کنید):

اعتبار تصویر: دوین کلدوی
میتوانید ببینید که چگونه در تمام فرکانسها با ساخت آهنگ بلندتر میشود، و حتی میتوانید نتها و سازهای جداگانه را ببینید اگر بدانید به دنبال چه چیزی باشید. این فرآیند ذاتاً به هیچ وجه کامل یا بدون تلفات نیست، اما نمایش دقیق و منظم صدا است. و می توانید با انجام همین فرآیند به صورت معکوس آن را به صدا برگردانید.
فورسگرن و مارتیروس طیفنگاریهایی از یک دسته موسیقی گرفتند و تصاویر به دست آمده را با عبارات مرتبط مانند «گیتار بلوز»، «پیانو جاز»، «افروبیت» و مانند آن برچسبگذاری کردند. تغذیه مدل با این مجموعه به او ایده خوبی از اینکه برخی صداها “شبیه” هستند و چگونه می تواند آنها را بازسازی یا ترکیب کند، به او داد.
اگر آن را در حالی که تصویر را اصلاح میکند امتحان کنید، فرآیند انتشار چگونه به نظر میرسد:

اعتبار تصویر: ست فورسگرن / هیک مارتیروس
و در واقع این مدل توانایی تولید طیفنگاریهایی را داشت که وقتی به صدا تبدیل میشدند، برای نشانههایی مانند «پیانوی فانکی»، «سکس جاز» و غیره کاملاً خوب بودند. به عنوان مثال:

اعتبار تصویر: ست فورسگرن / هیک مارتیروس
اما البته، طیفنگار مربع (512 x 512 پیکسل، وضوح استاندارد برای انتشار پایدار) تنها یک کلیپ کوتاه است. یک آهنگ سه دقیقه ای مستطیل بسیار بسیار گسترده تر خواهد بود. هیچکس نمیخواهد هر بار پنج ثانیه به موسیقی گوش کند، اما محدودیتهای سیستمی که آنها ساختهاند به این معنی است که نمیتوانند طیفنگاری با ارتفاع ۵۱۲ پیکسل و عرض ۱۰۰۰۰ ایجاد کنند.
پس از آزمایش چند چیز، آنها از ساختار بنیادی مدل های بزرگ مانند Stable Diffusion که دارای “فضای نهفته” زیادی هستند، استفاده کردند. این به نوعی سرزمین هیچ مردی بین گره های تعریف شده بهتر است. به عنوان مثال، اگر یک ناحیه از مدل را به نمایندگی از گربهها و دیگری نشاندهنده سگها دارید، چیزی که “در بین” آنها وجود دارد فضای پنهان است، که اگر فقط به هوش مصنوعی بگویید که نقاشی کند، نوعی گربه یا گربه سگ خواهد بود. ، حتی اگر چنین چیزی وجود نداشته باشد.
به هر حال، چیزهای فضای پنهان بسیار عجیب تر از این می شوند:
اما هیچ دنیای کابوس وحشتناکی برای پروژه Riffusion وجود ندارد. در عوض، آنها دریافتند که اگر شما دو اعلان داشته باشید، مانند “زنگ های کلیسا” و “ضربه های الکترونیکی”، می توانید به نحوی از یکی به دیگری رفته رفته رفته رفته و به طور طبیعی از یکی به دیگری محو شوید، حتی با ریتم. :
این یک صدای عجیب و جالب است، اگرچه آشکارا پیچیده یا بسیار دقیق نیست. به یاد داشته باشید، آنها حتی مطمئن نبودند که مدلهای دیفیوژن اصلاً بتوانند این کار را انجام دهند، بنابراین سهولتی که این مدل زنگها را به ضرب یا ضربههای ماشین تحریر را به پیانو و باس تبدیل میکند بسیار قابل توجه است.
ایجاد کلیپ های طولانی تر ممکن است، اما هنوز نظری است:
فورسگرن گفت: «ما واقعاً در تلاش نبودیم که یک آهنگ کلاسیک 3 دقیقهای با کر و شعرهای تکراری بسازیم. «من فکر میکنم این کار را میتوان با چند ترفند هوشمندانه انجام داد، مانند ساخت یک مدل سطح بالاتر برای ساختار آهنگ و سپس استفاده از مدل سطح پایینتر برای کلیپهای جداگانه. از طرف دیگر، میتوانید مدل ما را با تصاویری با وضوح بسیار بالاتر از آهنگهای کامل آموزش دهید.»
از اینجا به کجا می رود؟ گروههای دیگر سعی میکنند موسیقی تولید شده توسط هوش مصنوعی را به روشهای مختلف بسازند، از استفاده از مدلهای سنتز گفتار گرفته تا صدای آموزشدیدهای خاص مانند Dance Diffusion.
Riffusion بیش از هر طرح بزرگی برای اختراع مجدد موسیقی یک ویترین “وای، به این نگاه کن” است، و فورسگرن گفت که او و مارتیروس از اینکه می بینند مردم با کارشان درگیر هستند، سرگرم می شوند و آن را تکرار می کنند خوشحال هستند:
مسیرهای زیادی وجود دارد که میتوانیم از اینجا برویم، و ما هیجانزده هستیم که در طول مسیر به یادگیری ادامه دهیم.» دیدن اینکه چگونه افراد دیگر در حال حاضر ایده های خود را در بالای کد ما امروز صبح می سازند، جالب بود. یکی از چیزهای شگفتانگیز در مورد جامعه Stable Diffusion این است که مردم با چه سرعتی چیزهایی را در جهتهایی میسازند که نویسندگان اصلی نمیتوانستند پیشبینی کنند.
میتوانید آن را در یک نسخه نمایشی زنده در Riffusion.com امتحان کنید، اما ممکن است لازم باشد کمی صبر کنید تا کلیپتان رندر شود – کمی بیشتر از آنچه سازندگان انتظار داشتند مورد توجه قرار گرفت. همه کدها از طریق صفحه اطلاعات در دسترس هستند، بنابراین اگر تراشههای آن را دارید، خود را نیز اجرا کنید.