
تبدیل متن به تصویر هوش مصنوعی امسال افزایش یافته است زیرا پیشرفتهای فنی دقت هنری را که سیستمهای هوش مصنوعی میتوانند ایجاد کنند بسیار بهبود بخشیده است. به همان اندازه که سیستمهایی مانند OpenAI’s Stable Diffusion و DALL-E 2 بحثبرانگیز هستند، پلتفرمهایی از جمله DeviantArt و Canva از آنها برای تقویت ابزارهای خلاقانه، سفارشیسازی برند و حتی تولید ایدههای محصول جدید استفاده کردهاند.
اما فن آوری در قلب این سیستم ها توانایی بسیار بیشتر از تولید هنر را دارد. این روش که انتشار نامیده می شود، توسط برخی از گروه های تحقیقاتی جسورانه برای ایجاد موسیقی، سنتز توالی های DNA و حتی کشف داروهای جدید استفاده شده است.
بنابراین دقیقاً انتشار چیست و چرا جهش بزرگی نسبت به هنر قبلی دارد؟ با نزدیک شدن به پایان سال، ارزش دارد به منشأ انتشار و چگونگی پیشرفت آن در طول زمان برای تبدیل شدن به نیروی تأثیرگذار امروزی نگاه کنیم. داستان Diffusion به پایان نرسیده است – هر ماه که می گذرد، اصلاحات تکنیک ها از راه می رسد – اما به ویژه یکی دو سال گذشته پیشرفت قابل توجهی را به همراه داشته است.
تولد انتشار
ممکن است روند اپلیکیشنهای دیپفیک چند سال پیش را به خاطر بیاورید – برنامههایی که پرترههای افراد را در تصاویر و ویدیوهای موجود قرار میدادند تا جایگزینهایی با ظاهر واقعی برای اشیاء اصلی در آن محتوای هدف ایجاد کنند. با استفاده از هوش مصنوعی، برنامهها صورت یک فرد – یا در برخی موارد، کل بدن او را – در یک صحنه “وارد” میکنند، که اغلب به اندازه کافی قانعکننده است که در نگاه اول کسی را فریب دهد.
بیشتر این برنامهها به فناوری هوش مصنوعی به نام شبکههای متخاصم مولد یا به اختصار GAN متکی هستند. GAN ها از دو بخش تشکیل شده اند: الف ژنراتور که نمونه های مصنوعی (مثلاً تصاویر) را از داده های تصادفی تولید می کند و الف تبعیض کننده که سعی می کند بین نمونه های مصنوعی و نمونه های واقعی از مجموعه داده های آموزشی تمایز قائل شود. (مجموعه دادههای آموزشی GAN معمولی شامل صدها تا میلیونها نمونه از چیزهایی است که GAN انتظار میرود در نهایت آنها را بگیرد.) هم مولد و هم تمایزکننده تواناییهای مربوطه خود را بهبود میبخشند تا زمانی که تمایزکننده نتواند نمونههای واقعی نمونههای ترکیبشده را تشخیص دهد. دقت بهتر از 50% که به طور تصادفی انتظار می رود.

مجسمههای شنی هری پاتر و هاگوارتز که توسط Stable Diffusion ساخته شدهاند. اعتبار تصویر: هوش مصنوعی برای ثبات
بهترین GAN ها می توانند، برای مثال، عکس های فوری از ساختمان های آپارتمانی خیالی ایجاد کنند. StyleGAN، سیستمی که چند سال پیش توسط انویدیا توسعه یافت، میتواند با یادگیری ویژگیهایی مانند حالت صورت، کک و مک و مو، عکسهایی با وضوح بالا از افراد خیالی ایجاد کند. فراتر از تولید تصویر، GAN ها برای مدل سازی سه بعدی و فضای ترسیم برداری استفاده شده اند، که توانایی خروجی کلیپ های ویدئویی و همچنین گفتار و حتی نمونه های ابزار حلقه ای را در آهنگ ها نشان می دهد.
با این حال، در عمل، GAN ها به دلیل معماری خود از تعدادی کاستی رنج می بردند. آموزش همزمان مدلهای مولد و ممیز ذاتاً ناپایدار بود. گاهی اوقات ژنراتور “فروپاش می کند” و نمونه های بسیار مشابهی را خروجی می دهد. GAN ها همچنین به داده ها و قدرت محاسباتی زیادی برای کار و آموزش نیاز دارند که مقیاس آنها را دشوار می کند.
انتشار را وارد کنید.
نحوه عملکرد انتشار
انتشار از فیزیک الهام گرفته شده است – این فرآیندی در فیزیک است که در آن چیزی از ناحیه ای با غلظت بالاتر به ناحیه ای با غلظت پایین تر حرکت می کند، مانند یک حبه قند که در قهوه حل می شود. دانه های قند موجود در قهوه ابتدا در بالای مایع متمرکز می شوند، اما به تدریج پخش می شوند.
سیستم های انتشار از انتشار در وام می گیرند ترمودینامیک غیر تعادلی مخصوصا، جایی که فرآیند آنتروپی یا تصادفی بودن سیستم را در طول زمان افزایش می دهد. به یک گاز فکر کنید – در نهایت پخش می شود تا با حرکت تصادفی تمام فضا را به طور یکنواخت پر کند. به طور مشابه، داده هایی مانند تصاویر را می توان با اضافه کردن تصادفی نویز به یک توزیع یکنواخت تبدیل کرد.
سیستم های انتشار به آرامی ساختار داده را با اضافه کردن نویز تخریب می کنند تا جایی که چیزی جز نویز باقی نماند.
در فیزیک، انتشار خود به خود و غیرقابل برگشت است – قند پراکنده در قهوه را نمی توان به شکل یک مکعب بازگرداند. اما سیستم های انتشار در یادگیری ماشینی با هدف یادگیری نوعی فرآیند “پشت انتشار” برای بازیابی داده های از بین رفته، به دست می آورند. بازیابی اطلاعات از نویز

اعتبار تصویر: OpenBioML
سیستم های انتشار تقریباً یک دهه است که وجود دارند. اما یک نوآوری نسبتاً جدید از OpenAI به نام CLIP (مخفف “Contrastive Language-Image Pre-Training”) آنها را در کاربردهای روزمره بسیار کاربردی تر کرده است. CLIP دادهها را طبقهبندی میکند – به عنوان مثال، تصاویر – برای «رتبهبندی» هر مرحله از فرآیند توزیع بر اساس میزان احتمال طبقهبندی آنها در یک پیام متنی مشخص (مثلاً «طرح یک سگ در یک گلزار»).
در ابتدا، داده ها دارای امتیاز CLIP بسیار پایینی هستند زیرا عمدتاً نویز هستند. اما همانطور که سیستم انتشار داده ها را از نویز بازیابی می کند، به آرامی به مطابقت با درخواست نزدیک می شود. یک تشبیه مفید، سنگ مرمر خام است—مانند یک مجسمه ساز چیره دست که به یک تازه کار می گوید کجا کنده کاری کند، CLIP سیستم انتشار را به سمت تصویری هدایت می کند که نتیجه بالاتری ایجاد می کند.
OpenAI CLIP را همراه با سیستم تولید تصویر DALL-E معرفی کرد. از آن زمان به بعد به جانشین DALL-E، DALL-E 2، و همچنین جایگزین های منبع باز مانند Stable Diffusion راه پیدا کرد.
انتشار چه کاری می تواند انجام دهد؟
بنابراین مدلهای انتشار مبتنی بر CLIP چه کاری میتوانند انجام دهند؟ خوب، همانطور که قبلا ذکر شد، آنها در تولید هنر بسیار خوب هستند، از هنر فوتورئالیستی گرفته تا طرح ها، طراحی ها و نقاشی ها به سبک تقریباً هر هنرمندی. در واقع، شواهدی وجود دارد که نشان میدهد آنها بهطور مشکلدار برخی از دادههای آموزشی خود را بازگردانند.
اما استعداد مدل ها – هر چند بحث برانگیز – به همین جا ختم نمی شود.
محققان همچنین با استفاده از مدلهای انتشار جهتی برای ساخت موسیقی جدید آزمایش کردهاند. Harmonai، سازمانی با سرمایهگذاری از Stability AI، استارتآپ مستقر در لندن که Stable Diffusion را پشتیبانی میکند، مدلی مبتنی بر انتشار منتشر کرده است که میتواند با آموزش صدها ساعت آهنگهای موجود، ویدیوهای موسیقی را تولید کند. اخیراً، توسعه دهندگان Seth Forsgren و Hayk Martiros یک پروژه سرگرمی به نام Riffusion ایجاد کردند که از یک مدل انتشار استفاده می کند که به طور هوشمندانه روی طیف نگارها – بازنمایی های بصری – صدا برای تولید آهنگ های آهنگ آموزش داده شده است.
فراتر از قلمرو موسیقی، چندین آزمایشگاه در تلاش هستند تا فناوری انتشار را در پزشکی زیستی به امید کشف درمان های جدید برای بیماری ها اعمال کنند. همانطور که MIT Tech Review در اوایل این ماه گزارش کرد، Startup Generate Biomedicines و تیمی در دانشگاه واشنگتن مدلهای مبتنی بر انتشار را برای ایجاد طرحهایی برای پروتئینها با خواص و عملکردهای خاص آموزش دادند.
مدل ها به روش های مختلف کار می کنند. ایجاد نویزهای اضافه شده توسط Biomedicines با باز کردن زنجیرههای اسید آمینهای که یک پروتئین را میسازند و سپس با کنار هم قرار دادن زنجیرههای تصادفی برای تشکیل پروتئین جدیدی که توسط محدودیتهای تعیینشده توسط محققان هدایت میشود. از سوی دیگر، مدل دانشگاه واشنگتن با یک ساختار درهم شروع میشود و از اطلاعاتی در مورد نحوه قرار گرفتن قطعات پروتئین با هم استفاده میکند که توسط یک سیستم هوش مصنوعی جداگانه آموزش دیده برای پیشبینی ساختار پروتئین ارائه شده است.

اعتبار تصویر: PASIEKA/کتابخانه عکس علمی/گتی ایماژ
آنها قبلاً به موفقیت هایی دست یافته اند. این مدل که توسط گروه دانشگاه واشنگتن طراحی شده بود، توانست پروتئینی پیدا کند که بهتر از داروهای موجود به هورمون پاراتیروئید – هورمونی که سطح کلسیم خون را کنترل می کند – بچسبد.
در همین حال، در OpenBioML، یک تلاش مبتنی بر هوش مصنوعی پایدار برای معرفی رویکردهای مبتنی بر یادگیری ماشین به بیوشیمی، محققان سیستمی به نام انتشار DNA را برای تولید توالیهای DNA تنظیمکننده خاص نوع سلول – بخشهایی از مولکولهای اسید نوکلئیک، که بر بیان ژن های خاص در بدن انتشار DNA-اگر همه چیز طبق برنامه پیش برود- توالیهای DNA تنظیمی را از دستورالعملهای متنی تولید میکند، مانند «توالی که یک ژن را به حداکثر سطح بیان آن در سلول نوع X فعال میکند» و «توالی که یک ژن را در سلول فعال میکند». کبد و قلب، اما نه در مغز.
آینده برای مدل های انتشار چه چیزی ممکن است داشته باشد؟ آسمان ممکن است حد باشد. محققان قبلاً آن را برای تولید ویدئو، فشردهسازی تصویر و سنتز گفتار به کار بردهاند. این بدان معنا نیست که دیفیوژن در نهایت با یک تکنیک یادگیری ماشینی کارآمدتر و مولدتر جایگزین نمی شود، همانطور که GAN های انتشار بودند. اما معماری du jour به یک دلیل است. انتشار اگر چند منظوره نباشد چیزی نیست.