منو سایت

  • خانه
  • وبلاگ
  • تاریخچه مختصری از انتشار، فناوری پشت سر هوش مصنوعی تولید کننده تصویر مدرن • TechCrunch

تاریخچه مختصری از انتشار، فناوری پشت سر هوش مصنوعی تولید کننده تصویر مدرن • TechCrunch

 تاریخ انتشار :
/
  وبلاگ
تاریخچه مختصری از انتشار، فناوری پشت سر هوش مصنوعی تولید کننده تصویر مدرن • TechCrunch

تبدیل متن به تصویر هوش مصنوعی امسال افزایش یافته است زیرا پیشرفت‌های فنی دقت هنری را که سیستم‌های هوش مصنوعی می‌توانند ایجاد کنند بسیار بهبود بخشیده است. به همان اندازه که سیستم‌هایی مانند OpenAI’s Stable Diffusion و DALL-E 2 بحث‌برانگیز هستند، پلتفرم‌هایی از جمله DeviantArt و Canva از آنها برای تقویت ابزارهای خلاقانه، سفارشی‌سازی برند و حتی تولید ایده‌های محصول جدید استفاده کرده‌اند.

اما فن آوری در قلب این سیستم ها توانایی بسیار بیشتر از تولید هنر را دارد. این روش که انتشار نامیده می شود، توسط برخی از گروه های تحقیقاتی جسورانه برای ایجاد موسیقی، سنتز توالی های DNA و حتی کشف داروهای جدید استفاده شده است.

بنابراین دقیقاً انتشار چیست و چرا جهش بزرگی نسبت به هنر قبلی دارد؟ با نزدیک شدن به پایان سال، ارزش دارد به منشأ انتشار و چگونگی پیشرفت آن در طول زمان برای تبدیل شدن به نیروی تأثیرگذار امروزی نگاه کنیم. داستان Diffusion به پایان نرسیده است – هر ماه که می گذرد، اصلاحات تکنیک ها از راه می رسد – اما به ویژه یکی دو سال گذشته پیشرفت قابل توجهی را به همراه داشته است.

تولد انتشار

ممکن است روند اپلیکیشن‌های دیپ‌فیک چند سال پیش را به خاطر بیاورید – برنامه‌هایی که پرتره‌های افراد را در تصاویر و ویدیوهای موجود قرار می‌دادند تا جایگزین‌هایی با ظاهر واقعی برای اشیاء اصلی در آن محتوای هدف ایجاد کنند. با استفاده از هوش مصنوعی، برنامه‌ها صورت یک فرد – یا در برخی موارد، کل بدن او را – در یک صحنه “وارد” می‌کنند، که اغلب به اندازه کافی قانع‌کننده است که در نگاه اول کسی را فریب دهد.

بیشتر این برنامه‌ها به فناوری هوش مصنوعی به نام شبکه‌های متخاصم مولد یا به اختصار GAN متکی هستند. GAN ها از دو بخش تشکیل شده اند: الف ژنراتور که نمونه های مصنوعی (مثلاً تصاویر) را از داده های تصادفی تولید می کند و الف تبعیض کننده که سعی می کند بین نمونه های مصنوعی و نمونه های واقعی از مجموعه داده های آموزشی تمایز قائل شود. (مجموعه داده‌های آموزشی GAN معمولی شامل صدها تا میلیون‌ها نمونه از چیزهایی است که GAN انتظار می‌رود در نهایت آنها را بگیرد.) هم مولد و هم تمایزکننده توانایی‌های مربوطه خود را بهبود می‌بخشند تا زمانی که تمایزکننده نتواند نمونه‌های واقعی نمونه‌های ترکیب‌شده را تشخیص دهد. دقت بهتر از 50% که به طور تصادفی انتظار می رود.

انتشار پایدار هری پاتر

مجسمه‌های شنی هری پاتر و هاگوارتز که توسط Stable Diffusion ساخته شده‌اند. اعتبار تصویر: هوش مصنوعی برای ثبات

بهترین GAN ها می توانند، برای مثال، عکس های فوری از ساختمان های آپارتمانی خیالی ایجاد کنند. StyleGAN، سیستمی که چند سال پیش توسط انویدیا توسعه یافت، می‌تواند با یادگیری ویژگی‌هایی مانند حالت صورت، کک و مک و مو، عکس‌هایی با وضوح بالا از افراد خیالی ایجاد کند. فراتر از تولید تصویر، GAN ها برای مدل سازی سه بعدی و فضای ترسیم برداری استفاده شده اند، که توانایی خروجی کلیپ های ویدئویی و همچنین گفتار و حتی نمونه های ابزار حلقه ای را در آهنگ ها نشان می دهد.

با این حال، در عمل، GAN ها به دلیل معماری خود از تعدادی کاستی رنج می بردند. آموزش همزمان مدل‌های مولد و ممیز ذاتاً ناپایدار بود. گاهی اوقات ژنراتور “فروپاش می کند” و نمونه های بسیار مشابهی را خروجی می دهد. GAN ها همچنین به داده ها و قدرت محاسباتی زیادی برای کار و آموزش نیاز دارند که مقیاس آنها را دشوار می کند.

انتشار را وارد کنید.

نحوه عملکرد انتشار

انتشار از فیزیک الهام گرفته شده است – این فرآیندی در فیزیک است که در آن چیزی از ناحیه ای با غلظت بالاتر به ناحیه ای با غلظت پایین تر حرکت می کند، مانند یک حبه قند که در قهوه حل می شود. دانه های قند موجود در قهوه ابتدا در بالای مایع متمرکز می شوند، اما به تدریج پخش می شوند.

سیستم های انتشار از انتشار در وام می گیرند ترمودینامیک غیر تعادلی مخصوصا، جایی که فرآیند آنتروپی یا تصادفی بودن سیستم را در طول زمان افزایش می دهد. به یک گاز فکر کنید – در نهایت پخش می شود تا با حرکت تصادفی تمام فضا را به طور یکنواخت پر کند. به طور مشابه، داده هایی مانند تصاویر را می توان با اضافه کردن تصادفی نویز به یک توزیع یکنواخت تبدیل کرد.

سیستم های انتشار به آرامی ساختار داده را با اضافه کردن نویز تخریب می کنند تا جایی که چیزی جز نویز باقی نماند.

در فیزیک، انتشار خود به خود و غیرقابل برگشت است – قند پراکنده در قهوه را نمی توان به شکل یک مکعب بازگرداند. اما سیستم های انتشار در یادگیری ماشینی با هدف یادگیری نوعی فرآیند “پشت انتشار” برای بازیابی داده های از بین رفته، به دست می آورند. بازیابی اطلاعات از نویز

هوش مصنوعی پایداری OpenBioML

اعتبار تصویر: OpenBioML

سیستم های انتشار تقریباً یک دهه است که وجود دارند. اما یک نوآوری نسبتاً جدید از OpenAI به نام CLIP (مخفف “Contrastive Language-Image Pre-Training”) آنها را در کاربردهای روزمره بسیار کاربردی تر کرده است. CLIP داده‌ها را طبقه‌بندی می‌کند – به عنوان مثال، تصاویر – برای «رتبه‌بندی» هر مرحله از فرآیند توزیع بر اساس میزان احتمال طبقه‌بندی آن‌ها در یک پیام متنی مشخص (مثلاً «طرح یک سگ در یک گلزار»).

در ابتدا، داده ها دارای امتیاز CLIP بسیار پایینی هستند زیرا عمدتاً نویز هستند. اما همانطور که سیستم انتشار داده ها را از نویز بازیابی می کند، به آرامی به مطابقت با درخواست نزدیک می شود. یک تشبیه مفید، سنگ مرمر خام است—مانند یک مجسمه ساز چیره دست که به یک تازه کار می گوید کجا کنده کاری کند، CLIP سیستم انتشار را به سمت تصویری هدایت می کند که نتیجه بالاتری ایجاد می کند.

OpenAI CLIP را همراه با سیستم تولید تصویر DALL-E معرفی کرد. از آن زمان به بعد به جانشین DALL-E، DALL-E 2، و همچنین جایگزین های منبع باز مانند Stable Diffusion راه پیدا کرد.

انتشار چه کاری می تواند انجام دهد؟

بنابراین مدل‌های انتشار مبتنی بر CLIP چه کاری می‌توانند انجام دهند؟ خوب، همانطور که قبلا ذکر شد، آنها در تولید هنر بسیار خوب هستند، از هنر فوتورئالیستی گرفته تا طرح ها، طراحی ها و نقاشی ها به سبک تقریباً هر هنرمندی. در واقع، شواهدی وجود دارد که نشان می‌دهد آن‌ها به‌طور مشکل‌دار برخی از داده‌های آموزشی خود را بازگردانند.

اما استعداد مدل ها – هر چند بحث برانگیز – به همین جا ختم نمی شود.

محققان همچنین با استفاده از مدل‌های انتشار جهتی برای ساخت موسیقی جدید آزمایش کرده‌اند. Harmonai، سازمانی با سرمایه‌گذاری از Stability AI، استارت‌آپ مستقر در لندن که Stable Diffusion را پشتیبانی می‌کند، مدلی مبتنی بر انتشار منتشر کرده است که می‌تواند با آموزش صدها ساعت آهنگ‌های موجود، ویدیوهای موسیقی را تولید کند. اخیراً، توسعه دهندگان Seth Forsgren و Hayk Martiros یک پروژه سرگرمی به نام Riffusion ایجاد کردند که از یک مدل انتشار استفاده می کند که به طور هوشمندانه روی طیف نگارها – بازنمایی های بصری – صدا برای تولید آهنگ های آهنگ آموزش داده شده است.

فراتر از قلمرو موسیقی، چندین آزمایشگاه در تلاش هستند تا فناوری انتشار را در پزشکی زیستی به امید کشف درمان های جدید برای بیماری ها اعمال کنند. همانطور که MIT Tech Review در اوایل این ماه گزارش کرد، Startup Generate Biomedicines و تیمی در دانشگاه واشنگتن مدل‌های مبتنی بر انتشار را برای ایجاد طرح‌هایی برای پروتئین‌ها با خواص و عملکردهای خاص آموزش دادند.

مدل ها به روش های مختلف کار می کنند. ایجاد نویزهای اضافه شده توسط Biomedicines با باز کردن زنجیره‌های اسید آمینه‌ای که یک پروتئین را می‌سازند و سپس با کنار هم قرار دادن زنجیره‌های تصادفی برای تشکیل پروتئین جدیدی که توسط محدودیت‌های تعیین‌شده توسط محققان هدایت می‌شود. از سوی دیگر، مدل دانشگاه واشنگتن با یک ساختار درهم شروع می‌شود و از اطلاعاتی در مورد نحوه قرار گرفتن قطعات پروتئین با هم استفاده می‌کند که توسط یک سیستم هوش مصنوعی جداگانه آموزش دیده برای پیش‌بینی ساختار پروتئین ارائه شده است.

تاریخچه مختصری از انتشار، فناوری پشت سر هوش مصنوعی تولید کننده تصویر مدرن • TechCrunch

اعتبار تصویر: PASIEKA/کتابخانه عکس علمی/گتی ایماژ

آنها قبلاً به موفقیت هایی دست یافته اند. این مدل که توسط گروه دانشگاه واشنگتن طراحی شده بود، توانست پروتئینی پیدا کند که بهتر از داروهای موجود به هورمون پاراتیروئید – هورمونی که سطح کلسیم خون را کنترل می کند – بچسبد.

در همین حال، در OpenBioML، یک تلاش مبتنی بر هوش مصنوعی پایدار برای معرفی رویکردهای مبتنی بر یادگیری ماشین به بیوشیمی، محققان سیستمی به نام انتشار DNA را برای تولید توالی‌های DNA تنظیم‌کننده خاص نوع سلول – بخش‌هایی از مولکول‌های اسید نوکلئیک، که بر بیان ژن های خاص در بدن انتشار DNA-اگر همه چیز طبق برنامه پیش برود- توالی‌های DNA تنظیمی را از دستورالعمل‌های متنی تولید می‌کند، مانند «توالی که یک ژن را به حداکثر سطح بیان آن در سلول نوع X فعال می‌کند» و «توالی که یک ژن را در سلول فعال می‌کند». کبد و قلب، اما نه در مغز.

آینده برای مدل های انتشار چه چیزی ممکن است داشته باشد؟ آسمان ممکن است حد باشد. محققان قبلاً آن را برای تولید ویدئو، فشرده‌سازی تصویر و سنتز گفتار به کار برده‌اند. این بدان معنا نیست که دیفیوژن در نهایت با یک تکنیک یادگیری ماشینی کارآمدتر و مولدتر جایگزین نمی شود، همانطور که GAN های انتشار بودند. اما معماری du jour به یک دلیل است. انتشار اگر چند منظوره نباشد چیزی نیست.