
تحقیق در مورد یادگیری ماشین و هوش مصنوعی، که اکنون یک فناوری کلیدی در تقریباً هر صنعت و شرکتی است، برای هر کسی بسیار حجیم است. هدف این ستون، Perceptron، جمع آوری برخی از مرتبط ترین اکتشافات و مقالات اخیر – به ویژه در هوش مصنوعی، اما نه محدود به آن – و توضیح دلیل اهمیت آنهاست.
در چند هفته گذشته، محققان گوگل یک سیستم هوش مصنوعی به نام PaLI را نشان داده اند که می تواند به بیش از 100 زبان چند وظیفه ای را انجام دهد. در جای دیگر، یک گروه مستقر در برلین پروژهای به نام Source+ را راهاندازی کرده است که به عنوان راهی طراحی شده است تا به هنرمندان، از جمله هنرمندان تجسمی، موسیقیدانان و نویسندگان اجازه دهد انتخاب کنند – و اجازه ندهند که کارشان به عنوان داده آموزشی برای هوش مصنوعی استفاده شود.
سیستمهای هوش مصنوعی مانند GPT-3 OpenAI میتوانند متن نسبتاً معنیداری تولید کنند یا متن موجود را از وب، کتابهای الکترونیکی و سایر منابع اطلاعاتی خلاصه کنند. اما از نظر تاریخی آنها به یک زبان محدود شدهاند که هم کاربرد و هم دامنه آنها را محدود میکند.
خوشبختانه، تحقیقات روی سیستمهای چندزبانه در ماههای اخیر سرعت گرفته است – که تا حدی توسط تلاشهای جامعه مانند Hugging Face’s Bloom رهبری میشود. در تلاش برای سرمایهگذاری بر روی این پیشرفتها در چندزبانگی، تیمی در Google PaLI را ایجاد کردند که هم روی تصاویر و هم متن آموزش دیده بود تا کارهایی مانند نوشتن شرح تصویر، تشخیص اشیا و تشخیص نوری کاراکتر را انجام دهد.

اعتبار تصویر: گوگل
گوگل ادعا میکند که PaLI میتواند 109 زبان و روابط بین کلمات آن زبانها و تصاویر را بفهمد، به عنوان مثال به آن اجازه میدهد عکسی را روی یک کارت پستال به زبان فرانسوی شرح دهد. اگرچه این کار به طور محکم در مراحل تحقیقاتی باقی می ماند، سازندگان می گویند که این اثر متقابل مهم بین زبان و تصویر را نشان می دهد – و می تواند مبنایی برای یک محصول تجاری در خط تولید باشد.
گفتار جنبه دیگری از زبان است که هوش مصنوعی در آن به طور مداوم در حال بهبود است. Play.ht اخیراً یک مدل جدید تبدیل متن به گفتار را به نمایش گذاشته است که مقدار قابل توجهی از احساسات و دامنه را در خروجی خود قرار می دهد. کلیپهای ارسال شده در هفته گذشته فوقالعاده به نظر میرسند، هرچند که البته آنها کیوریتور شدهاند.
ما کلیپ خودمان را با استفاده از مقدمه این مقاله تولید کردیم و نتایج هنوز ثابت هستند:
هنوز دقیقاً مشخص نیست که این نوع تولید صدا بیشتر برای چه چیزی مفید خواهد بود. ما کاملاً در مرحلهای نیستیم که آنها کتابهای کامل بسازند – یا بهتر است بگوییم، میتوانند، اما ممکن است هنوز انتخاب اول کسی نباشد. اما با افزایش کیفیت، برنامه ها چند برابر می شوند.
مت درای هرست و هالی هرندون – به ترتیب یک دانشگاه و یک موسیقیدان – با سازمان Spawning همکاری کردند تا Source+ را راهاندازی کنند، استانداردی که آنها امیدوارند مشکل سیستمهای هوش مصنوعی تولید عکس را که با استفاده از آثار هنری توسط هنرمندانی که اطلاعی ندارند، برطرف کند. یا درخواست مجوز کرد Source+، که هیچ هزینهای ندارد، به هنرمندان اجازه میدهد تا در صورت تمایل از استفاده از کار خود برای اهداف آموزشی هوش مصنوعی خودداری کنند.
سیستم های تولید تصویر مانند Stable Diffusion و DALL-E 2 بر روی میلیاردها تصویر بیرون کشیده شده از وب آموزش داده شده اند تا “یاد بگیرند” چگونه اعلان های متن را به هنر ترجمه کنند. برخی از این تصاویر از جوامع هنری اجتماعی مانند ArtStation و DeviantArt – نه لزوماً با دانش هنرمند – و سیستمهایی را با توانایی تقلید از هنرمندان خاص، از جمله هنرمندانی مانند Greg Rutowski، آغشته میکنند.

نمونه های انتشار پایدار
به دلیل توانایی این سیستم ها در تقلید از سبک های هنری، برخی از هنرمندان می ترسند که بتوانند معیشت آنها را تهدید کند. درایهرست و هرندون می گویند Source+ – در حالی که داوطلبانه است – می تواند گامی در جهت دادن نظر بیشتر به هنرمندان در مورد نحوه استفاده از هنرشان باشد – با این فرض که در مقیاس (اگر بزرگ) پذیرفته شده است.
یک تیم تحقیقاتی در DeepMind در تلاش است تا یکی دیگر از جنبه های مشکل ساز قدیمی هوش مصنوعی را حل کند: تمایل آن به انتشار اطلاعات سمی و گمراه کننده. این تیم با تمرکز بر متن، یک ربات چت به نام Sparrow را توسعه داد که می تواند با جستجو در وب با گوگل به سوالات رایج پاسخ دهد. سایر سیستمهای پیشرفته مانند LaMDA گوگل میتوانند همین کار را انجام دهند، اما DeepMind ادعا میکند که Sparrow بیشتر از همتایان خود به سوالات پاسخهای قابل قبول و غیرسمی ارائه میدهد.
ترفند این بود که سیستم را با انتظارات مردم از آن هماهنگ کنیم. DeepMind افراد را برای استفاده از Sparrow استخدام کرد و سپس از آنها خواست تا با نشان دادن پاسخهای متعدد به یک سوال به شرکتکنندگان و پرسیدن اینکه کدام پاسخ را بیشتر دوست دارند، مدلی در مورد مفید بودن پاسخها آموزش دهند. محققان همچنین قوانینی را برای اسپارو تعریف کردند مانند «اظهارات تهدیدآمیز» و «نظرات نفرتآمیز یا توهینآمیز ندهید» که شرکتکنندگان را بر آن داشت تا با تلاش برای فریب دادن آن به نقض قوانین، آن را به سیستم تحمیل کنند.

نمونه ای از گفتگوی گنجشک DeepMind.
DeepMind اعتراف می کند که اسپارو جای پیشرفت دارد. اما در یک مطالعه، تیم دریافت که چت بات پاسخی «قابل قبول» ارائه میکند که با شواهد پشتیبانی میشود، در ۷۸ درصد مواقع زمانی که یک سؤال واقعی از آن پرسیده میشود، و تنها در ۸ درصد مواقع قوانین فوقالذکر را نقض میکند. محققان خاطرنشان کردند که این بهتر از سیستم گفتگوی اصلی DeepMind است که با فریب خوردن قوانین را تقریباً سه بار بیشتر میشکند.
یک تیم جداگانه DeepMind اخیراً به یک حوزه بسیار متفاوت پرداخته است: بازی های ویدیویی که از لحاظ تاریخی تسلط سریع هوش مصنوعی بر آنها دشوار بوده است. سیستم آنها که به طور معمول MEME نامیده میشود، طبق گزارشها به عملکرد «در سطح انسانی» روی 57 بازی مختلف آتاری 200 برابر سریعتر از بهترین سیستم قبلی دست یافت.
طبق گزارش DeepMind که MEME را توصیف میکند، این سیستم میتواند با تماشای تقریباً 390 میلیون فریم بازیها را بیاموزد – «فریمهایی» که به تصاویر ثابتی اشاره میکنند که خیلی سریع بهروزرسانی میشوند تا حس حرکت را ایجاد کنند. این ممکن است زیاد به نظر برسد، اما پیشرفته ترین پیشین به 80 نیاز داشت میلیارد فریم در همان تعداد بازی آتاری.

اعتبار تصویر: DeepMind
مهارت در نواختن آتاری ممکن است مهارت مطلوبی به نظر نرسد. در واقع، برخی از منتقدان استدلال می کنند که بازی ها به دلیل انتزاعی بودن و سادگی نسبی، معیار اشتباهی برای هوش مصنوعی هستند. اما آزمایشگاههای تحقیقاتی مانند DeepMind بر این باورند که این رویکردها میتواند در زمینههای مفیدتر دیگری در آینده، مانند روباتهایی که با تماشای ویدیوها یا ماشینهای خودران خود بهطور مؤثرتری انجام وظایف را یاد میگیرند، اعمال شود.
انویدیا در روز بیستم یک روز میدانی داشت و دهها محصول و خدمات از جمله چندین تلاش جالب هوش مصنوعی را اعلام کرد. خودروهای خودران یکی از محورهای این شرکت هستند که هوش مصنوعی را تقویت کرده و آن را آموزش می دهند. برای دومی، شبیه سازها بسیار مهم هستند و همچنین مهم است که جاده های مجازی شبیه جاده های واقعی باشند. آنها جریان محتوای جدید و بهبود یافته ای را توصیف می کنند که انتقال داده های جمع آوری شده از دوربین ها و حسگرهای خودروهای واقعی را به قلمرو دیجیتال سرعت می بخشد.

یک محیط شبیه سازی که بر اساس داده های دنیای واقعی ساخته شده است.
چیزهایی مانند وسایل نقلیه واقعی و بینظمیهای جادهها یا پوشش درختان را میتوان بهطور دقیق بازتولید کرد تا هوش مصنوعی خودران در یک نسخه ضدعفونیشده خیابان یاد نگیرد. و به طور کلی ایجاد تنظیمات شبیه سازی بزرگتر و متغیرتر را ممکن می کند، که به پایداری کمک می کند. (تصویر دیگری از او در بالا آمده است.)
انویدیا همچنین سیستم IGX خود را برای پلتفرمهای مستقل در موقعیتهای صنعتی معرفی کرد – همکاری انسان و ماشین مانند آنچه در یک کارخانه پیدا میکنید. البته کمبودی در آنها وجود ندارد، اما با افزایش پیچیدگی وظایف و محیط های عملیاتی، روش های قدیمی دیگر کمکی نمی کنند و شرکت هایی که به دنبال بهبود اتوماسیون خود هستند، چشم به آینده دارند.

نمونه ای از بینایی کامپیوتری که اشیا و افراد را در یک کارخانه طبقه بندی می کند.
ایمنی «پیشگیرانه» و «پیشبینیکننده» چیزی است که IGX برای کمک به آن طراحی شده است، به این معنی که مسائل ایمنی را قبل از اینکه باعث قطع یا صدمات شوند، برطرف کنید. یک ربات ممکن است مکانیسم ترمز اضطراری خود را داشته باشد، اما اگر دوربینی که آن منطقه را کنترل می کند بتواند به آن بگوید که قبل از اینکه لیفتراک در مسیرش قرار بگیرد منحرف شود، همه چیز کمی آرام تر پیش می رود. اینکه دقیقاً کدام شرکت یا نرمافزار به این امر دست مییابد (و بر اساس چه سختافزاری و چگونه هزینه پرداخت میشود) هنوز کار در دست انجام است و Nvidia و استارتآپهایی مانند Veo Robotics راه خود را باز کردهاند.
یک گام جالب دیگر در زمین بازی های انویدیا انجام شد. جدیدترین و بهترین پردازندههای گرافیکی این شرکت نه تنها برای فشار دادن مثلثها و سایهزنها، بلکه برای کارهای سریع مبتنی بر هوش مصنوعی مانند فناوری اختصاصی DLSS برای ارتقاء مقیاس و افزودن فریمها ساخته شدهاند.
مشکلی که آنها سعی در حل آن دارند این است که موتورهای بازی آنقدر نیازمند هستند که تولید بیش از 120 فریم در ثانیه (برای همگام شدن با جدیدترین مانیتورها) در عین حفظ وفاداری بصری یک کار دشوار است. اما DLSS نوعی میکسر فریم هوشمند است که میتواند رزولوشن فریم خروجی را بدون الایاس یا آرتیفکت افزایش دهد، بنابراین بازی نیازی به فشار دادن پیکسلهای زیادی ندارد.
در DLSS 3، انویدیا ادعا می کند که می تواند کل فریم های اضافی را با نسبت 1:1 تولید کند، بنابراین می توانید 60 فریم را به صورت بومی و 60 فریم دیگر را از طریق هوش مصنوعی رندر کنید. من می توانم به چند دلیل فکر کنم که می تواند چیزها را در یک محیط بازی با عملکرد بالا عجیب کند، اما Nvidia احتمالاً به خوبی از آنها آگاه است. در هر صورت، برای امتیاز استفاده از سیستم جدید باید حدود هزار هزینه بپردازید، زیرا این سیستم فقط روی کارت های سری RTX 40 کار می کند. اما اگر وفاداری گرافیک اولویت اصلی شماست، آن را دنبال کنید.

تصویر ساخت پهپاد در یک منطقه دور افتاده.
آخرین مورد امروز یک تکنیک پرینت سه بعدی مبتنی بر پهپاد از امپریال کالج لندن است که می تواند در آینده عمیق برای فرآیندهای ساخت و ساز مستقل مورد استفاده قرار گیرد. در حال حاضر، قطعاً ایجاد چیزی بزرگتر از سطل زباله عملی نیست، اما هنوز روزهای اولیه است. در نهایت، آنها امیدوارند که آن را بیشتر شبیه تصویر بالا کنند، و واقعا عالی به نظر می رسد، اما ویدیوی زیر را تماشا کنید تا متوجه شوید.