منو سایت

  • خانه
  • وبلاگ
  • چند زبانه، خنده، بازی دام و هوش مصنوعی خیابانی • TechCrunch

چند زبانه، خنده، بازی دام و هوش مصنوعی خیابانی • TechCrunch

 تاریخ انتشار :
/
  وبلاگ
چند زبانه، خنده، بازی دام و هوش مصنوعی خیابانی • TechCrunch

تحقیق در مورد یادگیری ماشین و هوش مصنوعی، که اکنون یک فناوری کلیدی در تقریباً هر صنعت و شرکتی است، برای هر کسی بسیار حجیم است. هدف این ستون، Perceptron، جمع آوری برخی از مرتبط ترین اکتشافات و مقالات اخیر – به ویژه در هوش مصنوعی، اما نه محدود به آن – و توضیح دلیل اهمیت آنهاست.

در چند هفته گذشته، محققان گوگل یک سیستم هوش مصنوعی به نام PaLI را نشان داده اند که می تواند به بیش از 100 زبان چند وظیفه ای را انجام دهد. در جای دیگر، یک گروه مستقر در برلین پروژه‌ای به نام Source+ را راه‌اندازی کرده است که به عنوان راهی طراحی شده است تا به هنرمندان، از جمله هنرمندان تجسمی، موسیقی‌دانان و نویسندگان اجازه دهد انتخاب کنند – و اجازه ندهند که کارشان به عنوان داده آموزشی برای هوش مصنوعی استفاده شود.

سیستم‌های هوش مصنوعی مانند GPT-3 OpenAI می‌توانند متن نسبتاً معنی‌داری تولید کنند یا متن موجود را از وب، کتاب‌های الکترونیکی و سایر منابع اطلاعاتی خلاصه کنند. اما از نظر تاریخی آنها به یک زبان محدود شده‌اند که هم کاربرد و هم دامنه آنها را محدود می‌کند.

خوشبختانه، تحقیقات روی سیستم‌های چندزبانه در ماه‌های اخیر سرعت گرفته است – که تا حدی توسط تلاش‌های جامعه مانند Hugging Face’s Bloom رهبری می‌شود. در تلاش برای سرمایه‌گذاری بر روی این پیشرفت‌ها در چندزبانگی، تیمی در Google PaLI را ایجاد کردند که هم روی تصاویر و هم متن آموزش دیده بود تا کارهایی مانند نوشتن شرح تصویر، تشخیص اشیا و تشخیص نوری کاراکتر را انجام دهد.

Google PaLI

اعتبار تصویر: گوگل

گوگل ادعا می‌کند که PaLI می‌تواند 109 زبان و روابط بین کلمات آن زبان‌ها و تصاویر را بفهمد، به عنوان مثال به آن اجازه می‌دهد عکسی را روی یک کارت پستال به زبان فرانسوی شرح دهد. اگرچه این کار به طور محکم در مراحل تحقیقاتی باقی می ماند، سازندگان می گویند که این اثر متقابل مهم بین زبان و تصویر را نشان می دهد – و می تواند مبنایی برای یک محصول تجاری در خط تولید باشد.

گفتار جنبه دیگری از زبان است که هوش مصنوعی در آن به طور مداوم در حال بهبود است. Play.ht اخیراً یک مدل جدید تبدیل متن به گفتار را به نمایش گذاشته است که مقدار قابل توجهی از احساسات و دامنه را در خروجی خود قرار می دهد. کلیپ‌های ارسال شده در هفته گذشته فوق‌العاده به نظر می‌رسند، هرچند که البته آنها کیوریتور شده‌اند.

ما کلیپ خودمان را با استفاده از مقدمه این مقاله تولید کردیم و نتایج هنوز ثابت هستند:


هنوز دقیقاً مشخص نیست که این نوع تولید صدا بیشتر برای چه چیزی مفید خواهد بود. ما کاملاً در مرحله‌ای نیستیم که آنها کتاب‌های کامل بسازند – یا بهتر است بگوییم، می‌توانند، اما ممکن است هنوز انتخاب اول کسی نباشد. اما با افزایش کیفیت، برنامه ها چند برابر می شوند.

مت درای هرست و هالی هرندون – به ترتیب یک دانشگاه و یک موسیقیدان – با سازمان Spawning همکاری کردند تا Source+ را راه‌اندازی کنند، استانداردی که آنها امیدوارند مشکل سیستم‌های هوش مصنوعی تولید عکس را که با استفاده از آثار هنری توسط هنرمندانی که اطلاعی ندارند، برطرف کند. یا درخواست مجوز کرد Source+، که هیچ هزینه‌ای ندارد، به هنرمندان اجازه می‌دهد تا در صورت تمایل از استفاده از کار خود برای اهداف آموزشی هوش مصنوعی خودداری کنند.

سیستم های تولید تصویر مانند Stable Diffusion و DALL-E 2 بر روی میلیاردها تصویر بیرون کشیده شده از وب آموزش داده شده اند تا “یاد بگیرند” چگونه اعلان های متن را به هنر ترجمه کنند. برخی از این تصاویر از جوامع هنری اجتماعی مانند ArtStation و DeviantArt – نه لزوماً با دانش هنرمند – و سیستم‌هایی را با توانایی تقلید از هنرمندان خاص، از جمله هنرمندانی مانند Greg Rutowski، آغشته می‌کنند.

پایداری هوش مصنوعی انتشار پایدار

نمونه های انتشار پایدار

به دلیل توانایی این سیستم ها در تقلید از سبک های هنری، برخی از هنرمندان می ترسند که بتوانند معیشت آنها را تهدید کند. درایهرست و هرندون می گویند Source+ – در حالی که داوطلبانه است – می تواند گامی در جهت دادن نظر بیشتر به هنرمندان در مورد نحوه استفاده از هنرشان باشد – با این فرض که در مقیاس (اگر بزرگ) پذیرفته شده است.

یک تیم تحقیقاتی در DeepMind در تلاش است تا یکی دیگر از جنبه های مشکل ساز قدیمی هوش مصنوعی را حل کند: تمایل آن به انتشار اطلاعات سمی و گمراه کننده. این تیم با تمرکز بر متن، یک ربات چت به نام Sparrow را توسعه داد که می تواند با جستجو در وب با گوگل به سوالات رایج پاسخ دهد. سایر سیستم‌های پیشرفته مانند LaMDA گوگل می‌توانند همین کار را انجام دهند، اما DeepMind ادعا می‌کند که Sparrow بیشتر از همتایان خود به سوالات پاسخ‌های قابل قبول و غیرسمی ارائه می‌دهد.

ترفند این بود که سیستم را با انتظارات مردم از آن هماهنگ کنیم. DeepMind افراد را برای استفاده از Sparrow استخدام کرد و سپس از آنها خواست تا با نشان دادن پاسخ‌های متعدد به یک سوال به شرکت‌کنندگان و پرسیدن اینکه کدام پاسخ را بیشتر دوست دارند، مدلی در مورد مفید بودن پاسخ‌ها آموزش دهند. محققان همچنین قوانینی را برای اسپارو تعریف کردند مانند «اظهارات تهدیدآمیز» و «نظرات نفرت‌آمیز یا توهین‌آمیز ندهید» که شرکت‌کنندگان را بر آن داشت تا با تلاش برای فریب دادن آن به نقض قوانین، آن را به سیستم تحمیل کنند.

چند زبانه، خنده، بازی دام و هوش مصنوعی خیابانی • TechCrunch

نمونه ای از گفتگوی گنجشک DeepMind.

DeepMind اعتراف می کند که اسپارو جای پیشرفت دارد. اما در یک مطالعه، تیم دریافت که چت بات پاسخی «قابل قبول» ارائه می‌کند که با شواهد پشتیبانی می‌شود، در ۷۸ درصد مواقع زمانی که یک سؤال واقعی از آن پرسیده می‌شود، و تنها در ۸ درصد مواقع قوانین فوق‌الذکر را نقض می‌کند. محققان خاطرنشان کردند که این بهتر از سیستم گفتگوی اصلی DeepMind است که با فریب خوردن قوانین را تقریباً سه بار بیشتر می‌شکند.

یک تیم جداگانه DeepMind اخیراً به یک حوزه بسیار متفاوت پرداخته است: بازی های ویدیویی که از لحاظ تاریخی تسلط سریع هوش مصنوعی بر آنها دشوار بوده است. سیستم آن‌ها که به طور معمول MEME نامیده می‌شود، طبق گزارش‌ها به عملکرد «در سطح انسانی» روی 57 بازی مختلف آتاری 200 برابر سریع‌تر از بهترین سیستم قبلی دست یافت.

طبق گزارش DeepMind که MEME را توصیف می‌کند، این سیستم می‌تواند با تماشای تقریباً 390 میلیون فریم بازی‌ها را بیاموزد – «فریم‌هایی» که به تصاویر ثابتی اشاره می‌کنند که خیلی سریع به‌روزرسانی می‌شوند تا حس حرکت را ایجاد کنند. این ممکن است زیاد به نظر برسد، اما پیشرفته ترین پیشین به 80 نیاز داشت میلیارد فریم در همان تعداد بازی آتاری.

DeepMind MEME

اعتبار تصویر: DeepMind

مهارت در نواختن آتاری ممکن است مهارت مطلوبی به نظر نرسد. در واقع، برخی از منتقدان استدلال می کنند که بازی ها به دلیل انتزاعی بودن و سادگی نسبی، معیار اشتباهی برای هوش مصنوعی هستند. اما آزمایشگاه‌های تحقیقاتی مانند DeepMind بر این باورند که این رویکردها می‌تواند در زمینه‌های مفیدتر دیگری در آینده، مانند روبات‌هایی که با تماشای ویدیوها یا ماشین‌های خودران خود به‌طور مؤثرتری انجام وظایف را یاد می‌گیرند، اعمال شود.

انویدیا در روز بیستم یک روز میدانی داشت و ده‌ها محصول و خدمات از جمله چندین تلاش جالب هوش مصنوعی را اعلام کرد. خودروهای خودران یکی از محورهای این شرکت هستند که هوش مصنوعی را تقویت کرده و آن را آموزش می دهند. برای دومی، شبیه سازها بسیار مهم هستند و همچنین مهم است که جاده های مجازی شبیه جاده های واقعی باشند. آنها جریان محتوای جدید و بهبود یافته ای را توصیف می کنند که انتقال داده های جمع آوری شده از دوربین ها و حسگرهای خودروهای واقعی را به قلمرو دیجیتال سرعت می بخشد.

چند زبانه، خنده، بازی دام و هوش مصنوعی خیابانی • TechCrunch

یک محیط شبیه سازی که بر اساس داده های دنیای واقعی ساخته شده است.

چیزهایی مانند وسایل نقلیه واقعی و بی‌نظمی‌های جاده‌ها یا پوشش درختان را می‌توان به‌طور دقیق بازتولید کرد تا هوش مصنوعی خودران در یک نسخه ضدعفونی‌شده خیابان یاد نگیرد. و به طور کلی ایجاد تنظیمات شبیه سازی بزرگتر و متغیرتر را ممکن می کند، که به پایداری کمک می کند. (تصویر دیگری از او در بالا آمده است.)

انویدیا همچنین سیستم IGX خود را برای پلتفرم‌های مستقل در موقعیت‌های صنعتی معرفی کرد – همکاری انسان و ماشین مانند آنچه در یک کارخانه پیدا می‌کنید. البته کمبودی در آنها وجود ندارد، اما با افزایش پیچیدگی وظایف و محیط های عملیاتی، روش های قدیمی دیگر کمکی نمی کنند و شرکت هایی که به دنبال بهبود اتوماسیون خود هستند، چشم به آینده دارند.

چند زبانه، خنده، بازی دام و هوش مصنوعی خیابانی • TechCrunch

نمونه ای از بینایی کامپیوتری که اشیا و افراد را در یک کارخانه طبقه بندی می کند.

ایمنی «پیش‌گیرانه» و «پیش‌بینی‌کننده» چیزی است که IGX برای کمک به آن طراحی شده است، به این معنی که مسائل ایمنی را قبل از اینکه باعث قطع یا صدمات شوند، برطرف کنید. یک ربات ممکن است مکانیسم ترمز اضطراری خود را داشته باشد، اما اگر دوربینی که آن منطقه را کنترل می کند بتواند به آن بگوید که قبل از اینکه لیفتراک در مسیرش قرار بگیرد منحرف شود، همه چیز کمی آرام تر پیش می رود. اینکه دقیقاً کدام شرکت یا نرم‌افزار به این امر دست می‌یابد (و بر اساس چه سخت‌افزاری و چگونه هزینه پرداخت می‌شود) هنوز کار در دست انجام است و Nvidia و استارت‌آپ‌هایی مانند Veo Robotics راه خود را باز کرده‌اند.

یک گام جالب دیگر در زمین بازی های انویدیا انجام شد. جدیدترین و بهترین پردازنده‌های گرافیکی این شرکت نه تنها برای فشار دادن مثلث‌ها و سایه‌زن‌ها، بلکه برای کارهای سریع مبتنی بر هوش مصنوعی مانند فناوری اختصاصی DLSS برای ارتقاء مقیاس و افزودن فریم‌ها ساخته شده‌اند.

مشکلی که آنها سعی در حل آن دارند این است که موتورهای بازی آنقدر نیازمند هستند که تولید بیش از 120 فریم در ثانیه (برای همگام شدن با جدیدترین مانیتورها) در عین حفظ وفاداری بصری یک کار دشوار است. اما DLSS نوعی میکسر فریم هوشمند است که می‌تواند رزولوشن فریم خروجی را بدون الایاس یا آرتیفکت افزایش دهد، بنابراین بازی نیازی به فشار دادن پیکسل‌های زیادی ندارد.

در DLSS 3، انویدیا ادعا می کند که می تواند کل فریم های اضافی را با نسبت 1:1 تولید کند، بنابراین می توانید 60 فریم را به صورت بومی و 60 فریم دیگر را از طریق هوش مصنوعی رندر کنید. من می توانم به چند دلیل فکر کنم که می تواند چیزها را در یک محیط بازی با عملکرد بالا عجیب کند، اما Nvidia احتمالاً به خوبی از آنها آگاه است. در هر صورت، برای امتیاز استفاده از سیستم جدید باید حدود هزار هزینه بپردازید، زیرا این سیستم فقط روی کارت های سری RTX 40 کار می کند. اما اگر وفاداری گرافیک اولویت اصلی شماست، آن را دنبال کنید.

چند زبانه، خنده، بازی دام و هوش مصنوعی خیابانی • TechCrunch

تصویر ساخت پهپاد در یک منطقه دور افتاده.

آخرین مورد امروز یک تکنیک پرینت سه بعدی مبتنی بر پهپاد از امپریال کالج لندن است که می تواند در آینده عمیق برای فرآیندهای ساخت و ساز مستقل مورد استفاده قرار گیرد. در حال حاضر، قطعاً ایجاد چیزی بزرگتر از سطل زباله عملی نیست، اما هنوز روزهای اولیه است. در نهایت، آنها امیدوارند که آن را بیشتر شبیه تصویر بالا کنند، و واقعا عالی به نظر می رسد، اما ویدیوی زیر را تماشا کنید تا متوجه شوید.