منو سایت

  • خانه
  • وبلاگ
  • هوش مصنوعی پایداری از تلاش‌های یادگیری ماشین در biomed • TechCrunch پشتیبانی می‌کند

هوش مصنوعی پایداری از تلاش‌های یادگیری ماشین در biomed • TechCrunch پشتیبانی می‌کند

 تاریخ انتشار :
/
  وبلاگ
هوش مصنوعی پایداری از تلاش‌های یادگیری ماشین در biomed • TechCrunch پشتیبانی می‌کند

Stability AI، استارت‌آپ مخاطره‌آمیز که در پشت سیستم هوش مصنوعی متن به تصویر Stable Diffusion قرار دارد، تلاش‌های گسترده‌ای را برای اعمال هوش مصنوعی در مرزهای بیوتکنولوژی تامین مالی می‌کند. اولین پروژه‌های این سرمایه‌گذاری که OpenBioML نامیده می‌شود، بر رویکردهای مبتنی بر یادگیری ماشین برای توالی‌یابی DNA، تا کردن پروتئین و بیوشیمی محاسباتی متمرکز خواهد بود.

بنیانگذاران این شرکت OpenBioML را به عنوان یک “آزمایشگاه تحقیقاتی باز” توصیف می کنند – و به گفته عماد موستاک، مدیر عامل هوش مصنوعی پایداری، هدف آن کشف تقاطع هوش مصنوعی و زیست شناسی در محیطی است که دانشجویان، متخصصان و محققان می توانند در آن مشارکت و همکاری کنند.

موستاک در مصاحبه ای با TechCrunch گفت: OpenBioML یکی از جوامع تحقیقاتی مستقلی است که Stability از آن پشتیبانی می کند. “ثبات به دنبال پیشرفت و دموکراتیک کردن هوش مصنوعی است و از طریق OpenBioML ما فرصتی برای پیشرفت علم، مراقبت های بهداشتی و پزشکی پیشرفته می بینیم.

با توجه به بحث و جدل پیرامون Stable Diffusion – سیستم هوش مصنوعی Stability AI که هنر را از توصیفات متنی ایجاد می کند، مشابه DALL-E 2 OpenAI – به طور قابل درک ممکن است نسبت به اولین سرمایه گذاری Stability AI در مراقبت های بهداشتی محتاط بود. این استارت‌آپ رویکردی آزادانه برای مدیریت در پیش گرفته است و به توسعه‌دهندگان این امکان را می‌دهد تا از سیستم هر طور که می‌خواهند استفاده کنند، از جمله برای جعل افراد مشهور و هرزه‌نگاری.

با کنار گذاشتن راه حل های مشکوک هوش مصنوعی تاکنون، یادگیری ماشین در پزشکی یک میدان مین است. در حالی که این فناوری با موفقیت برای تشخیص بیماری‌هایی مانند بیماری‌های پوست و چشم، از جمله موارد دیگر، به کار گرفته شده است، تحقیقات نشان می‌دهد که الگوریتم‌ها می‌توانند سوگیری‌هایی ایجاد کنند که منجر به مراقبت بدتر برای برخی از بیماران می‌شود. برای مثال، یک مطالعه آوریل 2021 نشان داد که مدل‌های آماری مورد استفاده برای پیش‌بینی خطر خودکشی در بیماران سلامت روان برای بیماران سفیدپوست و آسیایی عملکرد خوبی داشتند، اما برای بیماران سیاه‌پوست ضعیف بودند.

OpenBioML در قلمرو امن تر، معقولانه شروع می شود. اولین پروژه های او عبارتند از:

  • BioLMکه به دنبال استفاده از تکنیک های پردازش زبان طبیعی (NLP) در زمینه های زیست شناسی محاسباتی و شیمی است.
  • انتشار DNAهدف آن ایجاد هوش مصنوعی است که می تواند توالی های DNA را از پیام های متنی تولید کند
  • LibreFoldکه به دنبال افزایش دسترسی به سیستم‌های پیش‌بینی ساختار پروتئین هوش مصنوعی مشابه AlphaFold 2 DeepMind است.

هر پروژه توسط محققان مستقل هدایت می شود، اما هوش مصنوعی پایداری پشتیبانی را به شکل دسترسی به خوشه میزبان AWS با بیش از 5000 پردازنده گرافیکی Nvidia A100 برای آموزش سیستم های هوش مصنوعی فراهم می کند. به گفته نیکولو زانیچلی، دانشجوی علوم کامپیوتر در دانشگاه پارما و یکی از محققان برجسته در OpenBioML، همین خواهد بود قدرت پردازش و ذخیره سازی کافی برای آموزش تا 10 سیستم مختلف شبیه به AlphaFold 2 به صورت موازی.

تحقیقات زیادی در زیست شناسی محاسباتی اکنون به انتشارات منبع باز منجر می شود. با این حال، بسیاری از این موارد در سطح آزمایشگاهی فردی اتفاق می‌افتد و بنابراین معمولاً به دلیل منابع محاسباتی ناکافی محدود می‌شود. ما می‌خواهیم آن را با تقویت همکاری‌های مقیاس بزرگ تغییر دهیم و به لطف حمایت از هوش مصنوعی پایداری، از این همکاری‌ها با منابعی که تنها بزرگترین آزمایشگاه‌های صنعتی به آن دسترسی دارند، حمایت کنیم.»

تولید توالی DNA

بر پروژه های OpenBioML فعلی، انتشار DNA – که توسط آزمایشگاه پروفسور آسیب شناسی لوکا پینلو در بیمارستان عمومی ماساچوست و دانشکده پزشکی هاروارد هدایت می شود – شاید بلندپروازانه ترین باشد. هدف استفاده از سیستم‌های هوش مصنوعی مولد برای یادگیری و اعمال قوانین توالی‌های DNA «تنظیمی» یا بخش‌هایی از مولکول‌های اسید نوکلئیک است که بر بیان ژن‌های خاص در یک موجود زنده تأثیر می‌گذارند. بسیاری از بیماری‌ها و اختلالات ناشی از ژن‌های نادرست تنظیم‌شده هستند، اما علم هنوز فرآیند قابل اعتمادی را برای شناسایی این توالی‌های تنظیم‌کننده (بسیار تغییر کمتر) کشف نکرده است.

DNA-Diffusion استفاده از نوعی سیستم هوش مصنوعی معروف به مدل انتشار را برای تولید توالی‌های DNA تنظیم‌کننده نوع سلولی پیشنهاد می‌کند. مدل‌های انتشار – که زیربنای مولدهای تصویر مانند Stable Diffusion و OpenAI’s DALL-E 2 هستند – با یادگیری نحوه تخریب و بازسازی بسیاری از نمونه‌های داده موجود، داده‌های جدیدی (مثلاً توالی‌های DNA) ایجاد می‌کنند. همانطور که نمونه ها تغذیه می شوند، مدل ها در بازیابی تمام داده هایی که قبلاً برای تولید آثار جدید از بین برده بودند، بهتر می شوند.

هوش مصنوعی پایداری OpenBioML

اعتبار تصویر: OpenBioML

زانیسلی گفت: “Diffusion به موفقیت گسترده ای در مدل های مولد چندوجهی دست یافته است و اکنون در زیست شناسی محاسباتی استفاده می شود، به عنوان مثال برای تولید ساختارهای پروتئینی جدید.” با انتشار DNA، ما اکنون در حال بررسی کاربرد آن در توالی ژنوم هستیم.

اگر همه چیز طبق برنامه پیش برود، پروژه DNA-Diffusion یک مدل انتشار ایجاد می‌کند که می‌تواند توالی‌های DNA تنظیمی را از دستورالعمل‌های متنی مانند «توالی که یک ژن را به حداکثر سطح بیان آن در یک سلول نوع X فعال می‌کند» و «توالی» تولید کند. که ژن را در کبد و قلب فعال می کند اما در مغز نه. زانیچلی می‌گوید، چنین مدلی می‌تواند به تفسیر اجزای توالی‌های تنظیم‌کننده نیز کمک کند – درک جامعه علمی از نقش توالی‌های تنظیمی در بیماری‌های مختلف را بهبود می‌بخشد.

شایان ذکر است که این تا حد زیادی تئوری است. زانیچلی اذعان می‌کند که در حالی که تحقیقات اولیه در مورد استفاده از انتشار در تا کردن پروتئین امیدوارکننده به نظر می‌رسد، اما هنوز روزهای ابتدایی است – از این رو فشار برای وارد کردن جامعه گسترده‌تر هوش مصنوعی.

پیش بینی ساختارهای پروتئینی

LibreFold OpenBioML، اگرچه از نظر وسعت کوچکتر است، اما به احتمال زیاد نتایج فوری را به همراه دارد. این پروژه به دنبال دستیابی به درک بهتری از سیستم های یادگیری ماشینی است که ساختارهای پروتئین را علاوه بر راه هایی برای بهبود آنها پیش بینی می کند.

همانطور که همکار من دوین کولدوی در مقاله خود در مورد کار DeepMind روی AlphaFold 2 توضیح داد، سیستم‌های هوش مصنوعی که شکل پروتئین را دقیقاً پیش‌بینی می‌کنند در صحنه نسبتاً جدید هستند، اما از نظر پتانسیل‌شان دگرگون‌کننده هستند. پروتئین ها متشکل از دنباله ای از اسیدهای آمینه هستند که برای انجام وظایف مختلف در موجودات زنده به شکل تا می شوند. فرآیند تعیین اینکه یک توالی اسیدی چه شکلی ایجاد می کند، زمانی یک تلاش دشوار و مستعد خطا بود. سیستم های هوش مصنوعی مانند AlphaFold 2 این را تغییر داده اند. به لطف آنها، بیش از 98 درصد از ساختارهای پروتئینی در بدن انسان امروزه برای علم شناخته شده است، و همچنین صدها هزار ساختار دیگر در موجوداتی مانند E. coli و مخمرها.

با این حال، تعداد کمی از گروه ها تخصص مهندسی و منابع مورد نیاز برای توسعه این نوع هوش مصنوعی را دارند. DeepMind روزها را صرف آموزش AlphaFold 2 بر روی واحدهای پردازش تانسور (TPUs)، سخت افزار گران قیمت شتاب دهنده هوش مصنوعی گوگل کرد. و مجموعه داده های آموزش توالی اسید اغلب تحت مجوزهای غیر تجاری ثبت شده یا منتشر می شوند.

هوش مصنوعی پایداری از تلاش‌های یادگیری ماشین در biomed • TechCrunch پشتیبانی می‌کند

پروتئین ها در ساختار سه بعدی خود جمع می شوند. اعتبار تصویر: کریستوف بورگستت/کتابخانه عکس علمی/گتی ایماژ

زانیسلی با اشاره به مدل آموزش دیده AlphaFold 2 که DeepMind در سال گذشته منتشر کرد، گفت: “این مایه تاسف است زیرا اگر به آنچه که جامعه توانسته است روی نقطه بازرسی AlphaFold 2 که DeepMind منتشر کرد نگاه کنید، شگفت انگیز است.” “به عنوان مثال، تنها چند روز پس از انتشار، مینکیونگ باک، استاد دانشگاه ملی سئول، ترفندی را در توییتر اعلام کرد که به مدل اجازه می‌دهد ساختارهای چهارتایی را پیش‌بینی کند – چیزی که تعداد کمی از آن‌ها انتظار داشتند که مدل قادر به انجام آن باشد. نمونه‌های بسیار بیشتری از این نوع وجود دارد، پس چه کسی می‌داند که اگر جامعه علمی گسترده‌تر توانایی آموزش روش‌های کاملاً جدید برای پیش‌بینی ساختار پروتئین مانند AlphaFold را داشته باشد، چه چیزی می‌تواند بسازد؟

بر اساس کار RoseTTAFold و OpenFold، دو تلاش مداوم جامعه برای تکرار AlphaFold 2، LibreFold آزمایش‌های «مقیاس بزرگ» را با سیستم‌های مختلف پیش‌بینی تاخوردگی پروتئین تسهیل می‌کند. به گفته زانیچلی، تمرکز LibreFold که توسط محققان دانشگاه کالج لندن، هاروارد و استکهلم هدایت می‌شود، دستیابی به درک بهتری از آنچه که سیستم‌ها می‌توانند به آن دست یابند و چرا هستند، خواهد بود.

LibreFold در هسته خود یک پروژه برای جامعه، توسط جامعه است. همین امر در مورد انتشار معیارهای مدل و مجموعه داده‌ها نیز صدق می‌کند، زیرا ممکن است تنها یک یا دو ماه طول بکشد تا اولین نتایج را منتشر کنیم، یا ممکن است به طور قابل توجهی بیشتر طول بکشد. با این حال، شهود من این است که احتمال اولی بیشتر است.»

کاربرد NLP در بیوشیمی

در افق زمانی طولانی تری قرار دارد OpenBioML پروژه BioLM، که مأموریت مبهم‌تری دارد «به‌کارگیری تکنیک‌های مدل‌سازی زبان برگرفته از NLP در توالی‌های بیوشیمیایی». با همکاری EleutherAI، یک گروه تحقیقاتی که چندین مدل تولید متن متن باز منتشر کرده است، BioLM امیدوار است که “مدل های زبان بیوشیمیایی” جدیدی را برای طیف وسیعی از وظایف، از جمله تولید توالی پروتئین، آموزش دهد و منتشر کند.

زانیچلی به ProGen Salesforce به عنوان نمونه ای از انواع کارهایی که BioLM می تواند انجام دهد اشاره می کند. ProGen توالی اسیدهای آمینه را به عنوان کلمات در یک جمله در نظر می گیرد. این مدل که بر روی مجموعه داده ای از بیش از 280 میلیون توالی پروتئین و ابرداده مرتبط آموزش دیده است، مجموعه بعدی آمینو اسیدها را از آمینو اسیدهای قبلی پیش بینی می کند، دقیقاً مانند یک مدل زبان که پایان یک جمله را از ابتدای آن پیش بینی می کند.

انویدیا در اوایل سال جاری یک مدل زبان به نام MegaMolBART منتشر کرد که بر روی مجموعه داده‌ای متشکل از میلیون‌ها مولکول برای جستجوی اهداف دارویی بالقوه و پیش‌بینی واکنش‌های شیمیایی آموزش دیده بود. متا همچنین اخیراً یک NLP به نام ESM-2 را بر روی توالی های پروتئینی آموزش داده است، رویکردی که شرکت ادعا می کند به آن اجازه می دهد توالی بیش از 600 میلیون پروتئین را تنها در دو هفته پیش بینی کند.

تا شدن متا پروتئین ها

ساختارهای پروتئینی پیش بینی شده توسط سیستم متا. اعتبار تصویر: متا

منتظر بودن

در حالی که علایق OpenBioML گسترده است (و در حال گسترش است)، Mostaque می گوید که آنها با تمایل به “به حداکثر رساندن پتانسیل مثبت یادگیری ماشینی و هوش مصنوعی در زیست شناسی”، پیرو سنت تحقیقات باز در علم و پزشکی، متحد شده اند.

Mostaque ادامه داد: “هدف ما این است که محققان را قادر کنیم تا کنترل بیشتری بر روی خط لوله آزمایشی خود برای اهداف یادگیری فعال یا اعتبارسنجی مدل به دست آورند.” “همچنین هدف ما این است که بر خلاف معماری های تخصصی و اهداف یادگیری که در حال حاضر بیشتر زیست شناسی محاسباتی را مشخص می کند، وضعیت هنر را با مدل های بیوتکنولوژیکی عمومی به طور فزاینده پیش ببریم.”

اما – همانطور که از یک استارت‌آپ با پشتوانه VC که اخیراً بیش از 100 میلیون دلار جمع‌آوری کرده است انتظار دارید – هوش مصنوعی Stability OpenBioML را یک تلاش صرفاً بشردوستانه نمی‌داند. Mostaque می‌گوید که شرکت برای کاوش تجاری‌سازی فناوری OpenBioML “زمانی که به اندازه کافی پیشرفته و ایمن باشد و زمانی که زمان مناسب باشد” آماده است.