
Stability AI، استارتآپ مخاطرهآمیز که در پشت سیستم هوش مصنوعی متن به تصویر Stable Diffusion قرار دارد، تلاشهای گستردهای را برای اعمال هوش مصنوعی در مرزهای بیوتکنولوژی تامین مالی میکند. اولین پروژههای این سرمایهگذاری که OpenBioML نامیده میشود، بر رویکردهای مبتنی بر یادگیری ماشین برای توالییابی DNA، تا کردن پروتئین و بیوشیمی محاسباتی متمرکز خواهد بود.
بنیانگذاران این شرکت OpenBioML را به عنوان یک “آزمایشگاه تحقیقاتی باز” توصیف می کنند – و به گفته عماد موستاک، مدیر عامل هوش مصنوعی پایداری، هدف آن کشف تقاطع هوش مصنوعی و زیست شناسی در محیطی است که دانشجویان، متخصصان و محققان می توانند در آن مشارکت و همکاری کنند.
موستاک در مصاحبه ای با TechCrunch گفت: OpenBioML یکی از جوامع تحقیقاتی مستقلی است که Stability از آن پشتیبانی می کند. “ثبات به دنبال پیشرفت و دموکراتیک کردن هوش مصنوعی است و از طریق OpenBioML ما فرصتی برای پیشرفت علم، مراقبت های بهداشتی و پزشکی پیشرفته می بینیم.
با توجه به بحث و جدل پیرامون Stable Diffusion – سیستم هوش مصنوعی Stability AI که هنر را از توصیفات متنی ایجاد می کند، مشابه DALL-E 2 OpenAI – به طور قابل درک ممکن است نسبت به اولین سرمایه گذاری Stability AI در مراقبت های بهداشتی محتاط بود. این استارتآپ رویکردی آزادانه برای مدیریت در پیش گرفته است و به توسعهدهندگان این امکان را میدهد تا از سیستم هر طور که میخواهند استفاده کنند، از جمله برای جعل افراد مشهور و هرزهنگاری.
با کنار گذاشتن راه حل های مشکوک هوش مصنوعی تاکنون، یادگیری ماشین در پزشکی یک میدان مین است. در حالی که این فناوری با موفقیت برای تشخیص بیماریهایی مانند بیماریهای پوست و چشم، از جمله موارد دیگر، به کار گرفته شده است، تحقیقات نشان میدهد که الگوریتمها میتوانند سوگیریهایی ایجاد کنند که منجر به مراقبت بدتر برای برخی از بیماران میشود. برای مثال، یک مطالعه آوریل 2021 نشان داد که مدلهای آماری مورد استفاده برای پیشبینی خطر خودکشی در بیماران سلامت روان برای بیماران سفیدپوست و آسیایی عملکرد خوبی داشتند، اما برای بیماران سیاهپوست ضعیف بودند.
OpenBioML در قلمرو امن تر، معقولانه شروع می شود. اولین پروژه های او عبارتند از:
- BioLMکه به دنبال استفاده از تکنیک های پردازش زبان طبیعی (NLP) در زمینه های زیست شناسی محاسباتی و شیمی است.
- انتشار DNAهدف آن ایجاد هوش مصنوعی است که می تواند توالی های DNA را از پیام های متنی تولید کند
- LibreFoldکه به دنبال افزایش دسترسی به سیستمهای پیشبینی ساختار پروتئین هوش مصنوعی مشابه AlphaFold 2 DeepMind است.
هر پروژه توسط محققان مستقل هدایت می شود، اما هوش مصنوعی پایداری پشتیبانی را به شکل دسترسی به خوشه میزبان AWS با بیش از 5000 پردازنده گرافیکی Nvidia A100 برای آموزش سیستم های هوش مصنوعی فراهم می کند. به گفته نیکولو زانیچلی، دانشجوی علوم کامپیوتر در دانشگاه پارما و یکی از محققان برجسته در OpenBioML، همین خواهد بود قدرت پردازش و ذخیره سازی کافی برای آموزش تا 10 سیستم مختلف شبیه به AlphaFold 2 به صورت موازی.
تحقیقات زیادی در زیست شناسی محاسباتی اکنون به انتشارات منبع باز منجر می شود. با این حال، بسیاری از این موارد در سطح آزمایشگاهی فردی اتفاق میافتد و بنابراین معمولاً به دلیل منابع محاسباتی ناکافی محدود میشود. ما میخواهیم آن را با تقویت همکاریهای مقیاس بزرگ تغییر دهیم و به لطف حمایت از هوش مصنوعی پایداری، از این همکاریها با منابعی که تنها بزرگترین آزمایشگاههای صنعتی به آن دسترسی دارند، حمایت کنیم.»
تولید توالی DNA
بر پروژه های OpenBioML فعلی، انتشار DNA – که توسط آزمایشگاه پروفسور آسیب شناسی لوکا پینلو در بیمارستان عمومی ماساچوست و دانشکده پزشکی هاروارد هدایت می شود – شاید بلندپروازانه ترین باشد. هدف استفاده از سیستمهای هوش مصنوعی مولد برای یادگیری و اعمال قوانین توالیهای DNA «تنظیمی» یا بخشهایی از مولکولهای اسید نوکلئیک است که بر بیان ژنهای خاص در یک موجود زنده تأثیر میگذارند. بسیاری از بیماریها و اختلالات ناشی از ژنهای نادرست تنظیمشده هستند، اما علم هنوز فرآیند قابل اعتمادی را برای شناسایی این توالیهای تنظیمکننده (بسیار تغییر کمتر) کشف نکرده است.
DNA-Diffusion استفاده از نوعی سیستم هوش مصنوعی معروف به مدل انتشار را برای تولید توالیهای DNA تنظیمکننده نوع سلولی پیشنهاد میکند. مدلهای انتشار – که زیربنای مولدهای تصویر مانند Stable Diffusion و OpenAI’s DALL-E 2 هستند – با یادگیری نحوه تخریب و بازسازی بسیاری از نمونههای داده موجود، دادههای جدیدی (مثلاً توالیهای DNA) ایجاد میکنند. همانطور که نمونه ها تغذیه می شوند، مدل ها در بازیابی تمام داده هایی که قبلاً برای تولید آثار جدید از بین برده بودند، بهتر می شوند.

اعتبار تصویر: OpenBioML
زانیسلی گفت: “Diffusion به موفقیت گسترده ای در مدل های مولد چندوجهی دست یافته است و اکنون در زیست شناسی محاسباتی استفاده می شود، به عنوان مثال برای تولید ساختارهای پروتئینی جدید.” با انتشار DNA، ما اکنون در حال بررسی کاربرد آن در توالی ژنوم هستیم.
اگر همه چیز طبق برنامه پیش برود، پروژه DNA-Diffusion یک مدل انتشار ایجاد میکند که میتواند توالیهای DNA تنظیمی را از دستورالعملهای متنی مانند «توالی که یک ژن را به حداکثر سطح بیان آن در یک سلول نوع X فعال میکند» و «توالی» تولید کند. که ژن را در کبد و قلب فعال می کند اما در مغز نه. زانیچلی میگوید، چنین مدلی میتواند به تفسیر اجزای توالیهای تنظیمکننده نیز کمک کند – درک جامعه علمی از نقش توالیهای تنظیمی در بیماریهای مختلف را بهبود میبخشد.
شایان ذکر است که این تا حد زیادی تئوری است. زانیچلی اذعان میکند که در حالی که تحقیقات اولیه در مورد استفاده از انتشار در تا کردن پروتئین امیدوارکننده به نظر میرسد، اما هنوز روزهای ابتدایی است – از این رو فشار برای وارد کردن جامعه گستردهتر هوش مصنوعی.
پیش بینی ساختارهای پروتئینی
LibreFold OpenBioML، اگرچه از نظر وسعت کوچکتر است، اما به احتمال زیاد نتایج فوری را به همراه دارد. این پروژه به دنبال دستیابی به درک بهتری از سیستم های یادگیری ماشینی است که ساختارهای پروتئین را علاوه بر راه هایی برای بهبود آنها پیش بینی می کند.
همانطور که همکار من دوین کولدوی در مقاله خود در مورد کار DeepMind روی AlphaFold 2 توضیح داد، سیستمهای هوش مصنوعی که شکل پروتئین را دقیقاً پیشبینی میکنند در صحنه نسبتاً جدید هستند، اما از نظر پتانسیلشان دگرگونکننده هستند. پروتئین ها متشکل از دنباله ای از اسیدهای آمینه هستند که برای انجام وظایف مختلف در موجودات زنده به شکل تا می شوند. فرآیند تعیین اینکه یک توالی اسیدی چه شکلی ایجاد می کند، زمانی یک تلاش دشوار و مستعد خطا بود. سیستم های هوش مصنوعی مانند AlphaFold 2 این را تغییر داده اند. به لطف آنها، بیش از 98 درصد از ساختارهای پروتئینی در بدن انسان امروزه برای علم شناخته شده است، و همچنین صدها هزار ساختار دیگر در موجوداتی مانند E. coli و مخمرها.
با این حال، تعداد کمی از گروه ها تخصص مهندسی و منابع مورد نیاز برای توسعه این نوع هوش مصنوعی را دارند. DeepMind روزها را صرف آموزش AlphaFold 2 بر روی واحدهای پردازش تانسور (TPUs)، سخت افزار گران قیمت شتاب دهنده هوش مصنوعی گوگل کرد. و مجموعه داده های آموزش توالی اسید اغلب تحت مجوزهای غیر تجاری ثبت شده یا منتشر می شوند.

پروتئین ها در ساختار سه بعدی خود جمع می شوند. اعتبار تصویر: کریستوف بورگستت/کتابخانه عکس علمی/گتی ایماژ
زانیسلی با اشاره به مدل آموزش دیده AlphaFold 2 که DeepMind در سال گذشته منتشر کرد، گفت: “این مایه تاسف است زیرا اگر به آنچه که جامعه توانسته است روی نقطه بازرسی AlphaFold 2 که DeepMind منتشر کرد نگاه کنید، شگفت انگیز است.” “به عنوان مثال، تنها چند روز پس از انتشار، مینکیونگ باک، استاد دانشگاه ملی سئول، ترفندی را در توییتر اعلام کرد که به مدل اجازه میدهد ساختارهای چهارتایی را پیشبینی کند – چیزی که تعداد کمی از آنها انتظار داشتند که مدل قادر به انجام آن باشد. نمونههای بسیار بیشتری از این نوع وجود دارد، پس چه کسی میداند که اگر جامعه علمی گستردهتر توانایی آموزش روشهای کاملاً جدید برای پیشبینی ساختار پروتئین مانند AlphaFold را داشته باشد، چه چیزی میتواند بسازد؟
بر اساس کار RoseTTAFold و OpenFold، دو تلاش مداوم جامعه برای تکرار AlphaFold 2، LibreFold آزمایشهای «مقیاس بزرگ» را با سیستمهای مختلف پیشبینی تاخوردگی پروتئین تسهیل میکند. به گفته زانیچلی، تمرکز LibreFold که توسط محققان دانشگاه کالج لندن، هاروارد و استکهلم هدایت میشود، دستیابی به درک بهتری از آنچه که سیستمها میتوانند به آن دست یابند و چرا هستند، خواهد بود.
LibreFold در هسته خود یک پروژه برای جامعه، توسط جامعه است. همین امر در مورد انتشار معیارهای مدل و مجموعه دادهها نیز صدق میکند، زیرا ممکن است تنها یک یا دو ماه طول بکشد تا اولین نتایج را منتشر کنیم، یا ممکن است به طور قابل توجهی بیشتر طول بکشد. با این حال، شهود من این است که احتمال اولی بیشتر است.»
کاربرد NLP در بیوشیمی
در افق زمانی طولانی تری قرار دارد OpenBioML پروژه BioLM، که مأموریت مبهمتری دارد «بهکارگیری تکنیکهای مدلسازی زبان برگرفته از NLP در توالیهای بیوشیمیایی». با همکاری EleutherAI، یک گروه تحقیقاتی که چندین مدل تولید متن متن باز منتشر کرده است، BioLM امیدوار است که “مدل های زبان بیوشیمیایی” جدیدی را برای طیف وسیعی از وظایف، از جمله تولید توالی پروتئین، آموزش دهد و منتشر کند.
زانیچلی به ProGen Salesforce به عنوان نمونه ای از انواع کارهایی که BioLM می تواند انجام دهد اشاره می کند. ProGen توالی اسیدهای آمینه را به عنوان کلمات در یک جمله در نظر می گیرد. این مدل که بر روی مجموعه داده ای از بیش از 280 میلیون توالی پروتئین و ابرداده مرتبط آموزش دیده است، مجموعه بعدی آمینو اسیدها را از آمینو اسیدهای قبلی پیش بینی می کند، دقیقاً مانند یک مدل زبان که پایان یک جمله را از ابتدای آن پیش بینی می کند.
انویدیا در اوایل سال جاری یک مدل زبان به نام MegaMolBART منتشر کرد که بر روی مجموعه دادهای متشکل از میلیونها مولکول برای جستجوی اهداف دارویی بالقوه و پیشبینی واکنشهای شیمیایی آموزش دیده بود. متا همچنین اخیراً یک NLP به نام ESM-2 را بر روی توالی های پروتئینی آموزش داده است، رویکردی که شرکت ادعا می کند به آن اجازه می دهد توالی بیش از 600 میلیون پروتئین را تنها در دو هفته پیش بینی کند.

ساختارهای پروتئینی پیش بینی شده توسط سیستم متا. اعتبار تصویر: متا
منتظر بودن
در حالی که علایق OpenBioML گسترده است (و در حال گسترش است)، Mostaque می گوید که آنها با تمایل به “به حداکثر رساندن پتانسیل مثبت یادگیری ماشینی و هوش مصنوعی در زیست شناسی”، پیرو سنت تحقیقات باز در علم و پزشکی، متحد شده اند.
Mostaque ادامه داد: “هدف ما این است که محققان را قادر کنیم تا کنترل بیشتری بر روی خط لوله آزمایشی خود برای اهداف یادگیری فعال یا اعتبارسنجی مدل به دست آورند.” “همچنین هدف ما این است که بر خلاف معماری های تخصصی و اهداف یادگیری که در حال حاضر بیشتر زیست شناسی محاسباتی را مشخص می کند، وضعیت هنر را با مدل های بیوتکنولوژیکی عمومی به طور فزاینده پیش ببریم.”
اما – همانطور که از یک استارتآپ با پشتوانه VC که اخیراً بیش از 100 میلیون دلار جمعآوری کرده است انتظار دارید – هوش مصنوعی Stability OpenBioML را یک تلاش صرفاً بشردوستانه نمیداند. Mostaque میگوید که شرکت برای کاوش تجاریسازی فناوری OpenBioML “زمانی که به اندازه کافی پیشرفته و ایمن باشد و زمانی که زمان مناسب باشد” آماده است.