Vědci z CIIRC ČVUT a ÚOCHB AV ČR stojí v čele globální iniciativy pro objevování molekul s využitím AI

Cílem projektu s názvem MassSpecGym je podnítit vývoj další generace modelů strojového učení pro identifikaci nových přírodních molekul s využitím ve vývoji léčiv, ve vědách o životním prostředí nebo v kosmickém výzkumu.

Bratři Roman Bushuiev a Anton Bushuiev z týmů Tomáše Pluskala z Ústavu organické chemie a biochemie (ÚOCHB AV ČR) a Josefa Šivice z Českého institutu informatiky, robotiky a kybernetiky ČVUT v Praze (CIIRC ČVUT) vloni zahájili spolupráci s odborníky ze 14 výzkumných institucí po celém světě na procesu systematického srovnávání a hodnocení metod umělé inteligence využívaných pro objevování molekul z dat hmotnostní spektrometrie.

Ilustrační fotografie

První úspěch na sebe nenechal dlouho čekat. Výsledky této nedávno vzniklé mezioborové iniciativy byly již v prosinci 2024 prezentovány na jedné z nejvýznamnějších světových konferencí o strojovém učení – NeurIPS 2024 ve Vancouveru.

Objevování malých molekul významně ovlivňuje řadu vědeckých oblastí, jako jsou organická chemie, molekulární biologie, vývoj léčiv a environmentální analýza. Navzdory významnému pokroku se doposud podařilo odhalit jen malý zlomek molekulární rozmanitosti života. Tandemová hmotnostní spektrometrie je základní metoda pro identifikaci molekulárních struktur z biologických a environmentálních vzorků, která umožňuje využití při objevování biologicky aktivních sloučenin pro vývoj léčiv, optimalizaci dávkování léčiv v klinické praxi, nebo detekci stopových množství znečišťujících látek v životním prostředí.

Vědci z ČVUT vyvinuli s pomocí AI model pro dobíjení elektromobilů, který zaujal na světové konferenci

Podstatou tandemové hmotnostní spektrometrie je fragmentace molekul a záznam hmotností těchto fragmentů. „Z typického biologického nebo environmentálního vzorku je možné změřit tisíce tandemových hmotnostních spekter, z nichž každé zpravidla představuje samostatnou molekulu. Popis těchto spekter pomocí molekulárních struktur je však stále výzva, přičemž pomocí nejmodernějších metod strojového učení se podaří popsat méně než 10 % spekter. Velká část chemického prostoru tak zůstává neobjevená, což brzdí další vědecký a technologický pokrok,“ říká Tomáš Pluskal z ÚOCHB.

V současné době je vývoj metod umělé inteligence pro hmotnostní spektrometrii omezen tím, že chybí dobře standardizované trénovací datové sady a hodnotící protokoly. Výše uvedený projekt „MassSpecGym: Benchmark pro objevování a identifikaci molekul“ toto omezení řeší. „Standardizované benchmarky strojového učení, jako je ImageNet, způsobily revoluci v oblasti umělé inteligence tím, že určily referenční měřítka vývoje, hodnocení a posuzování pokroku. Podobně navrhujeme referenční standardy pro objevování molekul, které se zaměří na popis tandemových hmotnostních spekter, a snažíme se tím podpořit novou generaci AI modelů pro odhalování dosud neobjevených chemických látek vyskytujících se v přírodě,“ vysvětluje doktorand a hlavní autor projektu Roman Bushuiev.

Ilustrační fotografie

MassSpecGym zahrnuje tři základní komponenty: (i) největší veřejně dostupnou datovou sadu tandemových hmotnostních spekter označených molekulárními strukturami, včetně nově získaných měření z laboratoře Tomáše Pluskala v ÚOCHB, (ii) tři přesně definované úlohy strojového učení, které převádějí proces objevování molekul z hmotnostních spekter do dobře definovaných výpočetních problémů, a (iii) pečlivě vybrané páry hmotnostních spekter a molekul určené k vyhodnocení schopnosti modelů umělé inteligence zobecňovat naučené znalosti na nové molekuly. Kromě toho MassSpecGym poskytuje uživatelsky přívětivou platformu pro vývoj a vyhodnocování nových AI modelů.

Výzkumné centrum CLARA využije umělou inteligenci a superpočítače pro výzkum Alzheimerovy choroby

Vývoj MassSpecGym byl zahájen na renomovaném informatickém semináři „Computational Metabolomics: Towards Molecules, Models, and Their Meaning“ v německém Dagstuhlu. Projekt vychází z kolektivní expertízy a příspěvků 30 výzkumníků ze 14 institucí. Vědecká práce MassSpecGym byla vybrána pro „Spotlight“ prezentaci na jedné z nejvýznamnějších světových konferencí o strojovém učení – NeurIPS 2024 ve Vancouveru.

NeurIPS (Conference on Neural Information Processing Systems) je jednou z nejprestižnějších konferencí v oblasti strojového učení (společně s ICLR a ICML) a řadí se mezi deset nejvýznamnějších časopisů a konferencí ve všech oblastech vědy podle Google Scholar. V letošním roce bylo na konferenci NeurIPS zasláno celkem 15 671 příspěvků, z nichž 26 % bylo přijato. MassSpecGym byl vybrán pro Spotlight prezentaci, což odpovídá 2 % nejlepších přihlášených příspěvků. Konference se zúčastnilo téměř 16 000 účastníků.

• Teritorium: Česká republika
• Oblasti podnikání: Biotechnologie | Věda, výzkum a vývoj

Doporučujeme