Data Stewardship Portal aneb jak informatika pomáhá vědám o živé přírodě

Biologie, informatika, databáze, data management. Možná si na první pohled pomyslíte, že tyto pojmy spolu tak docela nesouvisí, ovšem opak je pravdou. Biologie je sice ve své podstatě „pouze“ o studiu života a živých systémů na různých úrovních, jak jsme však doložili již v článku o bioinformatice a jejích přínosech, žádný z průlomových objevů v posledních několika desetiletích, ať už třeba v oblasti molekulární biologie či biomedicíny, se neobešel bez výpočetní techniky. Díky skloubení informatiky a věd o živé přírodě tak vznikají užitečné projekty, které dokážou výzkumníkům výrazně usnadnit život a dopomoci tak vědeckému pokroku. To je i cílem evropské infrastruktury ELIXIR.

Data a zase jenom data

V dnešní době výzkumníci disponují značným množstvím dat přírodovědného charakteru, jejichž objem se navíc každých 12 měsíců zdvojnásobí. Tato data mohou být za určitých okolností velkým přínosem např. pro medicínu či farmacii, ale právě jejich počet a různorodost formátů, ve kterých se ukládají, představuje zároveň i nemalý problém – jak všechna tato data dlouhodobě uchovat a zpřístupnit, jak v nich vyhledávat a následně jak je vzájemně propojit a vytěžit z nich znalosti ku prospěchu lidstva.

Řešením tohoto problému je standardizace postupů a norem, podle kterých se data ukládají, strukturují a doplňují o relevantní informace, spolu s výcvikem vědeckých pracovníků, pokud jde o způsob, jak s daty správně nakládat. Tím se dostáváme k evropské infrastruktuře ELIXIR (European Life-Science Infrastructure for Biological Information), ve které působí 20 členských států. Se 160 zapojenými centry excelence bioinformatického výzkumu je odpovědí na rostoucí potřebu vědecké komunity na vytvoření komplexní technické platformy pro správu dat z oblasti biologie.

Česká republika, jako součást tohoto konsorcia, se aktivně podílí na řadě společných aktivit. Do těch se nejnověji zapojilo i Centrum pro konceptuální modelování a implementace (CCMi), jedna z výzkumných skupin Fakulty informačních technologií Českého vysokého učení technického v Praze. Ve spolupráci s nizozemskou pobočkou ELIXIR-NL započal projekt s názvem „Data Stewardship Portal“, o kterém jsme se pobavili s vedoucím CCMi Robertem Perglem a jeho kolegou Markem Suchánkem.

Projekt pro správu dat – Data Stewardship Portal

Smyslem projektu „Data Stewardship Portal“ (volně přeloženo jako portál pro správu dat, pozn. red.) je zkvalitnění a zefektivnění tvorby tzv. Data Management plánu. Tím se myslí dokument, který popisuje způsob získávání dat a jejich využití ve výzkumném projektu a následnou dlouhodobou údržbu. Sestavuje se na základě řady podstatných otázek, které je vhodné při návrhu experimentů a práci s daty zvážit. Například jde o to, jakým způsobem se data mají sbírat, zpracovávat, ukládat, zpřístupňovat a sdílet během i po ukončení projektu.

Výsledkem odpovědí na tyto otázky je navíc plán, který je čím dál častěji vyžadován při podávání žádostí o dotace v rámci grantových schémat (např. Horizon 2020). Nicméně i v případech, kdy Data Management plán tomuto účelu neslouží, je z organizačního hlediska dobré promyslet si výše uvedené otázky před vlastní realizací výzkumného projektu, což šetří čas i úsilí později.  

Jedním z alternativních přístupů, jak vědcům i zpracovatelům plánů zjednodušit práci, je snižování počtu zvažovaných otázek. „Tento přístup sice podstatně zrychluje tvorbu i kontrolu plánů, ale jejich užitečnost se poté stává silně diskutabilní a čistě formální,“ vysvětlují Pergl se Suchánkem. „Náš přístup je proto opačný. Chceme, aby plány byly co nejužitečnější a nezapomnělo se na nic důležitého, např. na stále více skloňované charakteristiky FAIR,“ dodávají.

Pro vysvětlení, zkratka FAIR zohledňuje několik zásadních principů publikace dat s ohledem na jejich širší využití. V souladu s touto doktrínou musí být data dohledatelná (Findable) na základě doplnění povinných metadat (neboli strukturovaných informací o datech). Dále by (ideálně) měla být volně přístupná (Accessible) s možností jejich prohlížení a kopírování. Musí být interoperabilní (Interoperable), tedy formálně upravená tak, aby bylo možné jejich srovnání či kombinace s ostatními daty. A v neposlední řadě musí splňovat podmínku opětovné využitelnosti (Reusable) pro budoucí výzkum a další zpracování. Je důležité dodat, že splnění FAIR pravidel i jen pro meta-data je velkým přínosem. Tato situace nastává typicky u citlivých dat o pacientech, která sama o sobě nelze zveřejnit.

Marek Suchánek a Robert Pergl prezentují společný poster

Pergl se Suchánkem v této souvislosti vyzdvihují především roli jejich nizozemského kolegy Roba Hoofta (ELIXIR-NL) z Holandského technologického centra věd o živé přírodě (DTL). Ten sestavil velkou myšlenkovou mapu s více než 600 základními otázkami, kterou následně převádějí do znalostního modelu Data Stewardship portálu ve formátu JSON souborů.

„Model se skládá z tzv. core části (neboli jádra) s generickými otázkami a dále z lokalizací. Tyto lokalizace obohacují core o otázky specifické pro určitou doménu vědy či například geopolitickou oblast. Výběrem lokalizací a jejich spojením s core vznikne konkrétní znalostní model pro tvorbu konkrétního plánu,“ dokreslují hlavní zaměření jejich společného projektu.

Podobně jako u Dantova průvodce Vergília, ani v tomto případě není uživatel ponechán napospas svému osudu a je mu k dispozici nástroj s názvem „Data Stewardship Wizard“. Smyslem tohoto nástroje je provést všemi nástrahami a otázkami, a umožnit tak jednoduché a přehledné zpracování Data Management plánu. Tímto způsobem portál slouží vlastně i jako jakýsi kontrolní mechanismus, stejně jako třeba checklist pro pilota pro předletovou prohlídku.

Jak to bude dál?

A jaké jsou další plány s tímto portálem? „V březnu jsme projekt společně s Robem Hooftem prezentovali na setkání ELIXIR All Hands 2017 v Římě, kde jsme během čtyřhodinového workshopu představili naši práci i plány do budoucna,“ komentují Pergl se Suchánkem. „Účastníci měli možnost si vše vyzkoušet a poskytli nám kromě pozitivních ohlasů i cennou zpětnou vazbu. Aktuálně plánujeme rozšiřovat funkcionalitu na úroveň komunitního Data Stewardship portálu mj. s možností vytvářet a spravovat Data Stewardship plány, exportovat a importovat data v různých formátech, provádět certifikace plánů či třeba publikovat plány ve smyslu FAIR data,“ uzavírají.

Bioinformatika se evidentně ubírá směrem ke stále větší integraci odlišných oblastí lidského bádání. Hromadění nových a nových dat samo o sobě proto nestačí, pokud nedokážeme informace v nich obsažené analyzovat za účelem získání nových poznatků. Nezbývá nám tedy, než držet palce projektům v rámci iniciativy ELIXIR. Zapojení ČVUT a FIT je pak šancí pro naše výzkumníky a studenty posouvat vědu kupředu.

 

Foto:
https://ccmi.fit.cvut.cz/ds-portal-na-elixir-all-hands-2017/img_1033/
https://ccmi.fit.cvut.cz/ds-portal-na-elixir-all-hands-2017/img_5080/

Spoluautor: Milan Kurka

Jiří Mikeš

Před lety, když jsem promoval na jedné humanitně zaměřené vysoké škole, jsem měl představu, že změním svět. Teď už jsem o něco moudřejší, takže spíš přemýšlím, kde se stala chyba, že se mi to prozatím nepovedlo. Samozřejmě se nevzdávám, a i proto jsem se vrátil zpět na místo činu. Tentokrát jsem však raději neponechal nic náhodě a zamířil na technický FIT, přímo do centra všeho dění, tedy na PR oddělení. Super na téhle práci je, že si můžu říkat a psát, co chci, a ještě mi za to platí. Jinak věřím ve svobodu jednotlivce a potřebu zpochybňovat naprosto vše, zvlášť když vás ostatní ujišťují, že to myslí upřímně. Mám rád satiru a černý humor. A hlavně želatinové medvídky! Kontaktovat mě můžete na jiri.mikes@fit.cvut.cz.