Bioinformatika na ČVUT FIT – nový meziuniverzitní studijní program

ČVUT FIT společně s VŠCHT a Akademií věd ČR otvírá od září 2014 nový meziuniverzitní studijní program „Chemická informatika a bioinformatika“ s bakalářským a navazujícím magisterským oborem Bioinformatika. O čem vlastně pojednává bioinformatika, se dozvíte v následujících řádcích.

Je nepopiratelnou skutečností, že mezi současnými vědními obory hraje biologie jednu z klíčových rolí. Biologie se zabývá životem a živými organismy a popisuje jejich strukturu, funkci, vývoj, evoluci, distribuci a taxonomii. Moderní biologie je košatým a různorodým oborem sestávajícím z mnoha podoblastí. Přestože biologie má takový široký záběr, existuje v ní několik obecných a sjednocujících principů. Biologie uznává buňku jako hlavní jednotku života, gen jako hlavní jednotku dědičnosti a evoluci jako hybnou sílu pro vznik nových druhů. Biologické obory jsou definovány škálou, na které jsou organismy studovány, typem studovaných organismů a metodami používanými k jejich studiu. Tedy například, biochemie zkoumá chemické základy života, molekulární biologie studuje molekulární mechanismy fungování organismu, buněčná biologie se zbývá základním stavebním prvkem života – buňkou, botanika studuje biologii rostlin a zoologie biologii živočichů, evoluční biologie zkoumá jevy spojené se vznikem diverzity života a ekologie se zabývá interakcemi organismů s jejich životním prostředím.

V následujícím výkladu se zaměříme především na molekulární biologii, jejíž obrovský rozmach je důsledkem fenomenální práce pánů Watsona a Cricka, kteří v roce 1953 opublikovali notoricky známou dvojšroubovicovou strukturu deoxyribonukleové kyseliny. Jejich objev je klíčový především v tom, že elegantně vyřešil otázku uchovávání a přenosu genetické informace. Dnes je již považováno za úplnou samozřejmost, že genetická informace je uchovávána v organismu zakódovaná do sekvence deoxyribonukleové kyseliny DNA, dlouhého řetězce sestávajícího z posloupnosti pouhých čtyř písmen A (adenin), T (tymin), G (guanin) a C (cytosin). Ale co je to vlastně kódováno v posloupnosti těchto písmen? A co se vlastně rozumí pod pojmem „genetická informace“? Abychom mohli na tyto otázky odpovědět, musíme se seznámit s biomolekulami, kterým se říká proteiny. Ty slouží jako tažní koně plnící v organismu mnoho životně důležitých funkcí. Proteiny jsou také dlouhé řetězce sestávající tentokrát z posloupnosti 20 možných písmen. A je to právě sekvence DNA, na základě které vznikají v organismu ve správný čas, na správném místě a ve správném množství správné proteiny. Tedy, jinak řečeno, sekvence DNA, která se označuje jako gen, je molekulárním aparátem přepisována na sekvenci proteinu. Sekvence proteinu pak udává jeho třírozměrné uspořádání (tzv. strukturu), které následně určuje jeho funkci. Veškerá DNA jedince je uložena v jádře každé jeho buňky, a vyskytuje se tedy v těle v mnoha a mnoha kopiích. Zatímco pod pojmem „gen“ se rozumí pouze sekvence DNA, která je odpovědná za kódování proteinu, pod pojmem „genom“ se rozumí sekvence veškeré DNA. Pro představu se podíváme na genom člověka, který sestává z 3,3 miliardy písmen. Kdybychom ho celý vytiskli do Zlatých stránek, pak na sebe naskládané svazky by vytvořily sloup srovnatelně vysoký s největším monolitem na světě, Washingtonským monumentem, který měří 169 metrů. V oněch 3,3 miliardách písmen je však skryto pouhých cca 20 000 genů a oblasti kódující proteiny představují toliko 1,5 % genomové sekvence. Zbytek genomové sekvence se nazývá odpadní (junk) DNA a její funkce není stále dostatečně objasněna.

Vyřešení genomu člověka představuje další z důležitých milníků na poli moderní biologie. Sekvenace lidského genomu započala v roce 1990 a představovala ve své době jeden z nejambicióznějších mezinárodních vědeckých projektů. Celé úsilí, vedené Ministerstvem energie USA (DOE) a americkým Národním ústavem zdraví (NIH), trvalo 13 let a stálo 3 miliardy dolarů. Souběžně s vládním konsorciem pracovala na vyřešení genomu člověka též soukromá firma Celera. Její vstup do hry vyprovokoval závod o co nejrychlejší sekvenaci genomu a představuje tak zajímavou demonstraci faktu, že věda je řízena především egem vlastních výzkumníků. Ke konci bitvy nakonec Celera a vládní konsorcium spojily své síly a ohlásily úspěšné osekvenování lidského genomu společně. Nejvýznamnějším důsledkem této bitvy, ze které může dnešní věda jenom těžit, je neuvěřitelný posun ve vývoji technologie sekvenace. Vždyť co tehdy trvalo 13 let a stálo 3 miliardy dolarů, je dnes možné realizovat za 1 – 2 dny v ceně 3 – 5 tisíc dolarů! Ano, opravdu, tak málo stojí v současnosti kompletní sekvenace genomu každého z nás.

Nicméně zjištění sekvence genomu člověka představuje teprve začátek. Vždyť k čemu nám je 169 metrů vysoký sloupec Zlatých stránek, když informace v nich obsažené nám nedávají žádný smysl, nejsme schopni je interpretovat? Vývoj vědeckého poznání jde samozřejmě kupředu a za dalších 10 let od zveřejnění kompletní sekvence lidského genomu se naše znalosti molekulárně-biologických jevů posunuly opět o notný kus dále. Vědci osekvenovali genomy mnoha dalších organismů a srovnáním mezi nimi byli schopni identifikovat úseky DNA, které zůstaly prakticky nezměněné v celém průběhu evoluce. Lidská DNA např. obsahuje 5 – 8 % takových sekvencí. Ani otázka odpadní DNA nezůstala stranou zájmu a více než 400 výzkumníků z 32 laboratoří roztroušených po celém světě založilo konsorcium ENCODE (ENCyclopedia Of DNA Elements). V roce 2012 pak ENCODE konsorcium opublikovalo důležité zjištění, že více než 80 % odpadní DNA přece jenom vykazuje biologickou funkci. Jiný směr výzkumu se zaměřil na variabilitu v rámci lidského genomu, tedy jak moc se liší genomy lidí od sebe navzájem. Zajímavým zjištěním je skutečnost, že genomy jsou variabilní asi jenom z jedné desetiny procenta. Výzkum těchto variací potom představuje jeden z hlavních klíčů k porozumění lidského zdraví a nemocí. Projekt tisíce genomů (1000 Genomes Project) si klade za cíl studovat zástupce zdravých a nemocných populací s cílem identifikovat genetické varianty spjaté s jednotlivými onemocněními. Dostupnost sekvenace a analýzy genomu konkrétních jednotlivců a změny ve způsobu, jakým jsou získávány a používány medicínské informace, jsou podnětem k nástupu tzv. personalizované medicíny. Ta přináší nejen nové možnosti, ale i nové výzvy.

Žádný z výše uvedených objevů na poli molekulární biologie a biomedicíny by se však neobešel bez použití výpočetní techniky. Informatika hrála významnou roli od samého počátku při sekvencování lidského genomu, neboť není technicky možné přečíst naráz celou sekvenci zvíci tří miliard písmen. Místo toho se DNA rozbije na kratší úseky, ty se osekvenují a pak se v počítači zpětně skládají do výsledné podoby úplné genomové sekvence. A právě požadavek vyvinout metody pro ukládání sekvencí a algoritmy pro jejich skládání, způsoby vyhledávání v takových datech a především postupy pro analýzu tohoto druhu dat daly vzniknout začátkem 90. let minulého století nové mezioborové disciplíně známé pod názvem bioinformatika. V dnešní době není bioinformatika omezena pouze na práci se sekvenčními daty, ale rozvinula se v bohatou vědní disciplínu řešící široké spektrum biologických problémů. Mezi ně patří např. rekonstrukce evolučních stromů z DNA sekvencí různě příbuzných organismů (tzv. fylogenetická analýza), analýza prostorového uspořádání nukleových kyselin či proteinů a hledání vztahů mezi jejich strukturou a funkcí (tzv. strukturní bioinformatika), či počítačové simulace buněčných systémů (tzv. systémová biologie).

Bioinformatika čerpá z natolik odlišných oblastí lidského poznání, jako jsou biologie a biochemie, počítačové vědy a informatika či statistika a matematika. Bioinformatik je pak člověk, který rozumí biologickým datům a problémům. Ví, jak se taková data uchovávají, jak se v nich vyhledává a především jak se dají interpretovat a analyzovat. Spolu s exponenciálním nárůstem množství dat přírodovědného charakteru poptávka po takto široce vzdělaných odbornících v posledních desetiletích prudce roste. Bohužel, Prahu bylo možno považovat až donedávna v jistém smyslu v této oblasti za zaostalou, neboť žádná z pražských vysokých škol nenabízela ucelené bakalářské a magisterské studium bioinformatiky. Z tohoto důvodu se spojily dvě kvalitní pražské univerzity (VŠCHT a ČVUT) se dvěma ústavy Akademie věd (Ústavem molekulární genetiky ÚMG a Ústavem organické chemie a biochemie ÚOCHB) a vytvořily bakalářský a navazující magisterský obor Bioinformatika. VŠCHT je špičkovou univerzitou nabízející vzdělání a provádějící výzkum v přírodních vědách, jako jsou např. chemie a biochemie, biologie, biotechnologie či bioinformatika. Fakulta informačních technologií ČVUT je zaměřena na výuku informatiky orientované jak směrem praktickým, tak směrem teoretickým. Na zainteresovaných ústavech AV ČR působí dvě největší pražské bioinformatické skupiny (skupina na ÚMG patří k zakladatelům a průkopníkům české bioinformatiky a ÚOCHB je sídlem národního uzlu evropské bioinformatické ESFRI infrastruktury ELIXIR), jejichž výzkumné zájmy a odborné znalosti pokrývají celou šíři bioinformatiky, od zpracování sekvencí až po systémovou biologii. Kromě toho mají specialisté z těchto ústavů bohaté přednáškové zkušenosti z výuky v rámci četných bioinformatických kurzů či z mezinárodních konferencí a setkání. Takto vystavěný pedagogický tým dává záruku vysoké kvality výuky ve všech klíčových disciplínách, kterými musí absolvent bioinformatického oboru vládnout.

Bakalářský a navazující magisterský studijní obor „Bioinformatika“ si klade za cíl vychovat všestranné odborníky na analýzu, zpracování a interpretaci dat získaných v biologii, biochemii, biomedicíně a dalších souvisejících oblastech. Absolvent studia je chápán jako biolog/přírodovědec, který získá vzdělání v oblastech informatiky a tyto znalosti pak využívá k řešení biologických problémů. Výuka informatiky je cílena nejen teoretickým, ale hlavně aplikačním směrem do sféry přírodních věd a zahrnuje metody vytěžování znalostí z dat, principy návrhu efektivních algoritmů a jejich praktickou implementaci či práci s velkými objemy dat. Takto profilovaný bioinformatik bude schopen pracovat v multidisciplinárních týmech zaměřených na interpretaci experimentálních dat, vyvíjet softwarové nástroje zjednodušující práci s biologickými, medicínskými či farmaceutickými daty, nebo bude zajišťovat komunikaci mezi přírodovědci a informatiky-programátory. Kromě toho mu jeho programátorské a analytické schopnosti umožní hledat uplatnění i ve firmách z oblasti informačních technologií, statistické analýzy či zpracování dat.

Doufáme, že vás naše povídání zaujalo a navnadilo. Obor Bioinformatika (bakalářský i magisterský) otevíráme ke studiu v září 2014, a pokud byste se o něm rádi dozvěděli více, navštivte stránku http://studuj.bioinformatiku.cz/. Nebo nás zkontaktujte přímo na e-mailu, budeme se těšit.

Autoři:
Doc. Daniel Svozil, VŠCHT Praha, svozild@vscht.cz

Doc. Jan Holub, FIT ČVUT, Jan.Holub@fit.cvut.cz