Hlasoví asistenti v kostce: jaký byl jejich vývoj a jak fungují?

Jejich revírem jsou mobilní telefony, počítače a dokonce i některé chytré reproduktory. Jejich tempo je obdivuhodné. Jejich protivníci jsou nefunkční mikrofony a internet. Hlasoví asistenti pro nás pracují ve dne v noci, jejich úkolem je asistovat lidstvu…

… prostě jsou všude, i když zrovna v České republice na ně zatím moc nenarazíme. Ve Spojených státech, Velké Británii či v Německu jsou hlasoví asistenti nepostradatelnou pomůckou v každodenním životě. Většina uživatelů si myslí, že prvním průkopníkem ve světě hlasové asistence byl Apple se svou Siri. To není zdaleka pravda – historie se táhne mnohem dále.

Rozumíš, co ti říkám?

Aby hlasový asistent mohl fungovat, potřebuje zejména dobře rozpoznávat řeč a na základě příkazu dodat uživateli relevantní výsledek. Na rozpoznávání řeči se začalo pracovat v roce 1961, kdy společnost IBM představila první rozpoznávač – IBM Shoebox. Ten toho na dnešní dobu moc neuměl – rozpoznal pouze 16 slov a číslice. Bylo však jednoznačné, že tato technologie se bude nadále rozvíjet.

[1] IBM Shoebox
A také že rozvíjela. V roce 1972 se vývoje ujala Carnegie-Mellonova univerzita ve Spojených státech, která vyvinula program pojmenovaný Harpy. Harpy byl mnohem schopnější než Shoebox, uměl totiž rozpoznat kolem tisíce slov. Bylo jen otázkou času, kdy se počet slov začne zvyšovat a podobné nástroje začnou sloužit veřejnosti.

První nástroj, který si mohli běžní zákazníci zakoupit, byl od společnosti Dragon. Nesl název Dragon Dictate a jeho hlavní funkcí bylo převádění mluveného slova do textové podoby. Mezi jeho hlavní výhodu patřilo bezpochyby množství rozpoznatelných slov, nicméně pár háčků se našlo. Aby bylo slovo korektně rozpoznáno, musela se celá věta „kouskovat“ po slovech. Druhou nevýhodou mohla být pro někoho cena. Ta se pohybovala v té době okolo 6000 amerických dolarů. Pro představu, při dnešním kurzu to je zhruba 131 tisíc českých korun. No nekupte to!

Vypadá to, že píšete dopis. Mohu vám s tím pomoci?

[2] Clippyho netřeba představovat.
S touto (či podobnou) větou se snad setkal každý uživatel Microsoft Office od verze 97 do 2003. Řeč je o asistentovi Clippy, „chytré“ sponce, která sledovala vše, co jsme v dokumentu udělali a občas nás doslova zaplavovala různými radami a triky.

I když občas dokázala být trochu otravná, ukázala druhou nedílnou součást dnešních asistentů. Reagovala na určitý typ dotazu, případně rozpoznala určitou formu psaného dokumentu a snažila se dodat co nejrelevantnější výsledek. Vesměs byl tento princip používán donedávna. Někteří hlasoví asistenti dokázali reagovat jen na předem danou frázi, která je předem určena. Dnešní inteligentnější asistenti dokáží rozpoznat, „co danou větou chtěl básník říci“ a snaží se rozpoznat její smysl.

Příchod (nejen) do mobilních zařízení

První opravdoví asistenti přišli až v tomto desetiletí, konkrétně v roce 2011. Tehdy Apple spojil rozpoznávání řeči, výsledky hledání a hlasovou syntézu a představil prvního hlasového asistenta (i když spíše asistentku) Siri. I před představením bylo možné ovládat mobilní telefon hlasem, nicméně to bylo jen prosté oznamování příkazu: zavolej někomu, přehraj něco. Siri kupodivu není originální projekt Applu, jak si někteří uživatelé jablečného mobilního systému myslí. Siri byla dříve aplikace třetí strany, která šla běžně stáhnout z App Storu. Apple se ovšem rozhodl projekt koupit a zapracovat přímo do systému.

Jak vypadalo uvedení Siri?

Další softwaroví giganti si nenechali utéct příležitost – Google představil svou službu Google Now o rok později (2012), dva roky od uvedení Siri přivedl na svět svoji asistentku i Microsoft pod jménem Cortana. Na každém majoritním mobilním operačním systému (iOS, Android a Windows Phone) už tak bylo možné používat všech možností, které asistenti přinášejí.

[3] Svoji asistentku mají i umírající mobilní Windows.
Kromě mobilních telefonů se můžete s asistenty potkat i v chytrých reproduktorech. Tu první, Alexu, představil Amazon s reproduktorem Amazon Echo. Tím se nechal inspirovat a později uvedl Google Home, tedy svoji verzi s Google Assistant. Ani počítače nepřišly zkrátka. S příchodem Windows 10 na počítače přišla i Cortana, o něco později přišla Siri na počítače od Applu.

Jak to vlastně funguje?

Jak vlastně hlasový asistent pracuje s naším dotazem? Pomáhá tomu umělá inteligence a strojové učení.

První věcí, co program stojící za hlasovým asistentem udělá, je převod hlasu na text. V dnešní době je převod hlasu na text možný hned v několika (nejen) světových jazycích. Například Google má k převodu řeči na text JavaScriptové API, které využívá ve svých službách Google Now a Google Assistant.

Zajímavější částí je převod textu na nějaký smysluplný dotaz. Veškeré zpracování textu dotazu probíhá na serverech poskytovatele služby. Umělá inteligence stojící za asistenty se totiž nesnaží pochopit slovo od slova, ale snaží se pochopit význam celé věty z pohledu přirozeného jazyka. Díky vyhledávání klíčových slov je celá operace rychlejší. Díky tomu je stejně rychlé vyhledání dotazu „Siri, najdi mi prosím, jaké bude zítra počasí v Praze“ a „zítřejší počasí v Praze“. V tomto konkrétním případě je zřejmé, že se ptáme na počasí (konkrétní určení věc), zítřejší den (konkrétní určení času) a Prahu (konkrétní určení místa). Důvod je prostý: každý z nás používá jiný způsob, jak se vyjádřit. Kdyby se měl každý asistent učit jen fráze místo hledání kontextu ve větě, nikdy by se neposunul dále.

[4] Na asistenta mluvíme různě. Zde je příklad možné komunikace.
Informace, které vám asistent doručí, nepocházejí z jeho vlastní databáze. Pro jejich získání oslovuje služby třetích stran přes API. Pokud se tedy zeptáte na otázku ze světa matematiky, spojí se v Wolfram Alpha (či jinou službou podobného charakteru), pokud dotaz bude směřovat například na počasí, asistent využije služby poskytující meteorologické informace, například Foreca či AccuWeather.

Kdy se jich dočkáme v ČR?

Drtivou většinu hlasových asistentů můžete v České republice používat, ovšem pouze pokud na ně budete mluvit anglicky, případně jinou řečí, kterou daný asistent dokáže rozpoznat. Pozorného čtenáře jistě napadne otázka, proč tomu tak je? Však nástroje na převod řeči do textové podoby jsou dostupné i pro češtinu. Problém není v převodu, ovšem v samotné interpretaci. Čeština je jazyk dosti rozvinutý a disponující velmi obtížnou gramatikou. Pokud by se nějaká společnost rozhodla vyvíjet asistenta zpracovávající češtinu, stálo by jí to mnoho úsilí. Samozřejmě se přidává i druhý pohled na věc, a to, zda-li by se vývoj vyplatil….

V budoucnosti se samozřejmě česky hovořícího i chápajícího můžeme dočkat. Vše je jen otázkou času a navrácení investice, která do případného vývoje bude vložena.

Když se asistenti dostanou do rukou dětem

Umělá inteligence ve formě chytrých asistentů dokáže mnoho věcí, co by člověku trvaly podstatně delší dobu. Usnadňuje v mnoha ohledech život, ovšem někdy mohou nastat situace, kdy nevinná otázka dokáže asistenta roztočit na plné obrátky s výsledky, které jste tak úplně nechtěli… Sama se o tom přesvědčila rodina ze Spojených států, která k přístroji Amazon Echo připustila svého malého synka. Ten si chtěl přehrát svoji oblíbenou dětskou písničku Digger Digger. Alexa, asistentka použitá v reproduktoru Echo, si to přebrala po svém a začala na nevinného hocha tasit ty nejpeprnější výsledky.

Spojenými státy také proběhlo několik případů, kdy přes chytrý reproduktor od Amazonu děti omylem objednali určitý produkt. Nejznámějším případem byla holčička, která Alexu pověřila tím, aby objednala dům pro panenky a sušenky.

Vskutku obrovské množství sušenek a ne zrovna nejlevnější dům pro panenky opravdu dorazil…

Inu, s asistenty je to jako se vším jiným. Dokáží člověku sloužit, ale když se dostanou do špatných rukou, dokáží být zlými pány.

 

Foto:
hlavička článku: getmagic.com
[1] ibm.com
[2] wikimedia.org
[3] vox-cdn.com
[4] wp.com

 

 

SdíletShare on Facebook1Share on Google+0Tweet about this on TwitterEmail this to someone

Milan Kurka

V redakci časopisu začínám třetí rok a stále mě to neuvěřitelně baví – stejně jako FIT! Obě tyto věci spojují mé největší záliby v jednu – a to psaní o informatice. Kromě časopisu jsem členem FIT++, kde kromě jiného organizuji akci pro nové studenty Hello FIT!. Přizván jsem byl také k organizaci fiťáckého Seznamováku, pravidelně mě můžete vidět na různých fakultních akcích a … prostě je toho hodně. :) Ve volném čase se věnuji grafice, webařině a výletům do neznáma, protože život přeci není jen počítač. :)

Kontaktovat mě můžete na kurkamil@fit.cvut.cz.