Na OU@live je krásný přehled úspěchů studentů a pedagogů naší univerzity. Za těmito úspěchy jsou často schovány i neúspěchy, byť utečou jen o vlásek. To však ke kariéře vědců neodmyslitelně patří. Dva výzkumníci z Ústavu pro výzkum a aplikaci fuzzy modelování (ÚVAFM), Petr Hurtik a Marek Vajgl, dostali informaci o celosvětové otevřené soutěži na zpracování obrazu, a protože se v současné době věnují aplikaci umělé inteligence v této oblasti, rozhodli se zúčastnit. Soutěž trvala tři měsíce, byla online formou a nabízela hned tři lákadla: 1) v přepočtu necelého půl milionu korun rozdělených pro první tři místa; 2) srovnání se se světovou konkurencí; 3) prezentaci tří nejúspěšnějších řešení na slavnostním ceremoniálu v Tokiu. Cíl byl tedy jasný: být v první trojce, či soutěž rovnou vyhrát.
Zadání bylo poměrně jednoduché: na vstupních fotografií nalézt požadované objekty. K dispozici bylo 184 trénovacích fotek, kdy na každé bylo od několika desítek do několika stovek objektů k detekci. Celkem tak bylo potřeba v této testovací sadě detekovat cca 22 tisíc objektů. Každý objekt pak bylo třeba rozpoznat a zařadit do jedné z 223 tříd. V této soutěži se jednalo o fotografie polic, ve kterých byly uloženy cigaretové krabičky. Cílem bylo nalézt ve fotografii všechny krabičky a u každé z nich určit výrobce a typ podle zadaných kategorií. Snímky byly reálné, „z ruky“, obyčejným kompaktem.
Dílo to bylo nelehké. Je poměrně složité vměstnat na fotografii 50 svatebčanů, natož tak 200 cigaretových krabiček. Navíc, fotografové fotící cigaretové krabičky neexperimentují se správným nasvícením, odlesky, rotací, nebo vhodnou hloubkou ostrosti. Přesto bylo cílem detekovat a rozpoznat jednotlivé krabičky s přesností 98%. Na řešení se pracovalo téměř celé tři měsíce, převážně po večerech a nocích. Velkou výzvou bylo také to, že řešení vznikalo ze značné části na službě Google Colab, která nabízí provádění náročných výpočtu v oblasti deep learningu zdarma, ovšem s omezeným výkonem. Omezenému výkonu muselo být přizpůsobeno i vytvářené řešení.
V průběhu soutěže mohli soutěžící posílat až třikrát denně návrhy postupně zlepšujících se řešení a sledovat online žebříček s hodnocením. Impozantní je, že s podmínkami soutěže souhlasilo 1013 soutěžících, jenž si zároveň stáhli data k prozkoumání. Z toho však pouze 114 soutěžících zvládlo poslat alespoň jedno řešení, dohromady všichni zaslali postupně 1 729 navržených řešení! To vše ukazuje na obtížnost soutěže – ne každý, kdo se přihlásil, byl schopen vytvořit alespoň nějaký výsledek. I týmu z ústavu ÚVAFM trvalo dva týdny, než navrhli celou aplikaci a zvládli vůbec poslat první návrh. V průběhu se jim sice podařilo dostat se na první místo, ale poté však už bohužel průběžně klesali. Rychlejší vývoj brzdil chybějící výpočetní výkon – každé drobné vylepšení vyžadovalo hodiny výpočetního času, po kterých se teprve ukázalo, zda se jednalo o krok správným směrem.
Nakonec tým skončil na tom „nejhorším“, tedy čtvrtém místě. Jak moc bylo vzdálené třetí místo? V tzv. testovací sadě (fotografie, které nebyly dříve k dispozici a použily se pouze až na finální vyhodnocení) bylo cca 7 tisíc objektů k rozpoznání. Náš tým měl správně 6 877 objektů, soutěžící na třetí místě 6 879 objektů, druhé místo pak mělo správně 6 880 objektů. Chybělo tedy opravdu málo.
Za zmínku stojí, že naučený model na třetím místě musel být více než pětkrát větší, než náš model (pro představu – více než 5GB oproti méně než 1GB). Efektivita řešení se bohužel nehodnotila, ale možná právě efektivnost vytvořeného řešení na IRAFM byla důvodem k dodatečné nabídce na prezentování výsledku na slavnostním vyhlášení soutěže.
Celkové dílo je tedy neúspěchem z pohledu finančního, ale získané zkušenosti z takového (a dalších podobných projektů) jsou velmi důležité a jistě pomohou v řešení podobných úloh příště.
Mimochodem, studenti jsou vítáni a ve vzájemné spolupráci se členy skupiny ÚVAFM zaměřené na zpracování obrazu se mohou vrhnout do některé z dalších vyhlášených soutěží. Třeba to vyjde příště.