BRNO - V čase, keď sa väčšina vývojárov sústredí takmer výhradne na cloudové riešenia, sa spoločnosť Venlan venovala vývoju špecifického komplexného on-premisie riešenia AI Transriber PIXLA určeného na prepis hovoreného slova do textu. Vďaka unikátnemu konceptu, ktorý pracuje výhradne s dátami vo vnútri zabezpečenej siete zákazníka, cieli projekt na subjekty pracujúce s prísne dôvernými či dátovo veľmi objemnými súbormi. Vzhľadom na multijazyčnosť má toto nové riešenie ambície preniknúť nielen na lokálny trh, ale aj do krajín Európskej únie. Ohlasy na pilotné testovanie projektu je veľmi úspešné.
Prepis reči nie je žiadnou novinkou. Aktuálne dostupné riešenia však pracujú ako cloudové služby. To znamená, že pre prevod hovoreného slova do textu je potrebné odoslať zdrojový audio alebo video súbor do cloudu, kde je využívané úložisko a výpočtový výkon tretích strán. Zadávateľ potom spravidla platí podľa časovej dĺžky zdrojového audiovizuálneho súboru. Tento postup je pre rad potrieb a spoločností plne vyhovujúci. Sú tu však aj inštitúcie, ktorých dáta sú buď veľmi citlivé, alebo potrebujú prevádzať pravidelne veľké množstvo hovoreného slova. Príkladom môžu byť súdy, štátne či mestské úrady, nemocnice, callcentrá alebo napríklad televízne a rozhlasové stanice.
„Pri vývoji Venlan AI Transriber PIXLA sme sa zamerali na špecifickú cieľovú skupinu užívateľov a im sme prispôsobili nielen celkové riešenie, ktorého súčasťou je aj hardvérové „pikslá“, ale aj proces učenia transkripcie, ktoré časovo zabralo najväčšiu časť vývoja. Trúfam si preto tvrdiť, že náš produkt ponúka najlepšie výsledky pri prevode akademických textov plných odborných termínov z právnej praxe, zdravotníctva, či napríklad histórie,“ popisuje svoj AI produkt Vladislav Janeček, konateľ spoločnosti Venlan.
PIXLA si poradí s prepisom textu z audiovizuálnych súborov obsahujúcich hovorené slovo vo viac ako 30 jazykoch, pričom základ tvoria všetky jazyky používané v EÚ. Vďaka využitiu pokročilých nástrojov umelej inteligencie využíva nielen rozpoznávanie slov či hlások, ale pri prevode berie do úvahy aj kontext konkrétneho textu. Vďaka tomu je výsledkom prirodzene znejúci text, ktorý sa veľmi blíži pôvodnému vzoru a súčasne sú do značnej miery eliminované prerieknutie, odkašľanie alebo často sa opakujúce citoslovce (éééé, áááá atď.).
Základom on-premisie riešenia Venlan AI Transriber PIXLA je hardvérové zariadenie určené na inštaláciu do infraštruktúry vnútornej zabezpečenej siete. Ovládanie je veľmi jednoduché, pomocou správcu súborov stačí pretiahnuť audiovizuálny súbor do okna aplikácie, ktorá zaistí jeho skopírovanie do zabezpečeného úložiska PIXLY, kde je zvuk pomocou integrovaných výpočtových prostriedkov prevedený na text a súbor je následne automaticky zmazaný. Z videí získa užívateľ okrem čistého textu aj súbor typu .srt s predpripravenými titulkami. Časti textu, ktorým transcriber dobre nerozumel, sú farebne zvýraznené. Aplikácia je k dispozícii pre operačné systémy Windows, macOS aj Linux. Okrem toho je možné systém integrovať aj priamo do firemného systému či spisovej služby pomocou protokolu restAPI.
Výsledky prevodu sú k dispozícii v priebehu okamihu. Praktické skúsenosti získané v rámci jednej z pilotných testovacích inštalácií na vybraných magistrátoch a univerzitách ukazujú, že napríklad prevod sedemhodinového zvukového záznamu s účasťou niekoľkých osôb trvá pomocou Venlan AI Transriber PIXLA menej ako jednu hodinu.
Napriek tomu, že možnosti prevodu závisia na kvalite zvukového záznamu, si transcriber vďaka precíznej práci vývojárov pri učení poradí dobre aj s nežiaducimi ruchy v zázname.
Aktuálnou čerstvou novinkou implementovanou do riešenia Venlan AIT Pixla je prevod hlasu do textu v reálnom čase. Prostredníctvom aplikácie bežiacej na počítači užívateľa alebo na mobilnom telefóne so systémom Android* je možné prevádzať na text zvukový záznam snímaný vstavaným mikrofónom alebo pomocou iného kompatibilného pripojeného audio zariadenia. Túto funkciu je možné vhodne využiť napríklad na diktovanie lekárskych správ alebo titulkovanie hovorcov na konferenciách.
Táto technológia stojí tiež za projektom Neslyším-rádio.cz (https://neslysim-radio.cz), ktorá dáva nepočujúcim možnosť čítať v reálnom čase živý prepis rozhlasového vysielania bežne dostupného v celoplošnej rozhlasovej sieti DAB.
Technológie a modely Venlan AI Transriber PIXLA sú k dispozícii aj ako cloudová služba, ktorá sa vďaka kvalite prevodu a bezplatnému využitiu pre záznamy do jednej minúty stáva obľúbeným nástrojom na titulkovanie krátkych videí tiktokerov a ďalších tvorcov audiovizuálneho obsahu. Aj túto službu je však možné využiť na prevod ľubovoľne dlhých alebo dátovo obsiahlych súborov.
* aplikácia prechádza schvaľovaním v Google Play Store
Ďalšie informácie vrátane základného cenníka nájdete na https://ait.venlan.cz/
Pre používanie spravodajstva Netky.sk je potrebné povoliť cookies