úterý 25. června 2024 Ivan

Lingvisté analyzovali texty od autorů, politiků i zločinců a vynalezli novou technologii pro určení autora

Vědci z Filozofické fakulty Univerzity Palackého v Olomouci (FF UP) vyvinuli unikátní technologii, která umožňuje automatické profilování osob.

Zcela nová technologie najde využití v uzpůsobování internetového obsahu, v reklamě, v personalistice i při komunikaci s ohroženými skupinami lidí. Pomůže také psychologům, vyšetřovatelům i při procesech vedoucích k rozvoji bezpečnosti státu. Po několikaletém výzkumu a vypracování potřebných rešerší je nová technologie evidována na patentovém úřadu v USA.

Již několik let se odborníci z Katedry obecné lingvistiky FF UP zabývají vlastnostmi textu, které jsou založeny na frekvencích. Princip frekvenční analýzy je dlouhodobě ověřenou metodou, která se využívá například při detekci autorství. Zatímco klasická lingvistika se zaměřuje na jevy s vyšší frekvencí, lingvisté z Olomouce - Dan Faltýnek, Martina Benešová, Ondřej Kučera a Vladimír Matlach, členové Katedry obecné lingvistiky a Katedry asijských studií, zjistili po několika letech bádání, že lze získat ještě lepší výsledky pomocí méně častých jevů. Při analýze pracovali s texty od spisovatelů jako Jack Kerouac nebo Joanne K. Rowlingová, s písemnými projevy politiků Karla Marxe, Silvia Berlusconiho nebo Václava Havla, texty masových vrahů jako Elliot Roger nebo Theodore Kaczynski, a také s vzorky textů podnikatele a filantropa Elona Muska.

„S kolegy jsme zjistili, že podle nízko frekventovaných, ale pravidelně rozmístěných, opakujících se slov lze autora poznat také. A co víc, ještě s vyšší mírou jistoty. Už několik let se tedy zaměřujeme na opačné spektrum, na zvláštní skupinu slov v dané slovní zásobě konkrétního člověka. Postupem času jsme vyvinuli technologii, která nám umožňuje najít nízkofrekventovaná klíčová slova, která jsou společně s důrazem na sentiment (postoj řečníka k určitému tématu – pozn. red.) otiskem autora,“ uvedl Dan Faltýnek z katedry obecné lingvistiky FF UP.

Tento objev je převratný, protože dosud existující metody neposkytovaly tak vysokou jistotu autorství. Díky nové technologii stačí Olomouckým vědcům k určení autorství poměrně krátký text, zhruba 200 až 500 slov, a při získání cca 1500 slov mohou autorství zaručit s velmi vysokou mírou pravděpodobnosti.

Nová technologie, která je nyní v procesu patentového řízení, dokáže extrahovat profil lidí. To, jaká slova člověk opakuje, může například poukázat na jeho psychický stav nebo sociální oblast. Technologii tak lze využít v personalistice, v online psychoterapii, v soudních kauzách nebo při komunikaci s ohroženými skupinami. Své místo najde také při tvorbě personalizované reklamy či v boji proti extrémismu, terorismu a dezinformacím díky možnosti identifikovat inkriminované osoby. To vše zahrnuje oblast tak zvané umělé inteligence, v tomto případě tedy způsob zpracování digitálního textu.

„Možností, kde se naše technologie dá zužitkovat, je opravdu hodně. Lze ji využít i na obranu proti personalizaci, tedy k tomu, aby již řečeným způsobem k ovlivňování chování osob na internetu naopak nedocházelo. V rámci programu Open Calls for Security Research (OPSEC) jsme byli čtyřmi ze čtyř posudků ohodnoceni jako projekt doporučený k rozvoji bezpečnosti státu. Nejjednodušší variantou využití naší technologie bude v dohledné době aplikace, která lidem umožní dozvědět se něco o sobě a pomůže jim v seberozvoji,“ řekla Martina Benešová.

Unikátní technologie vědců z katedry obecné lingvistiky a katedry asijských studií FF UP je konkurencí technologiím Adobe i Google.

„Od počátku našich výzkumů, kdy jsme pracovali pouze s tužkou a papírem, jsme se vypracovali k automatizovanějším postupům. Díky grantu Vědeckotechnického parku Univerzity Palackého v Olomouci jsme mohli zaplatit náklady související s podáním patentu. Při vývoji samém jsme spolupracovali i se studenty, kolegy a interními i externími subjekty. K uvedenému výsledku by rozhodně nemohlo dojít bez spolupráce s Inovačním centrem Olomouckého kraje, které nám pomohlo s návrhem technologické inkubace. Patentový zástupce již vypracoval rešerše, které dokázaly, že je naše technologie skutečně nová,“ doplnil Ondřej Kučera z FF UP.

Olomoucká technologie s názvem „System and method for adapting text-based data structures to text samples“ je v tuto chvíli již pod patentovou ochranou. Díky několikaleté intenzivní práci vědci z FF UP disponují třemi softwary šitými na míru uvedené technologii, jejichž činnost by rádi propojili. Téma, jemuž se na katedře obecné lingvistiky a katedře asijských studií FF UP věnují, však nabízí další možnosti bádání a už nyní přemýšlí o dalších patentových možnostech. Všechny uvedené technologické kroky bude výzkumný tým předávat studentům v novém profesně zaměřeném bakalářském studijním programu Jazykovědný analytik na FF UP.

Ohodnoť článek

Autoři | Zdroj Tisková zpráva

Komentáře

Pro přidání příspěvku se musíte nejdříve přihlásit / registrovat.

Přihlášení uživatele

Zapomenuté heslo

Na zadanou e-mailovou adresu bude zaslán e-mail s odkazem na změnu hesla.