Centrum informačních technologií FF

Nástroje textové analýzy

Pokud už máte vybrané texty k analýze, následuje výběr vhodného nástroje. Existuje celá řada možností od nástrojů, které nevyžadují žádné znalosti kódování, po programovací jazyky jako je například Python, nebo R. Záleží samozřejmě na tom, zda potřebujete provést základní operace jako zjistit počet znaků, frekvenci slov v textu, nebo třeba provést zmíněnou analýzu sentimentu.  

11. 6. 2021 Veronika Wölfelová

Voyant Tools - brána do světa textové analýzy  

Jedním z nástrojů, který je dle jednoho ze svých tvůrců, profesora Geoffreyho Rockwella, vstupní bránou do analýzy textů, je Voyant Tools. Voyant Tools byly vyvíjeny na Albertské univerzitě  profesory Geoffreym Rockwellem a Stephenem Sinclairem, jako nástroj pro naprosté začátečníky bez znalosti kódování, aby jim formou velmi jednoduchého rozhraní a vizualizací umožnily nahlédnout do libovolného textu. Pomocí Voyant Tools zjistíte, jaká slova se nejčastěji vyskytují v textu, jak se mění jejich užití napříč textem, nebo které lokality jsou v textu zmíněny.

Word cloud

V základním zobrazení vidíte “word cloud”, který zobrazuje, která slova se v textu vyskytují nejčastěji. Určitě vás nepřekvapí, že word cloud bude plný předložek a spojek. Ty proto pomocí tzv. STOP LISTU vyřadíme ze seznamu, a můžeme se tak soustředit na zbylá slova. Na ukázce je vidět, jak se náhled změní po vyřazení tzv. STOP SLOV.

Shrnutí

Pod word cloudem vám Voyant nabídne shrnutí dokumentu (případně korpusu dokumentů). Do rozhraní je totiž možné vložit nejen jeden, ale i více dokumentů. Tato záložka vám poskytne základní přehled jako je počet slov a další.

Kontexty

Dalším zajímavým nástrojem ve Voyantu jsou tzv. Kontexty, kde si můžete najít, mezi kterými výrazy se dané slovo nachází, určit si kolik slov před a za konkrétním výrazem vás zajímá. Tato funkce nám pomůže například ve chvíli, kdy chceme zjistit, jaké přívlastky autor dal nějakému předmětu, nebo postavě, nebo v jakém kontextu nějaké slovo použil.  

Dream Scape

Pokud se dílo, které jste vybrali odehrává ve “skutečném světě”, tedy obsahuje existující lokality, můžete si je zobrazit pomocí Voyant Dreamscape. Na ukázce je zobrazena kniha Agathy Christie Murder at Links, která se odehrává převážně v Anglii a Francii.

Voyant Tools samozřejmě obsahuje celou řadu dalších nástrojů a modulů, jako Correlations, XY graf nebo Topics – pro modelování témat.

Sketch engine - korpusy a mnohem více  

Sketch Engine je nástrojem, ve kterém můžete pracovat nejen s existujícími korpusy, ale také v něm tvořit své vlastní, a analyzovat jejich obsah. Výhodou je, že ve Sketch Engine najdeme více než 500 korpusů, mezi kterými je například korpus Staré češtiny, celá řada webových korpusů nebo třeba korpus tweetů z období Brexitu. Sketch engine ale není jen korpusový manažer, má i celou řadu nástrojů pro analýzu textu, kterou mohou využít nejen lingvisté.

Word Sketch

Funkce Word Sketch vám podá informace o chování slova nebo fráze v kontextu, a to na základě mnoha milionů příkladů z praxe. Výstupem je výpis slovních spojení obsahujících vámi zadaný výraz, s odkazy na každé konkrétní použití. Můžete tak například vidět, se kterými slovesy, nebo přídavnými jmény se pojí vámi zadaný objekt,

Sketch Difference – Sketch rozdíl

Funkce Sketch difference vám umožňuje zobrazit rozdíl mezi dvěma slovy ve stejném korpusu, nebo jedním slovem ve dvou korpusech.

Tezaurus

Velmi užitečná a jedinečná funkce Sketch Enginu, na rozdíl od klasických tezaurů, které nabízí předem definovaný list synonym, nebo podobných slov, tezaurus ve Sketchenginu tato slova vyhodnocuje z tisíců textů dostupných v korpusech.

Konkordance

Jednou z funkcí je konkordance, která vám umožní vyhledávat výrazy a slova v textu v několika formách. Konkordance zobrazuje slova v kontextu textu, který zkoumáme (KWIC = keyword in context). Pokud zvolíte jednoduchý typ dotazu, můžete hledat jednotlivá slova či slovní spojení ve všech tvarech. Po vložení tvaru do vyhledávání se vám podobně jako ve Voyantu objeví kontext, ve kterém se slovo nachází.

N-Grams

N-gramy jsou víceslovné výrazy, tedy dvě a více slov, která se v daném korpusu velmi často vyskytují spolu. Příkladem 3 slovného výrazu je například "v tu chvíli”, “od té doby”, a tak dále. Díky nástroji N-grams můžete ve zvoleném korpusu vyhledávat 3-6 slovné výrazy.

Google N-Grams

Zajímavým, i když mnohem méně komplexním, než jsou právě Voyant a Sketch Engine je Google N-Grams. Výhoda Google n-grams je, že dokáže vyhledávat v korpusu digitalizovaných knih Google books. Tak jako n-grams ve Sketch enginu vyhledává dva a více slov, která se vyskytují vedle sebe.

Sentiment viz – Tweet Sentiment Visualization

Mini-nástroj, který slouží výhradně k analýze obsahu Tweetů. Umožní vám zadat klíčové slovo, a přes webové rozhraní na souvisejících tweetech provést základní analýzu sentimentu, získat převažující témata, nebo konkrétní tweety zobrazit na mapě.

NLTK

Pokud byste se chtěli pustit do pokročilejší analýzy texty, a máte zkušenosti například s jazykem Python, potom vás může zajímat NLTK – neboli Natural language Toolkit, což je balíček nástrojů pro textovou analýzu v Pythonu. Pomocí něj můžete provést úkony jako je lemmatizace, nebo tokenizace, ale také vyfiltrovat z textu tzv. Stop slova, vyhledat v něm jmenné entity nebo jako v už uvedených nástrojích zkoumat konkordance a kolokace daných výrazů.

API nástroje od NLP centra na MUNI

Dalšími zajímavými nástroji jsou API, které vytváří Centrum pro zpracování přirozeného jazyka. Můžete díky nim z textu extrahovat témata, zmíněné lokality, nebo provést jeho morfologickou analýzy. Jediným limitem je počet znaků, který je nastaven na 1000 znaků a počet přístupů na den (500).

A kde se naučit metody textové analýzy?

Dokumetace k nástroji Voyant Tools:

Voyant Tools guide je interaktivní oficiální průvodce nástrojem Voyant Tools. Obsahuje přehled všech modulů, vizualizací a funkcí programu, a uvádí i příklady jejich použití.

PLIN064 Úvod do Digital Humanities

V tomto kurzu vám Zuzana Nevěřilová kromě úvodu do Digitálních humanitních věd představí podrobně práci s Pythonem a zmíněným balíčkem NLTK. Dozvíte se o tom, kde nalézt textové korpusy, jak si je sami vytvořit a naučíte se základní operace s texty v Pythonu. Ke kurzu nepotřebujete předchozí znalost Pythonu, vše se naučíte právě během kurzu.

Více o kurzu

ARTS020 Digitální humanitní vědy

Pokud se chcete dozvědět více o celém procesu zpracování digitálních dat (nejen) v humanitních vědách, potom vás může zajímat kurz Digitální humanitní vědy. V průběhu kurzu se dozvíte, jak získat data z digitálních zdrojů, jak je čistit, přiřadit jim metadata, ale také jak je analyzovat. Jedna část se týká také dat textových, zmíněné práce s korpusy, a v průběhu lekce si vyzkoušíte programy Sketch Engine a Voyant Tools.

Více o kurzu

Digital Humanities Tool Workshop: Voyant for Text Analysis

Online workshop, který ukazuje základy práce s Voyant Tools od Pamely Lach.

Přejít na video

Programming Historian - nástroje pro zpracování textu

Asi nejlepším zdrojem je web Programming historian, který se zaměřuje na výuku digitálních nástrojů právě pro humanitní vědy. V oblasti textové analýzy můžete najít lekce zaměřené na Distant reading, Analýzu sentimentu, práci s korpusy nebo modelování témat. Mezi nástroje, které si můžete díky lekcím vyzkoušet jsou již zmíněný NLTK, ale také R, Mallet (nástroj pro modelování témat) nebo Antconc (nástroj pro konkordance).

Introduction to NLP - Úvod do zpracování přirozeného jazyka

V tomto kurzu, který už ale vyžaduje alespoň základní znalosti programovacích jazyků Python nebo Java, vám přední odborníci na zpracování přirozeného jazyka představí množství technik a postupů běžných v oblasti. Celý kurz je dostupný ve formě YouTube videí, a tak si můžete i jen pro zajímavost alespoň podívat na teoretická videa.

Přejít na kurz

EdX - Introduction to Digital Humanities

Online kurz, který připravili vyučující z Harvard University je dobrým začátkem pro ty, co se chtějí na konkrétních příkladech dozvědět, v jakých oblastech humanitních věd nám mohou počítače pomoci. Jednou z oblastí je také práce s texty, která je demonstrovaná na výzkumném projektu jednoho z profesorů.

Přejít na kurz


Více článků

Přehled všech článků

Používáte starou verzi internetového prohlížeče. Doporučujeme aktualizovat Váš prohlížeč na nejnovější verzi.