Centrum informačních technologií FF

Metadata – co má společného Netflix a digitální humanitní vědy?

Metadata jsou všude, aniž byste si jich všimli. Přitom kdyby jich nebylo, tak se nepodíváte na oblíbený film, nevyhledáte informace na webu nebo třeba nenajdete odborný text či knihu, které potřebujete. Metadata jsou klíčem k tomu, aby bylo možné najít, použít ale také znovu využít data, dokument, nebo jiný objekt.

18. 6. 2021 Veronika Wölfelová

Trocha teorie

Metadata jsou obecně označovaná jako "data o datech", obvykle popisují obsah, kontext nebo strukturu určitého objektu. Typickým příkladem je katalogizační lístek v knihovně s uvedením autora, data vydání, počtu stránek, nebo záhlaví webu, kde jsou v hlavičce klíčová slova, název stránky, nebo třeba jazyk stránky. Jiným příkladem je třeba zápis, který vzniká při pořízení fotografie.

Jak zapisovat metadata?

K zápisu metadat se obvykle používá nějaký typ strukturovaného formálního jazyka, ať už jde o HTML, SGML nebo třeba XML, které je základem pro metadatový standard TEI. Asi nejjednodušší příklad takového zápisu, se kterým se člověk setkává běžně každý den, je HTML kód webové stránky, kde je definované umístění, struktura, velikost fontu, nebo jeho barevnost.

Pokud popisná data k dokumentu vytvoříte právě pomocí některého z formálních jazyků, bude zápis nejen strojově čitelný, ale bude možné ho také snadno vyhledat v rámci digitální knihovny nebo archivu. Dokonce i samotná metadata potom mohou být zajímavým výzkumným objektem pro vědce v oblasti digitálních humanitních věd.

Ukázka HTML kódu webové stránky

K čemu slouží metadata?

Existuje celá řada typů metadat. Nejčastěji se však setkáte s takzvanými popisnými metadaty (angl. Descriptive metadata), která slouží k popisu vnitřního obsahu objektu (údaje o tvůrci zdroje: název, vydavatel, rok vydání, a údaje týkající se přímo obsahu zdroje, které jsou klíčové pro koncové uživatele). Pro tento typ popisu se používají standardy jako DublinCore, MARC, TEI nebo MODS.

Dalším typem metadat jsou administrativní metadata (angl. Administrative metadata), která jsou důležitá hlavně pro pracovníky v archivech a repozitářích. Mezi ně patří například data o formátu digitálního objektu, velikosti souboru, jeho modifikacích nebo o hardwaru a softwaru nutném pro jeho správné použití a zobrazení. Může se jednat také o licenční podmínky nebo způsob komprese. Formátem, který se obvykle používá je PREMIS.

Posledním typem jsou data strukturální, popisující vnitřní organizaci objektu. Jsou nezbytná pro to, aby se koncoví uživatelé v dokumentu orientovali. Jedná se například o řazení jednotlivých kapitol, ročníků a čísel časopisu, nebo třeba seznamu obrázků. Pro tento typ metadat se používají standardy jako METS, RDF nebo MARC.

Na ukázce vidíte metadatový zápis ve standardu DublinCore pro vydání Máje, který vytvořila digitální knihovna Kramerius, kde jsou základní údaje o dokumentu jako autor, datum vydání, počet stran, nebo vydavatel.

Metadatový zápis díla Máj ve formátu DublinCore.

Jak Netflix metadaty ovládl streamovací služby

Že nejsou metadata jen formalita, ale může díky nim jedna streamovací platforma převálcovat ostatní, ukázal světu Netflix. Jak ve svém článku popisuje Alexis C. Madrigal, který studoval, jak funguje algoritmus výběru filmů na platformě Netflix, hlavní roli v jeho úspěchu hrála právě obrovská množství popisných dat, kterými Netflix vybavil filmy ve své nabídce.

Zatímco obvykle se setkáme s řazením filmů do maximálně několika předem určených kategorií, jako je například komedie, akční nebo dobrodružný, Netflix má více než 75 tisíc tzv. mikrožánrů, tedy kategorií, které z velké části tvořili a popisovali sami diváci. Oproti popisu filmu, na které jsme zvyklí, Netflix obdařil tagy nejen film jako celek, ale také jeho hrdiny, prostředí nebo jen určité části. Je tak možné, že naleznete kategorie jako Feel-good Foreign Comedies for Hopeless Romantics. Netflix také samozřejmě zpracovává data o vyhledávacích dotazech uživatelů, a průběžně doplňuje kategorie i metadata filmů, a je tak schopen nabídnout neskutečně personalizovaný obsah.

Tisíc a jeden metadatový standard

Jak je patrné z předchozích řádků, metadatových standardů je celá řada a jejich použití závisí nejen na typu metadat, který chceme tvořit (zda chceme popisovat strukturu, obsah dokumentu nebo jiné), ale také v jaké doméně (oblasti) budeme zápis vytvářet. Množství standardů dobře ilustruje infografika od Jenn Rilley, která ukazuje rozdělení metadatových standardů podle oblastí nebo účelu použití. Jedním ze standardů, který byl vytvořen, aby pokryl co nejširší a nejrozmanitější požadavky vědců v humanitních vědách, je TEI – neboli Text Encoding Initiative.

Diagram, který ukazuje metadatové standardy podle domény a účelu použití.

TEI – standard pro Digital Humanities

TEI, tedy formát Iniciativy pro kódování textů, je jedním z nejstarších metadatových schémat. Jeho vývoj začal už v roce 1987, jako společný projekt Asociace pro využití počítačů v humanitních vědách (ACH), Asociace pro využití počítačů v literatuře a lingvistice (ALLC) a Asociace pro počítačovou lingvistiku (ACL). V roce 2000 potom vzniklo už samostatné konsorcium TEI, které tento formát udržuje a rozvíjí.

Proč používat TEI?

Hlavním cílem bylo vytvořit standard, který by vyhovoval oblasti tak rozmanité, jako jsou humanitní vědy, kde popisovaným objektem může být literární dílo, divadelní hra, poezie, středověký rukopis, nebo třeba sken nápisu ze starověkého náhrobku.

Základem pro TEI je už zmíněný značkovací jazyk XML, TEI tedy funguje stejně jako XML na principu párových tagů, jeho uživatelé mohou vytvářet a přidávat i své vlastní tagy. Existují tak speciální tagy pro různé typy obsahu.

Pokud například chceme popsat báseň, můžeme použít tag rhyme pro označení částí, které se rýmují.

Bez popisku

Pro popis divadelních inscenací, nebo jiných představení v rámci TEI existují tagy jako set, je vysvětleno prostředí a časový rámec, ve kterém se dílo odehrává, nebo tag castList, kde je vypsáno herecké obsazení dané hry.

Bez popisku

U rukopisů se pak objevují tagy jako physDesc, kde je popsána fyzická podoba daného rukopisu, tedy v jaké vazbě je rukopis, jaké obrazy nebo dekorace jej zdobí, nebo z jakého materiálu jsou jeho stránky. Jak vidíte na ukázce, autor v metadatovém popisu zahrnul i výjevy na ilustraci úvodní stránky.

TEI ale neslouží jen k popisu objektu jako celku, ale je možné jej použít i k tzv. kódování textu, tedy přidávání tagů přímo do obsahu digitálního nebo digitalizovaného dokumentu. Například ve zmíněné poezii můžete rovnou odlišit jednotlivé verše, v textu rukopisu označit místa, nebo osoby, nebo třeba popsat a označit doprovodné ilustrace a grafické prvky. Díky těmto tagům můžete obsah textu nebo dokumentu dále zpracovávat a analyzovat pomocí počítačových nástrojů.

TEI data jako materiál pro analýzu – co se dá vyzkoumat z metadat?

Metadata mohou být zajímavá nejen pro popis objektů, ale také jako předmět výzkumu. Jako příklad si vezmeme Manuscriptorium. Manuscriptorium je digitální knihovna, která obsahuje tisíce digitalizovaných rukopisů v různých jazycích a z celé řady českých i zahraničních fondů. Jak je vidět z ukázky, metadatové zápisy jednotlivých rukopisů obsahují množství zajímavých informací.

Jako příklad poslouží Pasionál abatyše Kunhuty, rukopis ze 14. století, který je známý pro velmi detailní a zachovalé barevné iluminace, díky kterým byl dokonce prohlášen za národní památku.

Pasionál abatyše Kunhuty.

V TEI hlavičce najdete obvyklé údaje, jako název publikace, autora, datum vydání nebo místo uložení, případně jazyk, v kterém je rukopis napsán. Zajímavé jsou údaje o fyzickém vzhledu rukopisu, například v případě tohoto rukopisu lze zjistit, že jeho rozměr je 25x30 cm, materiálem je pergamen, ale také, že je svázán v dřevěných deskách, a jaké výjevy zobrazují zmíněné iluminace.

Pokud bychom "vytěžili" data, která obsahují metadatové popisy rukopisů, a provedli na nich analýzu, můžeme dojít k zajímavým výsledkům. Jen z těchto popisných dat je možné zjistit, jak se například v čase měnily materiály používané v rukopisech, zda existovali "oblíbení" iluminátoři rukopisů, nebo často vyobrazované výjevy, kdy se z latiny přešlo na jiný jazyk...

Vizualizace vytěžených dat z Digitální knihovny Manuscriptorium, který ukazuje materiál použitý na rukopisy v průběhu let.

Stejným způsobem by se dalo pracovat také s dalšími digitálními knihovnami jako je například Europeana, Kramerius a jiné. Zajímavým projektem je například Visualizing Broadway, který pracuje s databází představení v divadle Broadway, a pomocí metadat, která obsahují obsazení her a muzikálů, nebo dirigenty a skladatele koncertů, vznikají například síťové analýzy, kde je vidět, na jaké skladatele se zaměřují konkrétní dirigenti. To je ale jen zlomek projektů, které je možné s metadaty tvořit.

Síťový graf z projektu Visualizing Broadway, který použil metadata o proběhlých představeních a koncertech.

A kde se můžete setkat s TEI?

Jak už jste si všimli, TEI používá například Digitální knihovna Manuscriptorium, ale najdeme ho také v rozsáhlém archivu Oxford Text Archive nebo databázi Europeana. Seznam dalších desítek projektů je na webu iniciativy TEI.

V učebně nebo online – kde se dozvědět více?

ARTS020 – Digitální humanitní vědy 

Pokud byste se chtěli dozvědět více o tom, proč jsou metadata klíčová pro výzkum v humanitních vědách, i v celé řadě dalších oblastí, můžete si zapsat kurz ARTS020, kde se RNDr. Miroslav Bartošek, CSc. z Ústavu výpočetní techniky na MUNI v jedné z přednášek věnuje právě metadatům a jejich využití.

Více o kurzu

PV1B127 Digital Humanities pro pomocné vědy historické

Metadaty se také zabývá část kurzu DH pro pomocné vědy historické, kde jsou tématem dvou bloků právě metadata, jejich standardy, a značkování textů a TEI.

Více o kurzu

ISKB49 Digitální kurátorství

V tomto kurzu se na metadata budete dívat z pohledu instituce jako jsou například digitální archivy, muzea a jiné. Dozvíte se, jaké standardy se využívají v této oblasti, a jak správně připravit strategii pro uchování digitálních nebo digitalizovaných objektů.

Více o kurzu

Online materiály

TEI Guidelines 

Jestli vás zajímá, co všechno se dá popsat právě pomocí TEI, určitě si prohlédněte manuál od Text Encoding Initiative, kde je kromě podrobného návodu k popisu různorodých objektů také seznam projekt, které TEI používají.

Více zde

UŘLS TEI Cookbook

Pro práci hlavně s rukopisy, je velmi dobrým zdrojem tzv. TEI Cookbook, připravený pod projektem LINDAT/CLARIN. Tato "kuchařka" pro zápis TEI je návodem, který krok po kroku a pomocí názorných příkladů vysvětluje, jak vytvořit metadatový zápis, nebo přímo okódovat obsah (nejen) pro digitalizované rukopisy. Součástí je také šablonka, podle které můžete začít s TEI zápisem třeba hned.

Více zde

TEI by Example

Zde najdete podrobné tutoriály a návody k popisu pomocí TEI s názornými příklady. Základní kurz je nastaven pro popis literárního díla jako prózy, poezie a dramatu, ale v poslední části se naučíte také vytvářet vlastní tagy, nebo si přizpůsobit už existující pro vlastní projekt.

Více zde

Course: Text encoding and the Text Encoding Initiative

Zajímavý je také online kurz a materiály, které připravili DARIAH Teach. V tomto, spíše textovém zdroji se dozvíte více o značkovacích jazycích, o tom, jak pomocí nich modelovat text, a v poslední části i jak v praxi používat právě TEI.

Více zde

Nástroje pro práci s metadaty a značkovacími jazyky

Výhodou značkovacích jazyků je, že při práci s nimi vystačíte s obyčejným textovým editorem, případně pro zápis v XML můžete použít editor jako například Oxygen.


Více článků

Přehled všech článků

Používáte starou verzi internetového prohlížeče. Doporučujeme aktualizovat Váš prohlížeč na nejnovější verzi.