Databáze plných textů nové generace

Jste zde

Uživatelské rozhraní

Databáze vznikla jako výstup výzkumného úkolu zaměřeného na vývoj alternativní koncepce zpřístupňováíní plných textů vyvíjeného v letech 2016 - 2017. Na konci roku 2017 byla databáze spuštěna a zpřístupněna v režimu poloprovozu.

Přístup k uživatelskému rozhraní k fulltextům soustřeďovaným v Manuscriptoriu:

 


Databáze edic plných textů dle konceptuálního modelu z roku 2016

Přístup k samotné databázi edic plných textů navržené a implementované dle konceptuálního modelu z roku 2016 je umožněn pomocí nativního rozhraní neo4j. Rozhraní je neveřejné a pro přístup je potřeba být přihlášen. Přihlašovací údaje lze vyžádat prostřednictvím Referátu Manuscriptoria Národní knihovny České republiky, případně prostřednictvím adresy info@manuscriptorium.com.

 

 


Možnosti využití crowdsourcingu při tvorbě a strukturaci obsahu plných textů v oblasti historických fondů


Vývoj v roce 2017

Byla navržena finální struktura databáze na základě předchiozí analýzy. Struktura byla postupně vyladěna na základě prováděcí analýzy i zkušeností získaných během první féze poloprovozu tvořených nástrojů. Jako vhodný databázový stroj byla vyhodnocena a využita grafová databáze neo4j. Ukázky kódu pro plnění databáíze jsou součástí dokumentace.

Vytvořeno bylo uživatelské rozhraní, které

  • umožňuje vyhledávat existující edice plných textů, číst jejich obsah (včetně podpory pro různočtení a využívání analytických poznámek), propojovat edice s digitalizovanými dokumenty (s podporou syncrhonizovaného čtení) a to bez ohledu na to, na kterých pracovištích vznikají plné texty nebo digitální kopie, či kdo je jejich autorem,
  • umožňuje bezproblémově a za chodu přidávat další fragmenty edic či celé variantní edice,
  • umožňuje sestavovat tzv. virtuální edice plných textů z fragmentů obsažených edic (je tedy možné například sestavit plný text exempláře z různých edic plných textů - více o významu této funkce v dokumentaci),
  • je připraveno na implementaci funkcí pro podporu crowdsourcingu.

Pro získání lepší představy o vlastnostech a limitech navrženého řešení byl vytvořený rešeršní systém naplněn heterogenními daty - plnými texty různých typů (transkripce, překlady, transliterace), které vznikaly na různých pracovištích (v Národní knihovně České republiky, v Etnologickém ústavu AV ČR, v Ústavu pro jazyck český AV ČR a v Parlamentní knihovně).

Navržený model využívá standardu TEI P5, jehož obsah převádí do grafů, jejich součástí jsou fragmenty původních textů, dokumenty, digitální obrazy, elektronické zdroje a další a pojmenované vztahy mezi nimi. Tento koncept tak mj. umožníimportovat obsah i z jiných formátů, než je TEI P5, bude-li to v budoucnu potřeba.