A kutatócsoportról

Kutatócsoportunk 2018 szeptemberében alakult. Fő célkitűzésünk, hogy a nemzetközi digitális filológiai ajánlások (elsősorban a Text Encoding Initiative) alkalmazásával kidolgozzunk egy magas szintű, gazdagon annotált elektronikus kritikai fakszimile kiadások létrehozásához használható módszertant, valamint fejlesszünk ilyen kiadásokat elsősorban a helyi, ill. a regionális kulturális örökség szöveges emlékeinek a megőrzésére, szabványos digitális kódolására és publikálására.

A létrejövő digitális objektumok XML-fájlok, az XML-ből XSLT segítségével tetszőleges formátum állítható elő, a letölthető e-könyv formátumokon (pl. PDF, EPUB) túl alkalmas a webes megjelenítésben használt fájlok (pl. HTML) előállítására is. A kutatás várhatóan az alábbi eredményekkel jár majd:
-   tisztáz a magyar kéziratos, valamint korai nyomtatott források szövegdigitalizálásával, valamint TEI-XML-kódolásával kapcsolatos alapkérdéseket
-   kidolgoz egy egységes módszertant a források TEI-kódolására és internetes publikálására
-   a kidolgozott módszertant kézikönyv formájában publikálja
-   a létrejövő digitális kritikai kiadásokat az interneten publikálja, egy részüket a forrásról készült jó minőségű képpel összekapcsolva (digitális kritikai fakszimile).
A digitális kritikai kiadások és a képek összekapcsolása terveink szerint szószinten történne, ami lehetővé tenné, hogy szóalapú keresőt fejlesszünk hozzájuk. Így nem csupán a szinoptikus olvasásra volna lehetőség, hanem a források szövegében úgy lehetne kereséseket végezni, hogy a találatok képen is megjeleníthetők lennének.

A kutatás központi kérdése, hogy milyen módon lehetséges a kéziratos és korai nyomtatott források szabványos, a lehető legnagyobb mértékben platformfüggetlen digitális leképezése és publikálása. A szabványosság és a platformfüggetlenség több szinten is megoldandó probléma. A középkori és kora újkori kéziratos és nyomtatott források esetében pl. már a digitális szöveg előállítása is akadályokba ütközhet, ugyanis vannak olyan speciális grafémák, amelyek Unicode-kódolása nem áll rendelkezésre. A kutatás ezt a kérdést alapvetően úgy próbálja megoldani, hogy kidolgoz egy egységes módszertant az átírási rétegek (paleográfiailag hű, diplomatikailag hű) előállítására. Ebben részben nemzetközi standardokra (pl. Medieval Unicode Font Initiative) támaszkodik, részben kénytelen saját metódusokat kidolgozni. A szabványosság és platformfüggetlenség következő szintje a metaadatolásban használt jelölőnyelv kérdése. Bár a TEI-XML ez esetben rendelkezésre álló nemzetközi ajánlás, az alkalmazása mégsem magától értetődő: a TEI-kódolás saját célokra adaptálása ugyancsak központi problémája a kutatásnak. A következő szint a szabványos és platformfüggetlen publikálás problémája: a létrejövő digitális kiadásokat hogyan lehet oly módon közzétenni, hogy a megjelenítő eszközöktől függetlenül ugyanúgy (ugyanabban a formában és ugyanolyan funkcionalitással) használhatók legyenek. Ez utóbbi esetében kiemelt célunk a reszponzivitás (azaz a mobil eszközökön való használat lehetőségének a biztosítása) is, hiszen (különösen az ómagyar nyelvemlékek és a Mikes-levelek esetében) a közoktatásbeli felhasználás lehetőségét is szeretnénk megteremteni.

Kutatásaink eredményeképpen létrejöhet egy olyan ajánlás (standard), amely alkalmas a magyar kéziratos és korai nyomtatott források egységes szövegdigitalizálására, digitális kritikai kiadásának, illetve fakszimiléjének az előállítására és publikálására. Mivel projektünkben többféle forrástípus szerepel, lehetővé válhat ezek (szórványemlékek, kódexek) digitális kritikai kiadása, illetőleg a képpel összekapcsolt fakszimile változatuk publikálása is. A régi magyar (kéziratos) szövegek elég széles köre elérhető valamilyen digitalizált formában a világhálón. Ezen közlések zöme azonban megmarad a reproduktív szinten, azaz a forrás különböző minőségű képét publikálja többnyire valamilyen szabványos formátumban, esetenként a képet tartalmazó PDF-ben. A képdigitalizálásnál fejlettebb megoldást jelent a szövegdigitalizálás, amely a forrásközlés ún. reprezentatív szintje, ezek előnye, hogy a számítógép segítségével könnyebben kereshetők. A reproduktív és reprezentatív szint kombinációjának tekinthető a kétrétegű PDF. Ezekben a forrás képe „mögött” megtalálható a – többnyire optikai karakterfelismeréssel (angol betűszavával OCR-rel) előállított – szöveg, amelyben ily módon kereshetünk is. Az OCR minősége – amely a régi, illetőleg kéziratos szövegek esetében általában nem jó –, illetőleg az utómunkára, főként a kézi korrektúrára fordított idő meghatározza a használhatóságot. Kutatásunk megteremtené a továbblépés lehetőségét, és olyan kiadások publikálását tenné lehetővé, amelyekben akár szóalapú kereső segítségével a képen is megjeleníthető a keresett információ platformfüggetlen módon. Azon túl, hogy a kulturális örökségünk a lehető legmagasabb szinten, a legszakszerűbb módon válna archiválhatóvá, fontos szempont az is, hogy az oktatásban kiválóan használható digitális segédeszközök jönnének létre. Kutatásunk magyar viszonylatban azért lenne újdonság, mert ilyen jellegű feldolgozása felvilágosodás előtti forrásoknak szabványos és platformfüggetlen formában még nem történt. A képpel összekapcsolt kiadások hazánkban még egyáltalán nem jöttek létre, külföldön vannak jó példák, ám a speciális problémák (pl. a helyi sajátosságok egyedi mivolta) miatt nemzetközi viszonylatban is jelentősek lennének eredményeink.

Eszközök

Motor