Digitális filológia

From wikibase-docker
Revision as of 13:20, 30 September 2019 by imported>Admin
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)
Jump to navigation Jump to search

A technológiai fejlődésnek köszönhetően a számítógép, illetve a technológiai megoldások, szoftverek használata széles körben elterjedt és csak idő kérdése volt, hogy a tudományok területére is beszivárogjon. Nem képeznek kivételt ez alól a humán tudományok sem. A modern kor szülötte a digitális bölcsészet (Digital Humanities) is, amely ma még magában foglalja az összes humántudományi területet és kutatást, ahol az informatika fajsúlyosan jelen van. A digitális bölcsészet kiemelkedő hazai alakja, Labádi Gergely és kollégái a következőket írják tanulmányukban: „A nyugati tudományosságban a digitális bölcsészet a 2000-es évek második felére szervezetileg, intézményileg végleg és egyértelműen áttört, azaz vannak képzések, folyóiratok, kutatóközpontok, konferenciák, a bölcsész állásoknál rendszerint elvárás valamiféle DH-képesség vagy -gyakorlat. A digitális tudományos kutatás formabontó és úttörő kutatási lehetőségekkel kecsegtet a bölcsészettudományokban, mivel a szövegek és az ezekhez rendelt metaadatok elemzéséhez számtalan új lehetőséget kínálnak, melyeket e tudományterületen korábban nem alkalmaztak.”1 (Labádi, Farkas, Nagy, Péter 2018, 450). A digitális bölcsészet olyan tudományos diszciplína, amelynek számos ága van, többek között „…a nyelvtechnológiától az irodalmi művek digitális kritikai kiadásain át a történelemkutatás, a muzeológia, a régészet vagy a néprajz gépesítéséig, esetleg a zenetudomány számítógépes kutatásáig…”2 (Prószéky 2018, 9)

A digitális bölcsészet egyik – már hazánkban is – önálló ága a digitális filológia. A számítógép használata a filológiában, kéziratok vizsgálatára már az 1940-es évek elején felmerült Roberto A. Busa révén. A jezsuita szerzetes 1949-ben kezdte el rögzíteni Aquinói Szent Tamás műveit, hogy a belőlük épített korpusz konkordanciajegyzékét (Index Thomisticus) elkészíthesse az akkori munkahelye, az IBM segítségével.3 Ez volt a digitális bölcsészet első pillanata. Palkó Gábor további két „szimbolikus csomópontot” emel ki a digitális filológia történetéből. Az egyik Hans Walter Gabler Ulysses-kiadásának megszületése, amely Gabler szerint nem jöhetett volna létre a számítógép segítsége nélkül. A másik említésre méltó pont a 2015-ben közzétett és teljes mértékben a szemantikus web technológiáján alapuló Wittgenstein Nachlass-kiadás, melyet Alois Pilcher, a – digitális filológiában több mint két évtizede vezető szerepet játszó – Wittgenstein Archives (WAB) vezetője tett közzé.4 A számítógépet tehát évtizedek óta használják az irodalomtudományban, segítségével születnek többek között elektronikus kiadások, hálózati tudományos és/vagy kritikai kiadások.

Digitális szöveg[edit]

Ahhoz, hogy igazán ki tudjuk használni a számítógép adta lehetőségeket, nem elegendő a begépelt szöveget pusztán formázni egy szövegszerkesztő programmal, vagy különböző formátumokba (.txt, .doc, .pdf, stb.) exportálni.5 A digitális bölcsészetben évtizedek óta bevett gyakorlat az OHCO-modell (ordered hierarchy of content objects) alkalmazása, amely azt mondja ki, hogy a szöveg nem más, mint tartalmi objektumok rendezett hierarchiája.6 Egyszerűbben megfogalmazva egy szöveg bekezdésekből áll, a bekezdések meghatározott sorrendben, hierarchiában követik egymást a tartalmuknak megfelelően és rendezettek is, mert le kell zárni az egyiket ahhoz, hogy a következő elkezdődhessen. Többek között ezeket az információkat is meg kell adni a számítógép számára ahhoz, hogy az adott szöveg megfelelően reprezentálhatóvá váljon. Ehhez úgynevezett leíró jelölőnyelvet kell alkalmazni, amely címkéket rendel az egyes karaktersorokhoz. Ezeket a címkéket a felhasználó is meg tudja határozni, de már kész címkekészlettel dolgozó jelölőnyelvek is léteznek, például a HTML (Hypertext Markup Language). A HTML a weboldalak jelölőnyelve, véges címkekészlettel rendelkezik, amely jelentősen befolyásolja, mit és hogyan lehet vele leírni. A digitális filológia egyik legfőbb anyagai a tudományos szövegek és kritikai kiadások, amelyeknek megvannak a maguk egyedi, műfaji jellemzőik. Ezen szövegbeli sajátosságok miatt olyan jelölőnyelvet kell alkalmazni a digitalizálásukhoz, amellyel lehetőség nyílik az említett sajátosságok leírására is.

TEI XML[edit]

Az első jelölőnyelv már a ’60-as évek végén, ’70-es évek elején megjelent, ez volt a GML (Generalized Markup Language) szabvány. A GML-t idővel fejlesztésnek vetették alá és létrejött az SGML (Standard Generalized Markup Language), amely egy ISO szabványos jelölőnyelv, elsősorban kormányok és nagyobb intézmények számára. Az SGML határozza meg a dokumentumformátumok leírásának szintaxisát.7 Az SGML-re alapozva 1991-ben Tim Berners-Lee létrehozta a már említett HTML jelölőnyelvet.8

Mivel az SGML túl bonyolult volt, a HTML pedig túl korlátolt zárt címkerendszere miatt, ezért 1998-ban a W3C létrehozta az XML (Extensible Markup Language) szabványt, amely ma már elengedhetetlen eszközévé vált a digitális filológiának. A Consorcium weboldalán az alábbi 10 – itt csak tételesen felsorolt – legfontosabb tudnivaló található, amelyeket az xml-lel ismerkedőknek gyűjtöttek össze:9

  • Az XML szabályrendszerével létrehozott szöveges formátumokkal lehetőség nyílik az adatok strukturált leírására, amely az XML egyik fontos célja.
  • Az XML hasonlít a HTML-re, tageket és attribútumokat használ, ám utóbbival ellentétben az XML-ben ezek jelentései nincsenek előre definiálva.
  • Az XML formátumú szöveg nemcsak a számítógép, de az emberi szemnek is olvasható, azonban nem olvasgatásra szánták.
  • Egy XML fájl mindig nagyobb lesz, mint más hasonló adatokat tartalmazó fájl, mert olyan szöveges formátum, ami tageket használ az adatok körülhatárolásához.
  • Az XML a technológiák „családja”, amelybe beletartoznak olyan modulok, mint a CSS stílusleíró nyelv a megjelenített szöveg stílusjegyeinek meghatározásához, vagy az XSLT transformációs nyelv, amellyel adott XML fájlt lehet átrendezni, abba plusz elemeket beszúrni vagy törölni.
  • Az XML fejlesztése 1996-ban kezdődött, hivatalos W3C ajánlássá 1998-ban vált. Elődje az SGML, illetve a HTML, amelyek tapasztalataira és legjobb alkotórészeire alapozva fejlesztették ki az XML-t.
  • Egy fontos XML applikáció az XHTML, a HTML utódja, ami megfelel az XML szabályainak is.
  • Az XML névtereket használ az elnevezési problémák kikerülésére. Mivel ugyanazok a tagek mást jelenthetnek a különböző fájlokban, így figyelni kell a * formátumok kombinálásakor.
  • Az XML az RDF (Erőforrásleíró Keretrendszer) és a szemantikus web alapja.
  • Az XML ingyenes, platform-független és széles körben támogatott a világon.

Az XML szintaxisát tekintve tehát tagekből és attribútumokból áll. Minden egyes adat körülhatárolásához és definiálásához nyitó és zárótaget, plusz információk hozzárendeléséhez pedig attribútumokat használ név=”érték” formátumban:

<name>Tóth János</name>

<name type="vezeteknev">Tóth</name>

<name type="keresztnev">János</name>

Annak érdekében, hogy a humántudományok számára egységes és szabványos jelölőnyelv jöhessen létre, 1987-ben megalakult a Text Encoding Initiative (TEI)10. A TEI által tett ajánlások – melyeket a mai napig fejlesztenek – ma már megkerülhetetlen nemzetközi szabványok a szövegdigitalizálás területén. A TEI lehetőséget nyújt többek között versek, prózák, drámák, szerzői javítások és feljegyzések, töredékek leírására, kritikai kiadások szerkesztésére is, vagyis a humántudományok szövegleíró gyakorlatának minden igényét képes kielégíteni.

600px

1. kép: TEI XML-el átírt szöveg

Textológiai műhelyek Magyarországon[edit]

1976-ban elindult az első, kutatási célból végzett számítógépes irodalmi adatbázis fejlesztése a mai Szegedi Tudományegyetemen. Az adatbázisba a XVI. századi magyar verseket gyűjtötték.11 Az adatbázist később az Eötvös Loránd Tudományegyetem egyik munkacsoportja bővítette versekkel, ezzel létrejött az RPHA12 (Répertoire de la poésie hongroise ancienne). A versek mellett azok bibliográfiai és irodalomtörténeti adatait is bevitték az adatbázisba, ezzel pedig lehetővé vált a részletes keresés.13 Az Eötvös Loránd Tudományegyetem további programjai voltak a Centre des Hautes Études de la Renaissance (CHER), a Bölcsészettudományi Informatika Önálló Program (BIÖP) Horváth Iván vezetésével. Nem lehet kihagyni a felsorolásból az Arcanum Adatbázis Kft. digitalizálási tevékenységét (Arcanum Digitális Tudománytár14, Hungaricana15), és a Magyar Tudományos Akadémia (MTA), valamint a Debreceni Egyetem Klasszikus Magyar Irodalmi Textológiai Kutatócsoport közös programját sem, amely számos TEI XML-ben archivált kritikai kiadást eredményezett, mint például a Csokonai összes művei. A textológiai műhelyek sorába tartozik az Országos Széchenyi Könyvtár (OSzK) által 2014-ben létrehozott Digitális Filológia Osztály és a Reciti Kiadó16, amely az MTA Irodalomtudományi Intézetében tesz közzé online tudományos szövegkiadásokat.

A Petőfi Irodalmi Múzeumhoz tartozó Digitális Irodalmi Akadémia17 (DIA) 1998-ban jött létre a kortárs magyar irodalmi művek digitalizálása és közzététele céljából, később pedig a múzeumban lévő anyagok is bekerültek az archívumba. 2014-ben szintén a Petőfi Irodalmi Múzeum, valamint az MTA Irodalomtudományi Intézet együttműködésében elindult a DigiPhil18 projekt, azaz a Tudományos szövegkiadások, bibliográfiák és kutatási adatbázisok online tudástára. Célja között szerepel a tudományos szövegek digitalizálása és kiadása, a metaadatok közös kereshetősége, egységesítése, aggregációja az Europeana19 felé, a szövegek annotálásának biztosítása, stb.

1Labádi Gergely, Farkas Richárd, Nagy Roland, Péter Róbert (2018): TANIT – Magyar nyelvű szövegeket elemző eszköz összehasonlító digitális bölcsészeti feladatokhoz (http://real.mtak.hu/86149/1/teljesB5-460-465.pdf) (2019. 07. 23.)

2Prószéky, Gábor. 2018. Prószéky Gábor Előszava. Digitális Bölcsészet 1 (szeptember), 9-10. https://doi.org/10.31400/dh-hun.2018.1.248.

3A Companion to Digital Humanities, ed. Susan Schreibman, Ray Siemens, John Unsworth. Oxford: Blackwell, 2004. http://www.digitalhumanities.org/companion/

4Palkó, Gábor. 2016. Mit jelent a digitális filológia a szemantikus web korában? A DigiPhil projektről. Magyar Tudomány (november) 1316–1323. http://www.matud.iif.hu/2016/11/07.htm

5Steven J. DeRose, David G. Durand, Elli Mylonas, Allen H. Renear, What is Text, Really?, Journal of Computing in Higher Education, (1)1990/2, 6–10.

6Uo.

7Charles, F. Goldfarb. 1996. The Roots of SGML – A Personal Recollection. Retrieved 2007.07.07. (http://www.sgmlsource.com/history/roots.htm) (2019. 07. 26.)

8https://www.w3.org/html/ (2019. 07. 26.)

9World Wide Web Consortium (https://www.w3.org/) (2019. 07. 26.)

10https://tei-c.org/index.xml (2019. 07. 26.)

11 Bartók István - Monok István (1980), Szegedi kísérlet a XVI. századi magyar vers gépi feldolgozására. ItK. 84, 630-638.

12http://rpha.elte.hu/ (2019. 07. 27.)

13Tóth Tünde (1997): Irodalomtörténészek a bábeli könyvtárból (A régi magyar vers repertóriuma). ItK. 101, 1-2, 133-145.

14https://adtplus.arcanum.hu/hu/ (2019. 07. 27.)

15https://hungaricana.hu/hu/ (2019. 07. 27.)

16http://reciti.hu/ (2019. 07. 27.)

17https://pim.hu/hu/dia (2019. 07. 27.)

18http://digiphil.hu/ (2019. 07. 27.)

19https://www.europeana.eu/portal/hu (2019. 07. 27.)