Stilometria

From wikibase-docker
Jump to navigation Jump to search

A szépirodalmi művek elemzésének egyik alapvető célja, hogy felfedje a művek és azok szerzőjének stílusjegyeit, nyelvezetének jellemzőit, amely lényeges információkat rejthet például a szerző személyére vagy a mű keletkezésének idejére vonatkozóan. Hatással van egy szövegre az alkotójának neme, kora, lakhelye, személyisége, társadalmi és kulturális háttere éppúgy, mint magának a szövegnek a műfaja. Általános tapasztalat, hogy az iskolázottabb emberek választékosabban beszélnek és írnak; a férfiak tömörebben fogalmaznak, a nők halmozzák a jelzőket; a dialektussal beszélő emberek írott munkáiban is megjelenik dialektusuk nyoma. A szöveg műfaja meghatározó lehet például szókincs és forma tekintetében, gondoljunk csak egy tudományos esszére és egy interneten vezetett blogra, vagy egy politikai tanulmányra és egy szerelmes regényre, amelyek stílusban, szókincsben és még formai szempontból is nagyon távol állnak egymástól. A stilometria ezeknek a tényezőknek a feltárására koncentrál.

A stilometria a nyelvészet egy olyan alkalmazási területe, amelyet szerzőazonosításra és az írott szövegek elemzésére, stílusjegyeinek kimutatására és azok objektíven mérhetővé tételére alkalmaznak. 1 2 Írott szöveg alatt nemcsak a szépirodalmi szövegek értendők, hanem a különböző tudományos munkáktól a dalszövegekig minden, ami érdekes vagy kérdéses lehet a stílusjegyek szempontjából. A stilometria alkalmazására már egészen korai évekből van példa, alapjait viszont a Pawlowski (2005) által a „stilometria elfeledett atyjának” tartott Wincenty Lutosławski lengyel filozófus határozta meg az 1890-ben kiadott munkájában.3 A technika fejlődésének köszönhetően azóta már számítógépes eszközökkel alkalmazzák a stilometriát, melynek sikerességét tovább növelik az egyre szélesebb körben elérhető és egyre nagyobb méretű korpuszok, illetve a statisztikai módszerek fejlődése.

A stilometria alkalmazásának számos gyakorlati és tudományos tere van az igazságügyi nyelvészettől az irodalomtörténetig. Egyik leggyakoribb felhasználási területe ezek közül az irodalomtudomány, ahol a szerző kilétének ismerete kulcsfontosságú a művek értelmezése szempontjából. Számos szépirodalmi alkotás létezik, amelyeknek ismeretlen a szerzője, vagy kérdéses, pontosan ki is írhatta azokat. Bevett szokás az írók körében az álnév használata is, kérdéses, pontosan ki is írhatta azokat. Bevett szokás az írók körében az álnév használata is, számos példát találni az irodalomban arra, amikor egy kölcsönzött név mögé bújva adják közre a művüket az alkotók, ahogy tette ezt Esterházy Péter is Csokonai Liliként.

Szintén gyakori az idézet használata a szépirodalmi szövegekben, amely forrásának megnevezését számos esetben mellőzik, ami így befolyásolhatja a szövegen alkalmazott mérések eredményét, a mű és/vagy a szerző stílusáról tett következtetéseket. Az idézetek felhasználása felveteti a plágium problémakörét is, azaz, hogy egy irodalmi műben olyan részleteket közölnek sajátként, amelyeket valaki más írt. Ennek a problémának a kezelésében is jelentős szerepe lehet a stilometriának, a különböző szerzőazonosítási módszereknek. Napjainkban több plágiumkereső (SZTAKI KOPI, TurnItIn stb.) is rendelkezésünkre áll, melyet leginkább tudományos szövegeken alkalmaznak.

A stilometria nemcsak a szerzőazonosításban, de a szerzőről kialakított kép kialakításában is segédkezik, továbbá alkalmazhatjuk szerzői életművek vagy stílusok összevetéséhez, teljes életművek vizsgálatához, vagy akár csak egyetlen szöveg elemzéséhez is. A magyar szakirodalomban találunk példát mindegyikre. Zsilka (1971) Krúdy, Kosztolányi, Móricz és Nagy Lajos egy-egy novelláját hasonlította össze a szavak és a mondatok szintjén.4 Jékel és Papp (1974) Ady Endre teljes életművét elemezte kvantitatív mérésekkel a fonémák szintjén.5 Kemény (2009) Krúdy művein végzett szövegstatisztikai méréseket.6 Egy nem sokkal későbbi munkájában Kemény (2011) összehasonlította szintén szövegstatisztikai módszerekkel Krúdy Szindbádját Máraiéval.7 Vadász (2015) dolgozatában kvantitatív méréseket végzett számos magyar nyelvű szépirodalmi művön, a nyelv több szintjén.8 További izgalmas példák a magyar, illetve a nemzetközi stilisztika területéről, amelyekben a statisztika adta lehetőségeket használták az elemzéshez, a teljesség igénye nélkül ((Deme, 1971), (Raisz, 1989), (Mendenhall, 1887), (Mosteller, 1963), (Brocardo–Luiz–Traore–Saad–Woungang, 2013), (Jockers, 2014)).

A szövegstatisztika szintjei[edit]

A szövegeken alkalmazott statisztikai méréseket általában a nyelv egyik szintjén végezték vagy végzik a szövegstatisztikára vállalkozók. Ennek megfelelően találkozhatunk fonémastatisztikai számításokkal, szavakra és a szótárra összpontosító írásokkal és mondatstatisztikával is. A teljesen átfogó, a nyelv minden szintjére kiterjedő elemzés ritka, de nem példa nélküli. Vadász (2015) a szerzőazonosítás érdekében a fonémáktól a szemantikáig igyekezett elemzéseket készíteni a módszerek bemutatására helyezve a hangsúlyt. A következőkben a különböző nyelvi szinteken végzett elemzésekből szerepel egy-egy példa.

Fonémastatisztika[edit]

A nyelv legkisebb egységét megcélozva Jékel és Papp (1974) voltak az elsők, akik a magyar szakirodalomban fonémastatisztikai mérésekkel végeztek elemzést Ady Endre teljes életművén. Céljuk az volt, hogy választ kapjanak arra a kérdésre, vajon kimutathatók-e általános tendenciák, mutatók egy költő teljes életművén. Vizsgálták Adynál többek között a magánhangzógazdagságot és a hangrendet is, amelyet a következő táblázatok mutatnak.

400px|1. ábra: Magánhangzógazdagság 400px|2. ábra: Hangrend aránya

1. ábra: Magánhangzógazdagság. . . . . . . . . . . . . . . . . . . .2. ábra: Hangrend aránya

Az 1. ábra a következőképpen értelmezendő: a vízszintes tengelyen az egyes kötetek találhatók időrendi sorrendben, a függőleges tengelyen a magánhangzó/mássalhangzó aránya látható. Tehát az ábra szerint Ady életművének kezdeti szakasza sokkal magánhangzósabb, mint a későbbi. Látható továbbá a kötetek oszlopain a ciklusok (vízszintes vonalak) magánhangzó/mássalhangzó aránya is, a kötetek magánhangzó/mássalhangzó arányának az átlaga (négyzetek), Ady teljes életművének magánhangzó/mássalhangzó arányának átlaga (átfogó vízszintes vonal), valamint jobb oldalon az egyes kötetek és ciklusok magánhangzó/mássalhangzó arányának Ady-átlagtól való eltérési tartománya (105.22% - 96.37%).

A 2. ábrán a kötetek és ciklusok palatális/veláris magánhangzóinak arányai láthatók az előzővel megegyező jelöléseket használva. Az ábra jobb oldalán fel van tüntetve a kötetek és ciklusok Ady-átlagtól való eltérésének (az előzőnél jóval nagyobb) tartománya (121.8% - 83.14%). Az ábrán jól látható, hogy az egyre későbbi szövegek egyre magasabb hangrenddel rendelkeznek.

Bár a szerzők beismerik, hogy a különböző fonémagyakorisági vizsgálatok nem túl beszédesek Ady Endre nyelvével kapcsolatban bizonyos következtetéseket akkor is le lehet vonni belőlük, amelyek jelentősek lehetnek az irodalomtudomány számára.


Szó- és szótárstatisztika[edit]

Mind a magyar, mind pedig a nemzetközi szakirodalomban jellemzően szavakra összpontosító elemzéseket találni, talán azért is, mert ahogy Kemény (2009) írja „ …korábban szinte kizárólag költői műalkotásokat vizsgáltak kvantitatív módszerrel […]. A költői nyelvre irányuló kutatásokban a »hangspektrum« (Fónagy) és a szókincs statisztikai feldolgozása gazdagabb eredményt ígért, mint a magasabb nyelvi szintek – a mondategység, a mondat, a bekezdés, a szöveg – ilyen módon történő vizsgálata.”.9 A szóstatisztikára és a szótár kvantitatív méréssel történő vizsgálatára számos statisztikai eszköz áll rendelkezésre. Szóstatisztikai eszközök például, szóhosszúság10, szóspektrum11, szófajstatisztika, lexikai diverzitás12, szóeloszlás13, hapax legomenon14 és dis legomenon15.

Mondatok és szemantikai jegyek kvantitatív mérése[edit]

A nyelv magasabb szintjeit megcélzó elemzések a mondatok felszíni tulajdonságaitól a belső szintaktikai szerkezetükön át a szemantikai jegyek mérhetővé tételéig számos eszközt alkalmaznak. A legkönnyebben a felszíni jellemzőkből nyerhető ki információ, így nem meglepő, hogy a mondatstatisztikai elemzések már korai szakaszában is a vizsgálat tárgyát képezte például a mondathosszúság.

' n j s2 s V
Krúdy Gyula 31 22,48 164,8 12,83 0,5708
Kosztolányi Dezső 30 10,73 70,29 8,38 0,7809
Móricz Zsigmond 31 10,42 35,84 5,98 0,5739
Nagy Lajos 33 10,27 38, 62 6,22 0,6056
Párbeszéd:
Krúdy Gyula 16 11,75 34,43 5,87 0,4995
Kosztolányi Dezső 20 5,05 17,08 4,13 0,8178
Móricz Zsigmond 21 5,71 9,96 3,16 0,5534

1. táblázat: négy novella mondathossz-statisztikája

Zsilka (1971) Krúdy, Kosztolányi, Móricz és Nagy Lajos egy-egy novelláját hasonlította össze a szavak és a mondatok szintjén. Az 1. táblázatban a mondatok hosszára vonatkozó kvantitatív méréseinek eredményei láthatók a párbeszédeket külön figyelembe véve. Az adatok szerint Krúdy Gyulánál a leghosszabbak a mondatok, mivel „még a régebbi, körmondatos (nyelvi) stílusnorma jegyében alkotta meg novelláját” (Zsilka, 1971, 4).16 Látható az 1. táblázatban a szórásnégyzet (s2), a szórás (s) és a variabilitás (V) is annak érdekében, hogy a szöveg szintaktikai jellegzetességeit jobban fel tudják tárni. Ezek az értékek Krúdynál a legnagyobbak, – amit a hosszú mondatai eredményeznek – kivéve a variabilitást, vagyis a változékonyság mértékét, ami nála a legkisebb. A legváltozékonyabb mondatokat Kosztolányi Dezsőnél találni, akinek novellájában sűrűn – legalábbis a másik három szerzőhöz képest sűrűbben – váltakoznak a hosszú és rövid mondatok. Az eredmények alapján jelentős Nagy Lajos hosszabb és rövidebb mondatainak a változatossága. Móricz Zsigmondnál a legalacsonyabb a variabilitás értéke, amit Zsilka (1971) Móricz jellegzetes stílusjegyének, az ismétlés állandó jelenlétének tulajdonít a novellában. A párbeszédek eredményei szükségszerűen kisebbek, mivel a dialógusokat az élőbeszédhez igyekeznek az írók közelíteni, ott pedig a rövidebb mondatok dominálnak. A párbeszédekből mért eredmények alapján zömmel igaz mindaz, amit a teljes novellák méréseiből lehetett kikövetkeztetni.

A mondat felszíni tulajdonságai mellett a szintaktikai szerkezet felmérése is fontos információkkal szolgálhat, ehhez azonban pontos természetesnyelv-feldolgozó eszközre van szükség a szöveg szintaktikai annotációjának létrehozásához. A szófaji egyértelműsítő (POS-tagger) eszköz segítségével a szófaj n-gramok alapján képet kaphatunk a mondatok felszíni megnyilvánulásairól. Az utóbbi lehetőséggel azonban magasabb szintű szerkezeti információkat továbbra sem lehet kinyerni.

A szemantikai jegyek mérhetővé tétele a stíluselemzés magas foka, kvantitatív méréseket felhasznált elemzésből már jóval kevesebbet találunk a szakirodalomban. A szemantikai jegyek kinyeréséhez is komolyabb, mélyebb nyelvi elemzésre van szükség a vizsgálat sikerességének érdekében; a módszer leginkább más nyelvről fordított szövegeknél hasznos, ahol mind az eredeti szerzőnek, mind pedig a fordítónak viseli stílusnyomait a szöveg. Stamatatos (2009) a szemantikai jegyek kinyerésének tekintetében Argamon et. al. (2007) módszerét17 tekinti az egyik legeredményesebbnek, melynek a lényege, hogy funkcionális jegyeket állapítottak meg, amelyek kapcsolatban vannak szavakkal vagy kifejezésekkel. Erre példa a „kötőszó” séma, azaz, hogy a kontextusból hogyan következik a mellékmondat, amelynek számos módja lehet (részletezés, új információ, fokozás), a módozatokon belül pedig további hatások (modalitás) érhetik a sémát.18 Ezeknek a jegyeknek a felismeréséhez thesaurusokon alapuló szótárt hozott létre Argamon et. al. (2007), amely szótár elemei szavak, kifejezések és szemantikai tulajdonságok halmazával állnak kapcsolatban. A felállított funkcionális jegyek és azok tulajdonságai alapján a szemantikai jegyek már könnyebben mérhetővé válnak.

A stilometria feladata tehát, hogy a vizsgálandó szöveg és/vagy szerző nyelvi jellemzőit, más szövegektől való eltéréseit objektíven mérhetővé tegye. Ezek a mérések pedig a nyelv minden szintjén elvégezhetők, amelyhez számos statisztikai eszköz áll rendelkezésre.



Hivatkozások[edit]

1 Zheng, R., Li, J., Chen, H., & Huang, Z. A framework for authorship identification of online messages: Writing style features and classification techniques. Journal of the American Society of Information Science and Technology, 2006. 57(3):378–393.

2 Koppel, M., Schler, J., and Argamon, S. Computational methods in authorship attribution. Journal of the American Society for Information Science and Technology, 2009. 60(1): 9–26.

3Adam, Pawlowski. VI. Wincenty Lutoslawski - a forgotten father of stylometry. Glottometrics. 2004. 8: 83–89.

4Zsilka, Tibor. Négy novella stilisztikai elemzése statisztikai módszerrel. In: Hankiss, Elemér szerk. A novellaelemzés új módszerei. Akadémiai Kiadó, Budapest, 1971, 257–271.

5Jékel, Pál és Papp, Ferenc. Ady Endre összes műveinek fonémastatisztikája. Akadémiai Kiadó, Budapest, 1974.

6Kemény, Gábor. Prózastílus-jellemzés kvantitatív módszerrel. Magyar nyelvőr, 2009, 133(2):155–196.

7Kemény, Gábor. Krúdy Szindbádja és a Márai-Szindbád a számok tükrében. A Debreceni Egyetem Magyar Nyelvtudományi Intézetének kiadványai: A stíluskohézió eszközei a modern és posztmodern szövegekben, 2011, 89:114–132.

8Vadász, Noémi. Szerzőazonosítás magyar nyelvű szépirodalmi szövegeken. Pázmány Péter Katolikus Egyetem. Budapest. 2015.

9Kemény, Gábor. Prózastílus-jellemzés kvantitatív módszerrel. Magyar nyelvőr, 2009, 133(2):157

10Szóköztől szóközig tartó karaktersor karakterszáma és/vagy szótagszáma.

11A különböző karakterszámú szavak relatív gyakorisága.

12Lexikai gazdagság, változatosság.

13Adott szó szövegben való helye és mennyisége.

14Adott szövegben csak egyszer előforduló szó.

15Adott szövegben pontosan kétszer előforduló szó.

16Zsilka, Tibor. Négy novella stilisztikai elemzése statisztikai módszerrel. In: Hankiss, Elemér szerk. A novellaelemzés új módszerei. Akadémiai Kiadó, Budapest, 1971, 4.

17Argamon, Shlomo, Chase, Paul, Dhawle, Sushant, Hota, Raj Sobhan, Navendu, Garg és Levitan, Shlomo. Stylistic text classification using functional lexical features. Journal of the American Society of Information Science, 2007, 7:91–109.

18Stamatatos, Efstathios. A survey of modern authorship attribution methods. Journal of the American Society for Information Science and Technology, 2009, 60(3):538–556.