Web 3.0: a szemantikus web

From wikibase-docker
Jump to navigation Jump to search

A világháló fejlődése során egyre hatalmasabb mennyiségű információ vált elérhetővé a weben. Ennek az információhalomnak nemcsak a mérete, de sokfélesége is problémákat vetett fel. Idővel ugyanis a statikus weboldalak dinamikussá váltak, a rajtuk lévő hagyományos, szöveges információk kiegészültek például képekkel, videókkal, hanganyagokkal, mozgó grafikákkal, stb. Ugyancsak nehezítheti a felhasználó helyzetét, hogy információkeresés során számos weboldalt fel kell keresnie, mire minden a birtokába kerül, vagy a keresett kifejezésekre csak szinonimákat, eltérő terminológiát talál. Mivel azonban a számítógép az emberrel ellentétben nem képes ezen problémák önálló megoldására, ezért a lehető legpontosabb információkat kell biztosítani a meglévő adatokról, azok kapcsolatáról.1

A világháló fejlődésének harmadik lépcsőfokát, a web 3.0-át szokás szemantikus webnek is nevezni. A web 3.0, elődjeihez hasonlóan a világháló és a HTML kifejlesztőjéhez, Tim Berners-Lee-hez köthető, aki először 2001-ben fogalmazta meg a vízióját ezzel kapcsolatban.2 Berners-Lee úgy vélte, hogy a web 2.0 után az „intelligens” web korszaka következik majd, ahol adott lesz a lehetőség a gyors, könnyű és teljesen pontos, vagyis „tökéletes” keresésre az információtömegben.3 A szemantikus web célja tehát „egy olyan infrastruktúra, amely lehetővé teszi a Weben lévő adatok integrálását, a közöttük levő kapcsolatok definiálását és jellemzését, illetve az adatok értelmezését.”4 Azaz, az információkat át kell alakítani olyan formátumúvá, amelyet a számítógépek is el tudnak olvasni.

A gépi olvashatóság elérése céljából a W3C5 létrehozta az RDF6 nyelvet, amely a szemantikus web legrégibb alapköve, egy matematikai gráf számítógépes megvalósítása. Kialakulását az indokolta, hogy míg a kezdeti, statikus honlapok (web 1.0) tartalma esetében elegendőek voltak az egyes kódrészletre mutató, egyirányú hiperlinkek,7 addig a dinamikus tartalmaknál már sokkal komplexebb hierarchia leírására volt szükség. Erre egy lehetséges megoldás a gráfszerkezet. pontosabban hármasok, vagy tripletek.

A tripletek alanyból, állítmányból (vagy tulajdonságból) és tárgyból állnak, azaz a gráf hármasában szülőobjektum, az objektum típusa, illetve az értéke szerepel.

A regény [szülőobjektum] címe [objektum típusa] Abigél [objektum értéke].

Az Abigél [szülőobjektum] írója [objektum típusa] Szabó Magda [objektum értéke].

Ennek a metaadat struktúrának köszönhetően a számítógépek képessé válnak következtetéseket levonni, a következő módon:

A regény [szülőobjektum] írója [objektum típusa] Szabó Magda [objektum értéke].

Az RDF azonban csak egyetlen lépcsőfoka a szemantikus webnek, amelyet szokás az alábbi modellként8 is ábrázolni:

450px

1.ábra: a szemantikus web lépcsős modellje

A modell legalsó lépcsőfokán az Unicode9 karakterkódolás és az URI-k szerepelnek. Az Unicode egy karakterkódolási szabvány, amely meghatározza a különböző írásrendszerek egységes leírását és kódolását, ezzel biztosítva, hogy az egyedi azonosítókat minden számítógép ki tudja olvasni akár nemzetközi szinten is. Az URI10 olyan karaktersorozat, amely magát a digitális objektumot azonosítja, biztosítva ezzel az adott honlap tartós elérhetőségét akkor is, ha azt máshova költöztetik. Mivel objektumok mellett személynevet, földrajzi nevet, intézményt is azonosíthat, ezért az RDF tripleteiben is URI-k jelennek meg, amelyek egy intézményi névtér egységére mutatnak.

Következő lépésben az RDF szintaxisát meg kell feleltetni az XML követelményeinek, amellyel egyrészt az állításokat más XML specifikus szabványok is használni tudják, másrészt már létező XML névtereket is felhasznál, lehetőséget adva a további azonosításra.

A második lépcsőfokon maga az RDF11 és az RDFS12 (RDF Schema) specifikációk állnak, amelyek biztosítják a digitális objektumokról való állítások létrehozását az URI-k segítségével. Ezeket a specifikációkat a W3C 2004-ben tette hivatalosan is ajánlássá. Az RDFS olyan szintaktikai specifikáció, amely definiálja az osztályokat és hierarchiájukat, az osztályokhoz objektumokat rendel, továbbá definiálja az objektumok közötti relációkat, és az objektumok tulajdonságait is.

A következő szinten az ontológiák állnak. Egy ontológiának specifikálnia kell az osztályokat, azaz általános fogalmakat különböző tématerületen; a fogalmak közti viszonyokat, illetve tulajdonságaikat.13 A strukturált RDF leírásában tehát az ontológiával összetettebb, bonyolultabb fogalmak közötti összefüggéseket lehet bemutatni. A különböző fogalmi területek leírására különböző ontológiák érhetők el (OWL, FOAF, stb.). Az osztályokat nemcsak specifikálja, de a hierarchiájukat is ábrázolja. A leírni kívánt objektumokhoz pontos meghatározásokat rendelnek a tulajdonságok definíciói. Az ontológiáknak az adatgazdagításon kívül a keresésben is kulcsszerepe van. Az egyes tulajdonságok ontológiából való beazonosításával – szövegesen megadott információk helyett – a számítógép nemzetközi szinten is képessé válik igen alacsony hibaszázalékkal kereséseket végezni. A keresés során ugyanis elegendő csak magát az azonosított tulajdonságot vizsgálni, a többnyelvűség okozta nehézségekkel, rövidítésekkel, elütésekkel, stb. nem kell foglalkoznia a gépnek.

Az RDF adatmodelljéhez kapcsolódó lekérdező nyelv a SPARQL.14 Az adatok, tulajdonságok közötti kapcsolatokat, és azok referenciáit le kell tudni kérdezni, el kell tudni érni. A SPARQL által – az SQL nyelvekhez hasonlóan – egyszerű és összetett lekérdezéseket is megfogalmazhatunk az egyes adatbázisokhoz, tripleteket dolgozhatunk fel. Mivel az RDF egy gráf, ami hármasok halmazából áll, a lekérdezés is tartalmaz egy gráfmintát, ami szintén hármasok halmaza. A gráfminta hármas halmazában az alany, állítmány, vagy tárgy helyén változók is állhatnak, amelyekbe a rendszer, a lekérdezés során behelyettesíti a hármas halmazban lévő szövegelemeket, vagy URI-kat. Majd az így kapott gráfot ellenőrzi, hogy részgráfja-e az eredeti RDF gráfnak. Ha az, akkor sikeres volt a változók behelyettesítése, amelyek a lekérdezés egyik lehetséges eredményét adják. A SPARQL-el nemcsak értékek lekérdezésére, de hierarchikus keresésre is van lehetőség, vagyis a leírt információt minden aspektusból lefedi. Az RDF-eket triplestore adatbázisokban tárolják, a SPARQL lekérdezés pedig SPARQL endpont-on fut le. A triplestore-ban minél több RDF található, annál pontosabb és kifinomultabb összefüggéseket lehet kimutatni. Ez igaz azokra a tripletekre is, amelyekről nem feltételezhető azonnal, hogy kapcsolat áll fenn közöttük, például olyan művek között, amelyek szerzője azonos, de álnéven jegyzi műveit.


Hivatkozások[edit]

1https://www.w3.org/2006/Talks/0318-Budapest-IH/cikk.html (2019. 04. 14.)

2Berners-Lee, T. – Handler, J. – Lassila, O. (2001): The Semantic Web, Scientific American. 5, 29–37.

3Herendy Csilla (2010): A kereső, a dokumentumok és a user, Médiakutató. https://mediakutato.hu/cikk/2010_01_tavasz/03_szemantikus_web (2019. 04. 14.)

4 https://www.w3.org/2006/Talks/0318-Budapest-IH/cikk.html (2019. 04. 14.)

5World Wide Web Consortium

6Resource Description Framework – Erőforrás Leíró Keretrendszer

7Olyan kapocs, amely hiperszöveges rendszerek két elemét köti össze, pl. webes linkek, amelyek a web elemeit kötik össze.

8Fülöp Csaba – Kovács László – Micsik András (2004): A metaadatsémák és a szemantikus web: egységesítés és specializáció a metaadatok világában, Tudományos és Műszaki Tájékoztatás. 7, 276-284.

9https://unicode-table.com/hu/ (2019. 04. 14.)

10Uniform Resource Identifier

11https://www.w3.org/RDF/ (2019. 04. 15.)

12https://www.w3.org/TR/rdf-schema/ (2019. 04. 15.)

13http://www.w3c.hu/forditasok/OWL/REC-webont-req-20040210.html (2019. 04. 19.)

14SPARQL Protocol and RDF Query Language - https://www.w3.org/TR/rdf-sparql-query/ (2019. 04. 19.)