pondělí 15. září 2014

Základy ontologií - dodatek 1 - RDF

3.1 Resource Descriptor Framework (RDF)

Resource Descriptor Framework (RDF)1 poskytuje mechanismus pro explicitní, formalizované a standardizované vyjádření sémantických informací (Čerba 2011). RDF bylo původně vytvořené v roce 1999 jako standard založený na bázi XML pro zápis metadat – dat o datech (Tauberer, 2008).
Základním principem formátu RDF je popis jevů a objektů (zdrojů) pomocí takzvaných trojic (triples). Ty se skládají ze subjektu (podle terminologie užívané v ontologiích jde o třídy nebo individuály), predikátu (vlastnost, která představuje binární relaci mezi oběma zbylými prvky) a objektu (třída, individuál, datový typ, hodnota)2. Taková trojice víceméně odpovídá struktuře přirozeného jazyka, kdy jednoduchá věta zpravidla obsahuje také tři základní prvky – podmět, přísudek a předmět (případně přívlastek nebo příslovečné určení). Převedeme-li strukturu trojice do oblasti větné stavby a přirozeného jazyka, pak bývá na místě subjektu zpravidla substantivum (podmět věty), predikát je reprezentován slovesem (verbum, přísudek ve větné stavbě) a objekt má nejčastěji formu substantiva nebo adjektiva (předmětu věty nebo další fakultativní větné členy). Propojením prvků v RDF vzniká grafová struktura, jejíž hrany tvoří predikáty a uzly subjekty a objekty (podle Bergman 2009).
Pro jednotlivé části trojice mohou být používány jednoznačné identifikátory ve formě Uniform Resource Identifier (URI)3, který představuje běžný mechanismus v prostředí internetu, a navíc našel své nezastupitelné místo i v přístupu Linked Data, který využívá i RDF.
Informaci „Flachau leží v Rakousku“ můžeme rozdělit následujícím způsobem:
  • Subjekt: Flachau
  • Predikát: leží v
  • Objekt: Rakousko
RDF trojice představuje datový model popisu informace. Je však nutné také zavést formalizovaný způsob zápisu, aby bylo možné RDF data strojově zpracovávat. RDF využívá značkovacích jazyků (XML). Výše uvedená trojice může být reprezentována následujícím kódem.
<rdf:description rdf:about="Flachau">
<lezi_v>Rakousko</lezi_v>
</rdf:description>



V předchozí větě je výraz „může být reprezentován“ použit zcela záměrně. Nemá poukázat na vágnost RDF standardu, ale na to, že pro RDF data existuje několik rovnocenných syntaxí (například RDF/XML, Turtle, N-Triples, N3 a další) a dalších způsobů kódování (například pomocí atributů nebo elementů v XML dokumentu4). Hlavním důvodem pro více způsobů syntaxe je různý způsob využívání RDF dokumentů. V některých případech je důležitá kompatibilita s XML (na úkor větší velikosti souboru), jindy spolupráce s konkrétním softwarovým produktem pracujícím pouze s jedním formátem nebo je důležitá velikost souboru kvůli rychlosti přenosu.
Postupem času se ukázalo, že svoboda, kterou RDF nabízí svým uživatelům (například libovolné pojmenování predikátů), je spíše kontraproduktivní, protože v mnoha případech omezuje hlavní účel RDF - sdílení dat a informací. Uživatel mohl prvky v trojici nazvat libovolným způsobem, a tím docházelo ke zhoršování interoperability.
Proto došlo k zavedení dalších standardů, které mají některé typy vazeb předdefinované. Příkladem může být RDF Schema (RDFS)5. RDFS má standardizované některé běžné vlastnosti a třídy (rdfs:subClassOf, rdfs:range, rdfs:domain, rdfs:Class, rdfs:Datatype a další). RDFS tedy představuje nadstavbu RDF, která umožňuje standardizovaným způsobem definovat například hierarchie prvků nebo obor hodnot a definiční obor vlastností.
RDF a RDFS představují velice užitečné nástroje pro popis dat a informací. Mají ovšem také určité nedostatky, jako chybějí vyjádření kardinality nebo detailní specifikace typů vlastností. Proto byla vytvořena jejich další nadstavba, která využívá principu trojic a předdefinovaných vlastností z RDFS, ale nabízí širší možnosti například v oblastech deskripční logiky. Touto nadstavbou jsou ontologické jazyky, především OWL, které jsou podrobněji popsány v kapitole 3.6.
Bergman ve svých článcích z let 2009 a 2013 uvádí několik předností formátu RDF:
  • Standard RDF je spravován silnou a respektovanou organizací W3C.
  • RDF je provázán s dalšími nástroji, které zvyšují jeho vyjadřovací schopnosti (například SPARQL, GRDDL6 nebo RIF7).
  • RDF může být používáno společně s dalšími formáty založenými na XML. Díky tomu RDF může být validováno pomocí automatických nástrojů (validátorů).
  • Struktura trojic (triples) je jednoduchá a snadno pochopitelná. Na druhou stranu pro zpracování trojic (například vyhledání) je možné využít existující sofistikované grafové algoritmy vyvinuté matematiky nebo kybernetiky.
  • Grafová reprezentace je srozumitelnější než tabulky (v mnoha případech)8.
  • Existuje velké množství softwarových produktů, které transformují standardní datové formáty do RDF.9
  • RDF je schopné popsat nejen plochá data (například tabulky), ale i komplikované struktury jako například multihierarchické grafy.
Mezi další výhody patří i existence velkého množství návodů, tutoriálů a další dokumentace, například na portálech linkeddatatools.com10, zvon.org11 nebo w3schools.com12.

Zdroje:
Bergman, M. (2009). Advantages and Myths of RDF. AI3:::Adaptive Information.

Bergman, M. (2013). Seven Arguments for Semantic Technologies. AI3:::Adaptive Information.
Čerba, O. (2011). Ontologie jako nástroj pro návrhy datových modelů vybraných témat příloh směrnice INSPIRE. Disertační práce. Univerzita Karlova v Praze.
Tauberer, J. (2008). What is RDF and what is it good for?

1http://www.w3.org/RDF/
2Podle Bergman, 2009 se pro objekty a subjekty používají také označení koncept, entita nebo zdroj.
3Kromě URI mohou být využity i literály, ty však nemohou představovat cíle v rámci odkazů ani subjekty.
4Ukázky jsou k dispozici například v RDF Tutoriálu publikovaném na webové stránce ZVON (http://zvon.org/xxl/RDFTutorial/General/contents.html).
5http://www.w3.org/TR/rdf-schema/
6http://www.w3.org/TR/grddl/
7http://www.w3.org/2005/rules/wiki/RIF_Working_Group
8Poznámka autora: Jedná se o analogický příklad jako v případě kartografie. Mapy (jako grafická forma dat a informací) bývají také často srozumitelnější než texty nebo tabulky nesoucí stejnou informaci.
9Podle Bergman 2009 je jich více než 100.
10http://www.linkeddatatools.com/introducing-rdf-part-2
11http://zvon.org/comp/r/tut-RDF.html

12http://www.w3schools.com/webservices/ws_rdf_intro.asp

Žádné komentáře:

Okomentovat