XML – ćwiczenia 8: XQuery

Wprowadzenie

Cel

XQuery jest językiem służącym do „odpytywania” dokumentów XML, wydobywania informacji z dokumentów XML. W swoich założeniach ma być tym dla XML, czym SQL jest dla relacyjnych baz danych. Zastosowania XQuery często wiążą się właśnie z bazami danych.

Warto tutaj zauważyć, że dokument XML to niekoniecznie plik tekstowy zapisany na dysku ani nawet strumień znaków „w biegu” reprezentujących dokument. Struktura dokumentu XML może istnieć tylko w warstwie logicznej, a pod nią znajdować się zoptymalizowane źródło danych, np. relacyjna lub relacyjno-obiektowa baza danych.

Dzięki temu za pomocą XQuery można odpytywać się o dane z bazy danych. Wątpliwe by było to efektywniejsze od SQL, ale gdyby w tabelach bazy danych zapisane były fragmenty XML, XQuery pozwala na przezroczysty dostęp do danych wewnątrz fragmentów XML. Oczywiście wymaga to wsparcia w SZBD i takie wsparcie już występuje w głównych komercyjnych systemach (Oracle, IBM, Microsoft).

Związek z XPath

Standard XQuery jest silnie związany z XPath. Oba opierają się o ten sam model danych i posiadają tą samą bibliotekę funkcji (i operatorów).

O samym języku XQuery można myśleć jak o rozszerzeniu języka XPath, jednak definicje obu tych języków są osobnymi rekomendacjami.

O ile wyrażenia XPath są wykorzystywane w innych standardach (XSLT, XPointer, XML Schema), to XQuery jest samodzielnym standardem. Jednak, w przeciwieństwie do wielu innych standardów W3C :), zapytanie XQuery nie jest dokumentem XML.

Narzędzia

Na potrzeby naszych zajęć (bawimy się na plikach a nie bazach danych) wystarczające są poniższe narzędzia.

XML Spy

Podczas ćwiczeń w labie najwygodniej korzystać z XML Spy. Gdyby jakieś przykłady nie działały :) można spróbować drugiego narzędzia.

Należy napisać lub otworzyć zapytanie XQuery. W menu należy wybrać XSL/XQuery > Execute XQuery. Można wskazać dokument kontekstowy lub nie. W zależności od tego zwykłe ścieżki XPath będą działać lub nie.

Saxon

Saxon to procesor XSLT i XQuery dla Javy i .NET. Obsługuje standardy XPath 2.0, XSLT 2.0, XQuery 1.0. Udostępnia zarówno prosty interfejs command-line, jaki i API (dla Javy zgodne z JAXP 1.3), dzięki któremu z procesorów można korzystać we własnych programach.

Oprogramowanie w podstawowej wersji jest darmowe (open-source). Wersja zaawansowana (ze wsparciem dla przetwarzania schema aware) jest komercyjna.

W ścieżce klas powinien występować plik saxon9.jar lub saxon8.jar (poprzednia wersja). Przykłady użycia interfejsu command-line:

  • Na początku ustaw ścieżkę klas, np. tak: export CLASSPATH=saxon8.jar. Można też za każdym razem podawać parametr -cp.
  • java net.sf.saxon.Query {2+2} – Obliczenie zapytania 2+2.
  • java net.sf.saxon.Query zapytanie.xq – Obliczenie zapytania z pliku zapytanie.xq.
  • java net.sf.saxon.Query -o wynik.xml zapytanie.xq – Jak wyżej i zapisanie wyniku do wynik.xml.
  • java net.sf.saxon.Query -s zródło.xml -o wynik.xml zapytanie.xq – J.w., ale źródło.xml jest domyślnym kontekstem dla wyrażeń.
  • java net.sf.saxon.Query zapytanie.xq param=Wartosc inny='Ala ma kota' – Przypisanie parametrowi param wartości napisowej Wartosc. Jeśli napis zawiera spacje lub podejrzane znaki, najlepiej ująć go w apostrofy.
  • java net.sf.saxon.Query zapytanie.xq +param=plik.xml – Przypisanie parametrowi param jako wartości węzła (korzenia) dokumentu odczytanego z pliku plik.xml.
  • java net.sf.saxon.Query -o wynik.txt zapytanie.xq '!method=text' '!encoding=iso-8859-2' – Przekazywanie parametrów serializacji. Tu wynik zostanie zapisany jako tekst w kodowaniu iso-8859-2.

Zapytania XQuery

XPath jako XQuery

(Prawie?) każde wyrażenie XPath jest poprawnym wyrażeniem XQuery (przepraszam, nie jestem pewien czy każde). A pojedyncze wyrażenie jest poprawnym zapytaniem.

Poprawnymi zapytaniami są więc wyrażenia arytmetyczne, logiczne, wyrażenia na sekwencjach itp.

Zapytaniami XQuery są także ścieżki XPath (i wyrażenia zawierające ścieżki). Aby jednak ścieżka bezwzględna mogła zostać obliczona, musi być znany dokument kontekstowy, a dla ścieżki względnej także węzeł kontekstowy w tym dokumencie.

Odczyt zewnętrznych dokumentów

Za pomocą funkcji doc można odczytywać zawartość dokumentów XML z zewnętrznych źródeł danych (plików, adresów URL). Np. doc("przyklad.xml") zwraca węzeł dokumentu zapisanego w pliku przyklad.xml.

Dzięki temu poprawnymi zapytaniami są ścieżki takie jak doc("przyklad.xml")/lista/obiekt[@id='E4]. Dla wielu zapytań nie trzeba podawać kontekstowego dokumentu.

Deklaracje

Przed ciałem zapytania dokument XQuery może zawierać deklaracje. Oto niektóre z nich:

  • deklaracja wersji – to (opcjonalny) nagłówek całego dokumentu (zapytania) XQuery,
  • deklaracja przestrzeni nazw – deklaruje prefiks dla przestrzeni nazw,
  • deklaracja zmiennej – deklaruje zmienną lub parametr zapytania,
  • deklaracja funkcji – definiuje funkcję (opis w dalszej części zajęć).

Przykład 1. Przykłady deklaracji

xquery version "1.0" encoding "utf-8";
declare namespace foo = "http://example.org";
declare default element namespace "http://inny.org";

<foo:bar> Coś tu <xx> Coś tam </xx></foo:bar>
xquery version "1.0" encoding "utf-8";
declare variable $id as xs:string external;
declare variable $doc := doc("przyklad.xml");

$doc//obiekt[@id = $id]

Sposoby serializacji

Wynik zapytania XQuery można wypisać ("zserializować") na różne sposoby, m.in jako XML i jako tekst. Do wyboru sposobu serializacji służą parametry serializacji, z których najważniejszym jest method.

Domyślnie wynik wypisywany jest w postaci XML. Dokładie mówiąc wynikiem takiej serializacji nie musi być dokument XML, a tzw. encja ogólna przetwarzana (general parsed entity). Oznacza to, że może nie być elementu głównego, albo być więcej niż jeden, a na najwyższym poziomie może znajdować się tekst.

Zadanie 1.

Spróbuj wykonać poniższe zapytania wybierając metody serializacji xml i text. W XML Spy ustawia się to w menu XSL/XQuery > XSL/XQuery Settings:

  • 2 + 2
  • (1, "Ala", 3.0)
  • doc("przyklad.xml")/lista/obiekt[@id='E7']
  • doc("przyklad.xml")/lista/obiekt[@id='E4']
  • doc("przyklad.xml")//*

Konstruktory węzłów XML

Wyrażeniem XQuery może być nie tylko odpowiednik wyrażenia XPath, ale także konstruktor. Dzięki temu w wynikowej sekwencji mogą pojawić się nie tylko węzły odczytane z dokumentów, ale także nowe, dynamicznie skonstruowane.

Konstruktory dzielą się na bezpośrednie (exact) i obliczane (computed).

Konstruktory bezpośrednie

Jeżeli w zapytaniu XQuery znajdzie się znacznik otwierający elementu, to cały fragment zapytania od tego znacznika aż do odpowiadającego mu znacznika zamykającego zostanie potraktowany jak konstruktor. W wyniku zapytania znajdzie się właśnie ten element. Atrybuty, zawartość tekstowa zawarte wewnątrz także zostaną po prostu skopiowane do wyniku.

Przykład 2.

Bezpośredni konstruktor elementu book.

<book isbn="isbn-0060229357">
  <title>Harold and the Purple Crayon</title>
  <author>
    <first>Crockett</first>
    <last>Johnson</last>
    <?cel Wartość?>
    <!--Komentarz-->
  </author>
</book>

Bezpośredni konstruktor elementu umieszczony wewnątrz wyrażenia.

for $ob in doc("przyklad.xml")//* return
  <elem>Element o nieustalonej nazwie</elem>

Jeżeli wewnątrz wygenerowanego w ten sposób elementu chcemy umieścić wartość obliczoną dynamicznie, możemy umieścić wyrażenie XQuery w nawiasach klamrowych.

Zafgnieżdżone wyrażenie (jak każde) oblicza się do jakiejś sekwencji. W miejsce wystąpienia wyrażenia wstawiana jest wynikowa sekwencja, z tym że wartości atomowe są rzutowane na xs:string, a sąsiadujące wartości atomowe są sklejane do pojedynczych węzłów tekstowych, z pojedynczymi spacjami pomiędzy. Węzły są wstawiane jako węzły.

Wyrażenie w nawiasach klamrowych można umieścić też w wartości atrybutu. W tym przypadku wynik zagnieżdżonego wyrażenia (łącznie z węzłami) jest rzutowany na xs:string (między elementami sekwencji wstawiane są pojedyncze spacje).

Przykład 3.

Bezpośredni konstruktor elementu elem jest umieszczony w wyrazeżeniu, a sam zawiera wyrażenia obliczające wartość atrybutu i część zawartości elementu.

<wynik>{
  for $el in doc("przyklad.xml")//* return
    <elem głębokość="{count($el/ancestor::node())}">Element o nazwie: {name($el)}</elem>
}</wynik>

Konstruktory obliczane

Konstruktory obliczane są bardziej ogólnym sposobem tworzenia węzłów XML. W szczególności pozwalają one na dynamiczne generowanie nazw elementów czy atrybutów.

Przykład 4.

Konstruktor obliczany elementu book (ze statyczną zawartością).

element book { 
   attribute isbn {"isbn-0060229357" }, 
   element {"title"} { "Harold and the Purple Crayon"},
   element author { 
      element first { text { "Crockett" } }, 
      element last {"Johnson" }
      processing-instruction cel { "Wartość" }
      commment { "Komentarz" }
   }
}

Konstruktor obliczany, w którym obliczana jest nie tylko zawartość, ale także nazwa elementu.

<wynik>{
  for $el in doc("przyklad.xml")//* return
    element {concat('elem-', name($el))} {
      attribute głębokość {count($el/ancestor::node())},
      text {"Element o nazwie: "},
      text {name($el)}
    }
}</wynik>

Zadanie 2.

Sprawdź, czy bezpośrednimi konstruktorami są komentarz, instrukcja przetwarzania i fragment tekstu (umieszczone po prostu w wyrażeniu XQuery).

Wyrażenia FLWOR

Wyrażenia for z XPath, w XQuery są zastąpione przez bardziej rozbudowane wyrażenia FLWOR (od For, Let, Where, Order by, Return). Jest to odpowiednik wyrażeń SELECT z SQL.

Wyrażenie składa się z następujących części (klauzul):

  • for – wiąże zmienną, jej wartość przebiega wszystkie elementy sekwencji,
  • let – wiąże zmienną jednorazowo przypisując jej wartość (całą sekwencję),
  • where – filtruje elementy sekwencji,
  • order by – sortuje sekwencję,
  • return – wyrażenie obliczane dla każdego elementu sekwencji (tej z for ale przefiltrowanej i posortowanej).

Klauzule for i let mogą występować wielokrotnie i być wymieszane. where i order są opcjonalne.

Przykład 5. Przykłady wyrażeń FLWOR

let $obiekty := doc("przyklad.xml")/lista/obiekt
  return <wynik>{ $obiekty }</wynik>
for $obiekt in doc("przyklad.xml")/lista/obiekt
  return <wynik>{ $obiekt }</wynik>
for $obiekt in doc("przyklad.xml")/lista/obiekt
  let $pop := $obiekt/preceding-sibling::element()
  let $nazwa-pop1 := $pop[1]/@nazwa
  where $obiekt/@nazwa
  order by $obiekt/@nazwa
  return
    <wynik>
      Obiekt o nazwie {xs:string($obiekt/@nazwa)} ma {count($pop)} poprzedników.
      Najbliższym poprzednikiem jest obiekt o nazwie {xs:string($nazwa-pop1)}.
    </wynik>

Zadanie 3.

Weź plik sklep1.xml

Napisz zapytanie, które wypisuje kolejno wszystkie kategorie i dla każdej kategorii wszystkie towary z tej kategorii.

Spróbuj użyć elementów HTML do sformatowania wyniku (prawdopodobnie w XML Spy można to wtedy wyświetlić jeśli użyje się serializacji do (X)HTML).

Zadanie 4.

To samo, ale dla pliku sklep2.xml. Tak, żeby kategorie się nie powtarzały!

Definiowanie własnych funkcji

W XQuery istnieje możliwość definiowania własnych funkcji, których następnie można używać w wyrażeniach (także w innych funkcjach). Funkcje powinny być zadeklarowane w prologu dokumentu XQuery (przed ciałem zapytania, obok innych deklaracji).

Własne funkcje powinno się definiować we własnych przestrzeniach nazw lub w predefiniowanej przestrzeni nazw o prefiksie local.

Przykład 6.

declare function local:podwoj(
  $x as xs:double)
  as xs:double?
{ 2* $x };

(: Filtruje wartosci z sekwencji przepuszczając tylko mniejsze od zadanej wartości :)
declare function local:tylkoMniejsze(
  $lista,
  $wartosc as xs:decimal)
{
for $el in $lista
where $el < $wartosc
return $el
};

<wynik>
<pierwszy>
{ local:podwoj(100) }
</pierwszy>
<drugi>
{
  let $seq := (1, 20, 3, 40, 5, 60)
  return local:tylkoMniejsze($seq, 10)
}
</drugi>
</wynik>

Zadanie 5.

Dalej pliki ze sklepem. Zdefiniuj funkcję filtr, która ma dwa parametry:

  • sekwencję elementów towar (nie trzeba deklarować typu),
  • wartość liczbową.

Funkcja w wyniku ma zwrócić sekwencję elementów towar, których cena jest nie większa od podanej w drugim argumencie.

Zadanie 6.

Użyj funkcji, aby wypisać (jak wcześniej) wszystkie kategorie, a dla każdej kategorii tylko te towary, których cena jest nie wyższa od średniej ceny towarów w tej kategorii.

Zobacz także


Valid XHTML 1.1Valid CSS