LINUXSOFT.cz Přeskoč levou lištu
Uživatel: Heslo:  
   CZUKPL

> Programujeme s XML (13.) - XPath a řetězce

Dnes zakončíme náš rychlý úvod do jazyka XPath popisem funkcí pracujících s řetězci.

24.8.2004 15:00 | Aleš Hakl | Články autora | přečteno 5510×

Protože jazyk XPath není určen pro obecné programování, a protože je z principu interpretovaný, nebylo by vhodné zpracovávat řetězce po jednotlivých znacích a tudíž to ani není možné, a právě proto nám jazyk XPath nabízí řadu funkcí představujících nejčastější operace s řetězci. Tato sada funkcí bohužel neobsahuje žádné zpracování regulárních výrazů, které bych právě v jazyku typu XPath velmi uvítal.

Již minule jsme se seznámili s funkcí string() sloužící k převodu libovolného jiného datového typu na řetězec, nyní se tedy podíváme na ostatní:

concat() - Spojování řetězců

Funkce concat() spojí všechny svoje argumenty do jednoho řetězce, argumentů může být 2 nebo více.

starts-with() - Vyhledávání na začátku

Tato funkce slouží k operaci, která se v ostatních jazycích příliš nevyskytuje (snad z výjimkou Javy), zjistí, začíná-li první argument obsahem druhého argumentu a podle toho vrátí true nebo false.

contains() - Vyhledávání

Obdoba funkce předchozí s tím rozdílem, že vrací true, pokud se druhý argument vyskytuje kdekoli v prvním.

substring-before() a substring-after()

Tyto dvě funkce vrací část prvního argumentu předcházející (nebo následující) výskyt druhého argumentu. Obě funkce vrátí prázdný řetězec, pokud se v prvním argumentu argument druhý nevyskytuje (což může být občas trochu matoucí)

substring() - Část řetězce

Tato funkce vrácí část prvního argumentu určenou pozicí začátku (druhý argument) a délkou (třetí argument). Pozice prvního znaku je 1 jako v Pascalu a ne 0 jako ve většině ostatních programovacích jazyků.

string-length() - Délka řetězce

Vrácí délku řetězce (argumentu) ve znacích.

normalize-space() - Normalizace mezer

Funkce normalize-space() zajistí nahrazení mezer a podobných znaků (což znamená tabulátor a nový řádek, znaky typu U+3000(ideografická mezera) XML nepovažuje za mezery) dle pravidel XML.

Prakticky jde o to, že tyto znaky jsou na začátku a konci řetězce odstraněny a jejich sekvence uprostřed řetězce jsou nahrazeny jednou mezerou.

translate() - Nahrazení znaků

Kdo zná program tr(1), zná i tuto funkci, princip je totiž stejný. Funkce vrací první argument ve kterém jsou znaky vyskytující se v druhém argumentu nahrazeny odpovídajícími znaky z třetího argumentu. Pokud je třetí argument kratší než druhý, jsou odpovídající znaky jednoduše odstraněny.

Několik příkladů

concat('foo','bar','quux') = foobarquux

starts-with('nyaa','ny') = true

starts-with('nyaa','mn') = false

contains('foo bar','bar') = true

contains('foo bar','quux') = false

contains('foobar','oba') = true

substring-before('root=/dev/hda1','=') = root

substring-after('root=/dev/hda1','=') = /dev/hda1

substring-before('foo,bar,quux',',') = foo

substring-after('foo,bar,quux',',') = bar,quux

substring-before('foo,bar,quux','=') =

substring-after('foo,bar,quux','=') =

substring('abcdef',2,3) = bcd

substring('abcdef',5,1 div 0) = ef - Výsledkem dělení nulou je hodnota plus nekonečno.

string-length('abcdef') = 6

normalize-space(' bla  bla  foo   ') = bla bla foo

translate('abcdef','ab','AB') = ABcdef

translate('abcdef','abc','AB') = ABdef

Pokud někde mluvím o znacích, myslím tím samožřejmě znaky Unicode a nikoli jednotlivé bajty a toto by mělo platit i pro znaky vyšší než U+FFFF. Jediným problémem můžou být znaky, které ačkoli vypadají jeden jsou reprezentovány více znaky Unicode, případně pro ně existuje více reprezentací, jednou jako jeden znak a podruhé jako dva znaky. Všechny české znaky s diakritikou patří do druhé skupiny, do první patří různé komplikovaně skládané znaky některých asijských jazyků.

Tímto článkem bych uzavřel naši krátkou odbočku k jazyku XPath a příště se vrátíme k XSL transformacím, pro které jsme teď vyzbrojeni jazykem XPath.

Verze pro tisk

pridej.cz

 

DISKUZE

Nejsou žádné diskuzní příspěvky u dané položky.



Příspívat do diskuze mohou pouze registrovaní uživatelé.
> Vyhledávání software
> Vyhledávání článků
> Služby
Administrace serverů
Od 350 Kč/hod
Server housing
Od 1000 Kč/1U

30.7.2010 9:06 /MaReK Olšavský
Krátký článek pro pythonýry připomíná zlatá pravidla programování (vztažitelná i na jiné jazyky). Pokračujte odkazem na konci článku :-).
Přidat komentář

29.7.2010 14:39 /Radim Kolář
IBM vydala další z řady publikací pro studenty Getting started with open source development. Probírají se licence, obchodní modely, příklady OSS projektů a jak se zapojit do vývoje. Dodatek je věnován krátkému úvodu k DB2 databázi.
Přidat komentář

29.7.2010 7:44 /MaReK Olšavský
Při procesu akvizice SUN Microsystems Oraclem se mluvilo především o MySQL a Java platformě, ale Oracle získal mnohem více zajímavých produktů se širokou uživatelskou základnou, například VirtualBox, ke kterému má poněkud macešský přístup. Bude tu VirtualBox pro běžné uživatele, nebo se s ním máme pomalu rozloučit?
Komentářů: 1

29.7.2010 7:08 /MaReK Olšavský
Pokud se uživatelé distribucí Fedora a Ubuntu těšili na pozimní vydání, která měla přinést GNOME 3.0, mohou svá očekávání zmírnit, GNOME 3.0 bude opožděno, snad jen do března 2011.
Přidat komentář

28.7.2010 8:49 /MaReK Olšavský
Možná pro někoho může být překvapující, že CentOS má majoritní podíl mezi webservery. „Bezplatný RHEL“ trochu překvapivě předstihl vyzdvihovaný Debian i FreeBSD.
Komentářů: 5

   Více ...   Přidat zprávičku

> Poslední diskuze

29.7.2010 18:24 / Hynek (Pichi) Vychodil
Re: Kým vyzdvihovaný Debian?

29.7.2010 15:29 / Radim Kolář
Re: Ruchlost kompilace

29.7.2010 12:40 / Radim Kolář
Freebsd

29.7.2010 12:35 / Radim Kolář
mne pada

29.7.2010 12:35 / Slavomir
Rychla maska

Více ...

ISSN 1801-3805 | Prague hotels | Provozovatel: Pavel Kysilka, IČ: 72868490 (2003-2010) | mail at linuxsoft dot cz | Design: www.megadesign.cz | Textová verze