Programujeme s XML (13.) - XPath a řetězce
Dnes zakončíme náš rychlý úvod do jazyka XPath popisem funkcí
pracujících s řetězci.
24.8.2004 15:00 |
Aleš Hakl
| Články autora
| přečteno 5510×
Protože jazyk XPath není určen pro obecné programování, a protože
je z principu interpretovaný, nebylo by vhodné zpracovávat řetězce
po jednotlivých znacích a tudíž to ani není možné, a právě proto nám
jazyk XPath nabízí řadu funkcí představujících nejčastější operace s
řetězci. Tato sada funkcí bohužel neobsahuje žádné zpracování
regulárních výrazů, které bych právě v jazyku typu XPath velmi uvítal.
Již minule jsme se seznámili s funkcí string() sloužící
k převodu libovolného jiného datového typu na řetězec, nyní se tedy
podíváme na ostatní:
concat() - Spojování řetězců
Funkce concat() spojí všechny svoje argumenty do jednoho
řetězce, argumentů může být 2 nebo více.
starts-with() - Vyhledávání na začátku
Tato funkce slouží k operaci, která se v ostatních jazycích příliš
nevyskytuje (snad z výjimkou Javy), zjistí, začíná-li první argument
obsahem druhého argumentu a podle toho vrátí true nebo
false.
contains() - Vyhledávání
Obdoba funkce předchozí s tím rozdílem, že vrací true,
pokud se druhý argument vyskytuje kdekoli v prvním.
substring-before() a substring-after()
Tyto dvě funkce vrací část prvního argumentu předcházející (nebo
následující) výskyt druhého argumentu. Obě funkce vrátí prázdný řetězec,
pokud se v prvním argumentu argument druhý nevyskytuje (což může být
občas trochu matoucí)
substring() - Část řetězce
Tato funkce vrácí část prvního argumentu určenou pozicí začátku
(druhý argument) a délkou (třetí argument). Pozice prvního znaku je
1 jako v Pascalu a ne 0 jako ve většině ostatních programovacích jazyků.
string-length() - Délka řetězce
Vrácí délku řetězce (argumentu) ve znacích.
normalize-space() - Normalizace mezer
Funkce normalize-space() zajistí nahrazení mezer a podobných
znaků (což znamená tabulátor a nový řádek, znaky typu
U+3000(ideografická mezera) XML nepovažuje za mezery) dle pravidel XML.
Prakticky jde o to, že tyto znaky jsou na začátku a konci řetězce
odstraněny a jejich sekvence uprostřed řetězce jsou nahrazeny jednou
mezerou.
translate() - Nahrazení znaků
Kdo zná program tr(1), zná i tuto funkci, princip je totiž
stejný. Funkce vrací první argument ve kterém jsou znaky vyskytující
se v druhém argumentu nahrazeny odpovídajícími znaky z třetího
argumentu. Pokud
je třetí argument kratší než druhý, jsou odpovídající znaky jednoduše
odstraněny.
Několik příkladů
concat('foo','bar','quux') =
foobarquux
starts-with('nyaa','ny') =
true
starts-with('nyaa','mn') =
false
contains('foo bar','bar') =
true
contains('foo bar','quux') =
false
contains('foobar','oba') =
true
substring-before('root=/dev/hda1','=') =
root
substring-after('root=/dev/hda1','=') =
/dev/hda1
substring-before('foo,bar,quux',',') =
foo
substring-after('foo,bar,quux',',') =
bar,quux
substring-before('foo,bar,quux','=') =
substring-after('foo,bar,quux','=') =
substring('abcdef',2,3) =
bcd
substring('abcdef',5,1 div 0) =
ef
- Výsledkem dělení nulou je hodnota plus nekonečno.
string-length('abcdef') =
6
normalize-space(' bla bla foo ') =
bla bla foo
translate('abcdef','ab','AB') =
ABcdef
translate('abcdef','abc','AB') =
ABdef
Pokud někde mluvím o znacích, myslím tím samožřejmě znaky Unicode a nikoli
jednotlivé bajty a toto by mělo platit i pro znaky vyšší než U+FFFF.
Jediným problémem můžou být znaky, které ačkoli vypadají jeden jsou
reprezentovány více znaky Unicode, případně pro ně existuje více
reprezentací, jednou jako jeden znak a podruhé jako dva znaky. Všechny
české znaky s diakritikou patří do druhé skupiny, do první patří různé
komplikovaně skládané znaky některých asijských jazyků.
Tímto článkem bych uzavřel naši krátkou odbočku k jazyku XPath a
příště se vrátíme k XSL transformacím, pro které jsme teď vyzbrojeni
jazykem XPath.
Verze pro tisk
| |
|
Nejsou žádné diskuzní příspěvky u dané položky.
Příspívat do diskuze mohou pouze registrovaní uživatelé.
|
|

Vyhledávání software

Vyhledávání článků
 Služby
30.7.2010 9:06 /MaReK Olšavský Krátký článek pro pythonýry připomíná zlatá pravidla programování (vztažitelná i na jiné jazyky). Pokračujte odkazem na konci článku :-).
Přidat komentář
29.7.2010 14:39 /Radim Kolář IBM vydala další z řady publikací pro studenty Getting started with open source development. Probírají se licence, obchodní modely, příklady OSS projektů a jak se zapojit do vývoje. Dodatek je věnován krátkému úvodu k DB2 databázi.
Přidat komentář
29.7.2010 7:44 /MaReK Olšavský Při procesu akvizice SUN Microsystems Oraclem se mluvilo především o MySQL a Java platformě, ale Oracle získal mnohem více zajímavých produktů se širokou uživatelskou základnou, například VirtualBox, ke kterému má poněkud macešský přístup. Bude tu VirtualBox pro běžné uživatele, nebo se s ním máme pomalu rozloučit?
Komentářů: 1
29.7.2010 7:08 /MaReK Olšavský Pokud se uživatelé distribucí Fedora a Ubuntu těšili na pozimní vydání, která měla přinést GNOME 3.0, mohou svá očekávání zmírnit, GNOME 3.0 bude opožděno, snad jen do března 2011.
Přidat komentář
28.7.2010 8:49 /MaReK Olšavský Možná pro někoho může být překvapující, že CentOS má majoritní podíl mezi webservery. „Bezplatný RHEL“ trochu překvapivě předstihl vyzdvihovaný Debian i FreeBSD.
Komentářů: 5
Více ...
Přidat zprávičku
 Poslední diskuze
29.7.2010 18:24 /
Hynek (Pichi) Vychodil Re: Kým vyzdvihovaný Debian?
29.7.2010 15:29 /
Radim Kolář Re: Ruchlost kompilace
29.7.2010 12:40 /
Radim Kolář Freebsd
29.7.2010 12:35 /
Radim Kolář mne pada
29.7.2010 12:35 /
Slavomir Rychla maska
Více ...
|