LINUXSOFT.cz Přeskoč levou lištu
Uživatel: Heslo:  
   CZUKPL

> Programujeme s XML (2.) - DOM v rychlíku

Od minula již umíme načíst, uložit a vytvořit nový dokument, dnes se podíváme na nejjednušší manipulace s ním.

8.6.2004 15:00 | Aleš Hakl | Články autora | přečteno 16567×

Zjišťujeme atributy

Pokud máme nějakou instanci třídy element, můžeme prostřednictvím metody getAttribute() (v případě DOM2 i pomocí její varianty pracující se jmenými prostory) zjistit hodnotu některého z jeho atributů. Například pro kořenový element (v pythonu, ale ono je to ve všech třech našich jazycích vlastně stejné, pouze musíme navíc používat přetypování):

>>> doc
<XML Document at 4079e60c>
>>> doc.documentElement.getAttribute("atribut")
u'nejaka hodnota'

Jenom maáa poznamka - zápis u'něco' v pythonu značí řetězec znaku v kódování Unicode.

Hledáme elementy podle názvu

Pomocí metody getElementsByTagName() (připadně getElementsByTagNameNS()) můžeme vyhledat všechny subelementy daného názvu (a případně jmenného prostoru). Výsledkem je instance třídy NodeList, ta je vcelku jednoduchá, má atribut length obsahujícící počet položek a metodu item() vracející danou položku.

>>> nodelist = doc.getElementsByTagName("textovy-element")
>>> nodelist
<NodeList at 403f2aac: [<Element Node at 407aec0c: Name='textovy-element' with 0 attributes and 1 children>]>

Nyní můžeme z našeho ukázkového dokumentu zkusit dostat hodnotu některého z atributů vnořených elementů:

>>> doc.documentElement. getElementsByTagName('vnorene-elementy').item(0). getElementsByTagName('vnitrni-element').item(1). getAttribute('poradi')
u'2'

Jenom bych dodal, že metoda item() třídy NodeList v případě, že daný element neexistuje, vrátí null, tedy v případě Pythonu datový typ(hodnotu) None a v Pascalu hodnotu nil.

Textové uzly

Protože dokumenty neobshují jen elementy a atributy, ale i text, bylo by záhodno, umět s tímto textem manipulovat. Pokud nepotřebujeme používat v DTD definované entity, můžeme použít jednoduchou a rychlou metodu:

Zavoláme metodu normalize(), jež spojí všechny sousedící textové uzly. Pokud si můžeme být jisti tím, že kde očekáváme text, je opravdu pouze text a případně standardní entity (&gt;, &lt;, &amp; a číselné unicode entity), dostaneme všude, kde má být text, jeden textový uzel. Ten poté můžeme snadno načíst:

>>> doc.normalize()
>>> doc.documentElement. getElementsByTagName('textovy-element').item(0). firstChild.data
u'\n Ja opravdu nebudu nikoho oznacovat za alkoholika ^_~\n '

Tento přístup je často dostačující, ale občas potřebujeme zpracovat i dokumenty se složitější strukturou. Potom musíme iterovat přes jednotlivé dceřiné uzly a textový řetězec si zrekonstruovat sami. Není to zrovna přehledné, ale kdo něco podobného potřebuje, jistě sám vymyslí jak na to, jediným problemém je, že musíme poznat, které uzly nás zajímají (text, CDATA, případně entity) a pak správně pospojovat jejich obsah.

Procházíme elementy

Jistě jste si všimli, že máme několik možností, jak procházet obsah elementů. Můžeme používat atribut childNodes obalujicího uzlu a postupně dereferencovat další uzly:

>>> element.childNodes.item(0)
<Text Node at 4079580c: u'\\0xa '>
>>> element.childNodes.item(1)
<Element Node at 40795a4c: Name='vnitrni-element' with 1 attributes and 0 children>
# a tak dale . . .

Nebo můžeme postupně používat atribudy nextSibling a previousSibling a přímo procházet uzly, tento přístup by měl být dle mého názoru o něco málo rychlejší a funkčně je shodný s předchozím.

>>> element = element.firstChild
>>> element
<Text Node at 4079580c: u'\\0xa '>
>>> element = element.nextSibling
>>> element
<Element Node at 40795a4c: Name='vnitrni-element' with 1 attributes and 0 children>

Takto můžeme postupně projít všechny uzly, pokud nás ovšem zajímají pouze elementy a navíc pouze elementy daného názvu, můžeme použít výše zmíněnou metodu getElementsByTagName() třídy Element, tím získáme seznam dceřiných elementů s daným názvem:

>>> nodelist = element.getElementsByTagName('vnitrni-element')
>>> nodelist
<NodeList at 403f2aac: [<Element Node at 4079bb2c: Name='vnitrni-element' with 1 attributes and 0 children>, <Element Node at 4079e40c: Name='vnitrni-element' with 1 attributes and 1 children>, <Element Node at 4079eeec: Name='vnitrni-element' with 1 attributes and 0 children>]>
>>> nodelist.item(0)
<Element Node at 4079bb2c: Name='vnitrni-element' with 1 attributes and 0 children>
>>> nodelist.item(1)
<Element Node at 4079e40c: Name='vnitrni-element' with 1 attributes and 1 children>
# a tak dale ...

Jako specialita v Pythonu existuje třída TreeWalker, jenž nám umožní projít celý podstrom daného uzlu a určit, které uzly nás zajímají. Ale protože Python není jediný jazyk, který nás zajímá, případné zájemce odkážu na ukázkový příklad v (poněkud nekompletní) dokumentaci knihovny PyXML.

Všechny dnešní ukázky jsou psané v Pythonu, hodilo by se tedy uvést několik poznámek:

  • Java příliš neholduje koncepci atributů (nebo v terminologii Object Pascalu vlastností), proto v jave pro přístup k "atributu" nejakyAtribut použijeme metody getNejakyAtribut respektive setNejakyAtribut
  • Object (Free) Pascal nemá garbage collector, a proto bychom měli zajistit uvolnění použité paměti, bohužel specifikace DOM s touto eventualitou příliš nepočítá, a tak není přesně jasné, který destruktor má kdo a kdy zavolat. Osobně si myslím, že by mělo stačit volat destruktor instance třídy TDOMDocument (tedy spíše TXMLDocument), ale zcela jistý si tím nejsem.
  • Pascal i Java jsou jazyky s přísnou typovou kontrolou, a proto je nutné provádět odpovídající přetypování z Node na třidu, se kterou chceme pracovat (Element, Text ...)

Příště se podíváme na to jak v dokumentu vytvářet nové uzly, ať již elementy, text nebo třeba komentáře. A asi se porozhlédnu na internetu po nějakém méně vyumělkovaném ukázkovém dokumentu.

Verze pro tisk

pridej.cz

 

DISKUZE

Nejsou žádné diskuzní příspěvky u dané položky.



Příspívat do diskuze mohou pouze registrovaní uživatelé.
> Vyhledávání software
> Vyhledávání článků

15.5.2017 23:50 /František Kučera
Máš rád svobodný software a hardware nebo se o nich chceš něco dozvědět? Zajímá tě DIY, CNC, SDR nebo morseovka? Přijď na sraz spolku OpenAlt, který se bude konat ve čtvrtek 18. května od 18:00 v Radegastovně Perón (Stroupežnického 20, Praha 5).
Přidat komentář

12.5.2017 16:42 /Honza Javorek
PyCon CZ, česká konference o programovacím jazyce Python, se po dvou úspěšných ročnících v Brně bude letos konat v Praze, a to 8. až 10. června. Na konferenci letos zavítá např. i Armin Ronacher, známý především jako autor frameworku Flask, šablon Jinja2/Twig, a dalších projektů. Těšit se můžete na přednášky o datové analytice, tvorbě webu, testování, tvorbě API, učení a mentorování programování, přednášky o rozvoji komunity, o použití Pythonu ve vědě nebo k ovládání nejrůznějších zařízení (MicroPython). Na vlastní prsty si můžete na workshopech vyzkoušet postavit Pythonem ovládaného robota, naučit se učit šestileté děti programovat, efektivně testovat nebo si v Pythonu pohrát s kartografickým materiálem. Kupujte lístky, dokud jsou.
Přidat komentář

2.5.2017 9:20 /Eva Rázgová
Putovní konference československé Drupal komunity "DrupalCamp Československo" se tentokrát koná 27. 5.2017 na VUT FIT v Brně. Můžete načerpat a vyměnit si zkušenosti z oblasti Drupalu 7 a 8, UX, SEO, managementu týmového vývoje, využití Dockeru pro Drupal a dalších. Vítáni jsou nováčci i experti. Akci pořádají Slovenská Drupal Asociácia a česká Asociace pro Drupal. Registrace na webu .
Přidat komentář

1.5.2017 20:31 /Pavel `Goldenfish' Kysilka
PR: 25.5.2017 proběhne v Praze konference na téma Firemní informační systémy. Hlavními tématy jsou: Informační systémy s vlastní inteligencí, efektivní práce s dokumenty, mobilní přístup k datům nebo využívání cloudu.
Přidat komentář

15.4.2017 15:20 /František Kučera
Máš rád svobodný software a hardware nebo se o nich chceš něco dozvědět? Zajímá tě IoT a radiokomunikace? Přijď na sraz spolku OpenAlt, který se bude konat ve středu 19. dubna od 18:30 v Šenkovně (Sokolská 60, Praha 2).
Přidat komentář

5.3.2017 19:12 /Redakce Linuxsoft.cz
PR: 23. března proběhne v Praze konferenci na téma Cloud computing v praxi. Hlavními tématy jsou: Nejžhavější trendy v oblasti cloudu a cloudových řešení, Moderní cloudové služby, Infrastruktura současných cloudů, Efektivní využití cloudu, Nástrahy cloudových řešení a jak se jim vyhnout.
Přidat komentář

27.2.2017 22:12 /František Kučera
Pozvánka na 137. sraz OpenAlt – Praha: Tentokrát jsme si pro vás připravili neobvyklou akci. Ve středu 1.3. v 17:30 nás přivítá sdružení CZ.NIC ve svých prostorách v Milešovské ulici číslo 5 na Praze 3, kde si pro nás připravili krátkou prezentaci jejich činnosti. Následně navštívíme jejich datacentrum pod Žižkovskou věží. Provedou nás prostory, které jsou běžnému smrtelníkovi nedostupné!
Po ukončení prohlídky se všchni odebereme do hostince U vodoucha, Jagelonská 21, Praha 3 pochutnat si na některém z vybraných piv či dát si něco na zub. Rezervaci máme od 19:30, heslo je OpenAlt.
Ale pozor! Do prostor datového centra máme omezený přístup, dostane se tam pouze 10 lidí! Takže kdo přijde dříve, ten má přednost, a občanky s sebou! Kdo nebude chtít na prohlídku datového centra, může se pomalu přesunout do hostince U vodoucha a u nepřeberné nabídky piv počkat na ostatní.
Přidat komentář

18.1.2017 0:49 /František Kučera
Členové a příznivci spolku OpenAlt se pravidelně schází v Praze a Brně. Fotky z pražských srazů za uplynulý rok si můžete prohlédnout na stránkách spolku. Příští sraz se koná už 19. ledna – tentokrát je tématem ergonomie ovládání počítače – tzn. klávesnice, myši a další zařízení. Také budete mít příležitost si prohlédnout pražský hackerspace Brmlab.
Přidat komentář

   Více ...   Přidat zprávičku

> Poslední diskuze

1.8.2017 7:32 / Cassidy
structural consultants

30.7.2017 11:12 / Jaromir Obr
Národní znaky

27.7.2017 12:24 / Jaromir Obr
Cteni/zapis

26.7.2017 21:12 / Jaromir Obr
Podminka

15.6.2017 9:34 / Ondřej Havlas
php,

Více ...

ISSN 1801-3805 | Provozovatel: Pavel Kysilka, IČ: 72868490 (2003-2017) | mail at linuxsoft dot cz | Design: www.megadesign.cz | Textová verze