LINUXSOFT.cz Přeskoč levou lištu
Uživatel: Heslo:  
   CZUKPL

> Programujeme s XML (2.) - DOM v rychlíku

Od minula již umíme načíst, uložit a vytvořit nový dokument, dnes se podíváme na nejjednušší manipulace s ním.

8.6.2004 15:00 | Aleš Hakl | Články autora | přečteno 17283×

Zjišťujeme atributy

Pokud máme nějakou instanci třídy element, můžeme prostřednictvím metody getAttribute() (v případě DOM2 i pomocí její varianty pracující se jmenými prostory) zjistit hodnotu některého z jeho atributů. Například pro kořenový element (v pythonu, ale ono je to ve všech třech našich jazycích vlastně stejné, pouze musíme navíc používat přetypování):

>>> doc
<XML Document at 4079e60c>
>>> doc.documentElement.getAttribute("atribut")
u'nejaka hodnota'

Jenom maáa poznamka - zápis u'něco' v pythonu značí řetězec znaku v kódování Unicode.

Hledáme elementy podle názvu

Pomocí metody getElementsByTagName() (připadně getElementsByTagNameNS()) můžeme vyhledat všechny subelementy daného názvu (a případně jmenného prostoru). Výsledkem je instance třídy NodeList, ta je vcelku jednoduchá, má atribut length obsahujícící počet položek a metodu item() vracející danou položku.

>>> nodelist = doc.getElementsByTagName("textovy-element")
>>> nodelist
<NodeList at 403f2aac: [<Element Node at 407aec0c: Name='textovy-element' with 0 attributes and 1 children>]>

Nyní můžeme z našeho ukázkového dokumentu zkusit dostat hodnotu některého z atributů vnořených elementů:

>>> doc.documentElement. getElementsByTagName('vnorene-elementy').item(0). getElementsByTagName('vnitrni-element').item(1). getAttribute('poradi')
u'2'

Jenom bych dodal, že metoda item() třídy NodeList v případě, že daný element neexistuje, vrátí null, tedy v případě Pythonu datový typ(hodnotu) None a v Pascalu hodnotu nil.

Textové uzly

Protože dokumenty neobshují jen elementy a atributy, ale i text, bylo by záhodno, umět s tímto textem manipulovat. Pokud nepotřebujeme používat v DTD definované entity, můžeme použít jednoduchou a rychlou metodu:

Zavoláme metodu normalize(), jež spojí všechny sousedící textové uzly. Pokud si můžeme být jisti tím, že kde očekáváme text, je opravdu pouze text a případně standardní entity (&gt;, &lt;, &amp; a číselné unicode entity), dostaneme všude, kde má být text, jeden textový uzel. Ten poté můžeme snadno načíst:

>>> doc.normalize()
>>> doc.documentElement. getElementsByTagName('textovy-element').item(0). firstChild.data
u'\n Ja opravdu nebudu nikoho oznacovat za alkoholika ^_~\n '

Tento přístup je často dostačující, ale občas potřebujeme zpracovat i dokumenty se složitější strukturou. Potom musíme iterovat přes jednotlivé dceřiné uzly a textový řetězec si zrekonstruovat sami. Není to zrovna přehledné, ale kdo něco podobného potřebuje, jistě sám vymyslí jak na to, jediným problemém je, že musíme poznat, které uzly nás zajímají (text, CDATA, případně entity) a pak správně pospojovat jejich obsah.

Procházíme elementy

Jistě jste si všimli, že máme několik možností, jak procházet obsah elementů. Můžeme používat atribut childNodes obalujicího uzlu a postupně dereferencovat další uzly:

>>> element.childNodes.item(0)
<Text Node at 4079580c: u'\\0xa '>
>>> element.childNodes.item(1)
<Element Node at 40795a4c: Name='vnitrni-element' with 1 attributes and 0 children>
# a tak dale . . .

Nebo můžeme postupně používat atribudy nextSibling a previousSibling a přímo procházet uzly, tento přístup by měl být dle mého názoru o něco málo rychlejší a funkčně je shodný s předchozím.

>>> element = element.firstChild
>>> element
<Text Node at 4079580c: u'\\0xa '>
>>> element = element.nextSibling
>>> element
<Element Node at 40795a4c: Name='vnitrni-element' with 1 attributes and 0 children>

Takto můžeme postupně projít všechny uzly, pokud nás ovšem zajímají pouze elementy a navíc pouze elementy daného názvu, můžeme použít výše zmíněnou metodu getElementsByTagName() třídy Element, tím získáme seznam dceřiných elementů s daným názvem:

>>> nodelist = element.getElementsByTagName('vnitrni-element')
>>> nodelist
<NodeList at 403f2aac: [<Element Node at 4079bb2c: Name='vnitrni-element' with 1 attributes and 0 children>, <Element Node at 4079e40c: Name='vnitrni-element' with 1 attributes and 1 children>, <Element Node at 4079eeec: Name='vnitrni-element' with 1 attributes and 0 children>]>
>>> nodelist.item(0)
<Element Node at 4079bb2c: Name='vnitrni-element' with 1 attributes and 0 children>
>>> nodelist.item(1)
<Element Node at 4079e40c: Name='vnitrni-element' with 1 attributes and 1 children>
# a tak dale ...

Jako specialita v Pythonu existuje třída TreeWalker, jenž nám umožní projít celý podstrom daného uzlu a určit, které uzly nás zajímají. Ale protože Python není jediný jazyk, který nás zajímá, případné zájemce odkážu na ukázkový příklad v (poněkud nekompletní) dokumentaci knihovny PyXML.

Všechny dnešní ukázky jsou psané v Pythonu, hodilo by se tedy uvést několik poznámek:

  • Java příliš neholduje koncepci atributů (nebo v terminologii Object Pascalu vlastností), proto v jave pro přístup k "atributu" nejakyAtribut použijeme metody getNejakyAtribut respektive setNejakyAtribut
  • Object (Free) Pascal nemá garbage collector, a proto bychom měli zajistit uvolnění použité paměti, bohužel specifikace DOM s touto eventualitou příliš nepočítá, a tak není přesně jasné, který destruktor má kdo a kdy zavolat. Osobně si myslím, že by mělo stačit volat destruktor instance třídy TDOMDocument (tedy spíše TXMLDocument), ale zcela jistý si tím nejsem.
  • Pascal i Java jsou jazyky s přísnou typovou kontrolou, a proto je nutné provádět odpovídající přetypování z Node na třidu, se kterou chceme pracovat (Element, Text ...)

Příště se podíváme na to jak v dokumentu vytvářet nové uzly, ať již elementy, text nebo třeba komentáře. A asi se porozhlédnu na internetu po nějakém méně vyumělkovaném ukázkovém dokumentu.

Verze pro tisk

pridej.cz

 

DISKUZE

Nejsou žádné diskuzní příspěvky u dané položky.



Příspívat do diskuze mohou pouze registrovaní uživatelé.
> Vyhledávání software
> Vyhledávání článků

4.10.2018 21:30 /Ondřej Čečák
LinuxDays 2018 již tento víkend, registrace je otevřená.
Přidat komentář

18.9.2018 23:30 /František Kučera
Zářijový pražský sraz spolku OpenAlt se koná již tento čtvrtek – 20. 9. 2018 od 18:00 v Radegastovně Perón (Stroupežnického 20, Praha 5). Tentokrát bez oficiální přednášky, ale zato s dobrým jídlem a pivem – volná diskuse na téma IoT, CNC, svobodný software, hardware a další hračky.
Přidat komentář

9.9.2018 14:15 /Redakce Linuxsoft.cz
20.9.2018 proběhne v pražském Kongresovém centru Vavruška konference Mobilní řešení pro business. Návštěvníci si vyslechnou mimo jiné přednášky na témata: Nejdůležitější aktuální trendy v oblasti mobilních technologií, správa a zabezpečení mobilních zařízení ve firmách, jak mobilně přistupovat k informačnímu systému firmy, kdy se vyplatí používat odolná mobilní zařízení nebo jak zabezpečit mobilní komunikaci.
Přidat komentář

12.8.2018 16:58 /František Kučera
Srpnový pražský sraz spolku OpenAlt se koná ve čtvrtek – 16. 8. 2018 od 19:00 v Kavárně Ideál (Sázavská 30, Praha), kde máme rezervovaný salonek. Tentokrát jsou tématem srazu databáze prezentaci svého projektu si pro nás připravil Standa Dzik. Dále bude prostor, abychom probrali nápady na využití IoT a sítě The Things Network, případně další témata.
Přidat komentář

16.7.2018 1:05 /František Kučera
Červencový pražský sraz spolku OpenAlt se koná již tento čtvrtek – 19. 7. 2018 od 18:00 v Kavárně Ideál (Sázavská 30, Praha), kde máme rezervovaný salonek. Tentokrát bude přednáška na téma: automatizační nástroj Ansible, kterou si připravil Martin Vicián.
Přidat komentář

18.6.2018 0:43 /František Kučera
Červnový pražský sraz spolku OpenAlt se koná již tento čtvrtek – 21. 6. 2018 od 18:00 v Kavárně Ideál (Sázavská 30, Praha), kde máme rezervovaný salonek. Tentokrát na téma: F-Droid, aneb svobodný software do vašeho mobilu. Kromě toho budou k vidění i vývojové desky HiFive1 se svobodným/otevřeným čipem RISC-V.
Přidat komentář

23.5.2018 20:55 /Ondřej Čečák
Od pátku 25.5. proběhne na Fakultě informačních technologií ČVUT v Praze openSUSE Conference. Můžete se těšit na spostu zajímavých přednášek, workshopů a také na Release Party nového openSUSE leap 15.0. V na stejném místě proběhne v sobotu 26.5. i seminář o bezpečnosti CryptoFest.
Přidat komentář

20.5.2018 17:45 /Redakce Linuxsoft.cz
Ve čtvrtek 31. května 2018 připravuje webový magazín BusinessIT ve spolupráci s Best Online Média s.r.o. pátý ročník odborné konference Firemní informační systémy 2018. Akce proběhne v kongresovém centru Vavruška (palác Charitas), Karlovo náměstí 5, Praha 2 (u metra Karlovo náměstí) od 9:00 hod. dopoledne do cca 15 hod. odpoledne. Konference je zaměřena na efektivní využití firemních informačních systémů a na to, jak plně využít jejich potenciál. Podrobnější informace na webových stránkách konfrence.
Přidat komentář

   Více ...   Přidat zprávičku

> Poslední diskuze

5.10.2018 17:12 / Jakub Kuljovsky
Re: Jaký kurz a software by jste doporučili pro začínajcího kodéra?

20.9.2018 10:04 / Jan Ober
Jaký kurz a software by jste doporučili pro začínajcího kodéra?

20.9.2018 10:00 / Jan Ober
Re: Gimp

20.2.2018 18:48 / Ivan Majer
portal

20.2.2018 15:57 / Jan Havel
Jak využíváte služby cloudu v podnikání?

Více ...

ISSN 1801-3805 | Provozovatel: Pavel Kysilka, IČ: 72868490 (2003-2018) | mail at linuxsoft dot cz | Design: www.megadesign.cz | Textová verze