LINUXSOFT.cz Přeskoč levou lištu
Uživatel: Heslo:  
   CZUKPL

> Perl (135) - XML - čtení a zápis

Perl XML je univerzálním jazykem pro přenos nejrůznějších dokumentů. Jak si s jeho parsováním poradí Perl?

24.6.2011 00:00 | Jiří Václavík | Články autora | přečteno 9755×

Jazyk XML (Extensible Markup Language) netřeba dlouze představovat. Jde o značkovací jazyk, který se masivně používá pro přenos dokumentů. Příklad XML dokumentu je k vidění na Wikipedii.

Nyní budeme zkoumat nástroje, které dokáží v našich programech s XML pohodlně zacházet. Díky oblibě XML jich je k dispozici celá řada.

Základním nástrojem pro nejjednodušší operace s XML daty je modul XML::Simple z archivu modulů CPAN. XML::Simple umí jedinou věc - konvertuje XML data do datové struktury Perlu a naopak.

Hned na úvod poznamenejme, že XML::Simple má jeden zásadní nedostatek. Nelze mixovat obsah a elementy uvnitř jednoho elementu. S tím si XML::Simple neporadí a je třeba použít něco silnějšího.

Další potenciální slabinou XML::Simple je, že je náročný na paměť a u extrémně velkých souborů to může působit problémy. S tím souvisí i to, že nelze zpracovávat data dávkově. K tomu slouží specializované moduly, které pracují s nástrojem zvaným SAX.

Modul XML::Simple obsahuje dvě hlavní metody. XMLin pro načtení XML souboru a naopak XMLout pro export do XML.

Čtení XML dat

Budeme na chvíli pracovat s následujícím souborem.

<?xml version="1.0" encoding="UTF-8"?>
<katalog>
  <kniha id="1">
    <nazev>Stopařův průvodce Galaxií 1.</nazev>
    <autor>Adams Douglas</autor>
    <foto src="stoparuv.jpg" alt="Titulní strana - Stopařův průvodce"/>
    <popis>
      Nezapomeňte: <citace>ručník je dost možná tou nejužitečnější věcí ve vesmíru</citace>.
    </popis>
    <cena>319</cena>
  </kniha>
  <kniha id="2">
    <nazev>Alchymista</nazev>
    <autor>Coelho Paulo</autor>
    <foto src="alchymista.jpg" alt="Titulní strana - Alchymista"/>
    <popis>
      Cesta za pokladem.
    </popis>
    <cena>399.90</cena>
  </kniha>
</katalog>

Podívejme se na úvod, jak tedy načteme XML soubor katalog.xml.

use XML::Simple;
use Data::Dumper;
$katalog = XMLin("katalog.xml");
print Dumper $katalog;

Zároveň jsme díky modulu Data::Dumper vytiskli strukturu právě vytvořené proměnné $katalog.

$VAR1 = {
          'kniha' => {
                     '1' => {
                            'foto' => {
                                      'alt' => "Titulní strana - Stopařův průvodce",
                                      'src' => 'stoparuv.jpg'
                                    },
                            'autor' => 'Adams Douglas',
                            'popis' => {
                                       'citace' => "ručník je dost možná tou nejužitečnější věcí ve vesmíru",
                                       'content' => [
                                                      "
      Nezapomeňte: ",
                                                      '.
    '
                                                    ]
                                     },
                            'nazev' => "Stopařův průvodce Galaxií 1.",
                            'cena' => '319'
                          },
                     '2' => {
                            'foto' => {
                                      'alt' => "Titulní strana - Alchymista",
                                      'src' => 'alchymista.jpg'
                                    },
                            'autor' => 'Coelho Paulo',
                            'popis' => '
      Cesta za pokladem.
    ',
                            'nazev' => 'Alchymista',
                            'cena' => '399.90'
                          }
                   }
        };

Jako parametr XMLin jsme uvedli jméno souboru. Kdybychom použili metodu bez argumentů, hledal by se soubor stejného názvu jako skript (přesněji __FILE__) s tím, že by se přípona pozměnila na .xml. Další možností je vložit přímo řetězec ve formátu XML.

Modul funguje i s objektovým přístupem.

XML::Simple->new()->XMLin("neco.xml")

Uveďme zde ještě pár poznámek, jak se data ukládají. Především, ukládání do datové struktury je ztrátové, ale není to nic kritického. Na několika příkladech si nyní vysvětlíme, jak konverze probíhá. Podle nich uvidíme, kde dochází k nejednoznačnostem, které se potom pokusíme odstranit. Ne u všech to půjde.

Uvnitř elementu může být buď text nebo další struktura elementů. Je-li tam text, pak se též objeví jako příslušná hodnota hashe. V opačném případě bude touto hodnotou nějaká další anonymní datová struktura.

Pokud máme XML opakované elementy, pak jsou položky (knihy) reprezentovány jako prvky anonymního pole.

<kniha>...</kniha>
<kniha>...</kniha>
...

Pokud je rozlišíme parametrem s názvem id (tak jsme to udělali v případě knih i v úvodním příkladu), pak se ukládají jako hash tvaru {1=>{...}, 2=>{...}, ...}.

<kniha id=1>...</kniha>
<kniha id=2>...</kniha>
...

Dodejme ještě, že úplně stejně by se do datové struktury uložilo následující.

<kniha><id>1</id>...</kniha>
<kniha><id>2</id>...</kniha>
...

Nabízí se otázka: Jde celé toto "chytré" chování nějak obejít? Odpověď je: Ano, stačí data načítat s parametrem ForceArray => 1. Výsledná datová struktura je složitější a strukturou více popisuje vstupní data.

XMLin("ukazka.xml", ForceArray => 1);

Opět zde narážíme na nedostatky XML::Simple. Vždy jde o to, co vlastně chceme. Pokud jen chceme získat několik jednotlivých dat a nejednoznačnosti nejsou podstatné, bude se lépe pracovat s původní verzí (avšak zde poznamenejme, že robusnější řešení nabízí xPath). Pokud chceme XML upravit a uložit, bude lepší využít ForceArray, neboť výsledné XML by se pak mohlo hodně změnit (to uvidíme podrobněji dále).

Dalších parametrů je celá řada. Pro další informace se odkažme na dokumentaci.

Ještě si všimněme, jak se element <citace></citace> objevil ve výsledné datové struktuře. Již jsme na to narazili v úvodu. Pokud se uvnitř elementu objevuje text (což je zde fyzicky obsah elementu <content></content>) a další elementy, pak XML::Simple vůbec neumí rozlišit jejich pořadí. Měli bychom tedy použít nějaký jiný nástroj.

Práce s jednotlivými daty a xPath

Samozřejmě můžeme pomocí pravidel pro datové struktury tisknout i konkrétní skaláry. Například následující volání má za následek vytisknutí autora 1. knihy v seznamu.

print $katalog->{kniha}->{1}->{autor};

Pravdou však je, že to není příliš pohodlné. Je ale třeba si uvědomit, že pro tisk jakýchkoliv dat je uvedení cesty k nim nezbytné. Přirozenou otázkou je, zda neexistuje nějakým způsobem standardizovaná cesta k jednotlivým datům ve formě řetězce. Ano, samozřejmě již existuje a daný jazyk se nazývá xPath.

Nebudeme se jím podrobně zabývat, pouze si uvedeme příklad. Na CPANu je řada modulů, které xPath podporují. Uveďme například XML::XPath::Simple. Autora první knihy zde získáme takto.

use XML::XPath::Simple;
$xpath = new XML::XPath::Simple(xml => "ukazka.xml");
print $xpath->valueof("/katalog/kniha[1]/autor");

Pro zájemce o xPath je k dispozici například tutoriál na w3schools.com .

Zápis XML dat

Nyní bychom samozřejmě mohli s touto strukturou pracovat. To zatím ponechme stranou a podívejme se, jak z datové struktury vytvoříme XML.

O výstup do XML dat se stará Metoda XMLout. Vytiskněme na úvod naši datovou strukturu $katalog na standardní výstup ve formátu XML.

print XMLout($katalog);

Výstup nás možná překvapí, protože náš původní XML soubor vypadal trochu jinak. Důvod jsme již uvedli. Struktura dat nicméně zůstává stejná.

<opt>
  <kniha name="1" autor="Adams Douglas" cena="319" nazev="Stopařův průvodce Galaxií 1.">
    <foto alt="Titulní strana - Stopařův průvodce" src="stoparuv.jpg" />
    <popis citace="ručník je dost možná tou nejužitečnější věcí ve vesmíru">
      <content>
      Nezapomeňte: </content>
      <content>.
    </content>
    </popis>
  </kniha>
  <kniha name="2" autor="Coelho Paulo" cena="399.90" nazev="Alchymista" popis="
      Cesta za pokladem.
    ">
    <foto alt="Titulní strana - Alchymista" src="alchymista.jpg" />
  </kniha>
</opt>

Předně, velmi záleží na tom, zda jsme načetli XML soubor s parametrem ForceArray. Předcházející soubor nám vznikl bez ForceArray. Jeho nastavením získáme lehce změněný výstup, který je podobnější úvodní verzi.

<opt>
  <kniha name="1">
    <autor>Adams Douglas</autor>
    <cena>319</cena>
    <foto alt="Titulní strana - Stopařův průvodce" src="stoparuv.jpg" />
    <nazev>Stopařův průvodce Galaxií 1.</nazev>
    <popis>
      <citace>ručník je dost možná tou nejužitečnější věcí ve vesmíru</citace>
      <content>
      Nezapomeňte: </content>
      <content>.
    </content>
    </popis>
  </kniha>
  <kniha name="2">
    <autor>Coelho Paulo</autor>
    <cena>399.90</cena>
    <foto alt="Titulní strana - Alchymista" src="alchymista.jpg" />
    <nazev>Alchymista</nazev>
    <popis>
      Cesta za pokladem.
    </popis>
  </kniha>
</opt>

Nastavením dodatečných parametrů pro metodu XMLout můžeme docílit ještě dalších změn.

Parametrem KeepRoot => 0 se zbavíme obalujícího elementu <opt></opt>.

Také se nám cestou ztratila úvodní deklarace z XML souboru. Můžeme ji doplnit parametrem XMLDecl => "<?xml version='1.0'?>".

Abychom nemuseli vrácený řetězec složitě zapisovat do souboru, lze užít také parametr OutputFile => 'novy_katalog.xml', který vytiskne výsledek do uvedeného souboru na místo standardního výstupu. Výsledné volání nyní vypadá takto.

XML::Simple::XMLout($katalog, 
    KeepRoot   => 0, 
    XMLDecl    => "<?xml version='1.0'?>",
    OutputFile => "new.xml",
);

Verze pro tisk

pridej.cz

 

DISKUZE

Nejsou žádné diskuzní příspěvky u dané položky.



Příspívat do diskuze mohou pouze registrovaní uživatelé.
> Vyhledávání software
> Vyhledávání článků

13.2.2018 0:41 /František Kučera
Únorový pražský sraz OpenAltu se koná 15. 2. 2018 a tentokrát se vydáme na návštěvu do jednoho pražského datacentra. Sejdeme se v 17:50 v severovýchodní části nástupiště tramvajové zastávky Koh-I-Noor. Po exkurzi se přesuneme do restaurace U Pštrosa (Moskevská 49), kde probereme tradiční témata (svobodný software a hardware, DIY, CNC, SDR, 3D tisk…) a tentokrát bude k vidění i IoT brána od The Things Network.
Přidat komentář

11.2.2018 23:11 /Petr Ježek
Hledáte lehký a rychlý prolížeč PDF souborů? Pokud vás již omrzelo čekat na načítání stránek či jiné nešvary, zkuste xreader.
Přidat komentář

11.2.2018 20:35 /Redakce Linuxsoft.cz
Třetí ročník odborné IT konference na téma Cloud computing v praxi proběhne ve čtvrtek 1. března 2018 v konferenčním centru Vavruška, v paláci Charitas, Karlovo náměstí 5, Praha 2 (u metra Karlovo náměstí) od 9:00 hod. dopoledne do cca 16 hod. odpoledne. Konference o trendech v oblasti cloud computingu nabídne i informace o konkrétních možnostech využívání cloudů a řešení vybraných otázek souvisejících s provozem IT infrastruktury.
Přidat komentář

15.1.2018 0:51 /František Kučera
První letošní pražský sraz se koná již tento čtvrtek 18. ledna od 18:00 v Radegastovně Perón (Stroupežnického 20, Praha 5). Vítáni jsou všichni příznivci svobodného softwaru a hardwaru, ESP32, DIY, CNC, SDR nebo dobrého piva. Prvních deset účastníků srazu obdrží samolepku There Is No Cloud… just other people's computers. od Free Software Foundation.
Přidat komentář

14.11.2017 16:56 /František Kučera
Máš rád svobodný software a hardware nebo se o nich chceš něco dozvědět? Zajímá tě DIY, CNC, SDR nebo morseovka? Přijď na sraz spolku OpenAlt – tradičně první čtvrtek před třetím pátkem v měsíci: 16. listopadu od 18:00 v Radegastovně Perón (Stroupežnického 20, Praha 5).
Přidat komentář

12.11.2017 11:06 /Redakce Linuxsoft.cz
PR: 4. ročník odborné IT konference na téma Datová centra pro business proběhne již ve čtvrtek 23. listopadu 2017 v konferenčním centru Vavruška, v paláci Charitas, Karlovo náměstí 5, Praha 2 (u metra Karlovo náměstí) od 9:00. Konference o návrhu, budování, správě a efektivním využívání datových center nabídne odpovědi na aktuální a často řešené otázky, např Jaké jsou aktuální trendy v oblasti datových center a jak je využít pro vlastní prospěch? Jak zajistit pro firmu či jinou organizaci odpovídající služby datových center? Podle jakých kritérií vybrat dodavatele služeb? Jak volit součásti infrastruktury při budování či rozšiřování vlastního datového centra? Jak efektivně spravovat datové centrum? Jak eliminovat možná rizika? apod.
Přidat komentář

13.9.2017 8:00 /František Kučera
Máš rád svobodný software a hardware nebo se o nich chceš něco dozvědět? Zajímá tě DIY, CNC, SDR nebo morseovka? Přijď na sraz spolku OpenAlt – tentokrát netradičně v pondělí: 18. září od 18:00 v Radegastovně Perón (Stroupežnického 20, Praha 5).
Přidat komentář

3.9.2017 20:45 /Redakce Linuxsoft.cz
PR: Dne 21. září 2017 proběhne v Praze konference "Mobilní řešení pro business". Hlavní tématy konference budou: nejnovější trendy v oblasti mobilních řešení pro firmy, efektivní využití mobilních zařízení, bezpečnostní rizika a řešení pro jejich omezení, správa mobilních zařízení ve firmách a další.
Přidat komentář

   Více ...   Přidat zprávičku

> Poslední diskuze

16.1.2018 1:08 / Ivan Pittner
verejna ip od o2 ubuntu

15.1.2018 17:26 / Mira Harvalik
Re: Jak udělat HTML/Javascript swiping gallery do mobilu?

30.12.2017 20:16 / Michal Knoll
odmocnina

31.8.2017 12:11 / Jaromir Obr
Re: ukůládání dat ze souboru

30.7.2017 11:12 / Jaromir Obr
Národní znaky

Více ...

ISSN 1801-3805 | Provozovatel: Pavel Kysilka, IČ: 72868490 (2003-2018) | mail at linuxsoft dot cz | Design: www.megadesign.cz | Textová verze