LINUXSOFT.cz Přeskoč levou lištu
Uživatel: Heslo:  
   CZUKPL

> Perl (23) - Regulární výrazy - rozšířené vzory

Rozšířené vzory jsou rozšířením tradiční syntaxe regulárních výrazů o nové konstrukce.

2.1.2006 06:00 | Jiří Václavík | Články autora | přečteno 21984×

Rozšířené vzory

Jak již bylo řečeno, rozšířená syntaxe zavádí některé speciální konstrukce. Ač možná nevědomky, již jsme se s ní setkali. Jde například o zápis závorek tak, aby jejich obsah nebyl zapamatován.

Syntaxe rozšířených vzorů vypadá obecně takto: (?znak ). Znak zde zastupuje nějaký symbol nebo symboly, které blíže určují, o jaký rozšířený vzor se jedná.

Upozornění: Některé z rozšířených vzorů jsou zařazeny pouze experimentálně a není zaručeno, že budou dostupné i ve vyšších verzích Perlu. Proto použití těchto konstrukcí konzultujte s manuálem (man perlre).

Komentáře

Dalším způsobem, jak dovnitř regulárního výrazu vložit komentář je použití syntaxe (?# ). Chová se stejně, jako klasické komentáře - je ignorován. Lze ho psát na libovolné místo v regulárním výrazu. Jediným omezením v komentáři je nemožnost použít uzavírací kulatou závorku. Většinou je přehlednější užít volnou syntaxi a přepínač x, nicméně rozšířený vzor tu je také.

  print "MATCHED" if "12AFBB" =~ /^[a-fA-F0-9]+$(?#číslo v šestnáctkové soustavě)/;
  print "MATCHED" if "12AFBB" =~ /^[a-fA-F0-9]+(?#číslo v šestnáctkové soustavě)$/;

Lokální určení přepínače

Lze nastavit, aby byl některý z přepínačů imsx aktivní jen pro určitou část vzoru. Následkem uvedení přepínače i se nerozlišují velká a malá písmena. To můžeme aplikovat na část vzoru:

  print "MATCHED" if "abcdef" =~ /((?i)abc)def/; #vyhovuje
  print "MATCHED" if "AbCdef" =~ /((?i)abc)def/; #vyhovuje - u podřetězce abc nezáleží na velikosti písmen
  print "MATCHED" if "abcDef" =~ /((?i)abc)def/; #nevyhovuje - u podřetězce def záleží na velikosti písmen

Přepínač, kterému předřadíme znak -, je výslovně zakázán. Tímto způsobem lze globální přepínač naopak zrušit.

  print "MATCHED" if "abcdef" =~ /((?-i)abc)def/i; #vyhovuje
  print "MATCHED" if "ABCdef" =~ /((?-i)abc)def/i; #nevyhovuje - globální přepínač i, který nerozlišuje velká a malá písmena, byl přebit lokálním, který ho ruší
  print "MATCHED" if "abcDef" =~ /((?-i)abc)def/i; #vyhovuje - u podřetězce def nezáleží na velikosti písmen. Přepínač i je zrušen pouze pro abc

Aby nebyl obsah závorek zároveň uložen, lze použít zápis (?přepínač:řetězec), což je ekvivalentní s (?:(?přepínač)řetězec)

Lokální přepínače umožňují ještě další věc. Co když v cyklu potřebujeme testovat výraz, u nějž předem nevíme, jestli bude záležet na velikosti? Určitě bychom našli nějaké okliky, jak toho docílit, ale nejlepší řešení povede právě přes lokální přepínače, které vztáhneme na celý regulární výraz.

  foreach $vzor (qw(Praha (?i)linux)) {
      print "MATCHED 1\n" if "praha" =~ /$vzor/; #nevyhovuje
      print "MATCHED 2\n" if "Praha" =~ /$vzor/; #vyhovuje
      print "MATCHED 3\n" if "Linux" =~ /$vzor/; #vyhovuje
      print "MATCHED 4\n" if "linux" =~ /$vzor/; #vyhovuje
  }

Pohled dopředu a dozadu

Pohled patří mezi další speciální vlastnosti. V určitém stadiu se testování řetězce může zastavit a lze porovnat část řetězce za nebo před aktuální pozicí. Pozice se přitom nemění. V konečném důsledku to znamená, že ten řetězec, který byl kontrolován z nějaké zadní nebo přední pozice, nebude součástí vyhovujícího podřetězce, přestože byl srovnáván. Změní mimo jiné věci jako návratová hodnota, hodnoty proměnných $n nebo proměnná $&. Syntaxe pohledu dopředu je (?= ) a pohledu dozadu (?<= ).

Význam těchto konstrukcí je zřejmý i z jejich přesnějších názvů - vzor (?= ) se nazývá pozitivní look-ahead a (?<= ) je pozitivní look-behind.

  $r = "mandrivalinux linux linuxsoft";
  @presna_shoda = ($r =~ /(?<=\W)linux(?=\W)/g);#linux
  @zacinajici = ($r =~ /(?<=\W)linux\w+/g);     #linuxsoft
  @koncici = ($r =~ /\w+linux(?=\W)/g);         #mandrivalinux
  

Obzvláště z 1. případu je patrné, co pohledy dopředu a dozadu dělají. Ve výsledném seznamu je jen řetězec "linux", přestože jsou ve skutečnosti kontrolovány i znaky před a po. Po odstranění pohledů bude tato kontrola zrušena.

Pokud (?= ) resp. (?<= ) nahradíme za (?! ) (negativní look-ahead) resp. (?<! ) (negativní look-behind), je význam opačný. Řetězec vyhoví pouze jestliže vzor neuvidí vepředu resp. vzadu vzor, který jsme určili.

Nakonec ještě poznamenejme, že ze zřejmých důvodů nelze v look-behind použít kvantifikátory, jež nevyjadřují konkrétní délku.

Provedení kódu Perlu uvnitř regulárního výrazu

Konstrukce (?{výraz}) slouží k vykonání perlového bloku kódu uvnitř vzoru, přičemž výsledek nijak neovlivňuje vzor. To lze použít v případě, kdy chceme už v regulárním výrazu přiřadit zapamatované hodnoty do proměnných.

  $retezec = "Cena: 120USD";
  $retezec =~ /Cena:\s(\d+)(?{$cena = $1})/;
  print $cena; #tiskne 120

Místo $1 by bylo pohodlnější ve vzoru použít speciální proměnnou $^N. Jejím obsahem je vždy posledně zapamatovaný řetězec.

A pro úplnost zmíním ještě proměnnou $^R, která obsahuje návratovou hodnotu posledního bloku vloženého do regulárního výrazu.

Provedení kódu Perlu uvnitř regulárního výrazu s dosazením do vzoru

Zápis (??{výraz}) má podobný význam jako ten předešlý. Liší se v tom, že výsledek po vyhodnocení výrazu je dosazen do vzoru.

  $retezec = "Cena: 120USD";
  $kusu = 5;
  $cena_za_kus = 24;
  print "MATCHED" if $retezec =~ /(??{$cena_za_kus*$kusu})USD/;

Vypnutí backtrackingu

Backtracking znamená posouvání pozice v porovnávaném řetězci zpět. To nastává při porovnávání pomocí hladového kvantifikátoru. Nejprve je vždy vlivem hladového kvantifikátoru spolknuta nejdelší možná část textu a poté se pozice posunuje zpět. Právě toto je backtracking.

  print "MATCHED" if "cokoliv" =~ /.*liv/;    #vyhovuje
  print "MATCHED" if "cokoliv" =~ /(?>.*)liv/;#nevyhovuje

V prvním případě backtracking normálně funguje. Ve druhém je však vlivem hladového kvantifikátoru spolknut celý text až do konce, backtracking neprobíhá a vzor tedy nemůže uspět.

Podmínky

A na závěr jsem si nechal řídící konstrukci. Je možné se až uvnitř regulárního výrazu rozhodnout, jak bude jeho další část vypadat. Podmínka má dva možné zápisy. Pro podmínku typu if-else to je (?(test)v_případě_true|v_případě_false) a pro samotné if jen (?(test)v_případě_true). Test je výrazem, který se vyhodnocuje na true nebo false. Podle vyhodnocení je aplikována příslušná část regulárního výrazu.

  $prospel = 0;
  $retezec = "nedostatečný";
  print "MATCHED" if $retezec =~ /
      (?(?{
                $prospel == 1;                       #pokud prospěl
          })
        (^(výborný|chvalitebný|dobrý|dostatečný)$)   #aplikuje se tento regulární výraz
        |
        ^nedostatečný$                               #jinak tento
      )
      /x;

Pokud máte zájem o podrobnější informace o rozšířených vzorech, odkazuji na manuálovou stránku perlre a její oddíl Extended Patterns.

Další escape znaky

V předcházejících dílech jsme již pár escape znaků poznali, ale ještě mnohé další zbývají. Pojďme si představit alespoň některé z nich.

Pomocí escape znaků lze tisknout všechny znaky ASCII tabulky. Libovolný znak se zapisuje buď osmičkově nebo šestnáckově. V 1. případě se píše příslušné trojmístné číslo za zpětné lomítko, u šestnáctkového zápisu je to dvojmístné číslo za \x.

  print "Perl" =~ /\x50\x65\x72\x6C/; #šestnáctkový zápis
  print "Perl" =~ /\120\145\162\154/; #osmičkový zápis

Escape znaky lze použít ke změně velikosti písmen. Převedeme řetězec s náhodnou velikostí znaků na řetězec, který velkým písmenem pouze začíná (ostatní budou malá).

  $retezec = "náhODná VElIkOSt";
  $retezec =~ s/(.?)(.*)/\u\1\L\2\E/;
  print $retezec; #tiskne "Náhodná velikost"

Znak \u Převádí znak, který následuje, na velké písmeno. Podobně znak \l převede následující písmeno na malé. \L změmí skupinu znaků na malá písmena. Skupina začíná ihned za \L a končí uvedením znaku \E nebo koncem řetězce (v ukázce tedy není nezbytně nutný). Opět existuje alternativa v podobě \U pro převedení na velká písmena, která také končí znakem \E.

Další možností escape znaků je potlačení metavýznamu části řetězce. Stačí ji jen ohraničit znaky \Q (začátek) a \E (konec). 1. případ nevyhoví, protože otazník má význam kvantifikátoru. \Q tento význam ruší.

  print "MATCHED" if " ? " =~ /^ ? $/;
  print "MATCHED" if " ? " =~ /^\Q ? \E$/;

Další věc nesouvisí ani tak s escape znaky, jako spíše s významem speciálních znaků. Vytvoříme vzor, kterému vyhoví jeden z těchto řetězců: "/root", "/home/xdf" nebo "/usr/local/apache2.2/xdf". V nich se vyskytuje řada lomítek, které ale mají v regulárních výrazech speciální význam. Proto jim všem musíme předřazovat zpětné lomítko.

  /^((\/root)|(\/home\/xdf)|(\/usr\/local\/apache2\.2\/xdf))$/

Je to správné řešení, ale právě v těchto případech (typické právě pro adresářové cesty) je užitečné použít jiný uvozovací znak, který není ve výrazu použit. Připomínám, že je potom povinné i uvedení m před uvozujícím znakem.

  m#^((/root)|(/home/xdf)|(/usr/local/apache2\.2/xdf))$#

Příště se už konečně podíváme na nějaké praktické užití regulárních výrazů.

Verze pro tisk

pridej.cz

 

DISKUZE

Nejsou žádné diskuzní příspěvky u dané položky.



Příspívat do diskuze mohou pouze registrovaní uživatelé.
> Vyhledávání software
> Vyhledávání článků

16.7.2018 1:05 /František Kučera

Červencový pražský sraz spolku OpenAlt se koná již tento čtvrtek – 19. 7. 2018 od 18:00 v Kavárně Ideál (Sázavská 30, Praha), kde máme rezervovaný salonek. Tentokrát bude přednáška na téma: automatizační nástroj Ansible, kterou si připravil Martin Vicián.


Přidat komentář

18.6.2018 0:43 /František Kučera
Červnový pražský sraz spolku OpenAlt se koná již tento čtvrtek – 21. 6. 2018 od 18:00 v Kavárně Ideál (Sázavská 30, Praha), kde máme rezervovaný salonek. Tentokrát na téma: F-Droid, aneb svobodný software do vašeho mobilu. Kromě toho budou k vidění i vývojové desky HiFive1 se svobodným/otevřeným čipem RISC-V.
Přidat komentář

23.5.2018 20:55 /Ondřej Čečák
Od pátku 25.5. proběhne na Fakultě informačních technologií ČVUT v Praze openSUSE Conference. Můžete se těšit na spostu zajímavých přednášek, workshopů a také na Release Party nového openSUSE leap 15.0. V na stejném místě proběhne v sobotu 26.5. i seminář o bezpečnosti CryptoFest.
Přidat komentář

20.5.2018 17:45 /Redakce Linuxsoft.cz
Ve čtvrtek 31. května 2018 připravuje webový magazín BusinessIT ve spolupráci s Best Online Média s.r.o. pátý ročník odborné konference Firemní informační systémy 2018. Akce proběhne v kongresovém centru Vavruška (palác Charitas), Karlovo náměstí 5, Praha 2 (u metra Karlovo náměstí) od 9:00 hod. dopoledne do cca 15 hod. odpoledne. Konference je zaměřena na efektivní využití firemních informačních systémů a na to, jak plně využít jejich potenciál. Podrobnější informace na webových stránkách konfrence.
Přidat komentář

14.5.2018 7:28 /František Kučera
Květnový pražský sraz spolku OpenAlt se koná již tento čtvrtek – 17. 5. 2018 od 18:00 v Kavárně Ideál (Sázavská 30, Praha), kde máme rezervovaný salonek. Tentokrát na téma: Audio – zvuk v GNU/Linuxu.
Přidat komentář

7.5.2018 16:20 /František Kučera
Na stránkách spolku OpenAlt vyšla fotoreportáž Pražské srazy 2017 dokumentující srazy za uplynulý rok. Květnový pražský sraz na téma audio se bude konat 17. 5. 2018 (místo a čas ještě upřesníme).
Přidat komentář

17.4.2018 0:46 /František Kučera
Dubnový pražský sraz spolku OpenAlt se koná již tento čtvrtek – 19. 4. 2018 od 18:00 v Kavárně Ideál (Sázavská 30, Praha), kde máme rezervovaný salonek. Tématem tohoto srazu bude OpenStreetMap (OSM) aneb svobodné mapy.
Přidat komentář

16.3.2018 22:01 /František Kučera
Kulatý OpenAlt sraz v Praze oslavíme klasicky: u limonády a piva! Přijďte si posedět, dát si dobré jídlo a vybrat z mnoha piv do restaurace Kulový blesk, který najdete v centru Prahy nedaleko metra I. P. Pavlova na adrese Sokolská 13, Praha 2. Sraz se koná ve čtvrtek 22. března a začínáme v 18:00. Heslo: OpenAlt. Vezměte s sebou svoje hračky! Uvítáme, když si s sebou na sraz vezmete svoje oblíbené hračky. Jestli máte nějaký drobný projekt postavený na Arduinu, nějakou zajímavou elektronickou součástku, či třeba i pěkný úlovek z crowdfundingové akce, neváhejte. Oslníte ostatní a o zábavu bude postaráno.
Přidat komentář

   Více ...   Přidat zprávičku

> Poslední diskuze

20.2.2018 18:48 / Ivan Majer
portal

20.2.2018 15:57 / Jan Havel
Jak využíváte služby cloudu v podnikání?

16.1.2018 1:08 / Ivan Pittner
verejna ip od o2 ubuntu

15.1.2018 17:26 / Mira Harvalik
Re: Jak udělat HTML/Javascript swiping gallery do mobilu?

30.12.2017 20:16 / Michal Knoll
odmocnina

Více ...

ISSN 1801-3805 | Provozovatel: Pavel Kysilka, IČ: 72868490 (2003-2018) | mail at linuxsoft dot cz | Design: www.megadesign.cz | Textová verze