LINUXSOFT.cz Přeskoč levou lištu
Uživatel: Heslo:  
   CZUKPL

> Perl (23) - Regulární výrazy - rozšířené vzory

Rozšířené vzory jsou rozšířením tradiční syntaxe regulárních výrazů o nové konstrukce.

2.1.2006 06:00 | Jiří Václavík | Články autora | přečteno 21298×

Rozšířené vzory

Jak již bylo řečeno, rozšířená syntaxe zavádí některé speciální konstrukce. Ač možná nevědomky, již jsme se s ní setkali. Jde například o zápis závorek tak, aby jejich obsah nebyl zapamatován.

Syntaxe rozšířených vzorů vypadá obecně takto: (?znak ). Znak zde zastupuje nějaký symbol nebo symboly, které blíže určují, o jaký rozšířený vzor se jedná.

Upozornění: Některé z rozšířených vzorů jsou zařazeny pouze experimentálně a není zaručeno, že budou dostupné i ve vyšších verzích Perlu. Proto použití těchto konstrukcí konzultujte s manuálem (man perlre).

Komentáře

Dalším způsobem, jak dovnitř regulárního výrazu vložit komentář je použití syntaxe (?# ). Chová se stejně, jako klasické komentáře - je ignorován. Lze ho psát na libovolné místo v regulárním výrazu. Jediným omezením v komentáři je nemožnost použít uzavírací kulatou závorku. Většinou je přehlednější užít volnou syntaxi a přepínač x, nicméně rozšířený vzor tu je také.

  print "MATCHED" if "12AFBB" =~ /^[a-fA-F0-9]+$(?#číslo v šestnáctkové soustavě)/;
  print "MATCHED" if "12AFBB" =~ /^[a-fA-F0-9]+(?#číslo v šestnáctkové soustavě)$/;

Lokální určení přepínače

Lze nastavit, aby byl některý z přepínačů imsx aktivní jen pro určitou část vzoru. Následkem uvedení přepínače i se nerozlišují velká a malá písmena. To můžeme aplikovat na část vzoru:

  print "MATCHED" if "abcdef" =~ /((?i)abc)def/; #vyhovuje
  print "MATCHED" if "AbCdef" =~ /((?i)abc)def/; #vyhovuje - u podřetězce abc nezáleží na velikosti písmen
  print "MATCHED" if "abcDef" =~ /((?i)abc)def/; #nevyhovuje - u podřetězce def záleží na velikosti písmen

Přepínač, kterému předřadíme znak -, je výslovně zakázán. Tímto způsobem lze globální přepínač naopak zrušit.

  print "MATCHED" if "abcdef" =~ /((?-i)abc)def/i; #vyhovuje
  print "MATCHED" if "ABCdef" =~ /((?-i)abc)def/i; #nevyhovuje - globální přepínač i, který nerozlišuje velká a malá písmena, byl přebit lokálním, který ho ruší
  print "MATCHED" if "abcDef" =~ /((?-i)abc)def/i; #vyhovuje - u podřetězce def nezáleží na velikosti písmen. Přepínač i je zrušen pouze pro abc

Aby nebyl obsah závorek zároveň uložen, lze použít zápis (?přepínač:řetězec), což je ekvivalentní s (?:(?přepínač)řetězec)

Lokální přepínače umožňují ještě další věc. Co když v cyklu potřebujeme testovat výraz, u nějž předem nevíme, jestli bude záležet na velikosti? Určitě bychom našli nějaké okliky, jak toho docílit, ale nejlepší řešení povede právě přes lokální přepínače, které vztáhneme na celý regulární výraz.

  foreach $vzor (qw(Praha (?i)linux)) {
      print "MATCHED 1\n" if "praha" =~ /$vzor/; #nevyhovuje
      print "MATCHED 2\n" if "Praha" =~ /$vzor/; #vyhovuje
      print "MATCHED 3\n" if "Linux" =~ /$vzor/; #vyhovuje
      print "MATCHED 4\n" if "linux" =~ /$vzor/; #vyhovuje
  }

Pohled dopředu a dozadu

Pohled patří mezi další speciální vlastnosti. V určitém stadiu se testování řetězce může zastavit a lze porovnat část řetězce za nebo před aktuální pozicí. Pozice se přitom nemění. V konečném důsledku to znamená, že ten řetězec, který byl kontrolován z nějaké zadní nebo přední pozice, nebude součástí vyhovujícího podřetězce, přestože byl srovnáván. Změní mimo jiné věci jako návratová hodnota, hodnoty proměnných $n nebo proměnná $&. Syntaxe pohledu dopředu je (?= ) a pohledu dozadu (?<= ).

Význam těchto konstrukcí je zřejmý i z jejich přesnějších názvů - vzor (?= ) se nazývá pozitivní look-ahead a (?<= ) je pozitivní look-behind.

  $r = "mandrivalinux linux linuxsoft";
  @presna_shoda = ($r =~ /(?<=\W)linux(?=\W)/g);#linux
  @zacinajici = ($r =~ /(?<=\W)linux\w+/g);     #linuxsoft
  @koncici = ($r =~ /\w+linux(?=\W)/g);         #mandrivalinux
  

Obzvláště z 1. případu je patrné, co pohledy dopředu a dozadu dělají. Ve výsledném seznamu je jen řetězec "linux", přestože jsou ve skutečnosti kontrolovány i znaky před a po. Po odstranění pohledů bude tato kontrola zrušena.

Pokud (?= ) resp. (?<= ) nahradíme za (?! ) (negativní look-ahead) resp. (?<! ) (negativní look-behind), je význam opačný. Řetězec vyhoví pouze jestliže vzor neuvidí vepředu resp. vzadu vzor, který jsme určili.

Nakonec ještě poznamenejme, že ze zřejmých důvodů nelze v look-behind použít kvantifikátory, jež nevyjadřují konkrétní délku.

Provedení kódu Perlu uvnitř regulárního výrazu

Konstrukce (?{výraz}) slouží k vykonání perlového bloku kódu uvnitř vzoru, přičemž výsledek nijak neovlivňuje vzor. To lze použít v případě, kdy chceme už v regulárním výrazu přiřadit zapamatované hodnoty do proměnných.

  $retezec = "Cena: 120USD";
  $retezec =~ /Cena:\s(\d+)(?{$cena = $1})/;
  print $cena; #tiskne 120

Místo $1 by bylo pohodlnější ve vzoru použít speciální proměnnou $^N. Jejím obsahem je vždy posledně zapamatovaný řetězec.

A pro úplnost zmíním ještě proměnnou $^R, která obsahuje návratovou hodnotu posledního bloku vloženého do regulárního výrazu.

Provedení kódu Perlu uvnitř regulárního výrazu s dosazením do vzoru

Zápis (??{výraz}) má podobný význam jako ten předešlý. Liší se v tom, že výsledek po vyhodnocení výrazu je dosazen do vzoru.

  $retezec = "Cena: 120USD";
  $kusu = 5;
  $cena_za_kus = 24;
  print "MATCHED" if $retezec =~ /(??{$cena_za_kus*$kusu})USD/;

Vypnutí backtrackingu

Backtracking znamená posouvání pozice v porovnávaném řetězci zpět. To nastává při porovnávání pomocí hladového kvantifikátoru. Nejprve je vždy vlivem hladového kvantifikátoru spolknuta nejdelší možná část textu a poté se pozice posunuje zpět. Právě toto je backtracking.

  print "MATCHED" if "cokoliv" =~ /.*liv/;    #vyhovuje
  print "MATCHED" if "cokoliv" =~ /(?>.*)liv/;#nevyhovuje

V prvním případě backtracking normálně funguje. Ve druhém je však vlivem hladového kvantifikátoru spolknut celý text až do konce, backtracking neprobíhá a vzor tedy nemůže uspět.

Podmínky

A na závěr jsem si nechal řídící konstrukci. Je možné se až uvnitř regulárního výrazu rozhodnout, jak bude jeho další část vypadat. Podmínka má dva možné zápisy. Pro podmínku typu if-else to je (?(test)v_případě_true|v_případě_false) a pro samotné if jen (?(test)v_případě_true). Test je výrazem, který se vyhodnocuje na true nebo false. Podle vyhodnocení je aplikována příslušná část regulárního výrazu.

  $prospel = 0;
  $retezec = "nedostatečný";
  print "MATCHED" if $retezec =~ /
      (?(?{
                $prospel == 1;                       #pokud prospěl
          })
        (^(výborný|chvalitebný|dobrý|dostatečný)$)   #aplikuje se tento regulární výraz
        |
        ^nedostatečný$                               #jinak tento
      )
      /x;

Pokud máte zájem o podrobnější informace o rozšířených vzorech, odkazuji na manuálovou stránku perlre a její oddíl Extended Patterns.

Další escape znaky

V předcházejících dílech jsme již pár escape znaků poznali, ale ještě mnohé další zbývají. Pojďme si představit alespoň některé z nich.

Pomocí escape znaků lze tisknout všechny znaky ASCII tabulky. Libovolný znak se zapisuje buď osmičkově nebo šestnáckově. V 1. případě se píše příslušné trojmístné číslo za zpětné lomítko, u šestnáctkového zápisu je to dvojmístné číslo za \x.

  print "Perl" =~ /\x50\x65\x72\x6C/; #šestnáctkový zápis
  print "Perl" =~ /\120\145\162\154/; #osmičkový zápis

Escape znaky lze použít ke změně velikosti písmen. Převedeme řetězec s náhodnou velikostí znaků na řetězec, který velkým písmenem pouze začíná (ostatní budou malá).

  $retezec = "náhODná VElIkOSt";
  $retezec =~ s/(.?)(.*)/\u\1\L\2\E/;
  print $retezec; #tiskne "Náhodná velikost"

Znak \u Převádí znak, který následuje, na velké písmeno. Podobně znak \l převede následující písmeno na malé. \L změmí skupinu znaků na malá písmena. Skupina začíná ihned za \L a končí uvedením znaku \E nebo koncem řetězce (v ukázce tedy není nezbytně nutný). Opět existuje alternativa v podobě \U pro převedení na velká písmena, která také končí znakem \E.

Další možností escape znaků je potlačení metavýznamu části řetězce. Stačí ji jen ohraničit znaky \Q (začátek) a \E (konec). 1. případ nevyhoví, protože otazník má význam kvantifikátoru. \Q tento význam ruší.

  print "MATCHED" if " ? " =~ /^ ? $/;
  print "MATCHED" if " ? " =~ /^\Q ? \E$/;

Další věc nesouvisí ani tak s escape znaky, jako spíše s významem speciálních znaků. Vytvoříme vzor, kterému vyhoví jeden z těchto řetězců: "/root", "/home/xdf" nebo "/usr/local/apache2.2/xdf". V nich se vyskytuje řada lomítek, které ale mají v regulárních výrazech speciální význam. Proto jim všem musíme předřazovat zpětné lomítko.

  /^((\/root)|(\/home\/xdf)|(\/usr\/local\/apache2\.2\/xdf))$/

Je to správné řešení, ale právě v těchto případech (typické právě pro adresářové cesty) je užitečné použít jiný uvozovací znak, který není ve výrazu použit. Připomínám, že je potom povinné i uvedení m před uvozujícím znakem.

  m#^((/root)|(/home/xdf)|(/usr/local/apache2\.2/xdf))$#

Příště se už konečně podíváme na nějaké praktické užití regulárních výrazů.

Verze pro tisk

pridej.cz

 

DISKUZE

Nejsou žádné diskuzní příspěvky u dané položky.



Příspívat do diskuze mohou pouze registrovaní uživatelé.
> Vyhledávání software
> Vyhledávání článků

13.9.2017 8:00 /František Kučera

Máš rád svobodný software a hardware nebo se o nich chceš něco dozvědět? Zajímá tě DIY, CNC, SDR nebo morseovka? Přijď na sraz spolku OpenAlt – tentokrát netradičně v pondělí: 18. září od 18:00 v Radegastovně Perón (Stroupežnického 20, Praha 5).


Přidat komentář

3.9.2017 20:45 /Redakce Linuxsoft.cz
PR: Dne 21. září 2017 proběhne v Praze konference "Mobilní řešení pro business". Hlavní tématy konference budou: nejnovější trendy v oblasti mobilních řešení pro firmy, efektivní využití mobilních zařízení, bezpečnostní rizika a řešení pro jejich omezení, správa mobilních zařízení ve firmách a další.
Přidat komentář

15.5.2017 23:50 /František Kučera
Máš rád svobodný software a hardware nebo se o nich chceš něco dozvědět? Zajímá tě DIY, CNC, SDR nebo morseovka? Přijď na sraz spolku OpenAlt, který se bude konat ve čtvrtek 18. května od 18:00 v Radegastovně Perón (Stroupežnického 20, Praha 5).
Přidat komentář

12.5.2017 16:42 /Honza Javorek
PyCon CZ, česká konference o programovacím jazyce Python, se po dvou úspěšných ročnících v Brně bude letos konat v Praze, a to 8. až 10. června. Na konferenci letos zavítá např. i Armin Ronacher, známý především jako autor frameworku Flask, šablon Jinja2/Twig, a dalších projektů. Těšit se můžete na přednášky o datové analytice, tvorbě webu, testování, tvorbě API, učení a mentorování programování, přednášky o rozvoji komunity, o použití Pythonu ve vědě nebo k ovládání nejrůznějších zařízení (MicroPython). Na vlastní prsty si můžete na workshopech vyzkoušet postavit Pythonem ovládaného robota, naučit se učit šestileté děti programovat, efektivně testovat nebo si v Pythonu pohrát s kartografickým materiálem. Kupujte lístky, dokud jsou.
Přidat komentář

2.5.2017 9:20 /Eva Rázgová
Putovní konference československé Drupal komunity "DrupalCamp Československo" se tentokrát koná 27. 5.2017 na VUT FIT v Brně. Můžete načerpat a vyměnit si zkušenosti z oblasti Drupalu 7 a 8, UX, SEO, managementu týmového vývoje, využití Dockeru pro Drupal a dalších. Vítáni jsou nováčci i experti. Akci pořádají Slovenská Drupal Asociácia a česká Asociace pro Drupal. Registrace na webu .
Přidat komentář

1.5.2017 20:31 /Pavel `Goldenfish' Kysilka
PR: 25.5.2017 proběhne v Praze konference na téma Firemní informační systémy. Hlavními tématy jsou: Informační systémy s vlastní inteligencí, efektivní práce s dokumenty, mobilní přístup k datům nebo využívání cloudu.
Přidat komentář

15.4.2017 15:20 /František Kučera
Máš rád svobodný software a hardware nebo se o nich chceš něco dozvědět? Zajímá tě IoT a radiokomunikace? Přijď na sraz spolku OpenAlt, který se bude konat ve středu 19. dubna od 18:30 v Šenkovně (Sokolská 60, Praha 2).
Přidat komentář

5.3.2017 19:12 /Redakce Linuxsoft.cz
PR: 23. března proběhne v Praze konferenci na téma Cloud computing v praxi. Hlavními tématy jsou: Nejžhavější trendy v oblasti cloudu a cloudových řešení, Moderní cloudové služby, Infrastruktura současných cloudů, Efektivní využití cloudu, Nástrahy cloudových řešení a jak se jim vyhnout.
Přidat komentář

   Více ...   Přidat zprávičku

> Poslední diskuze

18.9.2017 14:37 / Rojas
high security vault

15.9.2017 7:33 / Wilson
new zealand childcare jobs

31.8.2017 12:11 / Jaromir Obr
Re: ukůládání dat ze souboru

30.7.2017 11:12 / Jaromir Obr
Národní znaky

27.7.2017 12:24 / Jaromir Obr
Cteni/zapis

Více ...

ISSN 1801-3805 | Provozovatel: Pavel Kysilka, IČ: 72868490 (2003-2017) | mail at linuxsoft dot cz | Design: www.megadesign.cz | Textová verze