LINUXSOFT.cz Přeskoč levou lištu
Uživatel: Heslo:  
   CZUKPL

> Perl (19) - Regulární výrazy - opakování a kvantifikátory

Jedním ze základních kamenů regulárních výrazů jsou kvantifikátory, které umožňují aplikovat část regulárního výrazu vícekrát.

18.11.2005 07:00 | Jiří Václavík | Články autora | přečteno 34972×

Z předchozích dílů o regulárních výrazech zatím nejsme schopni (opomineme alternaci, ta má v regulárních výrazech jiný účel) vytvořit šablonu pro řetězce různé délky. Právě toto mají na starosti kvantifikátory. Kvantifikátorem určujeme počet opakování části regulárního výrazu. To znamená, že určitý počet znaků za sebou můžeme porovnat s jednou množinou znaků (šablonou pro 1 znak). Dosud jsme takto porovnávali vždy pouze 1 znak.

Kvantifikátor se vždy uvádí za množinu znaků, jejíž četnost specifikuje. Množinou může opět být jak výčet znaků pomocí hranatých závorek, předdefinovaná množina tak i samotný znak.

Libovolný počet opakování

Uvedením hvězdičky dáváme najevo, že množina znaků před ní se může opakovat libovolněkrát.

Regulárnímu výrazu x* (x je množina znaků, * je počet opakování) potom vyhovuje libovolný řetězec, skládající se z písmen x nebo prázdný řetězec. V prázdném řetězci je 0 písmen x, což hvězdička též zahrnuje.

Jak bude vypadat podmínka, která určuje, zda bylo zadáno číslo?

  print "Zadejte číslo:";
  $cislo = <STDIN>;
  if ($cislo !~ /^[0-9]*$/){
      print "Nezadal jste číslo!\n";
  }

Problémem je, že regulárnímu výrazu vyhoví i prázdný řetězec. Tomu se dá zamezit například přidáním další číselné množiny před výraz. Potom musí být 1. znak číslem a další, pokud jsou, také:

  /^[0-9][0-9]*$/

Nejméně 1 výskyt

Asi nejlepším řešením posledního problému by bylo použití znaku +, který provádí opakování minimálně jednou, a prázdný řetězec tudíž nevyhoví. Tyto zápisy mají stejný význam:

  /^[0-9][0-9]*$/
  /^[0-9]+$/

Nejvíce 1 výskyt

Použijete-li jako kvantifikátor otazník, má téměř stejný význam kdyby tam žádný kvantifikátor nebyl. Tyto 2 možnosti se liší v tom, že otazníku vyhoví ještě navíc prázdný řetězec. Jedna číslice nebo prázdný řetězec vyhovuje výrazu

  /^[0-9]?$/

Jiný počet opakování

Pokud se vám nehodí žádná z dosud nabízených možností, nabízejí regulární výrazy zápis počtu opakování pomocí složených závorek. Ty vymezují spodní a horní hranici počtu opakování. Existuje několik možností syntaxe.

  {minimum,maximum}
  {minimum,}
  {počet}

Čísla vyjadřující minimum a maximum nejsou neomezené. Záleží na nastavení při kompilaci. Obvykle nelze používat větší čísla než 32766, což dokazuje hláška Perlu Quantifier in {,} bigger than 32766 in regex, která na vás vyskočí po překročení definované meze.

Vezměmě si výraz:

  /^ab{2,4}c/

Vyhoví mu řetězce abbc (2 výskyty), abbbc (3 výskyty), abbbc (4 výskyty), ale už ne abc (1 výskyt) nebo abbbbbc (5 výskytů). Pokud je uveden jen 1 argument a není použita čárka, vyhoví vzoru pouze řetězce, obsahující danou množinu znaků právě tolikkrát, kolik je uvedeno v argumentu. Další možnost nabízí uvedení čárky, ale bez maxima. V takovém případě je maximum nekonečno.

Potřebujete-li zapsat do regulárního výrazu nějaký rozsah opakování s mezerou (například 2, 3 nebo 5 a více opakování, ale ne 4 opakování), musíte si vypomoci alternací.

Metaznaky +, * a ? pro počet opakování jsou tedy jen speciálními případy, které lze zapsat i pomocí složených závorek:

MetaznakEkvivalent
+{1,}
*{0,}
?{0,1}

Ukažme si nyní program, který ověřuje bezpečnost hesla. Heslo budeme považovat za bezpečné, bude-li splňovat tyto 4 podmínky:

  • obsahuje alespoň 1 číslici
  • obsahuje alespoň 1 písmeno
  • obsahuje alespoň 1 znak, který není znakem slova
  • je delší než 5 znaků

Pro každou podmínku napíšeme regulární výraz a pokud vyhoví heslo všem těmto vzorům, máme jistotu, že je heslo bezpečné.

  print "Zadejte heslo: ";
  chomp($_ = <STDIN>);
  if (/[0-9]/ and /[a-zA-Z]/ and /\W/ and /.{6,}/){
      print "Heslo je bezpečné\n";
  }else{
      print "Heslo není bezpečné\n";
  }

Poznámka - pokud byste chtěli, aby při zadávání hesla nezobrazovaly jeho pravé znaky, ale pouze hvězdičky (případně vůbec nic), použijte modul Term::ReadKey.

Hladovost a sytost kvantifikátorů

Metaznaky {}, *, + a ? jsou takzvaně hladové (,,greedy"). To znamená, že spolknou co možná nejdelší část řetězce. Dokazuje to tento kód:

  $_ = "123456789";
  /(\d*)/;
  print $1; #tiskne hodnotu, která vyhověla vzoru - více v příštím díle

Je vytisknuto 123456789 - tedy celý řetězec. To i přesto, že by vyhověl třeba také prázdný řetězec, vyhodnocování regulárního výrazu by se mohlo úspěšně ukončit a program by běžel dál. Kvantifikátory jsou hladové, a tak pohlcují nejdelší vyhovující podřetězec. To samé by platilo i v případě, kdybychom jako kvantifikátor místo hvězdičky zvolili například {3,5}. Potom by předchozí kód vytiskl prvních 5 číslic a ne 3, ačkoliv by to také stačilo.

Tato vlastnost může občas činit problémy. Tak například, pokud chceme v HTML kódu vyhledat 1 obrázek a vypsat kód celé značky IMG:

  $html = 'abc....<IMG SRC="obrazek" ALT="obrázek">....xyz';
  $html =~ /(<((IMG)|(img))\ (.*)>)/;
  print $1;

Hvězdička vlivem hladovosti spolkne znaky do konce řetězce. Ale tam v našem případě znak > není. Proto se začne z místa, po které hvězdička spolkla text (v našem případě konec řetězce) hledat. Najde ho, ukončí další vyhodnocování, protože je na konci regulárního výrazu a program vytiskne přesně to, co jsme chtěli. Takže v pořádku. Problém nastane, pokud se znak > vyskytuje ještě někde mezi místem, po které byl spolknut text a tím "správným" znakem >. To si můžeme jednoduše ilustrovat:

  $html = '<TABLE><TR><TD><IMG SRC="obrazek" ALT="obrázek"></TD><TD>...</TD></TR></TABLE>';
  $html =~ /(<((IMG)|(img))\ (.*)>)/;
  print $1;

Začátek je stejný jako v minulém příkladu. Hledá se řetězec "<IMG ", poté hvězdička pohltí vše do konce a odtud se opačným směrem hledá znak >. Ale takový se vyskytne už v značce </TABLE>! To znamená, že získáme řetězec <IMG SRC="obrazek" ALT="obrázek"></TD></TR><TD>...</TD></TABLE>. To jsme opravdu nechtěli. A může za to právě hladovost.

Možnost, jak vzniklý problém řešit, může být přes funkce. To je zbytečně složité.

  $html = '<TABLE><TR><TD><IMG SRC="obrazek" ALT="obrázek"></TD><TD>...</TD></TR></TABLE>';
  $html =~ /(<((IMG)|(img))\ (.*)>)/;
  print substr($1, 0, (index $1, ">")+1);

Jiné, o dost lepší řešení, lze aplikovat pomocí negované množiny znaků. Místo libovolného znaku (v našem regulárním výrazu reprezentován tečkou), specifikujeme vše mimo znaku >.

  $html = '<TABLE><TR><TD><IMG SRC="obrazek" ALT="obrázek"></TD><TD>...</TD></TR></TABLE>';
  $html =~ /(<((IMG)|(img))\ ([^>]*)>)/;
  print $1;

Dalším řešení nabízí sytost. Existují další 4 kvantifikátory, které fungují úplně stejně jako ty nám dosud známé, až na to, že nejsou hladové. Jsou to {}?, *?, +? a ??. Zapisují se stejné jako {}, *, + a ?, jen se za ně připisuje otazník. Pohltí minimální možný počet znaků, který vyhoví vzoru. Tento vzor tedy nepohltí 5 znaků, jak by to udělal hladový kvantifikátor, ale pouze 3:

  $_ = "123456789";
  /(\d{3,5}?)/;
  print $1;

Nakonec si ještě ukážeme řešení pro problém s vyhledáním obrázku v HTML kódu pomocí sytosti:

  $html = '<TABLE><TR><TD><IMG SRC="obrazek" ALT="obrázek"></TD><TD>...</TD></TR></TABLE>';
  $html =~ /(<((IMG)|(img))\ (.*?)>)/;
  print $1;

Příště se podíváme na funkci kulatých závorek v regulárních výrazech.

Verze pro tisk

pridej.cz

 

DISKUZE

Nejsou žádné diskuzní příspěvky u dané položky.



Příspívat do diskuze mohou pouze registrovaní uživatelé.
> Vyhledávání software
> Vyhledávání článků

17.4.2018 0:46 /František Kučera
Dubnový pražský sraz spolku OpenAlt se koná již tento čtvrtek – 19. 4. 2018 od 18:00 v Kavárně Ideál (Sázavská 30, Praha), kde máme rezervovaný salonek. Tématem tohoto srazu bude OpenStreetMap (OSM) aneb svobodné mapy.
Přidat komentář

16.3.2018 22:01 /František Kučera
Kulatý OpenAlt sraz v Praze oslavíme klasicky: u limonády a piva! Přijďte si posedět, dát si dobré jídlo a vybrat z mnoha piv do restaurace Kulový blesk, který najdete v centru Prahy nedaleko metra I. P. Pavlova na adrese Sokolská 13, Praha 2. Sraz se koná ve čtvrtek 22. března a začínáme v 18:00. Heslo: OpenAlt. Vezměte s sebou svoje hračky! Uvítáme, když si s sebou na sraz vezmete svoje oblíbené hračky. Jestli máte nějaký drobný projekt postavený na Arduinu, nějakou zajímavou elektronickou součástku, či třeba i pěkný úlovek z crowdfundingové akce, neváhejte. Oslníte ostatní a o zábavu bude postaráno.
Přidat komentář

13.2.2018 0:41 /František Kučera
Únorový pražský sraz OpenAltu se koná 15. 2. 2018 a tentokrát se vydáme na návštěvu do jednoho pražského datacentra. Sejdeme se v 17:50 v severovýchodní části nástupiště tramvajové zastávky Koh-I-Noor. Po exkurzi se přesuneme do restaurace U Pštrosa (Moskevská 49), kde probereme tradiční témata (svobodný software a hardware, DIY, CNC, SDR, 3D tisk…) a tentokrát bude k vidění i IoT brána od The Things Network.
Přidat komentář

11.2.2018 23:11 /Petr Ježek
Hledáte lehký a rychlý prolížeč PDF souborů? Pokud vás již omrzelo čekat na načítání stránek či jiné nešvary, zkuste xreader.
Přidat komentář

11.2.2018 20:35 /Redakce Linuxsoft.cz
Třetí ročník odborné IT konference na téma Cloud computing v praxi proběhne ve čtvrtek 1. března 2018 v konferenčním centru Vavruška, v paláci Charitas, Karlovo náměstí 5, Praha 2 (u metra Karlovo náměstí) od 9:00 hod. dopoledne do cca 16 hod. odpoledne. Konference o trendech v oblasti cloud computingu nabídne i informace o konkrétních možnostech využívání cloudů a řešení vybraných otázek souvisejících s provozem IT infrastruktury.
Přidat komentář

15.1.2018 0:51 /František Kučera
První letošní pražský sraz se koná již tento čtvrtek 18. ledna od 18:00 v Radegastovně Perón (Stroupežnického 20, Praha 5). Vítáni jsou všichni příznivci svobodného softwaru a hardwaru, ESP32, DIY, CNC, SDR nebo dobrého piva. Prvních deset účastníků srazu obdrží samolepku There Is No Cloud… just other people's computers. od Free Software Foundation.
Přidat komentář

14.11.2017 16:56 /František Kučera
Máš rád svobodný software a hardware nebo se o nich chceš něco dozvědět? Zajímá tě DIY, CNC, SDR nebo morseovka? Přijď na sraz spolku OpenAlt – tradičně první čtvrtek před třetím pátkem v měsíci: 16. listopadu od 18:00 v Radegastovně Perón (Stroupežnického 20, Praha 5).
Přidat komentář

12.11.2017 11:06 /Redakce Linuxsoft.cz
PR: 4. ročník odborné IT konference na téma Datová centra pro business proběhne již ve čtvrtek 23. listopadu 2017 v konferenčním centru Vavruška, v paláci Charitas, Karlovo náměstí 5, Praha 2 (u metra Karlovo náměstí) od 9:00. Konference o návrhu, budování, správě a efektivním využívání datových center nabídne odpovědi na aktuální a často řešené otázky, např Jaké jsou aktuální trendy v oblasti datových center a jak je využít pro vlastní prospěch? Jak zajistit pro firmu či jinou organizaci odpovídající služby datových center? Podle jakých kritérií vybrat dodavatele služeb? Jak volit součásti infrastruktury při budování či rozšiřování vlastního datového centra? Jak efektivně spravovat datové centrum? Jak eliminovat možná rizika? apod.
Přidat komentář

   Více ...   Přidat zprávičku

> Poslední diskuze

20.2.2018 18:48 / Ivan Majer
portal

20.2.2018 15:57 / Jan Havel
Jak využíváte služby cloudu v podnikání?

16.1.2018 1:08 / Ivan Pittner
verejna ip od o2 ubuntu

15.1.2018 17:26 / Mira Harvalik
Re: Jak udělat HTML/Javascript swiping gallery do mobilu?

30.12.2017 20:16 / Michal Knoll
odmocnina

Více ...

ISSN 1801-3805 | Provozovatel: Pavel Kysilka, IČ: 72868490 (2003-2018) | mail at linuxsoft dot cz | Design: www.megadesign.cz | Textová verze