LINUXSOFT.cz Přeskoč levou lištu
Uživatel: Heslo:  
   CZUKPL

> Perl (17) - Regulární výrazy - kotvy

2. díl o regulárních výrazech věnujeme kotvám.

1.11.2005 07:00 | Jiří Václavík | Články autora | přečteno 32384×

Kotvy jsou speciálními znaky, které se vyznačují nulovou délkou. Jsou totiž určeny svým okolím. Nejde tedy o znak ve svém smyslu, ale spíše o pozici. V regulárním výrazu se označuje buď speciálním metaznakem nebo escape znakem.

Určení začátku a konce řetězce

Dosud jsme vytvářeli vzory, které se mohli vyskytovat na libovolném místě řetězce. Nezřídka ale potřebujeme specifikovat, jakým podřetězcem má řetězec začínat nebo jakým končit. To je asi nejčastější užití kotev. Začátek řetězce je reprezentován znakem ^ a konec znakem $. V praxi vypadá jejich použití následovně:

  $retezec = "text, který končí\n slovem xxx";
  print $retezec =~ /xxx$/;   #true - řetězec skutečně končí na xxx
  print $retezec =~ /^text/;  #true - řetězec začíná na text
  print $retezec =~ /končí\n/;#true - řetězec obsahuje daný vzor
  print $retezec =~ /končí$/#false - řetězec nekončí vzorem

Samozřejmě nám nic nebrání určit začátek i konec řetězce zároveň. Toto jsou zápisy, které dělají totéž, ale každý jinak:

  $retezec = "regexp";
  print $retezec eq "regexp";  #tiskne 1 - $retezec má stejnou hodnotu jako "regexp"
  print $retezec =~ /^regexp$/;#tiskne 1 - to samé s využitím regulárních výrazů

Hranice slova

Escape sekvence \b je nalezena na místech, kde končí nebo začíná slovo - tedy v místě, kde se stýká znak slova (\w) s jiným znakem (\W). Doplňkem pozice, určené znakem \b je \B. Tomu vyhovují všechny pozice mimo hranici slova.

  print "slovo" =~ /\blov\b/; #nevyhovuje
  print "slov" =~ /\blov\b/;  #nevyhovuje
  print "lov," =~ /\blov\b/;  #vyhovuje; čárka není znakem slova
  print "lovec" =~ /\blov\B/; #vyhovuje

První 3 příkazy hledají v řetězci slovo "lov" a poslední příkaz slovo, které na "lov" začíná.

Začátek řádku, začátek řetězce

Dalšími znaky se speciálním významem jsou \A a ^. ^ znamená začátek řádku a \A začátek řetězce. Abychom mohli tyto 2 znaky rozlišit, musíme ale v regulárním výrazu aktivovat režim více řádků. K tomu slouží přepínač m (regulární výraz pak bude vypadat takto: m//m). V tomto režimu bude ^ nalezeno na začátku řetězce, ale také za každým znakem nového řádku. \A se vždy vztahuje jen na začátek řetězce - je tedy v řetězci právě jednou.

O přepínačích ještě nějakou dobu mluvit nebudeme. Pro pochopení stačí vědět, že se uvádějí za koncové lomítko regulárního výrazu. Pokud k m/vzor/ chceme přidat přepínače x a y, bude zápis vypadat takto: m/vzor/xy.

Mějme řetězec:

  radek 1\nradek 2\nradek 3

Teď do něj znázorněme znaky \A a ^. Bez použití přepínače m:

  <\A><^>radek 1\nradek 2\nradek 3

A pokud je přepínač m nastaven na "zapnuto", je na začátku každého řádku ještě ^:

  <\A><^>radek 1\n<^>radek 2\n<^>radek 3

Pokud nemáte představu, jak by se začátek řádku použil, zde je ještě konkrétní příklad:

  print "MATCHED" if "radek 1\nradek 2\nradek 3" =~ /^\Aradek 1\n^/m; #vyhovuje
  print "MATCHED" if "radek 1\nradek 2\nradek 3" =~ /\A^radek 1\n^/m; #vyhovuje - navíc je vidět, že nezáleží na pořadí ^ a \A
  print "MATCHED" if "radek 1\nradek 2\nradek 3" =~ /^radek 1\n^/;   #nevyhovuje - není přepínač a ^ tedy funguje stejně jako začátek řetězce

Konec řádku, konec řetězce

Mechanizmus funguje podobně jako začátek řetězce nebo řádku. Je též nutný přepínač m.

  • $ - odpovídá konci řetězci a je-li uveden přepínač m, je také před každým znakem nového řádku
  • \Z - konec řetězce

S přepínačem m vypadá řetězec a neviditelné znaky v něm následovně:

  <\A><^>radek 1<$>\n<^>radek 2<$>\n<^>radek 3<$><\Z>

Variantou znaku \Z je \z. Jejich význam se liší v tom, že u \z nesmí být na konci řetězce znak nového řádku.

  $x = "...XXX\n";
  print "MATCHED" if $x =~ /XXX\Z/; #vyhovuje
  print "MATCHED" if $x =~ /XXX\z/; #nevyhovuje

Poznámka: Existuje speciální proměnná $*, která umí nahradit přepínač m. Pokud $* == 1, fungují vzory jako s m, v případě, že $* == 0 ne. Tato proměnná se ale nedoporučuje používat. Dávejte raději přednost uvedení přepínače.

Poslední nalezení vzoru

Znak \G je na pozici, kterou lze určit funkcí pos, což je místo posledního úspěšného nalezení vzoru.

Funkce pos

pos vrací pozici, na které byl nalezen poslední hledaný výskyt. Je tedy nutný přepínač g, který ale teprve budeme rozebírat. Teď napišme program, který vypíše počet výskytů určeného znaku a jeho pozice. V každé iteraci cyklu budeme hledat v daném řetězci další pozici hledaného znaku, a právě tu přidáme do pole @pozice.

  $" = ", ";
  $retezec = "matematika";
  while ($retezec =~ /a/g){
      push(@pozice, pos $retezec);
  }
  print "Písmeno a se v řetězci vyskytuje ", scalar @pozice, "x a to na pozicích @pozice.\n";

Vyjádření "NEBO"

Představte si následující kód:

  if ($volba =~ /Linux/ or $volba =~ /Perl/ or $volba =~ /C/){
      print "Správná volba!";
  }

Zápis je dost nepohodlný a nepřehledný. Logické or lze naštěstí přesunout z podmínky přímo do regulárního výrazu. Zapisuje se znakem | (někdy se nazývá alternace). Předchozí kód tak velmi zjednodušíme:

  if ($volba =~ /Linux|Perl|C/){
      print "Správná volba!";
  }

Tento kód uzná každý řetězec, ve kterém se vyskytuje 1 z hledaných podřetězců. Ale takové C se může vyskytovat v leckterém řetězci. Proto bude vhodné specifikovat začátek a konec řetězce. K tomu nestačí uvést jen znaky ^ a $, ale je nutné ozávorkovat vše, co patří k OR. Závorky sdružují skupinu znaků.

Poznámka - problematice závorek se ještě budeme podrobně věnovat.

  if ($volba =~ /^(Linux|Perl|C)$/){
      print "Správná volba!";
  }

Podobným způsobem je výhodné dělit slova. Kupříkladu

  /Perl(5|6)/

bude rychlejší než

  /Perl5|Perl6/

Řetězec "Perl" je totiž v 1. případě hledán pouze jednou.

Příště se konečně podíváme na třídy znaků.

Verze pro tisk

pridej.cz

 

DISKUZE

Zajímavě hloupý konečný automat 3.11.2005 10:57 Hynek (Pichi) Vychodil
  L Re: Zajímavě hloupý konečný automat 3.11.2005 13:45 Hynek (Pichi) Vychodil




Příspívat do diskuze mohou pouze registrovaní uživatelé.
> Vyhledávání software
> Vyhledávání článků

17.4.2018 0:46 /František Kučera
Dubnový pražský sraz spolku OpenAlt se koná již tento čtvrtek – 19. 4. 2018 od 18:00 v Kavárně Ideál (Sázavská 30, Praha), kde máme rezervovaný salonek. Tématem tohoto srazu bude OpenStreetMap (OSM) aneb svobodné mapy.
Přidat komentář

16.3.2018 22:01 /František Kučera
Kulatý OpenAlt sraz v Praze oslavíme klasicky: u limonády a piva! Přijďte si posedět, dát si dobré jídlo a vybrat z mnoha piv do restaurace Kulový blesk, který najdete v centru Prahy nedaleko metra I. P. Pavlova na adrese Sokolská 13, Praha 2. Sraz se koná ve čtvrtek 22. března a začínáme v 18:00. Heslo: OpenAlt. Vezměte s sebou svoje hračky! Uvítáme, když si s sebou na sraz vezmete svoje oblíbené hračky. Jestli máte nějaký drobný projekt postavený na Arduinu, nějakou zajímavou elektronickou součástku, či třeba i pěkný úlovek z crowdfundingové akce, neváhejte. Oslníte ostatní a o zábavu bude postaráno.
Přidat komentář

13.2.2018 0:41 /František Kučera
Únorový pražský sraz OpenAltu se koná 15. 2. 2018 a tentokrát se vydáme na návštěvu do jednoho pražského datacentra. Sejdeme se v 17:50 v severovýchodní části nástupiště tramvajové zastávky Koh-I-Noor. Po exkurzi se přesuneme do restaurace U Pštrosa (Moskevská 49), kde probereme tradiční témata (svobodný software a hardware, DIY, CNC, SDR, 3D tisk…) a tentokrát bude k vidění i IoT brána od The Things Network.
Přidat komentář

11.2.2018 23:11 /Petr Ježek
Hledáte lehký a rychlý prolížeč PDF souborů? Pokud vás již omrzelo čekat na načítání stránek či jiné nešvary, zkuste xreader.
Přidat komentář

11.2.2018 20:35 /Redakce Linuxsoft.cz
Třetí ročník odborné IT konference na téma Cloud computing v praxi proběhne ve čtvrtek 1. března 2018 v konferenčním centru Vavruška, v paláci Charitas, Karlovo náměstí 5, Praha 2 (u metra Karlovo náměstí) od 9:00 hod. dopoledne do cca 16 hod. odpoledne. Konference o trendech v oblasti cloud computingu nabídne i informace o konkrétních možnostech využívání cloudů a řešení vybraných otázek souvisejících s provozem IT infrastruktury.
Přidat komentář

15.1.2018 0:51 /František Kučera
První letošní pražský sraz se koná již tento čtvrtek 18. ledna od 18:00 v Radegastovně Perón (Stroupežnického 20, Praha 5). Vítáni jsou všichni příznivci svobodného softwaru a hardwaru, ESP32, DIY, CNC, SDR nebo dobrého piva. Prvních deset účastníků srazu obdrží samolepku There Is No Cloud… just other people's computers. od Free Software Foundation.
Přidat komentář

14.11.2017 16:56 /František Kučera
Máš rád svobodný software a hardware nebo se o nich chceš něco dozvědět? Zajímá tě DIY, CNC, SDR nebo morseovka? Přijď na sraz spolku OpenAlt – tradičně první čtvrtek před třetím pátkem v měsíci: 16. listopadu od 18:00 v Radegastovně Perón (Stroupežnického 20, Praha 5).
Přidat komentář

12.11.2017 11:06 /Redakce Linuxsoft.cz
PR: 4. ročník odborné IT konference na téma Datová centra pro business proběhne již ve čtvrtek 23. listopadu 2017 v konferenčním centru Vavruška, v paláci Charitas, Karlovo náměstí 5, Praha 2 (u metra Karlovo náměstí) od 9:00. Konference o návrhu, budování, správě a efektivním využívání datových center nabídne odpovědi na aktuální a často řešené otázky, např Jaké jsou aktuální trendy v oblasti datových center a jak je využít pro vlastní prospěch? Jak zajistit pro firmu či jinou organizaci odpovídající služby datových center? Podle jakých kritérií vybrat dodavatele služeb? Jak volit součásti infrastruktury při budování či rozšiřování vlastního datového centra? Jak efektivně spravovat datové centrum? Jak eliminovat možná rizika? apod.
Přidat komentář

   Více ...   Přidat zprávičku

> Poslední diskuze

20.2.2018 18:48 / Ivan Majer
portal

20.2.2018 15:57 / Jan Havel
Jak využíváte služby cloudu v podnikání?

16.1.2018 1:08 / Ivan Pittner
verejna ip od o2 ubuntu

15.1.2018 17:26 / Mira Harvalik
Re: Jak udělat HTML/Javascript swiping gallery do mobilu?

30.12.2017 20:16 / Michal Knoll
odmocnina

Více ...

ISSN 1801-3805 | Provozovatel: Pavel Kysilka, IČ: 72868490 (2003-2018) | mail at linuxsoft dot cz | Design: www.megadesign.cz | Textová verze