LINUXSOFT.cz Přeskoč levou lištu
Uživatel: Heslo:  
   CZUKPL

> PHP (22) - Regulární výrazy

PHP obsahuje nástroje pro práci s regulárními výrazy. Ukažme si, jak tyto funkce použít v praktickém programování.

9.7.2004 15:00 | Petr Zajíc | Články autora | přečteno 97437×

Komerční sdělení: Pořádáme Kurzy PHP

Pokud jste na PHP přešli z ASP (jako kdysi já) pravděodobně Vám regulární výrazy nic neříkají. A přitom jsou tak zábavné. Podívejme se, jak celá ta věc funguje.

Název "výrazy" je trochu matoucí. V díle seriálu o výrazech jsme prohlásili, že výraz je cokoli, co má hodnotu. Regulární výrazy jsou naproti tomu jen vžitým pojmenováním mechanismu, který nám umožňuje pracovat s řetězci a maskami. Nejlepší bude opustit šedivou teorii a vrhnout se hned na nějaké příklady.

Mějme například masku "Petr". Této masce vyhoví řetězce "Petr je borec", "Je doma Petr?" i "Honza, Petr a Pavel", protože všechny obsahují slovo Petr. Výraz "Franta je taky borec" pochopitelně masce nevyhoví, neb slovo Petr neobsahuje. V PHP přesně na tohle testování existuje funkce ereg, která vrací TRUE nebo FALSE pro případy, kdy řetězec vyhoví nebo nevyhoví masce:

<?
  
echo (integer) ereg("Petr", "Petr je borec");
  echo (integer)
ereg("Petr", "Je doma Petr?");
  echo (integer)
ereg("Petr", "Honza, Petr a Pavel");
  echo (integer)
ereg("Petr", "Franta je taky borec");
?>

To bylo jednoduché. Síla regulárních výrazů však spočívá v něčem trochu jiném. Teď budeme postupovat tak, že nejdřív si vysvětlíme, co všechno lze použít pro definici masky, pak se podíváme na funkce v PHP s maskami pracující a nakonec si ukážeme na nějaké praktické příklady.

Masky

Situaci kolem regulárních výrazů komplikuje fakt, že maska může obsahovat takzvané metaznaky. Některé častější jsem se pokusil shrnout do tabulky:

Metaznak
Znamená
Výrazu:
Vyhoví
Nevyhoví
^
Začátek řetězce
^Petr Petr je borec
Petr není borec
Borec je Petr
Franta a Petr jsou borci
$
Konec řetězce
PC$
Mám PC
Pracuji na PC
Moje PC je rozbité
PC má dnes každý
.
Libovolný znak
s.x
sex
six
tix
sad
*
Předchozí znak se smí libovolněkrát opakovat (i nulakrát)
s*t
prst
půst
prut
prase
+
Předchozí znak tam bude minimálně jednou
s+t
prst
srst
prut
?
Předchozí znak tam bude maximálně jednou s?t
prejt
prst
psst
síť
[]
Libovolný znak ze znaků v závorce
[0123456789]
12
356
8 kusů
kusy
kila
litry
()
Všechny znaky ze znaků v závorce
(obec)
obecný
obecní
všeobecný
věcný
jablečný
všeobjímající
|
Rozdělení na podvýrazy
A|B
Astronaut
Babička
edém
čistě
\
Následující metaznak bude chápán jako znak
\+
Vše, co obsahuje "+"
Co neobsahuje "+"

Existují ovšem i další metaznaky, které si můžete nastudovat v manuálu. Většinou Vám tyto budou stačit. Pochopitelně, že v jedné masce může být více metaznaků, čímž mohou regulární výrazy extrémně nabýt na složitosti (a síle).

PHP a funkce pro regulární výrazy

O funkci ereg, která vrátí TRUE v případě, že daný řetězec vyhovuje masce, jsme již psali. Funkce ereg_replace funguje tak, že části řetězce vyhovující masce nejen pozná, ale nahradí jiným řetězcem. Její použití si ukážeme v závěru. Funcke ereg i ereg_replace rozlišují velikost písmen. Existují funkce eregi a eregi_replace, které provádějí totéž jako jejich protějšky, ale velikost písmen přitom nerozlišují.

Konečně existuje funkce split (a spliti nerozlišující velikost písmen) pro dělení řetězce maskou. Výsledkem je pole řetězců vzniklých tímto rozdělením a funkce se svojí filozofií podobá funkci explode, kterou jsme již v tomto seriálu popisovali.

Ony existují ještě další funkce pro práci s regulárními výrazy v PHP, stejně jako existují i další masky. Pojďme se ale nyní podívat, jak nám taková kupa nových informací může nějak pomoci v praktických příkladech.

Praxe

V praxi například budete chtít zjistit, jestli se dá zadaný řetězec chápat jako celé číslo. K tomu byste mohli využít něco jako:

<?
  
function JeCeleCislo ($cislo)
  {
    return
ereg("^[\+\-]?[1234567890]+$",$cislo);
  }
  echo (integer)
JeCeleCislo ("1");
  echo (integer)
JeCeleCislo ("-6");
  echo (integer)
JeCeleCislo ("3.5");
  echo (integer)
JeCeleCislo ("4 kusy");
?>

Celé je to založeno na výsledku funkce ereg a jeji vyhodnocování bychom mohli číst následovně (v závorkách uvádím zápis toho, co bylo právě řečeno, jako metaznak): Abych jakožto funkce ereg vrátila TRUE, musel by řetězec $cislo nějak vypadat. Měl by začínat (^) znakem plus (\+) nebo ([]) mínus (\-), který tam bude maximálně jednou (?). Pak musí následovat některá z číslic ([1234567890]), což je věc, která se může opakovat, ale nejmíň jednou (+) tam být musí. Tím celá záležitost musí končit ($). Hezké, že?

Nebo budete chtít testovat, jestli předaný řetězec může představovat platnou e-mailovou adresu. Třeba to bude vypadat nějak takhle:

<?
  
function JeEmail ($cislo)
  {
    return
ereg("^.+@.+\..+$",$cislo);
  }
  echo (integer)
JeEmail ("nekdo@neco.cz");
  echo (integer)
JeEmail ("nekdoneco.cz");
  echo (integer)
JeEmail ("@neco.cz");
  echo (integer)
JeEmail ("neco.cz");
  echo (integer)
JeEmail ("nekdo@necocz");
  echo (integer)
JeEmail ("nekdo@neco.");
?>

Zase vysvětlení: Výraz by měl začínat (^) libovolným znakem (.), který se může opakovat, ale minimálně jednou tam být musí (+). Pak bude zavináč, pak opět jeden nebo více znaků (.+) a konečně doslovná tečka (\.) a nějaké ty znaky (.+). Tím to celé končí ($).

Pozn.: Není to tak úplně jednoduché. RFC definuje daleko složitější věci, které mohou představovat platnou e-milovou adresu, ale jako příklad už by to nebylo tak názorné.

A ještě jeden příklad do třetice. Slibuji, že už to nebude tak složité. Pomocí ereg_replace nahraďme všechna místa s více mezerami jen jednou mezerou:

<?
$retezec
= "Mám   řetězec   se      zbytečně  mnoho mezerami,   že    ????";
echo
$retezec."<BR>\n";
echo
ereg_replace(" +", " ", $retezec);
?>

Neboli: Všechny výskyty řetěce, který obsahuje nejméně (+) jednu mezeru, nahraď jednou mezerou. Ono to skutečně funguje. Nechte si zobrazit zdrojový kód stránky v prohlížeči, než to začnete považovat za nefunkční kus kódu.

Pokud máte nějaké další příklady použití regulárních výrazů (nejlépe z praxe), uvítám jejich uvedení v diskusi. Sám jsem v PHP mnoho jiných příkladů než ty výše uvedené neviděl.

Verze pro tisk

pridej.cz

 

DISKUZE

regex 12.7.2004 14:13 by default
L Re: regex 12.7.2004 15:24 Petr Zajíc
preg 3.11.2005 14:40 Viktor L
triedy znakov 24.10.2006 18:58 Adriana
L Re: triedy znakov 24.10.2006 21:52 Petr Zajíc
Minimalni vyskyt, maximalni vyskyt 15.2.2007 12:39 slune
L Re: Minimalni vyskyt, maximalni vyskyt 15.2.2007 13:03 slune
cenzura 9.4.2007 21:08 A.M.
L Re: cenzura 10.4.2007 07:43 Petr Zajíc
Metaznaky 10.2.2008 20:39 Dan Pelíšek
L Re: Metaznaky 11.2.2008 00:48 Ondřej Čečák
  L Re: Metaznaky 12.2.2008 22:21 Dan Pelíšek
    L Re: Metaznaky 13.2.2008 13:08 Ondřej Čečák
      L Re: Metaznaky 14.2.2008 02:49 Aleš Hakl
ereg 12.10.2008 22:16 Kocmi
  L Re: ereg 13.10.2008 00:00 Aleš Hakl
    L Re: ereg 13.10.2008 16:53 Kocmi
      L Re: ereg 13.10.2008 18:23 Aleš Hakl
        L Re: ereg 13.10.2008 22:31 Kocmi




Příspívat do diskuze mohou pouze registrovaní uživatelé.
> Vyhledávání software
> Vyhledávání článků

8.5.2016 17:19 /Redakce Linuxsoft.cz
PR: Dne 26.5.2016 proběhne v Praze konference Cloud computing v praxi. Tématy bude např. nejnovější trendy v oblasti cloudu a cloudových řešení, cloudové služby, infrastruktura cloudu, efektivní využití cloudu, možné nástrahy cloudů a jak se jim vyhnout
Přidat komentář

21.4.2016 8:01 /František Kučera
Spolek OpenAlt zve na 127. distribuovaný sraz příznivců svobodného softwaru a otevřených technologií (hardware, 3D tisk, SDR, DIY, makers…), který se bude konat ve čtvrtek 28. dubna od 18:00 v Radegastovně Perón (Stroupežnického 20, Praha 5).
Přidat komentář

2.3.2016 22:41 /Ondřej Čečák
Letošní ročník konference InstallFest již tento víkend!
Přidat komentář

14.2.2016 16:39 /Redakce Linuxsoft.cz
O víkendu 5. a 6. března 2016 proběhne na pražském Strahově 8. ročník tradiční konference InstallFest. Celkem za dva dny uvidíte ​30 přednášek​ a ​6 workshopů.
Přidat komentář

5.2.2016 17:38 /Petr Ježek
Utilitka z XFce "xfce4-power-manager" nejen umožňuje nastavení lhůty pro uspání či hybernaci, ale i zapínání a vypínání prezentačního módu pro nerušené sledování videí. Stačí ji nastavit v každém vybavenějším panelu a v jakémkoli nontiled WM/DE.
Přidat komentář

10.1.2016 11:32 /Pavel `Goldenfish' Kysilka
LinuxMarket změnil provozovatele. Nově jej provozuje Marek Pszczolka. Více info a detaily #1 a #2.
Přidat komentář

29.12.2015 11:38 /Ondřej Čečák
Ještě posledních pár dní můžete přidávat příspěvky nebo nápady na Install Fest 2016, který se bude konat 5. a 6. března 2016.
Přidat komentář

8.12.2015 11:36 /Petr Ježek
Logické se stává realitou. LibreOffice a Thunderbird se mají dle článku na Redditu stát protiváhou MS řešení (MS Office a Outlook).
Přidat komentář

   Více ...   Přidat zprávičku

> Poslední diskuze

7.5.2016 14:58 / Teodor Komárek
Soubory

20.4.2016 0:07 / Jakub Cleing
Sázkový panel PHP FUSION

9.4.2016 9:43 / jiwopene@gmail.com
Re: problém s dpkg a nemožností instalovat

9.4.2016 9:41 / jiwopene@gmail.com
Re: změna velikosti disk.oddílu

9.4.2016 9:40 / jiwopene@gmail.com
Re: Přenesení starého OS Win7 na virtuál v Debianu

Více ...

ISSN 1801-3805 | Provozovatel: Pavel Kysilka, IČ: 72868490 (2003-2016) | mail at linuxsoft dot cz | Design: www.megadesign.cz | Textová verze