LINUXSOFT.cz Přeskoč levou lištu
Uživatel: Heslo:  
   CZUKPL

> Diskuze: Poradna regularne vyrazy cestina a slovencina

regularne vyrazy cestina a slovencina
(link)
13.10.2009 14:44
wakan tanka
Věk: ( ~31 let)

Dobry den, v clanku Pavla Satrapu http://www.root.cz/…ni-vyrazy-1/ som sa docital ze rozpoznavanie regularnych vyrazov sa riadi ASCII tabulkou a ze so slovencinou a cestinou je problem. Mohol by mi prosim niekto objasnit toto:

marek@cepi:~$ cat diakritika
áôúéťľúľščťžýáíéôäúú
ÁôúÉŤĽÚĽŠČŤŽÝÁÍÉôäÚÚ

marek@cepi:~$ grep -o „[a-z][a-z]*“ diakritika
áôúéťľúľščť
ýáíéôäúú
ôú
ôä

Aky specialny vyznam ma pismenko „ž“ ? Preco prikaz
marek@cepi:~$ cat diakritika | tr „[:lower:]“ „[:upper:]“
vrati stale lowercase znaky ?
Dopocul som sa ze by to mozno mohlo mat docinenia s $LANG, prikadam jej vypis.

marek@cepi:~$ echo $LANG
en_US.UTF-8

Mohol by mi niekto objasnit naco presne je $LANG, $LC_ALL a na co presne sluzia prikazy: export, set, env, unset ? Snazim sa pochopit BASH a kodovanie v linuxe no mam v tom dost zmatok. Dakujem velmi pekne

Re: regularne vyrazy cestina a slovencina
(link)
14.10.2009 11:50
Aleš Hakl
Bydliště: Praha

Ohledne fungovani regularnich vyrazu v jinych znakovych sadach nez obycejnem ASCII se doctete, ze "Regular expressions are a context-independent syntax that can represent a wide variety of character sets and character set orderings, where these character sets are interpreted according to the current locale. While many regular expressions can be interpreted differently depending on the current locale, many features, such as character class expressions, provide for contextual invariance across locales.". Takze velka teorie je, ze by regularni vyrazy pouzivane libc a zakladnimy systemovymy utilitami meli fungovat pro libovolny jazyk/znakovou sadu podporovany systemem a delat neco primerene logickeho.

Problem je, ze implementaci regularnich vyrazu, ktera tohle opravdu splnuje zrejmne nikdo nikdy nevidel (z mnoha ruznych jak technickych tak politickych duvodu). Nejjednodussi potom je proste predpokladat, ze to umi jenom ASCII.

Promenna LANG a ty vsechny LC_neco souvisi s definici narodniho prostredi. Souvislost s vasim problemem je ta, ze definice znakovych trid jako je upper je pochopitelne zavisla na jazyku, taktez jake znaky se radi mezi 'a' a 'z' a v jakem poradi je zavisle na jazyku (a s tim navic souvisi ta specialnost ž, protoze to jaksi neni v rozsahu a-z vcetne a presto by se za pismeno asi dalo povazovat). A ty prikazy slouzi pro ruzne manipulace s promennymi prostredi, vlastne jediny ktery vas zajima je export (a jeste spise vas zajima nejaky nastroj vaseho systemu pro globalni a trvale nastaveni locale na neco rozumneho).



Re: regularne vyrazy cestina a slovencina
(link)
18.10.2009 17:38
wakan tanka
Věk: ( ~31 let)

dobry den docital som sa ze existuje nieco co sa vola collating sequence
a ktory potom zahrnie aj znak ž

grep "[[:alpha:]][[:alpha:]]*" diakritika
áôúéťľúľščťžýáíéôäúú
ÁôúÉŤĽÚĽŠČŤŽÝÁÍÉôäÚÚ

Re: regularne vyrazy cestina a slovencina
(link)
20.10.2009 00:59
Aleš Hakl
Bydliště: Praha

To je pochopitelne to spravne reseni problemu "chci vsechna pismena, at uz to v aktualni locale znamena cokoli". Takovy detail je, ze se to nejmenuje collating sequence, ale character class ("trida znaku"). Collation sequence ("posloupnost razeni") je prave ten rozsah znaku v hranatych zavorkach.

Jeste existuji dalsi dva specialni zpusoby zapisu mnozin znaku souvisejici s razenim a to [..] a [==]. Prvnim se dava najevo, ze nechceme znak (napr. "c nebo h"), ale hlasku ("ch"). Druhy vybere vsechny znaky, ktere se radi stejne jako zadany (coz v cestine nema moc smysl, ale v temer vsech jinych jazycich ano, nutno poznamenat, ze u predchoziho je tomu temer naopak :))

Zakladni fakt je, ze ve chvili, kdy zacnete pouzivat cokoli co nejak souvisi s razenim znaku tak si rikate o problemy. Trivialni pripad je to zapomenute ž na konci, daleko podstatnejsi ovsem je to, ze snad neexistuje implementace posixovych regularnich vyrazu, ktera tohle cele implementuje opravdu spravne.

Re: regularne vyrazy cestina a slovencina
(link)
23.10.2009 10:23
wakan tanka
Věk: ( ~31 let)

Dakujem za opravu,
Skoda ze posix neriesi take veci ako diakritika, predpokladam ze nieje nejaky rozumny sposob ako to riesit, ked ani character class to nerobi stale spravne.
Nejak som nepochopil to [..] a [==] mohli by ste prosim uviest jednoduchy priklad ? mohlo by sa to hodit niekedy. Dakujem

Re: regularne vyrazy cestina a slovencina
(link)
24.10.2009 01:01
Aleš Hakl
Bydliště: Praha

No ono to tu diakritiku praveze resi. Problem je, ze diakritika je specificka pro dany jazyk a tak zavisi na nastaveni locales (konkretne LC_CTYPE a LC_COLLATE). Me prijde ze treba debiani grep se s LC_CTYPE=cs_CZ se to alespon pro ty trivialni pripady (coz je vetsina uzitecnych) chova pomerne ocekavatelne. Fakt je, ze ruzne varianty GNU grepu (a ze vlastne kazda distribuce ma svoji) jsou rozbite ruzne, ale zakladni matchovani dle character class funguje snad vsude.

Nejaky jednoduchy a smysluplny priklad vyuziti [..] a [==] bych take rad videl, nic moc rozumneho me nenapada (navic je to rozbite snad uplne vsude, protoze to nikdo nepouziva).

DISKUZE

regularne vyrazy cestina a slovencina 13.10.2009 14:44 wakan tanka
  L Re: regularne vyrazy cestina a slovencina 14.10.2009 11:50 Aleš Hakl
    L Re: regularne vyrazy cestina a slovencina 18.10.2009 17:38 wakan tanka
      L Re: regularne vyrazy cestina a slovencina 20.10.2009 00:59 Aleš Hakl
        L Re: regularne vyrazy cestina a slovencina 23.10.2009 10:23 wakan tanka
          L Re: regularne vyrazy cestina a slovencina 24.10.2009 01:01 Aleš Hakl




Příspívat do diskuze mohou pouze registrovaní uživatelé.
> Vyhledávání software
> Vyhledávání článků

15.5.2017 23:50 /František Kučera
Máš rád svobodný software a hardware nebo se o nich chceš něco dozvědět? Zajímá tě DIY, CNC, SDR nebo morseovka? Přijď na sraz spolku OpenAlt, který se bude konat ve čtvrtek 18. května od 18:00 v Radegastovně Perón (Stroupežnického 20, Praha 5).
Přidat komentář

12.5.2017 16:42 /Honza Javorek
PyCon CZ, česká konference o programovacím jazyce Python, se po dvou úspěšných ročnících v Brně bude letos konat v Praze, a to 8. až 10. června. Na konferenci letos zavítá např. i Armin Ronacher, známý především jako autor frameworku Flask, šablon Jinja2/Twig, a dalších projektů. Těšit se můžete na přednášky o datové analytice, tvorbě webu, testování, tvorbě API, učení a mentorování programování, přednášky o rozvoji komunity, o použití Pythonu ve vědě nebo k ovládání nejrůznějších zařízení (MicroPython). Na vlastní prsty si můžete na workshopech vyzkoušet postavit Pythonem ovládaného robota, naučit se učit šestileté děti programovat, efektivně testovat nebo si v Pythonu pohrát s kartografickým materiálem. Kupujte lístky, dokud jsou.
Přidat komentář

2.5.2017 9:20 /Eva Rázgová
Putovní konference československé Drupal komunity "DrupalCamp Československo" se tentokrát koná 27. 5.2017 na VUT FIT v Brně. Můžete načerpat a vyměnit si zkušenosti z oblasti Drupalu 7 a 8, UX, SEO, managementu týmového vývoje, využití Dockeru pro Drupal a dalších. Vítáni jsou nováčci i experti. Akci pořádají Slovenská Drupal Asociácia a česká Asociace pro Drupal. Registrace na webu .
Přidat komentář

1.5.2017 20:31 /Pavel `Goldenfish' Kysilka
PR: 25.5.2017 proběhne v Praze konference na téma Firemní informační systémy. Hlavními tématy jsou: Informační systémy s vlastní inteligencí, efektivní práce s dokumenty, mobilní přístup k datům nebo využívání cloudu.
Přidat komentář

15.4.2017 15:20 /František Kučera
Máš rád svobodný software a hardware nebo se o nich chceš něco dozvědět? Zajímá tě IoT a radiokomunikace? Přijď na sraz spolku OpenAlt, který se bude konat ve středu 19. dubna od 18:30 v Šenkovně (Sokolská 60, Praha 2).
Přidat komentář

5.3.2017 19:12 /Redakce Linuxsoft.cz
PR: 23. března proběhne v Praze konferenci na téma Cloud computing v praxi. Hlavními tématy jsou: Nejžhavější trendy v oblasti cloudu a cloudových řešení, Moderní cloudové služby, Infrastruktura současných cloudů, Efektivní využití cloudu, Nástrahy cloudových řešení a jak se jim vyhnout.
Přidat komentář

27.2.2017 22:12 /František Kučera
Pozvánka na 137. sraz OpenAlt – Praha: Tentokrát jsme si pro vás připravili neobvyklou akci. Ve středu 1.3. v 17:30 nás přivítá sdružení CZ.NIC ve svých prostorách v Milešovské ulici číslo 5 na Praze 3, kde si pro nás připravili krátkou prezentaci jejich činnosti. Následně navštívíme jejich datacentrum pod Žižkovskou věží. Provedou nás prostory, které jsou běžnému smrtelníkovi nedostupné!
Po ukončení prohlídky se všchni odebereme do hostince U vodoucha, Jagelonská 21, Praha 3 pochutnat si na některém z vybraných piv či dát si něco na zub. Rezervaci máme od 19:30, heslo je OpenAlt.
Ale pozor! Do prostor datového centra máme omezený přístup, dostane se tam pouze 10 lidí! Takže kdo přijde dříve, ten má přednost, a občanky s sebou! Kdo nebude chtít na prohlídku datového centra, může se pomalu přesunout do hostince U vodoucha a u nepřeberné nabídky piv počkat na ostatní.
Přidat komentář

18.1.2017 0:49 /František Kučera
Členové a příznivci spolku OpenAlt se pravidelně schází v Praze a Brně. Fotky z pražských srazů za uplynulý rok si můžete prohlédnout na stránkách spolku. Příští sraz se koná už 19. ledna – tentokrát je tématem ergonomie ovládání počítače – tzn. klávesnice, myši a další zařízení. Také budete mít příležitost si prohlédnout pražský hackerspace Brmlab.
Přidat komentář

   Více ...   Přidat zprávičku

> Poslední diskuze

15.6.2017 9:34 / Ondřej Havlas
php,

10.6.2017 10:39 / Temple
sell home for cash

11.5.2017 23:32 / lelo
Re: Problém se správcem balíčků

11.5.2017 5:45 / davd mašek
Re: Problém se správcem balíčků

10.5.2017 22:54 / lelo
Re: Problém se správcem balíčků

Více ...

ISSN 1801-3805 | Provozovatel: Pavel Kysilka, IČ: 72868490 (2003-2017) | mail at linuxsoft dot cz | Design: www.megadesign.cz | Textová verze