LINUXSOFT.cz Přeskoč levou lištu
Uživatel: Heslo:  
   CZUKPL

> MySQL (59) - české řazení

Podívejme se dnes ještě na konverze textu a rovněž na způsob, jak zajistit české řazení v MySQL.

17.2.2006 06:00 | Petr Zajíc | Články autora | přečteno 21824×

Komerční sdělení: Pořádáme Kurzy MySQL

Minulý díl seriálu vzbudil celkem dost ohlasů. Pojďme tedy nejprve lehce doplnit látku o konverzi textových souborů mezi znakovými sadami a potom se věnujme českému řazení v MySQL.

Změna kódování souboru

Jak jsme uvedli, pokud chceme importovat znaková data do MySQL, musí nám souhlasit znaková sada v definici sloupce, do něhož data přijdou, znaková sada klienta, který import zajišťuje (jako je řádkový klient mysql) a znaková sada souboru, z něhož data čerpáme. Právě v tom posledním bodě se někdy můžete zaseknout, protože soubor je dodán v jiném kódování než potřebujete.

Iconv

Není třeba zoufat. Linuxoví guru nám přece odjakživa vtloukají do hlavy, že Linux se skládá z celé řady malých prográmků, které dělají jednu věc (a dobře). Jedním z nich je utilita na převod kódování zvaná iconv. Její použití je velmi intuitivní, takže to předvedu přímo na příkladu se vstupním souborem v UTF-8, který chceme dostat do ISO-8859-2:

iconv -f UTF-8 -t ISO8859-2 text_utf.txt -o text_latin2.txt

Volby jsou v tomto případě triviální - vstupní kódování, výstupní kódování, název souboru pro konverzi. Za ním je uveden přepínač -o přikazující programu přesměrovat výstup do souboru (ve výchozím stavu přesměrovává na standardní výstup, což je obrazovka, a to nám ve většině případů moc užitečné nebude). Za zmínku stojí už snad jen příkaz

iconv -l

který vypíše seznam všech dostupných kódování, která pro konverzi můžete použít. A pro našince potěší zpráva, že mezi nimi je jak ISO8859-2, tak UTF-8, tak WINDOWS-1250. Nebudete tedy ponecháni na holičkách, ať už dostanete svůj soubor v jakémkoli kódování. Protože s MySQL laborují dost často lidé kolem webových stránek je třeba se rovněž zmínit o tom, že PHP umí s iconv spolupracovat, takže můžete napsat něco jako:

iconv("UTF-8", "ISO-8859-2", $nejaky_retezec)

A jeden tip nakonec: Pokud nevíte, v jakém kódování je vstupní soubor, můžete použít klasický příkaz linuxu file, který se to pokusí zjistit. Opět malý příklad:

file text_utf.txt
(výstup)text_utf.txt: UTF-8 Unicode text

Recode

Jako poněkud robustnější alternativu k iconv můžete použít program recode. Má podstatnou výhodu: Pracuje přímo s konvertovaným souborem. Uvědomte si ale, že to může být i nevýhoda. Další "drobností" je, že recode v systému po instalaci nemusíte mít, kdežto iconv tam nejspíše mít budete. Takže jenom dodám příklad:

recode ISO_8859-2..UTF-8 text_latin2.txt

a téma konverzí textových souborů můžeme opustit. Znovu bych doporučil důsledně používat UTF-8 všude tam, kde jen je to možné. Proto ho máme.

České řazení v MySQL

V dávných a dávných dobách byl docela problém donutit MySQL česky řadit. Jak nejspíš víte, je české řazení dost specifické. Máme písmena s čárkami, háčky a rovněž ch, které tvrdohlavě řadíme mezi h a i. Proto hovoříme o tom, že české řazení je několikaprůchodové - prosté porovnání znaků nám leckdy k určení pořadí zkrátka nestačí. Hezky je to rozebráno například tady. S tím vším se musí databáze nějak vypořádat.

Naštěstí doby temna skončily a současné verze MySQL řadí česky správně. Pochopitelně, že je třeba správně definovat typ sloupce a požadované řazení. Můžeme si to ukázat na příkladu. Vytvoříme tabulku s jedním sloupcem:

create table test_razeni(polozka varchar(50) character set utf8 collate utf8_czech_ci not null);

Všimněte si, že je nutné specifikovat řazení pomocí klíčového slova collate. Tabulku teď naplníme nějakými daty:

insert into test_razeni (polozka) values ('auto'),('cihla'),('česnek'),
('chleba'),('rum'),('ředkvička'),('zlato'),
('židle'),('stůl'),('špička'),('dav'),('ďábel'),('ňouma'),('nestor');

a seřadíme pomocí order by:

select * from test_razeni order by polozka;

Jak můžete vidět, žádné nepříjemné překvapení se nekoná. Ch je na svém místě a slova s diakritickými znaménky rovněž. Poměrně málo známý je trik se specifikací COLLATE přímo v klauzuli ORDER BY. Můžete si například předchozí sadu záznamů zkusit setřídit podle pravidel pro řazení unicode:

select * from test_razeni order by polozka collate utf8_general_ci;

Kdy něco takového použít? Vlastně asi nikdy. Vždy je totiž lepší zadat si výchozí způsob třídění pro daný sloupec nebo tabulku. Dokážu si nicméně představit třeba nějakou mezinárodní webovou aplikaci, kde by byl dejme tomu seznam měst a uživatel by mohl dostat tento seznam setříděný podle svých národních zvyklostí. Uznávám ale, že je to dosti vykonstruovaný příklad, protože názvy měst se stejně většinou píší i třídí anglicky.

Ještě poznámka k webovým aplikacím. Autoři stránek se občas v minulosti pokoušeli implementovat několikaprůchodové české řazení přímo pomocí skriptů, jako je PHP. Pokud data pocházejí z databáze, mělo by těmto pokusům zvolna odzvonit, protože obecně jakákoli databáze seřadí data rychleji než skript. Samozřejmě pokud řazená data z databáze nepocházejí, pak asi nezbyde než se pokusit o implementaci vlastního řazení - ale je to úkol pro odvážné.

Verze pro tisk

pridej.cz

 

DISKUZE

české řazení podle mne správně nefunguje :( 22.8.2006 14:37 Josef Skramuský




Příspívat do diskuze mohou pouze registrovaní uživatelé.
> Vyhledávání software
> Vyhledávání článků

15.5.2017 23:50 /František Kučera
Máš rád svobodný software a hardware nebo se o nich chceš něco dozvědět? Zajímá tě DIY, CNC, SDR nebo morseovka? Přijď na sraz spolku OpenAlt, který se bude konat ve čtvrtek 18. května od 18:00 v Radegastovně Perón (Stroupežnického 20, Praha 5).
Přidat komentář

12.5.2017 16:42 /Honza Javorek
PyCon CZ, česká konference o programovacím jazyce Python, se po dvou úspěšných ročnících v Brně bude letos konat v Praze, a to 8. až 10. června. Na konferenci letos zavítá např. i Armin Ronacher, známý především jako autor frameworku Flask, šablon Jinja2/Twig, a dalších projektů. Těšit se můžete na přednášky o datové analytice, tvorbě webu, testování, tvorbě API, učení a mentorování programování, přednášky o rozvoji komunity, o použití Pythonu ve vědě nebo k ovládání nejrůznějších zařízení (MicroPython). Na vlastní prsty si můžete na workshopech vyzkoušet postavit Pythonem ovládaného robota, naučit se učit šestileté děti programovat, efektivně testovat nebo si v Pythonu pohrát s kartografickým materiálem. Kupujte lístky, dokud jsou.
Přidat komentář

2.5.2017 9:20 /Eva Rázgová
Putovní konference československé Drupal komunity "DrupalCamp Československo" se tentokrát koná 27. 5.2017 na VUT FIT v Brně. Můžete načerpat a vyměnit si zkušenosti z oblasti Drupalu 7 a 8, UX, SEO, managementu týmového vývoje, využití Dockeru pro Drupal a dalších. Vítáni jsou nováčci i experti. Akci pořádají Slovenská Drupal Asociácia a česká Asociace pro Drupal. Registrace na webu .
Přidat komentář

1.5.2017 20:31 /Pavel `Goldenfish' Kysilka
PR: 25.5.2017 proběhne v Praze konference na téma Firemní informační systémy. Hlavními tématy jsou: Informační systémy s vlastní inteligencí, efektivní práce s dokumenty, mobilní přístup k datům nebo využívání cloudu.
Přidat komentář

15.4.2017 15:20 /František Kučera
Máš rád svobodný software a hardware nebo se o nich chceš něco dozvědět? Zajímá tě IoT a radiokomunikace? Přijď na sraz spolku OpenAlt, který se bude konat ve středu 19. dubna od 18:30 v Šenkovně (Sokolská 60, Praha 2).
Přidat komentář

5.3.2017 19:12 /Redakce Linuxsoft.cz
PR: 23. března proběhne v Praze konferenci na téma Cloud computing v praxi. Hlavními tématy jsou: Nejžhavější trendy v oblasti cloudu a cloudových řešení, Moderní cloudové služby, Infrastruktura současných cloudů, Efektivní využití cloudu, Nástrahy cloudových řešení a jak se jim vyhnout.
Přidat komentář

27.2.2017 22:12 /František Kučera
Pozvánka na 137. sraz OpenAlt – Praha: Tentokrát jsme si pro vás připravili neobvyklou akci. Ve středu 1.3. v 17:30 nás přivítá sdružení CZ.NIC ve svých prostorách v Milešovské ulici číslo 5 na Praze 3, kde si pro nás připravili krátkou prezentaci jejich činnosti. Následně navštívíme jejich datacentrum pod Žižkovskou věží. Provedou nás prostory, které jsou běžnému smrtelníkovi nedostupné!
Po ukončení prohlídky se všchni odebereme do hostince U vodoucha, Jagelonská 21, Praha 3 pochutnat si na některém z vybraných piv či dát si něco na zub. Rezervaci máme od 19:30, heslo je OpenAlt.
Ale pozor! Do prostor datového centra máme omezený přístup, dostane se tam pouze 10 lidí! Takže kdo přijde dříve, ten má přednost, a občanky s sebou! Kdo nebude chtít na prohlídku datového centra, může se pomalu přesunout do hostince U vodoucha a u nepřeberné nabídky piv počkat na ostatní.
Přidat komentář

18.1.2017 0:49 /František Kučera
Členové a příznivci spolku OpenAlt se pravidelně schází v Praze a Brně. Fotky z pražských srazů za uplynulý rok si můžete prohlédnout na stránkách spolku. Příští sraz se koná už 19. ledna – tentokrát je tématem ergonomie ovládání počítače – tzn. klávesnice, myši a další zařízení. Také budete mít příležitost si prohlédnout pražský hackerspace Brmlab.
Přidat komentář

   Více ...   Přidat zprávičku

> Poslední diskuze

1.8.2017 7:32 / Cassidy
structural consultants

30.7.2017 11:12 / Jaromir Obr
Národní znaky

27.7.2017 12:24 / Jaromir Obr
Cteni/zapis

26.7.2017 21:12 / Jaromir Obr
Podminka

15.6.2017 9:34 / Ondřej Havlas
php,

Více ...

ISSN 1801-3805 | Provozovatel: Pavel Kysilka, IČ: 72868490 (2003-2017) | mail at linuxsoft dot cz | Design: www.megadesign.cz | Textová verze