LINUXSOFT.cz Přeskoč levou lištu
Uživatel: Heslo:  
   CZUKPL

> MySQL (37) - použití fulltextového vyhledávání

MySQL umí vyhledávat fulltextem. Co to je, k čemu to použít a na co dát pozor se dozvíte v dnešním díle seriálu.

9.9.2005 07:00 | Petr Zajíc | Články autora | přečteno 33173×

Komerční sdělení: Pořádáme Kurzy MySQL

Nástroji, které se dají použít pro fulltextové vyhledávání se jednotlivé databázové systémy liší, někdy dosti podstatně. V případě MySQL mám pro Vás dobrou zprávu - tato databáze umí používat fulltext a jde jí to celkem dobře. Fulltextové vyhledávání bude námětem dnešního článku. Protože (zejména při spolupráci MySQL, nějakého skriptovacího jazyka a webu) se Vám tato funkce může velice hodit, rozebereme si ji poměrně podrobně, hned ve dvou dílech. Nejprve však mi dovolte nastínit něco teorie.

Fulltextové vyhledávání

Podle definice je fulltext "metoda vyhledávání textu uvnitř dokumentů". Jako klasický příklad se uvádí situace, kdy máte k dispozici sadu textů (možná umístěných v síti internet, na disku a podobně) s různými tématy a jediný cíl - najít text, který se bude zabývat vyhledávaným slovem, slovním spojením nebo frází. Většina definic jedním dechem dodává, že v databázích se k realizaci fulltextového vyhledávání používá speciální typ indexu.

Typickou fulltextovou funkci tedy "nakrmíte" seznamem prohledávaných textů a hledaným výrazem. Výsledkem je (nejčastěji) číslo, kterému se říká relevance (český ekvivalent závažnost nebo váha se v odborných kruzích moc neujal) a které uvádí pravděpodobnost, že prohledávaný článek obsahuje to, po čem jsme pátrali. Velice častým výstupem je potom seřazení výsledků sestupně podle relevance (tedy nejpravděpodobnější výsledky nejvýše).

Fulltextové vyhledávání plní trochu komplexnější úlohu než funkce pro práci s textem vyhledávající jeden řetězec v jiném (v MySQL představované třeba řetězcovou funkcí INSTR). Fulltext totiž umí při vyhledávání zohlednit četnost vyhledáváných slov v daném textu, jejich vzájemnou vzdálenost a podobně. Existují dokonce nástroje pro jemné doladění prohledávání - třeba příkaz pro "umělé" snížení relevance některého z hledaných slov.

Fulltext a MySQL

To, co jsme uvedli v definici platí i pro MySQL - s jistými omezeními. Měli byste ale vědět, že v praxi ani sebelepší fulltext není všemocný. Pokud se budete pohybovat v česko-slovenských vodách, měli byste vědět, že v souvislosti s použitím fulltextu v MySQL můžete pěkně narazit na:

  • diakritiku. Ne snad, že by si fulltextové vyhledávání s diakritikou neumělo poradit. Spíše ale budete prohledávat texty (například diskuse k článkům), v nichž někdo diakritiku používá a někdo ne. Slovo kočička tak nebude vůbec odpovídat slovu kocicka.
  • skloňování. Slovo kočička nebude MySQL považovat za stejné jako výraz kočiček, takže v tomto případě obdržíte při vyhledávání takové výsledky, jako by se jednalo o dvě naprosto různá slova.

Pozn.: V této souvislosti je zajímavé vědět, že existují fulltextové vyhledávače, které skloňování umí. Ne však v MySQL; takové nástroje patří mezi velmi pokročilé a používají se především u internetových vyhledávačů. A ještě doplním, že technologie za většinou vyhledávačů je mnohem komplexnější, než aby obsahovala "pouhý" fulltext.

Při používání fulltextu v MySQL byste měli vědět o dalších omezeních, které je nutné vzít v úvahu. Patří mezi ně:

  1. Fulltextové vyhledávání lze (celkem logicky) používat pouze u sloupců obsahujících řetězce (tedy CHAR, VARCHAR nebo TEXT)
  2. Fulltextové vyhledávání nerozlišuje velikost znaků. To však lze obejít tím, že je sloupec definován s klíčovým slovem BINARY - pak je brána v úvahu i velikost písmen.
  3. Fulltextové vyhledávání lze použít u MySQL pouze tehdy, pokud jsou prohledávané tabulky typu MyISAM. O typech MySQL tabulek jsme ještě v tomto seriálu nehovořili, takže vám jen poskytnu link na oficiální dokumentaci a nechám to na jindy.
  4. To, že daná tabulka má "umět" fulltextové vyhledávání lze určit již při její definici, nebo kdykoli později. Vzhledem k tomu, že MySQL používá pro zajištění fulltextového prohledávání tabulek index, platí pravidlo, které jsme již rozebírali - při hromadném nahrávání dat se vyplatí případný index zrušit, nahrát všechna data a pak jej znovu vytvořit. Je to mnohem rychlejší než plnit masivně daty tabulku, která už nějaký fulltextový index obsahuje.
  5. Jelikož je fulltext realizován indexem, můžete v MySQL touto metodou prohledávat více sloupců najednou (pomocí indexu vytvořeného na více sloupcích).
  6. Jelikož je fulltext realizován indexem, můžete mít v jediné tabulce i více fulltextových indexů. To se může hodit - jednou budete chtít vyhledávat například podle textu článku, jindy i podle jména autora či perexu.
  7. Jelikož je fulltext realizován indexem, nemůžete v MySQL bohužel fulltextem vyhledávat data pocházející z více než jedné tabulky. To může nasazení fulltextu pro některé projekty zhola znemožnit, protože existující data mohou být ve více souvisejících tabulkách.

Aby těch omezení nebylo málo, platí pro práci s fulltextem v MySQL i další "pravidla hry".

  1. Fulltextové vyhledávání funguje smysluplně pouze pro větší počet záznamů. Tabulku s jedním záznamem nelze smysluplně fulltextovat.
  2. Slova kratší než 4 písmena jsou z fulltextového vyhledávání vypuštěna. Takže, výraz pes si fulltextově nevyhledáte. (U verze databáze 4.0 nebo vyšší lze ovšem minimální délku slova pro zahrnutí do fulltextu nastavit)
  3. Existuje seznam tzv. "stop slov", která jsou často používána a která jsou z vyhledávání vyloučena. Patří mezi ně například anglický člen the. Seznam lze upravit.
  4. Dále, existuje pravidlo "padesátiprocentního prahu". To stanoví, že slova, která se vyskytují ve více než 50% prohledávaných záznamů jsou z fulltextování vyloučena. To lze "vypnout" přepsáním zdrojového kódu MySQL a rekompilací nebo obejít pomocí alternativní metody práce s fulltextem
  5. Konečně, verze MySQL 4.0.1 a vyšší obsahují tzv. BOOLEAN MODE fulltext, který umožňuje mnohem pokročilejší práci s fulltextem a který vám rozhodně příště předvedu.

Vytvoření fulltextového indexu

Mějme v MySQL tabulku obsahující sloupce CHAR, VARCHAR nebo TEXT. Klasicky se fulltextové vyhledávání předvádí na fragmentu nějakého webového redakčního systému - je to sice poněkud otřepané, ale typické, takže se toho budu rovněž držet.

create table clanky (nazev varchar (50), zneni text);

Na této tabulce můžete vytvořit fulltextový index takto:

alter table clanky add fulltext (zneni);

a/nebo, pokud bychom byli dychtivi vyhledávání rovněž v názvech článků, lze definovat jiný fulltext

alter table clanky add fulltext (nazev, zneni);

Oba fulltextové indexy mohou existovat na tabulce současně. Dost to zpomalí aktualizaci tabulky, ale umožní to vyhledávat výrazy jak v článku, tak v kombinaci článek + název.

Pozn.: Hořekování nad pomalostí změny dat v tabulkách však leckdy nemá u fulltextových vyhledávání valný význam. Často se touto metodou zpracovávají data, která se mění jen jednou nebo zřídka (jako třeba právě články v databázi redakčního systému) a právě u nich je ztráta času při vložení záznamů snesitelná.

Tento díl seriálu byl jen teoretický (pro někoho možná až příliš). Nicméně příští díl bude nabit praktickými ukázkami vyhledávání, takže se máte na co těšit. Ukážeme si, jak vyhledávat fulltextově v rozsáhlých datech - ještě prozradím, že to budou opravdu data "ze života", takže doufám, že to bude pro čtenáře přínosné.

Verze pro tisk

pridej.cz

 

DISKUZE

Fulltext feature :) 17.2.2006 13:38 Jihad




Příspívat do diskuze mohou pouze registrovaní uživatelé.
> Vyhledávání software
> Vyhledávání článků

13.9.2017 8:00 /František Kučera

Máš rád svobodný software a hardware nebo se o nich chceš něco dozvědět? Zajímá tě DIY, CNC, SDR nebo morseovka? Přijď na sraz spolku OpenAlt – tentokrát netradičně v pondělí: 18. září od 18:00 v Radegastovně Perón (Stroupežnického 20, Praha 5).


Přidat komentář

3.9.2017 20:45 /Redakce Linuxsoft.cz
PR: Dne 21. září 2017 proběhne v Praze konference "Mobilní řešení pro business". Hlavní tématy konference budou: nejnovější trendy v oblasti mobilních řešení pro firmy, efektivní využití mobilních zařízení, bezpečnostní rizika a řešení pro jejich omezení, správa mobilních zařízení ve firmách a další.
Přidat komentář

15.5.2017 23:50 /František Kučera
Máš rád svobodný software a hardware nebo se o nich chceš něco dozvědět? Zajímá tě DIY, CNC, SDR nebo morseovka? Přijď na sraz spolku OpenAlt, který se bude konat ve čtvrtek 18. května od 18:00 v Radegastovně Perón (Stroupežnického 20, Praha 5).
Přidat komentář

12.5.2017 16:42 /Honza Javorek
PyCon CZ, česká konference o programovacím jazyce Python, se po dvou úspěšných ročnících v Brně bude letos konat v Praze, a to 8. až 10. června. Na konferenci letos zavítá např. i Armin Ronacher, známý především jako autor frameworku Flask, šablon Jinja2/Twig, a dalších projektů. Těšit se můžete na přednášky o datové analytice, tvorbě webu, testování, tvorbě API, učení a mentorování programování, přednášky o rozvoji komunity, o použití Pythonu ve vědě nebo k ovládání nejrůznějších zařízení (MicroPython). Na vlastní prsty si můžete na workshopech vyzkoušet postavit Pythonem ovládaného robota, naučit se učit šestileté děti programovat, efektivně testovat nebo si v Pythonu pohrát s kartografickým materiálem. Kupujte lístky, dokud jsou.
Přidat komentář

2.5.2017 9:20 /Eva Rázgová
Putovní konference československé Drupal komunity "DrupalCamp Československo" se tentokrát koná 27. 5.2017 na VUT FIT v Brně. Můžete načerpat a vyměnit si zkušenosti z oblasti Drupalu 7 a 8, UX, SEO, managementu týmového vývoje, využití Dockeru pro Drupal a dalších. Vítáni jsou nováčci i experti. Akci pořádají Slovenská Drupal Asociácia a česká Asociace pro Drupal. Registrace na webu .
Přidat komentář

1.5.2017 20:31 /Pavel `Goldenfish' Kysilka
PR: 25.5.2017 proběhne v Praze konference na téma Firemní informační systémy. Hlavními tématy jsou: Informační systémy s vlastní inteligencí, efektivní práce s dokumenty, mobilní přístup k datům nebo využívání cloudu.
Přidat komentář

15.4.2017 15:20 /František Kučera
Máš rád svobodný software a hardware nebo se o nich chceš něco dozvědět? Zajímá tě IoT a radiokomunikace? Přijď na sraz spolku OpenAlt, který se bude konat ve středu 19. dubna od 18:30 v Šenkovně (Sokolská 60, Praha 2).
Přidat komentář

5.3.2017 19:12 /Redakce Linuxsoft.cz
PR: 23. března proběhne v Praze konferenci na téma Cloud computing v praxi. Hlavními tématy jsou: Nejžhavější trendy v oblasti cloudu a cloudových řešení, Moderní cloudové služby, Infrastruktura současných cloudů, Efektivní využití cloudu, Nástrahy cloudových řešení a jak se jim vyhnout.
Přidat komentář

   Více ...   Přidat zprávičku

> Poslední diskuze

18.9.2017 14:37 / Rojas
high security vault

15.9.2017 7:33 / Wilson
new zealand childcare jobs

31.8.2017 12:11 / Jaromir Obr
Re: ukůládání dat ze souboru

30.7.2017 11:12 / Jaromir Obr
Národní znaky

27.7.2017 12:24 / Jaromir Obr
Cteni/zapis

Více ...

ISSN 1801-3805 | Provozovatel: Pavel Kysilka, IČ: 72868490 (2003-2017) | mail at linuxsoft dot cz | Design: www.megadesign.cz | Textová verze