LINUXSOFT.cz Přeskoč levou lištu
Uživatel: Heslo:  
   CZUKPL

> MySQL (38) - Fulltext a praxe

Příklady na použití fulltextu v MySQL.

16.9.2005 07:00 | Petr Zajíc | Články autora | přečteno 28380×

Komerční sdělení: Pořádáme Kurzy MySQL

V tomto díle seriálu nebude žádná teorie. Opravdu. Slibuji.

Testovací data

Fulltextové vyhledávání se nejlépe zkouší na nějakých smysluplných datech, a k tomu nejlépe, když jich je "větší než malé množství". Mějme tedy následující tabulku:

create table clanky (id int not null auto_increment, cislo int, zneni text, primary key (id));

s následujícím fulltextem

alter table clanky add fulltext (zneni);

Najít smysluplná data na internetu také není problém, já jsem tabulku naplnil údaji ze sesterského seriálu o PHP tímto triviálním PHP skriptem:

<?php
  $idclanku
=Array(1=>171,172,173,176,177,178,179,180,181,183,
  
188,192,199,204,205,206,212,217,229,234,
  
252,257,264,269,270,274,292,296,297,303,
  
310,321,325,328,329,336,337,344,345,357,
  
361,366,368,369,375,408,414,420,422,425,
  
430,436,440,443,444,457,459,462,467,475,
  
484,488,492,502,504,514,517,523,524,538,
  
543,545,551,556,557,564,567,572,574,580,
  
587,588,609,613,617,623,626,629,635,636,
  
642,644,646,651,657,658,663,666,670,674
  
);

  function
textclanku($clanek){
    global
$idclanku;
    
$id=$idclanku[$clanek];
    
$url="http://www.linuxsoft.cz/article.php?id_article=$id";
    
ob_start();
    
readfile ($url);
    
$textclanku = ob_get_contents();
    
ob_end_clean();
    
$textzacatku="<h2><img src=\"img/sipka1.png\" width=\"15\" height=\"15\" alt=\"&gt;\">";
    
$textkonce="<div class=\"links\">";
    
$zacatek=strpos($textclanku,$textzacatku);
    
$konec=strpos($textclanku,$textkonce);
    return
substr($textclanku,$zacatek,($konec-$zacatek));
  }

  
mysql_connect("localhost","root","") or die (mysql_error());
  
mysql_select_db("test");
  
mysql_query("SET NAMES 'utf8'");
  for (
$i=1; $i<=count($idclanku);$i++) {
    
$sql="insert into clanky (cislo, zneni) values (".$idclanku[$i].",'".mysql_escape_string(textclanku($i))."')";
    
mysql_query($sql)or die (mysql_error());
  }
?>

Pozn.: Pokud zrovna neholdujete PHP, nezoufejte. Je to jen na okraj. Tento skriptík definuje stočlenné pole hodnot, jehož každý člen obsahuje identifikátor článku ze seriálu o PHP na našem serveru. Toto stočlenné pole je postupně procházeno, jednotlivé články se stahují a ukládají se do tabulky, kterou jsme vytvořili. Zabýval jsem se tím jen proto, abych získal pro fulltextové vyhledávání nějaká smysluplná data.

Vyhledáváme!

Takže, teď již máme opravdu vše pro vyhledávání fulltextem. K tomu slouží v MySQL funkce MATCH. Její nejjednodušší použití je následující:

select * from clanky where match (zneni) against ('substr');

Tento kód vybere ze seznamu článků ty, které obsahují hledanou frázi - substr (to je jedna z funkcí jazyka PHP). Přestože to z příkazu přímo nevyplývá, tento příkaz vrátí výsledky sestupně podle relevance. To totiž funkce MATCH v klauzuli WHERE bez uvedení implicitního řazení udělá vždy. Přestože je relevance pouze hodnota sloužící k porovnávání, můžeme ji do výsledků zahrnout - to by potom mohlo vypadat nějak takto:

select *, match (zneni) against ('substr') from clanky where match (zneni) against ('substr');

Pozn.: Mohlo by se zdát, že to zatíže server, protože ten bude muset provést řazení dvakrát. Nicméně není to tak, podle dokumentace optimalizátor dotazů tuto situaci rozpozná a fulltextové prohledávání provede pouze jednou.

Stejně tak by nebyl problém vyžádat si povinné seřazení položek - třeba podle relevance vzestupně. Sice by to znamenalo, že nejpravděpodobnější výsledky budou vráceny až naposled, ale syntakticky je to možné. Odpovídající příkaz by byl:

select *, match (zneni) against ('substr') from clanky where match (zneni) against ('substr') order by match (zneni) against ('substr');

Všimněte si rovněž, že příkaz

select * from clanky where match (zneni) against ('PHP');

žádné řádky nevrátí. Uplatní se zde pravidlo padesátiprocentního prahu, protože fráze "PHP" se objevuje ve většině článků a je tudíž vyhodnocena jako nepoužitelná. Všechny příklady jsem dosud uváděl s tím, že hledaná fráze obsahovala jen jedno slovo - to pro jednoduchost. Ve skutečnosti je spíše typické hledat slovní spojení. Takže, vypadalo by to nějak takto:

select * from clanky where match (zneni) against ('PHP ve spolupráci s apache');

Právě v tom je síla fulltextu - naprogramování něčeho podobného "ručně" by vám nejspíš zabralo hodně času a úsilí. K tomuto příkladu bych ještě připomněl, že slova "ve" a "a" budou z fulltextového vyhledávání vypuštěna, protože jsou příliš krátká.

Boolean mode

To není všechno. MySQL umožňuje ještě mnohem pokročilejší techniky fulltextového prohledávání. Databázi lze přikázat:

  • Která slova v hledaném textu musejí být
  • Která slova v hledaném textu nesmějí být
  • Která slova budou při vyhledávání mít větší (nebo menší) relevanci než tu, kterou by jim přiřadil počítač
  • Která slovní spojení musejí být obsažena doslovně
  • Některé další funkce pro zpřesnění vyhledávání.

Ke všemu tomu se dostanete prostřednictvím rozšíření funkce MATCH - IN BOOLEAN MODE. Osvětlím to na pár příkladech:

select * from clanky where match (zneni) against ('+server -apache' IN BOOLEAN MODE);

najde články, které obsahují frázi server, ale neobsahují frázi apache. Kdybychom chtěli, aby byly nalezeny všechny články obsahující výraz databáze s tím, že výraz MySQL by byl pro nás méně relevantní (ale vyloženě by nám nevadil), můžeme použít následující syntaxi:

select * from clanky where match (zneni) against ('+databáze <MySQL' IN BOOLEAN MODE);

Na stránkách manuálu se můžete dočíst i o dalších zběsilých formách tohoto způsobu vyhledávání - lze například použít závorky a tak dále.

Poznámky

Měli byste vědět, že vyhledávání "IN BOOLEAN MODE" má některá zajímavá omezení. Patří mezi ně:

  • Pravidlo padesátiprocentního prahu se nepoužívá
  • Výsledky nejsou automaticky řazeny sestupně podle relevance
  • Může fungovat i bez existence odpovídajícícho FULLTEXT indexu, ale je to dosti pomalé
  • Existuje v databázi až od verze 4.0.1

K technice použití fulltextu v MySQL bych obecně uvedl následující - pokud již máte data v MySQL (třeba v tom redakčním systému), může pro vás použití fulltextu znamenat výhru - jeho nasazení a správa budou v podstatě bezbolestné. Pokud to ale není váš případ, lze najít mnohem obecnější fulltextové systémy - například Lucene. Vzájemné porovnání fulltextových technologií není vůbec jednoduchá věc a rozhodně to není předmětem našeho seriálu, ale je dobré mít na paměti, že MySQL není jediný systém, který něco podobného umožňuje.

Verze pro tisk

pridej.cz

 

DISKUZE

Nejsou žádné diskuzní příspěvky u dané položky.



Příspívat do diskuze mohou pouze registrovaní uživatelé.
> Vyhledávání software
> Vyhledávání článků

5.3.2017 19:12 /Redakce Linuxsoft.cz
PR: 23. března proběhne v Praze konferenci na téma Cloud computing v praxi. Hlavními tématy jsou: Nejžhavější trendy v oblasti cloudu a cloudových řešení, Moderní cloudové služby, Infrastruktura současných cloudů, Efektivní využití cloudu, Nástrahy cloudových řešení a jak se jim vyhnout.
Přidat komentář

27.2.2017 22:12 /František Kučera
Pozvánka na 137. sraz OpenAlt – Praha: Tentokrát jsme si pro vás připravili neobvyklou akci. Ve středu 1.3. v 17:30 nás přivítá sdružení CZ.NIC ve svých prostorách v Milešovské ulici číslo 5 na Praze 3, kde si pro nás připravili krátkou prezentaci jejich činnosti. Následně navštívíme jejich datacentrum pod Žižkovskou věží. Provedou nás prostory, které jsou běžnému smrtelníkovi nedostupné!
Po ukončení prohlídky se všchni odebereme do hostince U vodoucha, Jagelonská 21, Praha 3 pochutnat si na některém z vybraných piv či dát si něco na zub. Rezervaci máme od 19:30, heslo je OpenAlt.
Ale pozor! Do prostor datového centra máme omezený přístup, dostane se tam pouze 10 lidí! Takže kdo přijde dříve, ten má přednost, a občanky s sebou! Kdo nebude chtít na prohlídku datového centra, může se pomalu přesunout do hostince U vodoucha a u nepřeberné nabídky piv počkat na ostatní.
Přidat komentář

18.1.2017 0:49 /František Kučera
Členové a příznivci spolku OpenAlt se pravidelně schází v Praze a Brně. Fotky z pražských srazů za uplynulý rok si můžete prohlédnout na stránkách spolku. Příští sraz se koná už 19. ledna – tentokrát je tématem ergonomie ovládání počítače – tzn. klávesnice, myši a další zařízení. Také budete mít příležitost si prohlédnout pražský hackerspace Brmlab.
Přidat komentář

8.1.2017 17:51 /František Kučera
Máš rád svobodný software a hardware nebo se o nich chceš něco dozvědět? Přijď na sraz spolku OpenAlt, který se bude konat ve čtvrtek 19. ledna od 18:30 v pražském hackerspacu Brmlab. Tentokrát je tématem srazu ergonomie ovládání počítače – tzn. klávesnice, myši a další zařízení. K vidění bude mechanická klávesnice dasKeyboard, trackball Logitech nebo grafický tablet (a velký touchpad) Wacom. Přineste i vy ukázat svoje zajímavé klávesnice a další HW. V 18:20 je sraz před budovou, v 18:30 jdeme společně dovnitř, je tedy dobré přijít včas. Podle zájmu se později přesuneme do nějaké restaurace v okolí.
Přidat komentář

1.12.2016 22:13 /František Kučera
Máš rád svobodný software a hardware nebo se o nich chceš něco dozvědět? Přijď na sraz spolku OpenAlt, který se bude konat ve čtvrtek 8. prosince od 18:00 v Radegastovně Perón (Stroupežnického 20, Praha 5). Sraz bude tentokrát tématický. Bude retro! K vidění budou přístroje jako Psion 5mx nebo Palm Z22. Ze svobodného hardwaru pak Openmoko nebo čtečka WikiReader. Přijďte se i vy pochlubit svými legendami, nebo alespoň na pivo. Moderní hardware má vstup samozřejmě také povolen.
Komentářů: 1

4.9.2016 20:13 /Pavel `Goldenfish' Kysilka
PR: Dne 22.9.2016 proběhne v Praze konference Cloud computing v praxi. Tématy bude např. nejnovější trendy v oblasti cloudu a cloudových řešení, provozování ERP v cloudu, o hostování různých typů softwaru, ale třeba i o zálohování dat nabízeném podnikům formou služby.
Přidat komentář

1.9.2016 11:27 /Honza Javorek
Česká konference o Pythonu, PyCon CZ, stále hledá přednášející skrz dobrovolné přihlášky. Máte-li zajímavé téma, neváhejte a zkuste jej přihlásit, uzávěrka je již 12. září. Konference letos přijímá i přednášky v češtině a nabízí pomoc s přípravou začínajícím speakerům. Řečníci mají navíc vstup zadarmo! Více na webu.
Přidat komentář

27.8.2016 8:55 /Delujek
Dnes po 4 letech komunitního vývoje vyšla diaspora 0.6.0.0
diaspora* je open-source, distribuovaná sociální síť s důrazem na soukromý
Více v oficiálním blog-postu
Přidat komentář

   Více ...   Přidat zprávičku

> Poslední diskuze

24.3.2017 11:54 / Hui
country cottages

16.3.2017 16:33 / BezvaDesign.cz
Re: Hledám grafika do teamu

9.3.2017 11:44 / Jaromir Obr
Re: chyba

18.1.2017 20:18 / martin horky
Spolupraca linuxu a microsoftu

17.1.2017 9:57 / Pavel Hrubeš
Re: Externí USB televizní karta

Více ...

ISSN 1801-3805 | Provozovatel: Pavel Kysilka, IČ: 72868490 (2003-2017) | mail at linuxsoft dot cz | Design: www.megadesign.cz | Textová verze