LINUXSOFT.cz Přeskoč levou lištu
Uživatel: Heslo:  
   CZUKPL

> Perl (30) - Práce se soubory

Rozšiřující informace k minulému dílu.

7.4.2006 09:00 | Jiří Václavík | Články autora | přečteno 35370×

Zápis na libovolnou pozici

Připisujeme-li do souboru, je zde možné kromě zapisování na jeho konec i přidávání textu kamkoliv jinam. Perl obsahuje funkci seek, která nastavuje pozici, kde má dojít k zápisu. seek má 3 argumenty, které určují ovladač a pozici:

  1. ovladač
  2. posun - tedy počet znaků, o který se bude pozice posunovat.
  3. pozice, odkud se bude posunovat. Tento argument může nabývat následujících hodnot:
    • 0 - nastavuje pozici posunu
    • 1 - k současné pozici přidává posun
    • 2 - pozici nastavuje na konec souboru + posun. Je logické, že posun je pak záporný

Abychom si mohli názorně ukázat, jak funkce seek funguje, vytvoříme textový soubor, ve kterém budou dobře vidět změny a jejich pozice. Takový soubor může vypadat následovně.

**********
**********
**********
**********
**********

Zkusme v něm nahradit pár hvězdiček na libovolném místě textu:

open SOUBOR, "+< soubor"; #otevření pro současné čtení a zápis

seek SOUBOR, 15, 0;       #pozice 15
print SOUBOR "X";

seek SOUBOR, 3, 1;        #pozice 15+3=18
print SOUBOR "X";

seek SOUBOR, -5, 2;       #pozice (počet_znaků_souboru)+(-5)
print SOUBOR "X";

seek SOUBOR, 4, 0;        #pozice 4
print scalar <SOUBOR>;    #jako bonus vypíšeme zbytek řádku
                          #to je ukázka zápisu a čtení zároveň z 1 ovladače

Nyní velice hezky vidíme výsledek. Soubor, do kterého jsme zapisovali, má následující obsah.

**********
****X***X*
**********
**********
******X***

Zamykání souborů

Obzvláště při psaní aplikací, které sdílejí tytéž data - tedy například u webových aplikací, časem narazíme na problém. Může se totiž klidně stát, že několik lidí pošle serveru současně data, která mají být zapsána do téhož souboru. To vede k závažným problémům v podobě ztráty dat. Je třeba nějakou organizaci sdílení souborů. Tuto záležitost nejlépe vyřešíme blokováním přístupu k souboru během práce s ním.

Zde je syntaxe příkazu flock, který obstarává zamykání.

flock(soubor, režim);
flock(ovladač, režim);

V tabulce jsou možné režimy, do kterých lze soubor přepnout.

RežimNázevČinnost
1LOCK_SHzámek pro čtení (sdílený)
2LOCK_EXzámek pro zápis (nesdílený)
4LOCK_NBneblokující zámek
8LOCK_UNuvolnění zámku

Zámek pro čtení zabraňuje zápisu v okamžiku, kdy soubor někdo jiný čte. Zámek pro zápis zamezuje jakémukoliv pokusu o otevření.

Pokud to není opodstatněné, rozhodně neblokujte soubory na delší dobu. Například pokud program čeká na uživatelský vstup, je soubor otevřen zbytečně, protože program dlouhou dobu nic nedělá.

Ukažme si jednoduchý úsek kódu, jež přibližuje zápis do souboru, který byl předtím uzamčen.

open(SOUBOR, ">soubor") or die "Nelze otevřít soubor: $!\n";
flock(SOUBOR, 2) or die "Nelze zamknout soubor\n"; #zamkneme soubor pro zápis
print SOUBOR "text, zapsaný pomocí zámku";
flock(SOUBOR, 8); #uvolníme zámek
close SOUBOR;

Jako parametr funkce flock lze použít místo režimu i jeho symbolický zápis, avšak k tomu je třeba zavést modul Fcntl.

use Fcntl qw(:DEFAULT :flock);
...
flock(DATA, LOCK_SH);#zamkneme pro čtení

Dočasné soubory

Dočasné soubory jsou obyčejné soubory, které slouží programu pouze po dobu jeho vykonávání. Program ho tedy musí vytvořit a smazat. Zmiňuji se o tom proto, že program může spouštět ve stejný okamžik více lidí a je nutné zabezpečit, aby každé spuštění programu mělo vlastní dočasný soubor.

Dočasné soubory jsou odlišným problémem od zamykání. Zde slouží každému uživateli jeden soubor po dobu jeho práce, narozdíl od zamykání, které se používá u veřejných souborů.

Dočasný soubor musí mít jméno charakteristické pro každého uživatele - tedy jméno, které ho jednoznačně identifikuje. Příkladem takového unikátního řetězce je proměnná $$, jež obsahuje ID procesu (PID). To je jedinečné pro každý proces běžící zároveň na stejném operačním systému. Dočasný soubor tak bude v názvu obsahovat PID. Z toho plyne, že vytváření dočasných a běžných souborů se nijak neliší, pouze u dočasných musíme zavést jednoznačná jména.

open(TEMP, ">/tmp/$$");

Přejmenování a přesouvání souborů

Příkaz rename přijímá jako první argument název existujícího souboru a druhým je nový název. Pokud zdrojový soubor neexistuje, vrací funkce false. rename se, stejně jako všechny funkce zmíněné dále, často používá v jednořádkových skriptech, o kterých bude v seriálu řeč později.

rename "zaloha", "20060402zaloha" or die "Soubor nebyl přejmenován. $!";

Mazání souborů

Funkce unlink maže všechny ze seznamu souborů (obyčejných nebo odkazů), které jí jsou předány. Pro mazání adresářů nelze unlink na většině systémech použít. Můžeme však použít funkci rmdir.

unlink "kopie1.dat", "kopie2.dat" or die "Soubor nebyl smazán. $!";

Práva a vlastník souboru

Funkce chmod přijímá mód a seznam souborů. Mód je číslo, vyjadřující práva pro vlastníka, skupinu a ostatní. Obvykle se udává v osmičkové soustavě (0755, 0711, 0644 apod.). Pokud neudáte nulu před osmičkové číslo, bude bráno jako desítkové a práva se nastaví úplně jinak!

chmod 0755, "logo.png", "tlacitko.png";

Podobná funkce, chown, mění vlastníka. Parametry jsou UID, GID a seznam souborů.

chown 1001, 100, "logo.png";

Oříznutí souboru

truncate zkrátí soubor na uvedenou velikost (počet znaků). Soubor lze uvést jménem nebo ovladačem.

truncate "logo.png", 100;

Počítadlo znaků

Napíšeme si program, který ze vstupu načte znak a jmého souboru a následně spočítá podíl (v procentech) výskytu zadaného znaku k celkovému počtu znaků v souboru. Přitom nebude počítat znak nového řádku. Dále, abychom vyzkoušeli i trochu jinou práci s ovladači, bude existovat volba, zda vypsat výsledek na výstup nebo do jiného souboru.

Nejprve tedy načteme název zdrojového souboru, hledaný znak a volbu. Dále podle volby nastavíme, kam bude směřovat ovladač CIL. Jsou 2 možnosti - buď standartní výstup nebo textový soubor. Poté prohledáme znak po znaku zdrojový soubor, přičemž budeme počítat počet výskytů hledaného znaku a také všechny znaky mimo znak nového řádku dohromady. Nakonec spočítáme hledaný podíl a vytiskneme pomocí ovladače CIL. Sice to není příklad, který dělá něco užitečného, ale můžeme si na něm demonstrovat některé konstrukce.

Nejdříve definujeme proměnné a načteme data. Přitom musíme otestovat, zda je hledaný znak opravdu jen 1 znak.

my $zdroj;         #jméno zdrojového souboru
my $volba;         #kam se budou tisknout výsledky - na výstup (1) nebo
                   #do souboru (2)

my $znaku = 0;     #celkový počet znaků v souboru
my $hledany;       #hledaný znak
my $hledanych = 0; #počet výskytů hledaného znaku v souboru

print "Zadejte zdrojový soubor: ";
chomp($zdroj = <STDIN>);

print "Zadejte hledaný znak: ";
chomp($hledany = <STDIN>);
if (length($hledany) != 1){
    die "Toto není regulérní znak.\n";
}

Dále musíme načíst uživatelovu volbu. Jsou 3 možnosti. Zadá-li uživatel 1, bude ovladač CIL směřovat na standartní výstup. Zadá-li 2, bude ten samý (což je výhodné, protože se pak už o výstup nemusíme starat) ovladač směřovat do souboru. Na ten se tedy musíme uživatele zeptat a následně ho otevřít. Poslední případ nastává, pokud není zadána správná volba.

print "Chcete vytisknout statistiky na výstup (1) nebo zapsat
do souboru (2)?
";
chomp($volba = <STDIN>);

if ($volba == 1){
    open(CIL, ">-") or die "Nelze zapisovat na standartní výstup. $!\n";
}elsif ($volba == 2){
    print "Zadejte cílový soubor: ";
    my $cil = <STDIN>;
    open(CIL, ">>$cil") or die "Nelze otevřít cílový soubor. $!\n";
}else{
    die "Toto není regulérní volba.\n";
}

Teď můžeme začít se samotným výpočtem. Musíme vymyslet, jak otestovat každý znak. Budeme tedy cyklem while načítat řádek po řádku, každý řádek rozdělíme funkcí split na znaky, každý znak porovnáme s hledaným znakem a inkrementujeme příslušná počítadla (jsou-li testovaný znak a hledaný znak shodné, inkrementujeme celkový počet znaků i výskyt hledaného znaku, v opačném případě jen celkový počet). Předtím ještě musíme ošetřit, zda není testovaným znakem znak nového řádku.

open(ZDROJ, $zdroj) or die "Nelze otevřít zdrojový soubor: $!\n";

while (<ZDROJ>){     my @znaky = split "";

    foreach (@znaky){
        next if $_ eq "\n";
        $hledanych++ if $_ eq $hledany;
        $znaku++;
    }
}

Počítání vyskytnuvších se hledaných znaků uvnitř cyklu lze samozřejmě řešit i jinými způsoby.

Máme celkový počet znaků i počet výskytů hledaného znaku, nic nám již nebrání spočítat podíl a tisknout ho pomocí CIL, který už směřuje na vybraný výstup.

my $procent = $znaku==0 ? 0 : $hledanych/$znaku*100;
print CIL "Relativní četnost znaku \"$hledany\"
v souboru
$zdroj je $procent%.\n";

Příště se podíváme na testování souborů.

Verze pro tisk

pridej.cz

 

DISKUZE

Když tempfile tak pořádně 12.5.2006 13:45 Hynek (Pichi) Vychodil




Příspívat do diskuze mohou pouze registrovaní uživatelé.
> Vyhledávání software
> Vyhledávání článků

13.9.2017 8:00 /František Kučera

Máš rád svobodný software a hardware nebo se o nich chceš něco dozvědět? Zajímá tě DIY, CNC, SDR nebo morseovka? Přijď na sraz spolku OpenAlt – tentokrát netradičně v pondělí: 18. září od 18:00 v Radegastovně Perón (Stroupežnického 20, Praha 5).


Přidat komentář

3.9.2017 20:45 /Redakce Linuxsoft.cz
PR: Dne 21. září 2017 proběhne v Praze konference "Mobilní řešení pro business". Hlavní tématy konference budou: nejnovější trendy v oblasti mobilních řešení pro firmy, efektivní využití mobilních zařízení, bezpečnostní rizika a řešení pro jejich omezení, správa mobilních zařízení ve firmách a další.
Přidat komentář

15.5.2017 23:50 /František Kučera
Máš rád svobodný software a hardware nebo se o nich chceš něco dozvědět? Zajímá tě DIY, CNC, SDR nebo morseovka? Přijď na sraz spolku OpenAlt, který se bude konat ve čtvrtek 18. května od 18:00 v Radegastovně Perón (Stroupežnického 20, Praha 5).
Přidat komentář

12.5.2017 16:42 /Honza Javorek
PyCon CZ, česká konference o programovacím jazyce Python, se po dvou úspěšných ročnících v Brně bude letos konat v Praze, a to 8. až 10. června. Na konferenci letos zavítá např. i Armin Ronacher, známý především jako autor frameworku Flask, šablon Jinja2/Twig, a dalších projektů. Těšit se můžete na přednášky o datové analytice, tvorbě webu, testování, tvorbě API, učení a mentorování programování, přednášky o rozvoji komunity, o použití Pythonu ve vědě nebo k ovládání nejrůznějších zařízení (MicroPython). Na vlastní prsty si můžete na workshopech vyzkoušet postavit Pythonem ovládaného robota, naučit se učit šestileté děti programovat, efektivně testovat nebo si v Pythonu pohrát s kartografickým materiálem. Kupujte lístky, dokud jsou.
Přidat komentář

2.5.2017 9:20 /Eva Rázgová
Putovní konference československé Drupal komunity "DrupalCamp Československo" se tentokrát koná 27. 5.2017 na VUT FIT v Brně. Můžete načerpat a vyměnit si zkušenosti z oblasti Drupalu 7 a 8, UX, SEO, managementu týmového vývoje, využití Dockeru pro Drupal a dalších. Vítáni jsou nováčci i experti. Akci pořádají Slovenská Drupal Asociácia a česká Asociace pro Drupal. Registrace na webu .
Přidat komentář

1.5.2017 20:31 /Pavel `Goldenfish' Kysilka
PR: 25.5.2017 proběhne v Praze konference na téma Firemní informační systémy. Hlavními tématy jsou: Informační systémy s vlastní inteligencí, efektivní práce s dokumenty, mobilní přístup k datům nebo využívání cloudu.
Přidat komentář

15.4.2017 15:20 /František Kučera
Máš rád svobodný software a hardware nebo se o nich chceš něco dozvědět? Zajímá tě IoT a radiokomunikace? Přijď na sraz spolku OpenAlt, který se bude konat ve středu 19. dubna od 18:30 v Šenkovně (Sokolská 60, Praha 2).
Přidat komentář

5.3.2017 19:12 /Redakce Linuxsoft.cz
PR: 23. března proběhne v Praze konferenci na téma Cloud computing v praxi. Hlavními tématy jsou: Nejžhavější trendy v oblasti cloudu a cloudových řešení, Moderní cloudové služby, Infrastruktura současných cloudů, Efektivní využití cloudu, Nástrahy cloudových řešení a jak se jim vyhnout.
Přidat komentář

   Více ...   Přidat zprávičku

> Poslední diskuze

18.9.2017 14:37 / Rojas
high security vault

15.9.2017 7:33 / Wilson
new zealand childcare jobs

31.8.2017 12:11 / Jaromir Obr
Re: ukůládání dat ze souboru

30.7.2017 11:12 / Jaromir Obr
Národní znaky

27.7.2017 12:24 / Jaromir Obr
Cteni/zapis

Více ...

ISSN 1801-3805 | Provozovatel: Pavel Kysilka, IČ: 72868490 (2003-2017) | mail at linuxsoft dot cz | Design: www.megadesign.cz | Textová verze