Pro vydavatele

O projektu

Obsah WebArchivu

Napsali o nás

Biblio (4/2009)
Finanční noviny (6/2009)
30minut.cz (2/2009)
Živě.cz (12/2008)
ČRo Leonardo (11/2008)
Krimi servis Hlaváček (8/2008)
Lupa (7/2008)
Pozitivní noviny (1/2008)
Čertoděj (6/2007)
Ikaros (1/2006)
Lupa (12/2005)

Fakta

WebArchiv obsahuje 15,5 TB dat. První dokument byl archivován 3.9.2001.

Stáhněte si naše logo!

Umístětě si na své stránky naši ikonku. Klikněte na obrázek a vyberte si:

ikona3.jpg

Kritéria výběru webových zdrojů

Úvod

K základním úkolům Národní knihovny ČR náleží ochrana a uchování dokumentů vydaných v České republice. K plnění tohoto úkolu zpracovává, ochraňuje, zpřístupňuje a trvale uchovává konzervační fond a registruje jej v České národní bibliografii. Vedle tradičních dokumentů jsou v současné době vydávány elektronické publikace přístupné online, zjednodušeně řečeno webové zdroje. Problematikou uchování a zpřístupnění těchto zdrojů „národní produkce“ se od roku 2000 zabývá projekt WebArchiv, tedy digitální archiv českého webu. Vzhledem k tomu, že množství dokumentů přístupných online je obrovské a tyto publikace zveřejňované na Internetu jsou velmi rozdílné kvality, je třeba pro účely tvorby archivu webových zdrojů (dále jen „archiv“) aplikovat určitá kritéria výběru tak, aby byly uchovávány dokumenty, jež mají dokumentární hodnotu pro současné i budoucí generace a tvoří národní kulturní bohatství. Technicko-knihovnická kritéria, podle nichž jsou vybírány webové zdroje určené pro uložení v archivu a pro zpracování do České národní bibliografie, byla stanovena na základě zkušeností s dosavadním řešením projektu WebArchiv (s přihlédnutím k postupu, který se v této oblasti uplatňuje v obdobných zahraničních projektech – zejména PANDORA v National Library of Australia) a na základě výsledků evropského projektu Web Cultural Heritage (program CULTURE 2000), řešeného v letech 2005 – 2006 ve spolupráci s Estonskou národní knihovnou, Univerzitní knihovnou v Bratislavě a slovinskou Národní a univerzitní knihovnou. V praxi se ukazuje jako vhodné rozdělit kritéria do dvou skupin podle způsobu získání webových zdrojů do archivu, resp. podle legislativních podmínek poskytování přístupu k archivovaným datům: 1) plošná archivace webových zdrojů a 2) výběrový přístup – sběr webových zdrojů, na které udělil vydavatel v rámci smlouvy souhlas s online zpřístupněním archivovaných kopií jeho dokumentů zveřejněných na webu.

A) Plošná archivace (harvesting)

Cílem tohoto přístupu je archivace co největšího počtu domácích webových zdrojů na základě parametrů definovaných v aplikovaném SW, tedy vyžadující minimum další intelektuální práce.

  • Doména – jediným všeobecným doporučením pro plošnou archivaci domácích webových zdrojů je národní doména (národní webový prostor .cz). Zdroje umístěné mimo národní doménu mohou být také archivovány, avšak musí bezpodmínečně splňovat další výběrová kritéria (viz b) Výběrový přístup).

Ostatní aspekty (Formát, Přístup, Protokol) jsou volitelné, záleží na technickém vybavení a dalších možnostech.

  • Formát – automaticky jsou stahovány takové formáty, jaké dokáže aplikovaný harvester stáhnout. Na základě dostupné paměťové kapacity a dalších faktorů lze nastavit limity pro různé typy souborů, kategorie typů souborů, velikosti souborů apod. Takto mohou být identifikovány a vyloučeny nelegální zdroje podléhající autorskému právu, a to na základě velikosti a typu souboru (CD/DVD obrázky, velké video soubory apod.).
  • Přístup – záleží na stavu platné legislativy (autorské právo, povinný výtisk) nebo na vyjednávání s vydavateli (jejich vstřícnost poskytnout přístup ke svým zdrojům).
  • Protokol – závisí na preferencích pracovníků WebArchivu a na možnostech aplikovaného harvesteru. V současné době jsou stahovány pouze zdroje v rámci protokolů http a ftp. To znamená, že jsou z archivace automaticky vyřazeny streamované protokoly (vysílání zvuku a videa) nebo obsah sítí peer-to-peer.
  • Velikost souboru – většinou nejsou akceptovány/sta­hovány soubory o velikosti větší než 100 MB (skutečný limit velikosti souboru se může lišit dle jeho typu).
  • Počet souborů – pro většinu zdrojů je doporučeno stahovat maximálně 5000 souborů z jedné webové stránky/serveru.

B) Výběrový přístup

Pravidla výběru dokumentů registrovaných v národní bibliografii zahrnují:

  • Území – všechny dokumenty (zdroje) publikované na území České republiky
  • Jazyk – všechny zdroje v češtině (bez ohledu na místo vydání)
  • Autorství – všechny zdroje českých autorů (bez ohledu na místo vydání)
  • Předmět/obsah – všechny zdroje, jejichž obsah se týká České republiky nebo českého národa (bez ohledu na místo vydání)

a) Kritéria výběru

  • 1. Doména – národní doména a další určené domény (.com, .org atd.) pokud splňují alespoň jedno z následujících kritérií
  • 2. Národní aspekty- národnost autora (autor obsahu zdroje pochází z České republiky), sídlo vydavatele (vydavatel má své sídlo na území České republiky), národní jazyk (zdroj musí být v českém jazyce), národ/země jako předmět (zdroje musí obsahovat významné informace o České republice nebo o českém národu)
  • 3. Obsah – zdroje významné kulturní a vědecké hodnoty, které mají originální obsah a dlouhodobou badatelskou hodnotu
  • 4. Přístup – volně přístupné/zve­řejněné zdroje; u zdrojů chráněných heslem je nutný souhlas vydavatele nebo majitele autorských práv (záleží na platné legislativě)
  • 5. Formát – pouze zdroje v běžných formátech (formáty, které lze zobrazit pomocí běžných webových prohlížečů)
  • 6. Původní forma – preferovány jsou zdroje původně publikované na webu (tj. webový zdroj je originál); nejsou vybírány zdroje, které jsou kopií dokumentů vydaných tradičními způsoby nebo jsou jejich suplementy (digitalizované materiály, elektronické verze publikací na fyzických nosičích atd.)
  • 7. Typ zdroje

Preferovány jsou následující typy zdrojů: online časopisy, monografie, konferenční materiály, výzkumné a jiné zprávy, akademické práce, vládní dokumenty, další typy zdrojů (které mají mimořádnou kulturní nebo vědeckou hodnotu, např. weblogy nebo webové stránky zaměřené na jedinečné téma)

Zdroje, které nejsou archivovány: počítačové hry, intranetové zdroje, osobní weblogy, portály (bez vlastního intelektuálního obsahu), soubory dat / databáze, rozhlasové a televizní vysílání atd.

b) Doporučení

V úvahu je třeba brát také následující aspekty:

  • Přenosový protokol – vybírají se zdroje v rámci běžně používaných protokolů (http, ftp atd.)
  • Otázka autorských práv – před zařazením zdroje do archivu by měl být znám držitel autorských práv
  • Integrita zdroje – sklízeny a archivovány budou dokumenty tvořící celek, ne pouze jednotlivé části, a to i v případě, že jinak splňují výběrová kritéria
  • Frekvence sklízení – zdroje zvolené na základě výběrových kritérií sklízet pokud možno alespoň 4× ročně; významné zdroje (seriály, zprávy atd.), u nichž dochází často k podstatným změnám, je optimální sklízet denně

C) Tematické sbírky

Tematické sbírky jsou monotematické soubory webových dokumentů. V rámci tematických sklizní sledujeme především takové děje, které doprovází celospolečenská debata a je u nich tedy předpoklad, že zaujmou významnější místo z hlediska dějin České republiky. Cíleně vybíráme události, které mají širší ohlas v prostředí internetu. Monitorujeme očekávané akce (např. volby), ale i nenadálé situace (např. povodně).

  • obsah – sledujeme materiály k vybranému tématu
  • formát – pouze zdroje v běžných formátech
  • přístup – volně přístupné/zve­řejněné zdroje

















Nahoru
kontakt: webarchiv@nkp.cz
Poslední aktualizace: 17.10.2009