Pro vydavatele

O projektu

Obsah WebArchivu

Napsali o nás

Biblio (4/2009)
Finanční noviny (6/2009)
30minut.cz (2/2009)
Živě.cz (12/2008)
ČRo Leonardo (11/2008)
Krimi servis Hlaváček (8/2008)
Lupa (7/2008)
Pozitivní noviny (1/2008)
Čertoděj (6/2007)
Ikaros (1/2006)
Lupa (12/2005)

Fakta

WebArchiv obsahuje 15,5 TB dat. První dokument byl archivován 3.9.2001.

Stáhněte si naše logo!

Umístětě si na své stránky naši ikonku. Klikněte na obrázek a vyberte si:

ikona3.jpg

Charakteristika Webarchivu

WebArchiv vznikl v rámci programového projektu výzkumu a vývoje „Registrace, ochrana a zpřístupnění domácích elektronických zdrojů v síti Internet“ (Ministerstvo kultury ČR). Projekt je řešen od roku 2000 v Národní knihovně České republiky, financován téměř výhradně z grantové podpory. Spoluřešitelem odpovědným za informační technologie je Moravská zemská knihovna v Brně, externím spolupracovníkem je Ústav výpočetní techniky Masarykovy univerzity v Brně. V roce 2006 obdržel projekt WebArchiv cenu INFORUM.

Úloha projektu WebArchiv

V prostředí internetu průběžně narůstá obrovské množství publikovaných dokumentů, které se postupně mění nebo zcela mizí. Pokud nebudou průběžně archivovány, tato významná součást národního kulturního dědictví bude nenávratně ztracena. Odpovědnost za archivaci webových zdrojů a jejich registraci v národní bibliografii nesou národní knihovny, příp. další depozitní knihovny.

Úlohou projektu WebArchiv je řešení problematiky archivace národního webu, tj. bohemikálních dokumentů zveřejněných v prostředí sítě Internet – shromažďování webových zdrojů, jejich archivace a ochrana a zajištění dlouhodobého přístupu k těmto archivovaným dokumentům. Provádí se jednak kompletní archivace, tj. automatický sběr „celého“ českého webu. Souběžně probíhá výběrová archivace (na základě URL nejzajímavějších webových zdrojů vybraných na základě selekčních kritérií) a tématické archivace (zaměřené na určité aktuální téma, např. volby, povodně apod.). V současné době je stav řešení na úrovni výzkumu a testování. K provádění rutinních činností je zapotřebí jednak podstatné navýšení financování projektu, jednak řešení stávající legislativy zejména autorsko-právní tak, aby umožňovala zpřístupňování archivovaných zdrojů.

Získávání

Získávání dokumentů z webu je po technické stránce převážně automatický proces, kdy se na základě zadaných parametrů ve speciálním SW nástroji stahují data, indexují a ukládají do digitálního archivu. V současné době se používají a přizpůsobují volně dostupné SW nástroje s otevřeným zdrojovým kódem (Heritrix) na serveru vyčleněném pro archivaci. Nezbytnou součástí akvizice je stanovení kritérií výběru zdrojů a výběrová archivace jako intelektuální činnost s cílem registrace nejvýznamnější části publikací na Internetu v České národní bibliografii (ČNB). Praktické řešení získávání dokumentů je podmíněno řešením legislativy, zejména zákonné úpravy povinného výtisku.

Archivace a ochrana

Stažená data (webové zdroje a metadata) jsou ukládána v archivu v archivačních formátech, které by měly zajistit v rámci vývoje informačních technologií migraci dat a tím jejich trvalé zpřístupnění. Vedle serveru slouží pro archivaci diskové pole.

Zpřístupnění

Pro zpřístupnění je v současné době využíván druhý server, který je stěží dostačující pro současné experimentální zpřístupnění malého souboru dat. Pro fulltextovou indexaci je využíván volně dostupný systém Nutch a nad ním postavená rozšíření Nutchwax a WERA.

Standardy

Ve všech oblastech jsou důsledně aplikovány mezinárodní standardy – pro popis online zdrojů formáty MARC21, Dublin Core, XML; pro identifikaci zdrojů jednoznačné mezinárodní identifikátory (ISSN, URN); pro archivaci formát ARC.

Popisy dokumentů vybraných pro Českou národní bibliografii a konzervační fond jsou experimentálně ukládány v systému ALEPH, který disponuje podporou protokolu Z39.50 na úrovni klient i server a podporou OAI-PMH pro režim repository i harvesting s profilem pro MARC 21 a kvalifikovaný DC.

Legislativa

Současná legislativa upravující povinnost vydavatelů odevzdávat určeným knihovnám povinný výtisk je pro publikované online zdroje nevyhovující. Současná verze Autorského zákona neumožňuje zpřístupňování dat z digitálního archivu (konzervační fond). Pro zpřístupnění je zásadním problémem současná verze Autorského zákona.

Nahoru
kontakt: webarchiv@nkp.cz
Poslední aktualizace: 17.10.2009