Nu ska internet sparas ned i ett nytt ISO-format vid namn WARC. Den nya standarden ska garantera att information på webbsidor som ändras eller plockas bort från webben inte går förlorad.
WARC är en utvidgning av det existerande ARC-formatet och gör det möjligt att länka samman många dataobjekt till en lång fil. Enligt Jörgen Wyke, projektledare på Swedish Standards Institute, SIS, underlättar den nya standarden arbetet med att arkivera internet.
– Det blir enklare att hantera, strukturera och lagra flera miljarder resurser som har samlats in från internet och andra platser, säger Jörgen Wyke.
I webbarkivet vid Kungliga Biblioteket, KB, i Stockholm finns redan nu cirka 1,7 miljarder objekt från cirka 3,2 miljoner webbservrar. Biblioteket har sparat ned webbsidor sedan 1997.
Allan Arvidson är IT-specialist vid KB och en av dem som varit med och utvecklat den nya standarden för webbarkivering.
– Eftersom det inte fanns någon standard att utgå ifrån utvecklade vi ett eget arbetssätt som också delvis ligger till grund för den nya ISO-standarden, säger Allan Arvidson.
Du som är intresserad av internet från förr kan besöka Kungliga Biblioteket för en digital resa bakåt i tiden.
– I dag får vi inte publicera vårt material externt, men om man besöker biblioteket är det fullt möjligt att surfa på webben så som den har sett ut från 1997 och framåt, säger Allan Arvidson.
WARC-fakta:
Standarden heter ISO 28500:2009, Information and documentation – WARC file format WARC-formatet är en utvidgning av ARC-filformatet, som använts sedan 1996. Det förstnämnda ger ger fler möjligheter, framför allt för registrering av huvuden vid HTTP-anrop och godtyckliga metadata, tilldelning av en identifierare för varje fil, hantering av dubbletter och flyttade poster samt uppdelning av poster. WARC-filer är avsedda för att lagra alla typer av digitalt innehåll, oavsett om det har hämtats med HTTP eller med något annat protokoll.
Källa: SIS
Av: av Anders Öhman, Foto: KB/Ulf Lundin