[ projectbeschrijving ]
|
een overzicht van doelstellingen, beoogde effecten en resultaten en een beschrijving van de doelgroep. meer...>
|
[ publicaties ]
|
de publicaties en documentatie die specifiek in het kader van dit project aangemaakt zijn.
meer...>
|
[ links ]
|
links naar de partners in dit project
en een selectie van verwijzingen naar interessante aanverwante projecten
meer...>
|
|
Voor het archiveren van websites zijn er een aantal nuttige tools.
In dit overzicht geven we een beknopte beschrijving van verschillende methodes en tools met telkens verwijzingen naar de bijhorende documentatie.
Thema's:
|
Snapshot
|
Het maken van een snapshot kan middels een webcrawler (ook webharvester of offline browser genaamd). Zo'n programma maakt een statische kopie van een website en alle bijhorende documenten en grafische elementen.
Men heeft de keuze uit verschillende softwareprogramma's. De programma's variëren op het vlak van functionaliteiten, ondersteunde platform, licenties en expertiseniveau.
- Heritrix
Heritrix is een wijd verspreide open source webcrawler ontwikkeld door het initiatief The Internet Archive.
Heritrix slaat de vastgelegde webpagina's default als
ARC-bestand op.
Voor het raadplegen van de gearchiveerde webpagina's zijn tools nodig zoals ARCReader, Wayback of WERA.
Licentie:
|
vrij beschikbaar (GNU Lesser General Public License), open source
|
Platform:
|
Java, officieel getest op Linux (informeel gebruikt ook op Windows en Mac)
|
Expertise:
|
De installatie vereist administratiekennis van het Linux besturingssysteem.
Na de installatie is Heritrix toegankelijk via een gewone webbrowser.
|
- HTTrack
HTTrack is een open source offline browser. Dit programma is zeer eenvoudig te installeren en te gebruiken.
De opgeslagen webpagina's kunnen rechtstreeks vanuit HTTrack of middels een webbrowser worden geraadpleegd. Voor Windows Vista: Het is mogelijk dat HTTrack slechts een websitekopie kan maken indien GEEN firewall of on-access virusscanner is ingeschakeld.
Licentie:
|
vrij beschikbaar (GNU General Public License), open source
|
Platform:
|
Windows, Linux, Mac
|
Expertise:
|
geschikt voor de gemiddelde PC-gebruiker
|
- GNU Wget
Wget is een command line tool voor het opsporen van
bestanden gebruikende de internetprotocollen HTTP, HTTPS of FTP. Enkele functionaliteiten van Wget zijn bruikbaar voor het maken van snapshots.
Licentie:
|
vrij beschikbaar (GNU General Public License), open source
|
Platform:
|
meeste UNIX-varianten (Linux, Mac,...), Windows
|
Expertise:
|
geschikt voor de gemiddelde PC-gebruiker?
|
- Web Curator Tool (WCT)
Deze zeer uitgebreide tool integreert de webcrawler Heritrix. Naast het maken van snapshots ondersteunt WCT de planning van snapshots, het aanvragen van permissies en het beschrijven van snapshots middels metadata.
Het programma is ontwikkeld door de British Library en de National Library of New Zealand op initiatie van
het International Internet Preservation Consortium (IIPC).
Voor het raadplegen van de gearchiveerde webpagina's zijn tools nodig zoals ARCReader, Wayback of WERA.
Licentie:
|
vrij beschikbaar (Apache Public License), open source
|
Platform:
|
Sun, Linux
|
Expertise:
|
Voor de installatie is administratiekennis vereist (configuratie van Apache Tomcat webserver).
Na de installatie is de gebruikersinterface van WCT toegankelijk met een gewone webbrowser.
|
- Presurf
Deze commerciële tool voor het archiveren van websites is ontwikkeld door het Nederlandse bedrijf Capsis.
Presurf is geschikt voor de planning en uitvoering van snapshots en voor het raadplegen en beschikbaar stellen van gearchiveerde websites.
Licentie:
|
betalend
|
Platform:
|
Microsoft Windows 2003 server, Linux
|
Expertise:
|
Installatie en support door Capsis.
Na de installatie is de gebruikersinterface van Presurf toegankelijk met een gewone webbrowser.
|
Aanvullend vindt u op de website van het International Internet Preservation Consortium (IIPC) een overzicht van aanbevolen tools voor websitesarchivering.
LET OP: Een snapshot is niet altijd volledig. Mogelijk ontbrekende bestanden (zoals stylesheets of audio/videobestanden) moeten in zo’n geval handmatig in de archiefkopie worden geïntegreerd. Hiervoor moet men de bestanden downloaden en in de relevante map van de archiefkopie plaatsen. Vervolgens moeten de betrokken verwijzingen in de broncode worden aangepast. Enkele tools voor het downloaden van bestanden – in het bijzonder van streaming media – zijn te vinden onder "Download van streaming media".
|
naar begin van de pagina
|
Archiveren van een Flash website
|
Het archiveren van een Flash website is verbonden aan enkele aandachtspunten. Het maken van een snapshot is in geval van een Flash website niet altijd mogelijk of vraagt bijzondere attentie.
De passende oplossing is afhankelijk van het type Flash website:
|
HTML-pagina's die naar Flash-objecten verwijzen
|
Webcrawlers kunnen links ingebed in Flash ActionScript niet altijd interpreteren.
De webcrawler zet de links dan niet om naar relatieve pathaanduidingen.
In zo'n geval bevat een snapshot HTML-pagina's die verwijzen naar Flash-objecten (zie afbeelding).
De animaties van de Flash-objecten op zich functioneren. De links tussen de pagina's functioneren niet.
|
|
Om zo'n Flash website correct te archiveren moet men in bezit zijn van het originele Flash-bestand (.fla).
Volgende aanpassingen zijn nodig:
1. Pas alle links in de ActionScripts van het originele Flash-bestand (.fla) aan:
absolute pathaanduidingen moeten vervangen worden door relatieve pathaanduidingen.
(bijv. http://www.website.be/voorbeeld_flash/contact.html wordt contact.html)
2. Controleer de links.
3. Publiceer het fla-bestand opnieuw.
4. Vervang de swf-bestanden in de snapshot door de nieuwe swf-bestanden (bevattende de correcte links)
LET OP: Maak in verband met het aanpassen van het originele Flash-bestand de nodige afspraken met de websiteontwerper!
|
Website volledig in Flash aangemaakt
Is een website volledig in Flash aangemaakt, zal het maken van een snapshot geen voldoende resultaat opleveren.
In dit geval archiveert men de website best als swf-bestand.
Bevat de Flash website links die naar een server verwijzen (absolute pathaanduidngen) moeten deze door relatieve pathaanduidingen worden vervangen. Hiervoor moet men in bezit zijn van het originele Flash-bestand (.fla).
Volgende stappen zijn nodig:
1. Pas alle links in de ActionScripts van het originele Flash-bestand (.fla) aan:
absolute pathaanduidingen moeten vervangen worden door relatieve pathaanduidingen.
(bijv. http://www.website.be/voorbeeld_flash/contact.html wordt contact.html)
2. Controleer de links.
3. Publiceer het fla-bestand opnieuw.
4. Het nieuwe swf-bestand (bevattende de correcte links) wordt de archiefkopie.
Een aanvullende methode is het maken van een screencast. Deze methode is nuttig indien het maken van een snapshot technisch te moeilijk is of indien men geen toegang heeft tot het originele Flash-bestand.
|
Flash website met databank
Werkt een Flash website met een achterliggende databank, dan kan men de databankdata wel rechtstreeks vanuit de databank archiveren.
Voor een volledige archiefkopie (bevattende inhoud, structuur, context, basisfunctionaliteiten EN look & feel) van een website volstaat deze aanpak echter niet.
|
naar begin van de pagina
|
Screencast
|
Een screencast biedt de mogelijkheid om een surfsessie te archiveren. Terwijl een gebruiker een website bezoekt registreert een programma (screenrecorder) alle bezochte pagina's en interacties. De surfsessie wordt vervolgens als videobestand opgeslagen en bewaard.
Deze methode is interessant indien de archivering van een website moeilijk is uit te voeren (bijv. bij sommige Flash websites of DHTML-pagina's).
Voorbeelden van screenrecorders zijn:
- CamStudio
Licentie:
|
vrij beschikbaar (GNU General Public License), open source
|
Platform:
|
Windows XP, Windows Vista
|
- Snapz Pro X
Licentie:
|
betalend
|
Platform:
|
Mac OS X vanaf 10.3.9
|
|
naar begin van de pagina
|
Linkvalidatie
|
Functionerende links zijn in een archiefkopie (offline) even belangrijk als in een live-website (online). Om te garanderen dat alle links op een website functioneren maakt men gebruik van een linkchecker. In geval van een archiefkopie zijn alleen programma’s geschikt die de validatie van links op een locaal filesysteem (offlinewebsite) ondersteunen.
Enkele voorbeelden:
- Xenu's Link Sleuth
Tool voor het valideren van links online en offline. Geschikt voor websiteonderhoud en validatie van een archiefkopie.
Gebruik:
|
online, offline
|
Licentie:
|
vrij beschikbaar
|
Platform:
|
Windows
|
Expertise:
|
geschikt voor de gemiddelde PC-gebruiker
|
- Link Checker Pro
Uitgebreide tool voor het valideren van links online en offline. Geschikt voor websiteonderhoud en validatie van een archiefkopie.
Gebruik:
|
online, offline
|
Licentie:
|
betalend
|
Platform:
|
Windows
|
Expertise:
|
geschikt voor de gemiddelde PC-gebruiker
|
- LinkChecker
Open source tool voor het valideren van links online en offline. Geschikt voor websiteonderhoud en validatie van een archiefkopie.
Gebruik:
|
online, offline
|
Licentie:
|
vrij beschikbaar (GNU General Public License), open source
|
Platform:
|
Windows, Linux, Mac OS X
|
Expertise:
|
installatie voor de gevorderde PC-gebruiker
|
- Link Checker voor Mac
Tool voor het valideren van links online en offline. Geschikt voor websiteonderhoud en validatie van een archiefkopie.
Gebruik:
|
online, offline
|
Licentie:
|
betalend
|
Platform:
|
Mac OS
|
Expertise:
|
geschikt voor de gemiddelde PC-gebruiker
|
- W3C Link Checker
Webapplicatie voor het valideren van links online. Geschikt voor websiteonderhoud.
Gebruik:
|
online
|
Licentie:
|
vrij beschikbaar
|
Platform:
|
-
|
Expertise:
|
geschikt voor de gemiddelde PC-gebruiker
|
|
naar begin van de pagina
|
Download van streaming media (YouTube, Google Video, etc.)
|
Bij het maken van een snapshot zijn streaming media tegenwoordig nog problematisch. Een reden hiervoor is dat streaming media vaak niet via het HTTP-protocol werken,
maar andere protocollen zoals RTSP (Real Time Streaming Protocol) of MMS (Microsoft Media Server) gebruiken. Webcrawlers zijn nog niet noodzakelijk geprogrammeerd om andere protocollen als HTTP of FTP te accepteren en volgen links naar andere protocollen niet. De streaming media worden niet automatisch gedownload. Verder kunnen dynamische URL's hinderlijk zijn bij het vastleggen van streaming media. In zo'n geval stelt en script (meestal JavaScript) een URL samen en vraagt een streamingbestand aan zodra een gebruiker op een link naar het streamingbestand klikt. Webcrawlers kunnen zo'n script mogelijk niet uitvoeren. Bijgevolg ontbreekt het bestand in de snapshot.
[Michael Ashenfelder, "Web Harvesting and Streaming Media", in "IWAW'06 Proceeding of the 6th International Web Archiving Workshop", Alicante, 2006, 134-135]
Websites bedden vaak media van videoplatformen zoals YouTube of Google Video in. Deze bestanden kan een webcrawler evenzeer niet automatisch downloaden en in een archiefkopie inbedden.
Binnen het internationale onderzoek rond websitearchivering werkt men aan oplossingen om bestaande webcrawlers op het vlaak van streaming media te verbeteren. Tot dat de geschikte tools verkrijgbaar zijn, resteert de mogelijkheid om die in een snapshot ontbrekende streaming media achteraf te integreren.
Voor het downloaden van streaming media zijn er talrijke tools en mogelijkheden.
Enkele voorbeelden:
- Free Download Manager (FDM)
Open source download manager voor verschillende bestandsformaten. Het downloaden van videobestanden van videosites zoals YouTube, Google Video etc. is met FDM mogelijk. FDM kan de bestanden indien gewenst converteren naar AVI, WMV, MPEG1, MPEG2, MP4 en MP3.
Protocollen:
|
HTTP, HTTPS, FTP, BitTorrent
|
Licentie:
|
vrij beschikbaar (GNU General Public License), open source
|
Platform:
|
Windows 9x/ME/2000/2003/XP/Vista
|
Expertise:
|
geschikt voor de gemiddelde PC-gebruiker
|
- Download Helper
Add-on voor de webbrowser Mozilla Firefox voor het opslaan van videobestanden inclusieve video's van videosites zoals YouTube, Google Video etc. Download Helper heeft ook een functie voor het opslaan van alle afbeeldingen en video's waarnaar een webpagina linkt.
Protocollen:
|
HTTP, HTTPS, FTP
|
Licentie:
|
vrij beschikbaar
|
Platform:
|
Windows, Linux, MacOS X, Mozilla Firefox 1.5 of hoger
|
Expertise:
|
geschikt voor de gemiddelde PC-gebruiker
|
- Keepvid
Webapplicatie voor het opslaan van videobestanden van videosites zoals YouTube, Google Video etc.
Protocollen:
|
HTTP
|
Licentie:
|
-
|
Platform:
|
-
|
Expertise:
|
geschikt voor de gemiddelde PC-gebruiker
|
-
Internet Explorer
Een verdere mogelijkheid voor het opslaan van bestanden is via de Internet Explorer. Video's van videosites zoals YouTube, Google Video kunnen in de regel in de Temporary Internet Files (tijdelijke internetbestanden) worden teruggevonden.
Men speelt het volledige filmpje in de Internet Explorer af. Dan klikt men in de browser op Extra> Internetopties> Browsergeschiedenis Instellingen> Bestanden weergeven. Het filmpje is te vinden onder één van de meest recente datums. Het type is "Bestand". Men kopieert dit bestand naar de gewenste locatie, geeft een betekenisvolle bestandsnaam en voegt als extensie .flv (Flash video) toe.
- Net Transport
Download tool die het downloaden van streaming media ondersteunt.
Protocollen:
|
HTTP, HTTPS, FTP, MMS, RTSP, PNM, BitTorrent, eMule
|
Licentie:
|
betalend
|
Platform:
|
Windows
|
Expertise:
|
geschikt voor de gemiddelde PC-gebruiker
|
- RealPlayer (versie 11.xx)
RealPlayer heeft een functie voor het opslaan van audio-/videobestanden inclusieve video's van videosites zoals YouTube, Google Video etc. Google Video etc.
Eens geïnstalleerd kan het downloaden van een video rechtstreeks vanuit de gebruikte webbrowser worden opgestart.
Protocollen:
|
HTTP, HTTPS, FTP, RTSP
|
Licentie:
|
vrij beschikbaar
|
Platform:
|
Windows, Linux, MacOS X
|
Expertise:
|
geschikt voor de gemiddelde PC-gebruiker
|
- MPlayer
Deze command-line gebaseerde mediaspeler kan talrijke bestandsformaten afspelen en opslaan via veel verschillende protocollen. MPlayer integreert een veeltal van codecs en bibliotheken.
Protocollen:
|
HTTP, HTTPS, FTP, RTP/RTSP, MMS/MMST, MPST, SDP
|
Licentie:
|
vrij beschikbaar (GNU General Public License), open source
|
Platform:
|
multiplatform
|
Expertise:
|
De MPlayer documentatie beveelt ter installatie het compileren van de bron aan. Dit vereist gevorderde PC-kennis. De MPlayer website somt een veeltal links op naar inofficiële installatiepakketten voor wie de bron niet zelf kan compileren.
|
|
naar begin van de pagina
|
.: een project :. |
|
|