venerdì 12 settembre 2008

scaricare un intero sito con WGET

Certamente vi sarà capitato di scaricare un intero sito dalla rete.

Il comando che può essere sicuramente utile è wget.

Per esempio utilizzando il seguente comando da shell:

$ wget \
--recursive \
--no-clobber \
--page-requisites \
--html-extension \
--convert-links \
--restrict-file-names=windows \
--domains sitoweb.it \
--no-parent \
www.sitoweb.it/manuali/html/

permette di scaricare tutto quello contenuto da www.sitoweb.it/manuali/html/.
Le opzioni utilizzate permettono di:

  • recursive, permette di scaricare il contenuto del sito
  • domains sitoweb.it, ci si garantisce di non seguire i vari links fuori dal sito
  • no-parent, anche in questo caso ci si garantisce di non uscire dal percorso manuali/html/
  • page-requisites, in questo caso è possibile imporre delle restrizioni sulla pagina, cioè è possibile estrarre tutte le informazioni che compongono la pagina
  • html-extension, vengono catturati tutte i file con estensioni .html
  • --convert-links, con questa opzioni ci si garantisce che i file, con le relative connessioni, sono in grado di essere visti localmente, cioè in modalità off-line.
  • restrict-file-names=windows. Questa opzione ci si garantisce la compatibilità dei nimi dei file con l'ambiente windows
  • no-clobber. Per finire, questa opzione non permette la sovrascrittura dei file già esistenti. E' una opzione utile quando i downloading sono interrotti.

Nessun commento: