Descargar sitio completo con Wget

wget

Wget es una herramienta gnu para descargar ficheros o sitios completos desde internet para poder estudiarlos sin conexión cuando se quiera. Su potencia es indiscutible.
A la hora de bajar un sitio, hemos de tener en cuenta diversas variables: qué tipo de archivos queremos bajar, qué tipo de archivos queremos evitar, si deseamos poder ojearla offline totalmente -cuidando que los enlaces sean también convertidos y que ciertas extensiones también se conviertan-, el tamaño que nos ocupará, etc.
Suponiendo que el sitio que nos queremos bajar sea http://www.curso-ingles.com, una buena opción sería

wget -m -F -p -np -k -erobots=off --html-extension http://www.curso-ingles.com

donde las opciones son:

-F  (--force-html) tratar las entradas como HTML
-p  (--page-requisites) descargar todas las imágenes, etc. necesarias para desplegar la página HTML
-np  (--no-parent) no subir al directorio padre
-k  (--convert-links) hacer que los enlaces en archivos HTML descargados apunten a archivos locales
-erobots=off  significa que wget no debe prestar atención al archivo robots.txt que indica qué se puede y qué no se puede descargar
-- html-extension     convertir todos los archivos a extensión html

Ahora bien, hay muchos servidores que deniegan bajar sitios completos, verificando -para ello- la identificación de los navegadores. Wget puede evitar esto mediante algunos trucos -opciones-:

-U (--user-agent=AGENTE) identificarse como AGENTE en lugar de Wget/VERSION
--limit-rate=RATIO limita el ratio de descarga a RATIO.
--wait=SEGUNDOS establecer el límite de tiempo de conexión a SEGUNDOS.

Con estas opciones indicaríamos que el agente de descarga sería Mozilla (pues hay sitios que impiden la descarga si no identifican un navegador válido). Limitando la tasa de descarga evitaríamos alarmar al servidor remoto. Finalmente, estableciendo un tiempo de espera entre descarga y descarga evitaríamos pedir demasiadas páginas consecutivamente y alarmar a algún sistema de seguridad que limite la descarga o la corte.
Con ello podríamos despistar, no dando a entender que nos estamos bajando el sitio completo con wget. No obstante, estas últimas opciones no serían necesarias en muchos casos. La orden, entonces, quedaría algo más o menos así

wget -m -F -p -np -k -erobots=off -U mozilla --limit-rate=100K --wait=8 --html-extension http://www.curso-ingles.com

Para más información sobre wget, en una terminal basta teclear man wget o bien wget –help

linea

Pues bien, después de esto, yo sigo sin poder bajar un sitio completo de wordpress con wget (por ejemplo, ubumedia): no veo forma de bajar los objetos subidos (imágenes, pdfs, vídeos, etc)  al disco duro. Así pues, si alguien conoce la forma de poder hacerlo, completaría el post y, por supuesto, lo agradecería mucho.


Anuncios

2 pensamientos en “Descargar sitio completo con Wget

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s