Punto informatico Network
Canali
Magnifier, ingrandimento, lente, lente d'ingrandimento

Google Dorking e web crawler: affinare le ricerche e scaricare interi siti in locale

25/10/2010
- A cura di
Internet - In questo articolo analizzeremo alcune tecniche con le quali possiamo scandagliare a fondo il web... e visualizzare alcuni siti anche quando la connessione ad Internet non è disponibile.

Download

Tag

Passa qui con il mouse e visualizza le istruzioni per utilizzare i tag!

google (1) , web (1) , download (1) , google hacking (1) , dork (1) , crawler (1) , wget (1) .

Valutazione

  •  
Voto complessivo 3 calcolato su 4 voti

Wget e il recupero ricorsivo

Wget è un famoso tool a riga di comando per lo scaricamento dei file dal web. Una della funzionalità di questo programma è la capacità di comportarsi come un crawler seguendo i collegamenti di una pagina web e, anche in questo caso, aggiustare la ricerca mediante appositi filtri.

Lanciamo dunque il nostro terminale in Linux e vediamo di capire questo comando: wget -r -l 0 -nv www.sport.it.

Wget1.JPG

Lanciando questo comando Wget inizierà il download di tutti gli elementi presenti nel sito specificato, verranno a mano a mano mostrati nell'output e l'intero sito verrà ricostruito in locale (nella home directory). Quindi con questo semplice comando abbiamo fatto ciò che prima avevamo compiuto con WebReaper.

Un paio di considerazioni:

  • Se l'intenzione è proprio quella di scaricare l'intero sito, in caso di problemi è possibile aggiungere l'opzione -k che converte i link nelle pagine per la visione in locale.
  • Nel caso invece una pagina faccia riferimento a dei contenuti fuori dal dominio, anche mediante il recupero ricorsivo quest'ultimi non verranno scaricati, pertanto è necessario aggiungere l'opzione -p seguita dalla pagina web. Questo comando in pratica si occupa di scaricare tutti i contenuti necessari affinché la pagina web possa essere visualizzata nella sua interezza. Risulta quindi utile qualora in una pagina vi sia un contenuto multimediale hostato in un altro server (che non verrebbe quindi recuperato).

Filtrare tipi di file

Ovviamente è possibile impostare Wget per scaricare solo determinati tipi di file, basta aggiungere l'opzione -A seguita dall'estensione del file.

Ad esempio wget -A jpg -r -l 0 -nv www.sport.it ricostruirà in locale l'albero delle directory del sito specificato, ma scaricherà solamente i file jpg.

Anche in questo caso, nell'output del comando verranno visualizzati tutti gli URL scansionati, ma saranno effettivamente scaricati solamente quelli specificati nell'eventuale filtro impostato.

Raggruppamento dei file scaricati

A volte può tornare utile posizionare tutti i file scaricati in un unica cartella, senza che vengano ordinati nelle rispettive sottocartelle magari sparse nelle varie radici. Questo è attuabile aggiungendo l'opzione -nd

Quindi lanciando il comando wget -nd -r -l 0 -nv www.sport.it verranno scaricati gli elementi del sito www.sport.it e messi tutti nella cartella di destinazione (che possiamo anche specificare con -P).

Interfaccia grafica per Wget

Concludiamo segnalando anche l'esistenza di una comoda interfaccia grafica per questo programma, ma ovviamente non dispone di tutta la flessibilità della riga di comando, il suo nome è gwget ed è scaricabile nei repository.

Decisamente più interessante è invece la versione per Windows, che unisce l'immediatezza dell'interfaccia grafica con la flessibilità della sua versione a riga di comando, ma che non sarà oggetto di questa trattazione.

Iscriviti gratuitamente alla newsletter, e ti segnaleremo settimanalmente tutti i nuovi contenuti pubblicati su MegaLab.it!

 

Segnala ad un amico

Tuo nome Tuo indirizzo e-mail (opzionale)
Invia a:
    Aggiungi indirizzo email
    Testo

    © Copyright 2025 BlazeMedia srl - P. IVA 14742231005

    • Gen. pagina: 0.42 sec.
    •  | Utenti conn.: 101
    •  | Revisione 2.0.1
    •  | Numero query: 43
    •  | Tempo totale query: 0.14