MegaLab.it
Stampa Articolo
Aperiodico gratuito di informatica
 
Magnifier, ingrandimento, lente, lente d'ingrandimento

Google Dorking e web crawler: affinare le ricerche e scaricare interi siti in locale

a cura di Palpas
25/10/2010 - articolo
Internet - In questo articolo analizzeremo alcune tecniche con le quali possiamo scandagliare a fondo il web... e visualizzare alcuni siti anche quando la connessione ad Internet non è disponibile.

Quando ci affidiamo ad Internet per la ricerca di un'informazione, la prassi è quella di dirigerci presso il nostro motore di ricerca di fiducia e iniziare a scrivere nell'apposito campo le parole che pensiamo siano congrue con l'informazione voluta.

In risposta, il motore di ricerca ci elencherà, secondo un ordine ben preciso, tutte le pagine web indicizzate che contengono le chiavi di ricerca immesse.

Normalmente siamo abituati immettere come chiave di ricerca una o più semplici parole. Tuttavia il motore di ricerca Google permette di inserire delle particolari chiavi dette operatori e metacaratteri con le quali possiamo estendere la ricerca oltre il semplice testo, scandagliando file, directory e raffinare i risultati.

Google Dorking

Che si chiami Google Hacking, Google Dorking o semplicemente Dorking non ha importanza in quanto ci si riferisce alla medesima tecnica, ossia quella di utilizzare gli operatori messi a disposizione da Google per effettuare una ricerca più approfondita.

C'è una lista di metacaratteri e operatori che ora vi elencheremo con spiegazione ed esempi. Per utilizzarli basta scriverli normalmente nel campo di ricerca uniti alla nostra chiave di ricerca.

Cominciamo con un esempio di una normale chiave di ricerca:

Cercagoogle1.jpg

Lanciando questa ricerca Google ci elencherà quindi tutte le pagine web che contengono la parola settembre.

Proviamo ora ad inserire un operatore...

Cercagoogle2.jpg

Questa ricerca ci elencherà tutte le pagine web all'interno del sito www.vacanze.it che contengono la parola settembre.

Abbiamo quindi usato l'operatore site, che, come abbiamo intuito, ci permette di restringere la ricerca su di un sito.

Descrizione degli operatori principali di Google

Di seguito l'elenco degli operatori messi a disposizione da Google:

Metacaratteri di Google

Oltre ai precedenti operatori, ce ne sono diversi altri che possono essere affiancati ai primi:

Come utilizzarli

Questi operatori possono essere usati così come li avete visti oppure in combinazione tra di loro, in modo da affinare ulteriormente la ricerca; ecco alcuni esempi:

È inoltre possibile sfruttare questi dork per effettuare delle ricerche non convenzionali, come l'elencazione di particolari tipi di piattaforme di hosting, dei file di configurazione che qualche webmaster ha sbadatamente lasciato liberi nel proprio server o la pagina di qualche webcam pubblica...

Insomma abbinando i dork alla giusta chiave di ricerca possiamo ottenere con semplicità informazioni che altrimenti risulterebbero quasi irraggiungibili.

Se volete approfondire l'utilizzo dei Google Dork per effettuare delle ricerche più underground vi rimando a questo sito, dove potete trovare il Google Hacking Database, con descrizione ed esempi.

Per chi possiede Mozilla Firefox segnalo la presenza di un Add-on che permette di usufruire dei dork in maniera semplice e veloce.

Chiudendo la parte relativa al Google Dorking, voltiamo pagina e vediamo un'altra tecnica attuabile nel web...

Quello che abbiamo visto fino ad ora è un metodo con il quale possiamo rendere selettive al massimo le nostre ricerche. Adesso invece descriviamo una tecnica che differisce molto dalla precedente, in quanto andremo ad indicizzare in maniera automatica interi siti web e filtrare il risultato a seconda di ciò che ci interessa.

Crawler: cosa sono

I crawler, chiamati anche spider o webbot, sono dei software la cui fondamentale funzione è quella di seguire tutti gli URL di un indirizzo dato, indicizzando quindi tutti i contenuti trovati (pagine web, file, documenti ecc..).

Tutti gli elementi trovati vengono ordinati opportunamente in maniera tale da ricostruire la struttura di un sito web. I crawler infatti vengono anche usati per copiare un intero sito all'interno del proprio PC al fine di poterlo consultare offline.

Come crawler utilizzeremo WebReaper, in allegato all'articolo.

Panoramica di WebReaper

Dopo il consueto procedimento di installazione, avviamo pure il nostro crawler:

Webreaper.jpg

Per iniziare l'operazione di crawling basta cliccare nel pulsante raffigurante un triangolo verde. Prima però è quasi sempre opportuno definire i filtri, così da dare un orientata al crawler, altrimenti finirebbe per scaricarci l'intero dominio...

Il crawler, dopo aver terminato l'operazione, crea automaticamente una cartella nel desktop con all'intero il sito web ricostruito (in base anche ai filtri impostati)

I filtri di Ricerca

Possono essere definiti diversi filtri al fine di personalizzare la nostra ricerca, vediamo come in questa immagine:

Filtri.jpg

Vediamo ora uno ad uno i filtri che possiamo applicare...

Avviata l'operazione, verrà automaticamente creata nel desktop una cartella dove sarà scaricato il sito web.

Un'applicazione del crawling...

Come già ribadito precedentemente, un crawler viene usato dall'utente per scaricare un sito web al fine di poterlo aprire anche in assenza della connettività. È però doveroso affermare che questi spider sono alla base dei motori di ricerca, ed è infatti grazie a loro se possiamo paragonare il web ad un'immensa libreria organizzata e indicizzata.

Ma vediamo ora come utilizzare il crawling per effettuare la tecnica del data-scraping.

Ci viene in aiuto un programma che in questo caso permette di estrarre gli indirizzi email che compaiono in una o più pagine web.

Il software si chiama DataExtractor e visto che le finalità dei tool di data-scraping sono prettamente di marketing, il programma è disponibile gratuitamente solo in versione demo: pertanto potremmo estrarre un massimo di 100 indirizzi email per ogni sessione: più che sufficiente direi, vista l'assenza di limiti di tempo nel suo utilizzo.

Scaricate il programma DataExtractor e procedete alla solita installazione, quindi apriamolo:

Dataextractor.JPG

Raccomando di abilitare l'opzione Follow all webpage link in the same domain che ci permette a tutti gli effetti di sfruttare la tecnica di crawling (ammenochè non si voglia scansionare solo una pagina).

Clicchiamo quindi su Add URL se vogliamo specificare un indirizzo di partenza.

Passando alla scheda 2 (What to Extract) lasciamo Extract emails from webpages.

Quindi spostiamoci su l'ultima scheda e clicchiamo su Start Scanning, qui verrano mostrate tutte le pagine web scansionate e le email recuperate.

Dopo aver visto una delle diverse applicazioni di un crawler, voltiamo ancora pagina e continuiamo ad utilizzare questa metodologia.... ma da un altro fronte...

Wget e il recupero ricorsivo

Wget è un famoso tool a riga di comando per lo scaricamento dei file dal web. Una della funzionalità di questo programma è la capacità di comportarsi come un crawler seguendo i collegamenti di una pagina web e, anche in questo caso, aggiustare la ricerca mediante appositi filtri.

Lanciamo dunque il nostro terminale in Linux e vediamo di capire questo comando: wget -r -l 0 -nv www.sport.it.

Wget1.JPG

Lanciando questo comando Wget inizierà il download di tutti gli elementi presenti nel sito specificato, verranno a mano a mano mostrati nell'output e l'intero sito verrà ricostruito in locale (nella home directory). Quindi con questo semplice comando abbiamo fatto ciò che prima avevamo compiuto con WebReaper.

Un paio di considerazioni:

Filtrare tipi di file

Ovviamente è possibile impostare Wget per scaricare solo determinati tipi di file, basta aggiungere l'opzione -A seguita dall'estensione del file.

Ad esempio wget -A jpg -r -l 0 -nv www.sport.it ricostruirà in locale l'albero delle directory del sito specificato, ma scaricherà solamente i file jpg.

Anche in questo caso, nell'output del comando verranno visualizzati tutti gli URL scansionati, ma saranno effettivamente scaricati solamente quelli specificati nell'eventuale filtro impostato.

Raggruppamento dei file scaricati

A volte può tornare utile posizionare tutti i file scaricati in un unica cartella, senza che vengano ordinati nelle rispettive sottocartelle magari sparse nelle varie radici. Questo è attuabile aggiungendo l'opzione -nd

Quindi lanciando il comando wget -nd -r -l 0 -nv www.sport.it verranno scaricati gli elementi del sito www.sport.it e messi tutti nella cartella di destinazione (che possiamo anche specificare con -P).

Interfaccia grafica per Wget

Concludiamo segnalando anche l'esistenza di una comoda interfaccia grafica per questo programma, ma ovviamente non dispone di tutta la flessibilità della riga di comando, il suo nome è gwget ed è scaricabile nei repository.

Decisamente più interessante è invece la versione per Windows, che unisce l'immediatezza dell'interfaccia grafica con la flessibilità della sua versione a riga di comando, ma che non sarà oggetto di questa trattazione.

MegaLab.it rispetta la tua privacy. Per esercitare i tuoi diritti scrivi a: privacy@megalab.it .

Copyright 2008 MegaLab.it - Tutti i diritti sono riservati