Google, gigante da 20 petabyte di dati al giorno

a cura di The King of GnG

15/01/2008 - news

Archivio - Un nuovo studio appena pubblicato permette di dare uno sguardo ravvicinato alla componentistica hardware e al software impiegato Grande G per soddisfare le ingenti richieste di informazioni da parte dei netizen. I numeri risultanti, come prevedibile, sono da capogiro.

Jeffrey Dean e Sanjay Ghemawat, scienziati della ricerca sul web e "Google Fellow" di vecchia data, hanno realizzato uno studio su alcuni dei fondamentali meccanismi computazionali alla base delle capacità di calcolo del colosso di Mountain View. Grazie alle loro puntuali rivelazioni da "insider", il lavoro permette di avere un'idea oggettiva di quanto, in sostanza, l'appellativo di "gigante dei motori di ricerca" usato spesso per descrivere Google non sia affatto fuori luogo, anzi.

La quantità di dati processata dai network di computer gestiti da Google è enorme, difficile anche solo da immaginare, e arriva alla paurosa cifra di oltre 20 Petabyte al giorno. 20 petabyte, ovvero 20.000 Terabyte, ovvero 20 milioni di Gigabyte. Il tutto in sole 24 ore.

Il colossale lavoro di data processing viene gestito dal modello computazionale MapReduce, "modello di programmazione e una implementazione associata per processare grandi set di dati". Usando il modello di MapReduce, il lavoro delle componenti software dell'infrastruttura di Google viene automaticamente diviso e "parallelizzato" su un cluster massivo di centinaia di macchine, sfruttando a dovere l'enorme potenza resa possibile dal computing distribuito per cercare le informazioni richieste dai netizen.

Ogni giorno vengono eseguiti una media di 100.000 lavori in MapReduce, ognuno dei quali veniva suddiviso in media, nel settembre del 2007, su circa 400 diverse macchine. Ognuno dei sistemi del cluster dedicato alle indicizzazione delle ricerche è composto da due processori server Intel Xeon a 2 GHz con Hyper-Threading abilitato, 4 Gigabyte di RAM, due hard disk IDE da 160 Gigabyte e una interfaccia di rete Ethernet di classe gigabit.

Il costo di ogni singolo computer è valutato intorno ai 2.400 dollari. In totale, un lavoro in MapReduce medio - dei 100.000 eseguiti ogni giorno - sfrutta hardware per circa 1 milione di dollari. A titolo di confronto, il numero di Terabyte processati al mese è cresciuto da 3.288 (agosto 2004) a 52.254 (marzo 2006) e infine ai 403.152 di settembre 2007. Il numero di istanze di data processing mensili è parimenti lievitato, negli stessi periodi temporali, da 29.000 a 171.000 a oltre 2 milioni.

Google ha convertito i propri servizi di ricerca e indicizzazione del World Wide Web al modello MapReduce nel 2003 e da allora, come dimostrano le ultime rilevazioni, la sua capacità di cercare, registrare e processare informazioni non ha fatto che aumentare in maniera esponenziale. Non si tratterà magari dell'intera rete web realmente esistente e attiva su protocollo TCP/IP, come sostiene qualcuno, ma rimane una messe di bit mostruosa che rende Google un gigante a tutti gli effetti, alle cui capacità i concorrenti Yahoo! e Microsoft stanno ancora tentando di avvicinarsi.

MegaLab.it rispetta la tua privacy. Per esercitare i tuoi diritti scrivi a: privacy@megalab.it .