Un inventario del business dei dati di Facebook

Un inventario del business dei dati di Facebook

Con la quotazione di Facebook, il suo modello Big Data ha attirato sempre più attenzione. Il nuovo data center di Facebook a Prineville, Oregon, è noto per essere il data center più efficiente al mondo dal punto di vista energetico. Quali sono le caratteristiche specifiche del business dei dati di Facebook? Ecco un breve inventario.

Raccolta dati

Cronologia

La Timeline pubblicata nel dicembre 2011 ha modificato principalmente il "Profilo". Il profilo Facebook equivale a un file personale e informativo, in parole povere, a una home page personale. Il nuovo profilo personale ha un impatto visivo maggiore rispetto alle versioni precedenti. Facebook ha lanciato una nuova interfaccia Timeline, che organizza le informazioni pubblicate dagli utenti su Facebook, come stati, immagini, video, ecc., e le presenta in modo più strutturato, proprio come un'autobiografia su Facebook.

Pulsante Mi piace

La funzionalità consente agli utenti di contrassegnare le proprie pagine preferite e di includerle nei risultati di ricerca di Facebook, in modo simile a come Google utilizza i collegamenti tra le pagine per determinare le classifiche di ricerca. Facebook ha affermato: "Finché l'utente clicca sul pulsante 'Mi piace', tutti i siti web che supportano il protocollo Open Graph verranno visualizzati nel motore di ricerca". Facebook utilizzerà il protocollo Open Graph per ampliare ulteriormente l'ambito dell'indicizzazione del motore di ricerca, rappresentando così una minaccia per Google.

Archiviazione dei dati

Memorizzato nella cache

Si tratta di un sistema di cache di memoria distribuita che Facebook utilizza come livello di cache tra i server web e i server MySQL (poiché l'accesso al database è relativamente lento). Nel corso degli anni, Facebook ha apportato numerosi miglioramenti a Memcached e al software correlato, come ad esempio l'ottimizzazione dello stack di rete. Facebook ha decine di TB di dati memorizzati nella cache su migliaia di server Memcached in ogni momento. Potrebbe trattarsi del più grande cluster di server Memcached al mondo.

Pagliaio

Haystack è il sistema di archiviazione delle immagini ad alte prestazioni di Facebook, ma in senso stretto non si limita all'archiviazione delle foto. Deve gestire oltre 20 miliardi di foto caricate e ogni foto viene salvata in quattro diverse risoluzioni, quindi ci sono oltre 80 miliardi di foto. Non solo deve essere in grado di elaborare centinaia di milioni di foto, ma anche le prestazioni sono fondamentali. Facebook elabora circa 1,2 milioni di foto al secondo, senza contare quelle sulla CDN, un numero impressionante.

Cassandra

Cassandra è un sistema di archiviazione distribuito che evita singoli punti di errore. È un ottimo esempio del movimento NoSQL ed è stato reso open source. Divenne addirittura un progetto Apache. Facebook lo usa nella ricerca nella posta in arrivo e anche altri siti, oltre a Facebook, lo stanno utilizzando.

Analisi dei dati

Architettura Hadoop

Hadoop è oggi lo strumento open source più diffuso per l'elaborazione distribuita/parallela. Non si tratta solo di un file system distribuito per l'archiviazione, ma può anche essere utilizzato per creare un gran numero di computer in cluster per ottenere l'archiviazione e la memorizzazione distribuite di set di dati su larga scala. Facebook è un utente fedele di Hadoop e contribuisce al codice sorgente. Facebook ha inoltre contribuito con due importanti componenti Hadoop, Hive e Thrift, attualmente inclusi nel sottoprogetto Hadoop di Apache.

Alveare

Hive è nato da Facebook e consente di eseguire query SQL su Hadoop, rendendolo facile da usare anche per chi non è un programmatore. Hive è uno strumento di data warehouse basato su Hadoop. Può mappare file di dati strutturati in una tabella di database e fornire funzioni di query SQL complete. Può convertire le istruzioni SQL in attività MapReduce.

Custode dello zoo, risparmio

I sottoprogetti di Hadoop includono anche i blocchi distribuiti Zookeeper, che forniscono funzioni simili a Google Chubby. Thrift è un'interfaccia multilingua per Hadoop che supporta più linguaggi, come PHP e Ruby.

Tubo grande

BigPipe è un sistema di elaborazione dinamica di pagine web sviluppato da Facebook. Per ottenere prestazioni ottimali, Facebook lo utilizza per elaborare ogni pagina web in blocchi (chiamati "pagelet"). Ad esempio, le finestre di chat, i feed di notizie, ecc. vengono trasmessi in blocchi. Queste pagelet possono funzionare in parallelo, il che non solo migliora le prestazioni, ma non influisce nemmeno sul normale accesso degli utenti, anche se alcune di esse falliscono o vengono interrotte.

<<:  Il modo corretto per "accendere" la lampada da scrivania "protezione occhi"

>>:  A cosa dovrebbero prestare attenzione i pazienti diabetici nella loro dieta per stabilizzare i livelli di zucchero nel sangue? Tabù e appropriatezza spiegati subito

Consiglia articoli

Come capire la malocclusione? Cose da sapere prima dell'ortodonzia!

01. Come capire la malocclusione? Per "morso...

Una vita di alta qualità inizia imparando a dormire

Dormire otto ore al giorno e bere otto bicchieri ...