Con la quotazione di Facebook, il suo modello Big Data ha attirato sempre più attenzione. Il nuovo data center di Facebook a Prineville, Oregon, è noto per essere il data center più efficiente al mondo dal punto di vista energetico. Quali sono le caratteristiche specifiche del business dei dati di Facebook? Ecco un breve inventario. Raccolta dati Cronologia La Timeline pubblicata nel dicembre 2011 ha modificato principalmente il "Profilo". Il profilo Facebook equivale a un file personale e informativo, in parole povere, a una home page personale. Il nuovo profilo personale ha un impatto visivo maggiore rispetto alle versioni precedenti. Facebook ha lanciato una nuova interfaccia Timeline, che organizza le informazioni pubblicate dagli utenti su Facebook, come stati, immagini, video, ecc., e le presenta in modo più strutturato, proprio come un'autobiografia su Facebook. Pulsante Mi piace La funzionalità consente agli utenti di contrassegnare le proprie pagine preferite e di includerle nei risultati di ricerca di Facebook, in modo simile a come Google utilizza i collegamenti tra le pagine per determinare le classifiche di ricerca. Facebook ha affermato: "Finché l'utente clicca sul pulsante 'Mi piace', tutti i siti web che supportano il protocollo Open Graph verranno visualizzati nel motore di ricerca". Facebook utilizzerà il protocollo Open Graph per ampliare ulteriormente l'ambito dell'indicizzazione del motore di ricerca, rappresentando così una minaccia per Google. Archiviazione dei dati Memorizzato nella cache Si tratta di un sistema di cache di memoria distribuita che Facebook utilizza come livello di cache tra i server web e i server MySQL (poiché l'accesso al database è relativamente lento). Nel corso degli anni, Facebook ha apportato numerosi miglioramenti a Memcached e al software correlato, come ad esempio l'ottimizzazione dello stack di rete. Facebook ha decine di TB di dati memorizzati nella cache su migliaia di server Memcached in ogni momento. Potrebbe trattarsi del più grande cluster di server Memcached al mondo. Pagliaio Haystack è il sistema di archiviazione delle immagini ad alte prestazioni di Facebook, ma in senso stretto non si limita all'archiviazione delle foto. Deve gestire oltre 20 miliardi di foto caricate e ogni foto viene salvata in quattro diverse risoluzioni, quindi ci sono oltre 80 miliardi di foto. Non solo deve essere in grado di elaborare centinaia di milioni di foto, ma anche le prestazioni sono fondamentali. Facebook elabora circa 1,2 milioni di foto al secondo, senza contare quelle sulla CDN, un numero impressionante. Cassandra Cassandra è un sistema di archiviazione distribuito che evita singoli punti di errore. È un ottimo esempio del movimento NoSQL ed è stato reso open source. Divenne addirittura un progetto Apache. Facebook lo usa nella ricerca nella posta in arrivo e anche altri siti, oltre a Facebook, lo stanno utilizzando. Analisi dei dati Architettura Hadoop Hadoop è oggi lo strumento open source più diffuso per l'elaborazione distribuita/parallela. Non si tratta solo di un file system distribuito per l'archiviazione, ma può anche essere utilizzato per creare un gran numero di computer in cluster per ottenere l'archiviazione e la memorizzazione distribuite di set di dati su larga scala. Facebook è un utente fedele di Hadoop e contribuisce al codice sorgente. Facebook ha inoltre contribuito con due importanti componenti Hadoop, Hive e Thrift, attualmente inclusi nel sottoprogetto Hadoop di Apache. Alveare Hive è nato da Facebook e consente di eseguire query SQL su Hadoop, rendendolo facile da usare anche per chi non è un programmatore. Hive è uno strumento di data warehouse basato su Hadoop. Può mappare file di dati strutturati in una tabella di database e fornire funzioni di query SQL complete. Può convertire le istruzioni SQL in attività MapReduce. Custode dello zoo, risparmio I sottoprogetti di Hadoop includono anche i blocchi distribuiti Zookeeper, che forniscono funzioni simili a Google Chubby. Thrift è un'interfaccia multilingua per Hadoop che supporta più linguaggi, come PHP e Ruby. Tubo grande BigPipe è un sistema di elaborazione dinamica di pagine web sviluppato da Facebook. Per ottenere prestazioni ottimali, Facebook lo utilizza per elaborare ogni pagina web in blocchi (chiamati "pagelet"). Ad esempio, le finestre di chat, i feed di notizie, ecc. vengono trasmessi in blocchi. Queste pagelet possono funzionare in parallelo, il che non solo migliora le prestazioni, ma non influisce nemmeno sul normale accesso degli utenti, anche se alcune di esse falliscono o vengono interrotte. |
<<: Il modo corretto per "accendere" la lampada da scrivania "protezione occhi"
Chi era la "persona nascosta" che ha fa...
Si può dire che i germogli di bambù invernali sec...
Cos'è Gallery Photography Network? Galaxy Phot...
Con l'arrivo della primavera e l'aumento ...
Qual è il sito web di Bing Tam Architects? Bing Th...
Esperto intervistato: Cheng Jun, Direttore dell&#...
I calcoli biliari sono calcoli che si trovano nel...
L'instabilità della caviglia è un danno alle ...
Molte persone non sanno cosa significhi specificam...
01. Come capire la malocclusione? Per "morso...
Se vuoi perdere peso, gli alimenti neri ipocalori...
Che cosa è Algeria News? El Khabar è il piccolo qu...
Dormire otto ore al giorno e bere otto bicchieri ...
I panda giganti vivono solitamente nelle foreste ...