Tecnologia all'avanguardia per il data mining dei social network

Tecnologia all'avanguardia per il data mining dei social network

Questa lezione è tratta dal discorso intitolato "Tecnologie di frontiera nel data mining dei social network" tenuto da Yu Shilun, preside dell'Istituto di scienza dei dati presso l'Università di Tsinghua, alla sessione "Reti relazionali sociali e tecnologia dei Big Data" della serie di forum Tsinghua RONGv2.0 del 23 dicembre 2015.

Innanzitutto, vorrei ringraziare tutti gli ospiti per aver partecipato alla serie di seminari Tsinghua RONGv2.0 su "Reti di relazioni sociali e tecnologia Big Data". Il professor Deng ci ha appena parlato dell'importanza di questa questione. Ora condividerò con voi la mia ricerca in questo ambito.

Sappiamo tutti che i big data hanno quattro "V": ampia scala dei dati e alta velocità di generazione, ma, cosa ancora più importante, i big data sono diversificati, come un caleidoscopio, con tutti i tipi di dati. Se vogliamo fare un buon lavoro con vari tipi di dati, dobbiamo integrarli tra loro. Questo è il tema della nostra serie: RONG. Solo integrando dati diversi possiamo renderlo più accurato e più ricco di contenuto. Inoltre, poiché i dati sono eterogenei, sorge anche un problema: non tutti i dati possono essere integrati direttamente tra loro. Se non vengono gestiti correttamente, i dati validi verranno rovinati. Dopo aver integrato efficacemente diversi tipi di dati, il passo successivo è riuscire a estrarre valore da essi.

Naturalmente sappiamo che i social network ne sono un esempio tipico. I social network sono molto grandi. Ad esempio, Facebook negli Stati Uniti ha miliardi di nodi di rete e anche in Cina il numero di nodi di rete è estremamente elevato. Le persone esprimono costantemente le proprie opinioni sui social network e condividono foto o video, il che genera vari tipi di dati in varie forme, come testo, immagini, link, community, ecc. Sappiamo che sui social network ci sono molte informazioni, che sono enormi in termini di scala ma scarse in termini di valore se messe insieme. Come ricavarne valore è un problema da risolvere.

Oggi parlerò principalmente di due argomenti: innanzitutto, come integrare insieme diversi tipi di dati. In secondo luogo, come gestire i dati indesiderati.

Anche se parliamo di social network, non ne esiste uno solo. Negli Stati Uniti esistono molti social network diversi. In genere, quello che tutti conoscono meglio è Facebook, ma Facebook non è l'unico social network. Ad esempio, anche Twitter è ampiamente utilizzato, ma invia solo messaggi brevi. Esiste anche Foursquare, un sito di social networking orientato principalmente al commercio elettronico. Il suo modello di servizio si basa sul fatto che se i tuoi amici vengono nel negozio corrispondente dopo averlo visto, i loro account mostreranno che sono stati lì, formando gradualmente una rete che riflette le preferenze e gli interessi dei tuoi amici. Come su LinkedIn, praticamente tutti pubblicheranno i propri contenuti lavorativi. Se volessi assumere qualcuno, potresti andare su LinkedIn e vedere chi potrebbe essere la persona più adatta alle tue esigenze. Un altro è YouTube, dove puoi caricare i tuoi brevi video. Riassumendo, esistono vari social network e, poiché questi hanno caratteristiche e interessi diversi, solitamente una persona partecipa a diversi social network.

Possiamo dire che le caratteristiche di ogni individuo sui diversi social network sono diverse. Se riusciamo a integrarci con più social network, potremo ottenere più consulenze. Se hai un nuovo social network, puoi anche ottenere informazioni da altri social network noti per ottenere maggiori dettagli. Quindi, integrare questi social network è una sfida.

Vogliamo integrare i social network e risolvere due problemi:

Innanzitutto, il nome che una persona usa per iscriversi a diversi social network potrebbe non essere lo stesso, quindi è difficile sapere se due account sul social network A e sul social network B corrispondono alla stessa persona. Questa è una sfida.

In secondo luogo, anche se sai che la persona A su Facebook e la persona B su Twitter corrispondono alla stessa persona, un'altra sfida è come aiutarla a utilizzare meglio le sue informazioni di Facebook su Twitter. Lo scopo dei social network è quello di mettere in contatto le persone, quindi ciò che solitamente ci piace fare sui social network è consigliare amici, il che è simile alla funzione di consigliare prodotti nell'e-commerce.

Su un social network la cosa più importante è socializzare, cioè scoprire chi è amico di chi. Su qualsiasi social network ci saranno sempre più amici da consigliarti. Ma come consigliare? Di solito i social network contengono informazioni di ogni genere. Naturalmente, sappiamo innanzitutto che alcune persone sono amiche e che saranno loro a stabilire dei legami per conto proprio. Inoltre, possiamo anche conoscere le diverse ubicazioni di queste persone. Inoltre, le persone possono pubblicare messaggi sui social network, così possiamo anche sapere cosa gli interessa e quando ha iniziato a interessarsene. Quindi, in generale, in un social network possiamo sapere chi è interessato a cosa, dove e, più o meno, quando è successo.

Se vogliamo collegare tra loro due social network, ad esempio Foursquare, a volte Foursquare può consigliarci degli account Twitter, in modo da poterli collegare facilmente. Quindi ci sono alcune persone con cui possiamo facilmente connetterci, e quindi colleghiamo gli utenti uno per uno, ma non sappiamo che la maggior parte degli utenti non sa chi è la persona corrispondente in un altro social network. Quindi, in generale, quando creiamo una rete, di solito solo una parte delle persone su entrambe le parti corrisponde.

Quindi solitamente nelle nostre ricerche, se vogliamo prevedere chi abbiamo come amici sui social network, possiamo farlo in questo modo. Sulla base dei collegamenti di ancoraggio che già conosciamo, la formazione può aiutarci a organizzarne altri. Poi aiutaci a mapparlo su SocialLink e poi torna indietro.

Perché connettersi a un altro social network? Ad esempio, se conosciamo queste persone e vogliamo prevedere se A e B sono amici, dobbiamo vedere se c'è qualche intersezione tra gli amici di A e gli amici di B. Se A e B hanno molti amici in comune, pensiamo che sia probabile che queste due persone diventino amiche e possiamo fare una raccomandazione. Al contrario, se non c'è alcuna intersezione, è difficile per noi fare delle ipotesi. Se la rete non è sufficientemente densa, è molto probabile che la connessione tra A e B non venga trovata. Tuttavia, se conosciamo l'account corrispondente di A su un altro social network, conosceremo anche i suoi amici su quell'altro social network. Se avessimo queste informazioni, ci sarebbe molto utile consigliare loro di diventare amici. Diamo un'occhiata a un altro esempio. Esistono due social network. Nella prima rete, C è connesso ad A, e nell'altra rete, B è connesso ad A, quindi B e C sono amici degli amici.

Se combiniamo efficacemente queste fonti di dati, le nostre previsioni saranno più accurate rispetto all'utilizzo di una sola fonte.

La domanda successiva è come gestire lo spam sui social network. Ad esempio, quando andiamo a mangiare in un ristorante, siamo abituati a controllare le recensioni del ristorante su Dianping.com. Se tutti dicono che il ristorante è buono, andremo lì. Ma il problema che spesso riscontriamo è che queste recensioni contengono molto spam, il che significa che il cibo potrebbe non essere effettivamente delizioso, ma qualcuno pubblica deliberatamente delle buone recensioni per ingannarti. Oppure, se non gli piace il negozio accanto, pubblicherà delle recensioni negative su quel negozio, quindi a volte le recensioni che vedi sono inventate. In altre parole, se vuoi sapere com'è il ristorante, devi rimuovere le informazioni spam, altrimenti queste recensioni non sono credibili. Ma quando si legge semplicemente una recensione, è difficile stabilire se si tratti di spam o meno, perché il testo è ben scritto, come "il cibo qui è delizioso" o qualcosa del genere, il che è incoerente con i fatti. Quindi non basta limitarsi a leggere il testo. Non si può dire che se il testo è ben scritto non sia spam; se il testo non è ben scritto, forse è stato digitato con un cellulare e ci sono degli errori di battitura, ma non significa che sia spam. Quindi questa è una domanda molto difficile.

Fortunatamente non abbiamo una sola recensione, ne abbiamo molte. Non c'è un solo ristorante, ma molti ristoranti. Possiamo utilizzare questa grande quantità di dati per aiutarci a risolvere questo problema. Anche le dimensioni dei big data comportano grandi vantaggi. In genere, un recensore recensirà molti negozi diversi e ogni negozio riceverà molte recensioni. Quindi dobbiamo trovare la relazione tra loro. Di solito, se le recensioni scritte da un valutatore sono credibili, diciamo che è onesto; d'altro canto, se una valutazione è coerente con quanto scritto da altri valutatori onesti, diciamo che la valutazione è credibile. Inoltre, se la maggior parte dei recensori onesti afferma che un negozio è buono, noi affermiamo che il negozio è affidabile; viceversa. Infine, non leggiamo le recensioni scritte da utenti disonesti.

Riassumendo, come facciamo a sapere se una recensione è onesta? Due cose da considerare: primo, se è d'accordo con persone affidabili, allora è onesto. Se non è d'accordo con la persona disonesta, allora può anche ottenere qualche informazione. Infine, parliamo del comportamento di valutazione. Questo è un ottimo negozio, ma una recensione negativa avrà un grande impatto sull'onestà del recensore. Ma se ad alcune persone piace e ad altre no, non importa, non influirà sulla tua integrità.

In definitiva, quando valutiamo se un negozio è buono o meno, se i recensori onesti dicono che è buono, allora è buono. Va bene che le persone oneste dicano che non è una buona cosa. Possiamo capire se un negozio è buono o meno solo leggendo le recensioni. Ad esempio, se prendiamo in esame questi negozi e confrontiamo i punteggi Resellerating, in pratica più alto è il punteggio Resellerating, migliore è la reputazione del negozio. A volte, come nel caso di un negozio come CCI, nonostante il punteggio BBB sia alto, il punteggio Resellerating è molto basso. Pensiamo che questo negozio non sia buono. Abbiamo effettuato un'indagine più approfondita e abbiamo scoperto che c'è un problema con questo negozio.

Possiamo quindi concludere che nell'era dei big data tutti si sono resi conto che i dati stanno diventando sempre più importanti. Naturalmente, i social network sono un luogo con molti dati e dobbiamo cercare di estrarne l'oro. Nell'era dei big data, se riusciamo a estrarre valore dai big data, non solo dai dati in ogni loro aspetto, ciò ci offrirà nuove opportunità. Questa è una tecnologia dirompente. Se molti settori industriali tradizionali non prestano attenzione ai dati, potrebbero essere travolti. Ciò ci offre anche molte nuove opportunità e possiamo fondare nuove aziende. L'ultima tecnologia rivoluzionaria è stata Internet. Con l'avvento di Internet sono nate anche molte aziende emergenti, tra cui Alibaba in Cina. I settori tradizionali, come molti settori della vendita al dettaglio negli Stati Uniti, hanno incontrato grossi problemi. La prima è la libreria. È lo stesso libro, non importa dove lo compri. Può essere spedito online allo stesso prezzo, quindi è meglio acquistarlo online. Lo stesso vale per gli elettroni. Possiamo quindi vedere che se le industrie tradizionali non stanno attente, sorgeranno dei problemi. L'esempio più semplice è il taxi. Il settore dei taxi tradizionali presenta dei problemi. Ora è più comodo chiamare Didi dal tuo cellulare. Questa è una grande opportunità per i nostri studenti. Se riesci ad acquisire big data, potresti essere in grado di avviare una nuova azienda. Anche il nostro Primo Ministro ha affermato che questa è una grande opportunità.

Trovare l'oro dai dati non è un compito facile. Ne abbiamo parlato molto oggi e avete anche visto che questo richiede tecnologia, che si tratti di tecnologia statistica o informatica, ecc. Solo con questa conoscenza è possibile avviare un'attività. In ogni caso, i big data avranno sicuramente un impatto enorme su diversi settori industriali in futuro e sulla vita di ognuno di noi. Spero quindi che tutti partecipino bene a questo seminario odierno e che possiate assimilare qualche buona conoscenza. Grazie a tutti!

Fonte: Visualizzazione dati

<<:  Google sta testando una lente a contatto intelligente per scoprire cosa c'è nelle tue lacrime

>>:  Mashable: Apple è in ritardo nella corsa degli smartphone

Consiglia articoli

Che ne dici di Aitike? Recensioni e informazioni sul sito web di Itingke

Cos'è il sito web Aitike? AtticTV è un famoso ...

Perché le malattie rare sono difficili da prevenire e controllare?

Il 28 febbraio è la 16a "Giornata internazio...

Come capire se un pappagallo è sazio? Cosa possono mangiare gli inseparabili?

I pappagalli sono un tipo di uccello parlante. Es...

Quando la pubertà incontra la gengivite

L'adolescenza è il periodo più importante nel...