Sezioni: Recensioni di Libri - Recensioni di Film - Telefoni Cellulari - Computer - Chiavette USB
CreativeCamp - Bayes-Swarm by Bayesfor
Veniamo al Secondo Talk della giornata, che si e' tenuto alle 12:30 circa (sempre in ritardo ovviamente).
Quando ho visto, nella slide di presentazione, la parola "Bayes-Swarm", sinceramente mi sono subito interessata, ed infatti ho seguito con attenzione e mi sono anche fatta riconoscere sul finale con una discreta "rottura di cojones" (so gia' che l'avranno definita in questo modo loro :P) sotto forma di domande e dubbi vari sul progetto.
Ma veniamo al progetto in se'.
Bayes-Swarm non e' altro che una specie di copia (ospitata su server di Aruba) di Google Trends.
Vuole quindi analizzare il web alla ricerca di parole, per indicare di cosa si parla, per capire cosa sia argomento "hot" in un certo periodo e tentare di fare "previsioni" anche sul futuro (la previsione di uno dei "talker" sulla non rielezione di Bush si verifichera' eccome, ma perche' non si candida - fa notare Palmasco...).
Il progetto, per terminare la breve descrizione che intendo darne (poi passo alle mie considerazioni) e' tutto fatto di codice Open Source, scritto in Ruby, e ha come "fonti":
- 7 fonti giornalistiche
- 22 pagine
- 87 parole
Un insieme di dati troppo esiguo, e la limitazione tecnica data dal server non riesce a darne una vera giustificazione.
Il progetto e' ambizioso (esiste gia' Google Trends no?), e in quanto ambizioso non puo' limitarsi ad essere un "concept" basato su pochi dati, come una goccia d'acqua nell'Oceano Pacifico di Internet.
Le altre mie obiezioni riguardano il modo in cui vengono identificati i dati.
Nessun'"enfasi" e' data all'enfatizzazione dei termini data dalla formattazione del testo (c'e' modo e modo di scrivere le cose...), vengono cassiati articoli, congiunzioni et similia (da cui risulta che "non bello" diventa "bello", che e' il suo contrario), e via discorrendo.
Che sia in "beta" una versione in cui queste enfatizzazioni vengano tenute da conto e' sufficiente, ma solo se si presenta il progetto come semplice "concept" e non come realta' definita.
Infine, al di la' del mio non credere nella statistica (si definisce la statistica anche come "la scienza per cui se hai i piedi in forno e la testa in frigorifero sei a temperatura ottimale"), penso che, con un "rivale" come Google Trends, un progetto del genere, proprio in quanto Open Source, possa essere una grande idea se utilizzato in ambito "corporate", per analizzare ad esempio comunicati stampa, posta elettronica, e altri dati "privati" di questo genere.
Per il resto, per il web, c'e' e credo continuera' ad esserci, Google Trends.
A meno che Bayes-Swarm non intenda, in futuro, aggiungere alle fonti qualcosa che Google non considera.
Avere un "valore aggiunto" insomma...
(just my opinion)






In quanto diretto coinvolto nel progetto bayes-swarm, mi permetto di dare le mie risposte in merito. Avrei preferito approfondire a voce (altrimenti che barcamp e' ?) ma purtroppo son dovuto scappare subito dopo pranzo.
Dunque, mi sembra che i temi sollevati dal post siano questi: scarso volume del dataset, copia di progetto molto piu' famoso, scarso criterio di estrazione dati e scarsa considerazione della statistica.
Penso che il piu' rilevante sia ovviamente l'ultimo. Sicuramente non riusciro' a far cambiare idea, ma purtropo (o per fortuna) la statistica (o anche la matematica piu' pura, se e' per questo), ad di la' del qualunquismo di farne solo uno strumento per calcolare una media, ha una rilevanza commerciale ed economica abbastanza fondamentale: forecast economici e azionistici, valutazioni da parte delle compagnie di assicurazione, determinazione dell'efficacia di farmaci, previsioni meteorologiche. Il fatto che il mio ipotetico nonno prenda 100 euro in piu' di pensione al mese perche' riconosciuto all'interno della fascia di poverta', il fatto che tu possa comprare un'aspirina in farmacia senza considerarlo un farmaco a rischio, o il fatto che ti venga concessa un'assicurazione per l'auto ad un certo costo, e' tutto (in parte) derivato da criteri statistici. Per un esempio diretto, uno dei membri del gruppo (Alessandro Bonazzi) attualmente usa la modellazione numerica e la statistica nell'ambito assicurativo, per determinare o meno l'assicurabilita' dei terreni in funzione del rischio uragani, e i volumi economici coinvolti da queste considerazioni non sono propriamente 2 euro. La statistica assume quindi un "significato" , uno "scopo" , di conseguenza un valore, di conseguenza un impatto economico, diventa merce trattabile.
Detto questo, si puo' capire meglio il nostro talk e l'obiettivo della nostra associazione. L'obiettivo e' diffondere questo messaggio, far capire che dai volumi di dati che quotidianamente accumuliamo sul nostro pc o sul nostro server aziendale (complice anche il ridotto costo dello storage) difficilmente estraiamo mai piu' del 5% delle informazioni che potrebbero comunicarci. E che possono esistere modi per ottenere tali informazioni.
Tutti i grandi big (Google, Amazon, AOL, Yahoo) lo sanno e ne stanno traendo vantaggio: perche' Google cerca sempre piu' pervasivamente di avere informazioni su di noi? Per capire il nostro profilo, il nostro comportamento "medio", le 'intenzioni' e i 'pensieri' in forma aggregata (statistica, di nuovo) dell'intera utenza: questo e' il graal del marketing, perche' permette (ad esempio tramite AdWords) di collegare il commerciante non con l'utente qualunque, ma con l'utente interessato al suo specifico prodotto. E AdWords fa ben piu' di una media per matchare il nostro profilo con il nostro potenziale interesse, sulla base del comportamento "similare" di altri milioni di utenti (consiglio: John Battelle, "Google e Gli altri" . RaffaelloCortina Editore ).
Noi pensiamo che anche il piccolo, il privato, la PMI, possa trarre vantaggio da questo potere dell'analisi dati. E per mostrarlo abbiamo pensato ad un concept. E in tale senso il concept deve essere interpretato.
Non e', ne' sara' mai un rivale di Google Trends, ma non e' questo lo scopo. Lo scopo e' mostrare, o dare un barlume di idee, di come si puo' ottenere lo stesso risultato. E da qui far vedere le potenzialita' che ne derivano. Mostrare che una rete neurale puo' prevedere di quanto si parlera' di bush, ma anche prevedere che il portafoglio clienti del calzolaio sotto casa sta per subire un crollo da qui a 2 mesi.
In questi termini, non e' necessario analizzare 10 milioni di words su 200k fonti. Ne basta una, purche' riesca a trasmettere il messaggio. Il nostro prodotto non e' bayes-swarm. E' mostrare che abbiamo un portfolio di tecniche matematico statistiche che "sono utili" , nel senso di "fanno risparmiare soldi" / "accrescono la tua comprensione riguardo i tuoi dati" .
Poi a migliorare il nostro concept c'e' sempre tempo. Di idee ne abbiamo tante (le beta che ho citato nello speech), di tempo molto meno (tutti ci lavoriamo solo nel tempo libero) e nel frattempo, ognuno di noi ne approfitta anche per imparare qualcosa di nuovo.
Per quanto riguarda Google Trends ... da novembre avro' l'onore di essere @Google.com , cerchero' di convincerli che le nostre idee, in confronto alle loro, gli fanno un baffo! Se non si e' un po' ambiziosi, che gusto c'e' ?
my 2 cents.