venerdì 18 giugno 2010

L'effetto San Matteo, la Googlearchy e altri fenomeni emergenti della rete


Consulente aziendale nel posizionamento sui motori di ricerca



Quando si considera il Web, la domanda fondamentale non è più se le vostre opinioni possano o meno venire pubblicate. Di fronte alla giungla di documenti presenti la domanda è piuttosto la seguente: se pubblico una informazione in rete, qualcuno la noterà? [1]

I motori di ricerca scelgono le pagine secondo quello che è stato definito con il nome di "effetto San Matteo" [2], cioè le pagine che sono più power law distribution cliccate [3], e collegate da altri siti, sono anche quelle che appaiono ai primi posti. A questo punto però il motore di ricerca mette ancor più in evidenza queste pagine, tanto che gli utenti tendono a cliccarle ancora di più creando un circolo vizioso che si è supposto portasse a una "dittatura" dei motori di ricerca. In cui solo alcune pagine molto visibili dominano la nostra ricerca dell'informazione. Fenomeno, quest'ultimo, indicato da alcuni autori con il nome di Googlearchy [4].

In particolare l'effetto San Matteo presuppone che i motori di ricerca influenzino il traffico degli utenti attraverso rigide strategie di posizionamento delle pagine, e si è argomentato che possano generare una spirale tutt'altro che virtuosa che amplifica la dominanza dei siti già popolari secondo una strategia legata al ranking. Questa polarizzazione potrebbe cioé condurre ad un monopolio pericoloso delle informazioni: l'evolvere di una rete non democratica.

Nella pratica accade questo: i motori di ricerca costruiscono i propri indici e ritornano i risultati della ricerca a un utente che fa una interrogazione con un certo ordine, e le prime pagine sono in genere quelle considerate più rilevanti.

Però l'effetto San Matteo non spiega alcuni comportamenti emergenti del Web ma fornisce altresì materia prima per studi che spaziano dalle dinamiche delle reti alla psicologia sociale.

Quello che vogliamo dimostrare in questo articolo è come non esista una Googlearchy, cioè un vero monopolio dei motori sulle informazioni presenti in rete.


L'EMERGENZA DI COMPORTAMENTI IN SISTEMI COMPLESSI ADATTIVI NEL WEB


Il comportamento dell'utente durante la ricerca sui motori non era mai stato considerato in studi precedenti, ma diventa qui fondamentale per spiegare l'apparizione di nuovi fenomeni emergenti.
Reti complesse come Internet e il World Wide Web possono presentare comportamenti emergenti inaspettati, tipici dei sistemi complessi adattivi, la cui caratteristica è quella di avere un adattamento fisico che può fare emergere strutture di tipo auto-organizzative e auto-riproducentesi [5].

Da uno studio empirico, di cui parlereno tra poco, è possibile dimostrare che gli utenti che compiono ricerche sui motori cliccano, per così dire, anche risultati molto in basso nella lista dei link rilevanti, generando una ridistribuzione del traffico a favore delle pagine meno popolari.

La conseguenza principale di questo fenomeno va esattamente contro l'impressione generale, che presuppone considerare i motori di ricerca come i principali monopolizzatori dell'informazione, con la capacità di presentare solo certi siti e non altri.
Si dimostra invece come anche nuove pagine poco indicizzate abbiano un'alta probabilità di essere scoperte rispetto a quanto si sarebbe potuto prevedere con il modello teorico.


GLI EFFETTI TOPOLOGICI DEL COMPORTAMENTO SOCIALE SU INTERNET


Quattro scienziati italiani, che come spesso succede non hanno trovato in Italia le condizioni per poter lavorare e sono così migrati negli Stati Uniti, hanno condotto uno studio empirico [6] che spiega come l'influenza dei motori di ricerca non monopolizzino affatto l'accessibilità (e la popolarità) delle informazioni in linea: cioè che siti più popolari ricevano meno traffico di quanto ci si potrebbe aspettare dalle regole del ranking.

I quattro fisici [7] che hanno condotto l'esperimento (che potete trovare a questo link) sono Santo Fortunato, Alessando Vespignani, Filippo Menczer, Alessandro Flammini, dell'Università dell'Indiana.

Lo studio qui presentato vuole sfatare un preconcetto: il timore del presentarsi di una situazione in cui un ciclo auto-rinforzante della popolarità possa generare una topologia di Internet in cui solo un numero limitato di fonti di informazioni predominerà.

Tuttavia anche se è vero che le pagine con più link e traffico verranno evidenziate per prime (perchè questo è anche quello che pretendiamo dai motori di ricerca), dimostreremo che nello stesso modo anche le pagine che non sono ai primi posti sui motori hanno una loro probabilità relativamente alta di essere viste e visitate.

L'effetto San Matteo viene, in altre parole, mitigato dal funzionamento dei motori e soprattutto dal comportamento degli utenti.

Usando i dati di posizionamento di motori come Google e Yahoo e i dati del traffico generato da Alexa (servizio che misura i dati raccolti dalla Toolbar degli utenti), gli autori hanno inviato circa 30mila interrogazioni e catalogato il risultato di alcuni milioni di risultati rilevanti, osservando come la natura empirica delle curve vada contro l'ipotesi della supposta dittatura dei motori.

Hanno poi tracciato un grafico del traffico dei collegamenti inbound in modo tale che il pendio della linea avrebbe rivelato se e in che natura il ranking della pagina venisse influenzato dall'aumento del traffico.
Si è visto che per i siti da 100 a 1.000.000 di collegamenti inbound, traffico e collegamenti mantenevano un rapporto proporzionale, ma la loro pendenza, costante di proporzionalità, andava contro ogni previsione.

Il traffico aumentava molto meno di quello previsto rispetto al caso in traffico e link in ingresso nei motori di ricerca cui i motori avessero contribuito ad aumentarne la popolarità. E' cioè aumentato di meno rispetto a quanto il modello prevede nel caso in cui traffico seguisse una legge di proporzionalità diretta con i collegamenti inbound.

In figura A sono state rappresentate le relazioni tra link entranti (in-degree) e traffico generato (clic sul sito). il fattore h denota la probabilità che una pagina sia cliccata in risposta a una ricerca (query).

Alla fine, il risultato dimostra che ogni collegamento inbound aumenta il traffico t rispetto a k secondo una legge di potenza con esponente gammacirca uguale a 0.8 .

I risultati indicano che il comportamento degli utenti rispetto ai motori di ricerca possa sopprimere o mitigare l'effetto dovuto alla popolarità delle pagine.


Ciò diventa ancor più chiaro quando i dati sono esaminati all'estremità del range di valori: al crescere esponenziale dei link inbound le curve tendono ad appiattirsi. Questo dimostra come all'aumentare dei collegamenti le pagine più viste tendano a raggiungere una "saturazione" della loro popolarità, e indipendentemente dall'aumento dei link entranti le pagine non possono espandere ulteriormente la loro già elevata visibilità [8].

Lo studio propone un fattore che può contribuire a spiegare questi risultati: l'interesse dell'utente. Un utente interessato ad un argomento probabilmente avrà già visitato i siti più popolari che trattano di quel soggetto. Nella lista bassa delle ricerche i motori di ricerca permettono di trovare anche pagine meno-popolari che riguardano specifici temi trattati da siti non ancora visitati e perciò appetibili all'utente.


CONCLUSIONI

Il risultato ha conseguenze concettuali e pratiche interessanti: suggerisce, controintuitivamente, come l'uso "sociale" dei motori di ricerca contribuisca a "livellare" la popolarità delle pagine, cosicché anche i siti meno popolari hanno una probabilità, superiore a quanto ci si attenderebbe, di essere trovati, e questo grazie alle dinamiche della psicologia sociale applicate alle reti di informazione.

In altre parole, se avete qualcosa di importante da dire, per la quale la comunità web potrebbe essere interessata, qualcuno la noterà, nonostante il grande traffico generato dai grossi e più popolari portali.


L'AUTORE


Claudio Pasqua è consulente aziendale nel posizionamento sui motori di ricerca per enti pubblici, aziende e università. Si occupa di studi teorici e pratici legati alle reti a inviarianza di scala, del comportamento del World Wide Web e delle applicazioni dell'econophysics.
La scienza dei sistemi complessi (il tentativo di capire i numerosi casi di ordine spontaneo o di autocorrelazione presenti in natura) e gli scenari del mondo digitale e delle sue applicazioni nel mondo reale sono alcune delle sue attività di interesse.




NOTE

[1] Secondo la nota legge di potenza e il modello "Rich Get Richer", sul web la misura della visibilità è proporzionale al numero di link entranti. Più link puntano alla vostra pagina Web, più siete visibili. Vedere anche "Perché su Internet i ricchi diventano sempre più ricchi"

[2] L'effetto San Matteo è una forma di ripartizione basata sulla cumulatività, in base alla quale ogni nuova risorsa che si rende disponibile viene ripartita fra i partecipanti in proporzione a quanto hanno già. Il nome deriva da un passo del Vangelo di Matteo misteriosamente tutt'altro che cristiano che recita:

« ...a chi ha verrà dato, in modo che abbia ancor più in abbondanza; ma a chi non ha, verrà tolto anche quello che sembra avere. » (Vangelo secondo Matteo, XXV 25-29)

L'espressione è stata usata per descrivere un "effetto di cumulatività" più volte osservato nella comunità scientifica e descritto da Robert K. Merton, in base al quale gli scienziati che raggiungono dei successi nei primi anni della propria carriera (ad esempio pubblicando un articolo su una rivista molto nota, o con un co-autore famoso), hanno in seguito molta più facilità a pubblicare, e quindi più credibilità e successo delle properie teorie, a parità di abilità e di ogni altro fattore. Questo effetto è considerato spesso fra i casi di iniquità della scienza, nella misura in cui il successo iniziale determina effetti di ripartizione non proporzionati alle abilità negli stadi successivi. [WikiPedia]
Lo stesso meccanismo è stato proposto per spiegare anche il comportamento del Web, luogo in cui più un articolo, una pagina è richiesta e di conseguenza cliccata e più sale di popolarità.

[3] C'è chi tende a sottovalutare, o a non dare per scontata, l'influenza delle Toolbar dei search engine sul posizionamento sulle Serp. Facciamo invece notare che sono gli stessi search engine a dichiarare che i dati provenenti dai clic degli utenti che usano le toolbar vengono utilizzati per assegnare l'importanza di posizionamento delle pagine dal loro traffic ranking.

Da una nota di Alexa Toolbar: "Making a better internet"

Alexa could not exist without the participation of the Alexa Toolbar community. Each member of the community, in addition to getting a useful tool, is giving back. Simply by using the Firefox and IE toolbars each member contributes valuable information about the web, how it is used, what is important and what is not. This information is returned to the community as Related Links, Traffic Rankings and more.

e ancora...

The traffic rank is based on three months of aggregated historical traffic data from millions of Alexa Toolbar users and is a combined measure of page views and users (reach).

e ancora...

Alexa computes traffic rankings by analyzing the Web usage of millions of Alexa Toolbar users. The information is sorted, sifted, anonymized, counted, and computed, until, finally, we get the traffic rankings shown in the Alexa service. The process is relatively complex, but if you have a need to know, please read on.


Per quanto riguarda Google, invece, la sua formula semplificata (che peraltro non è quella attualmente usata) prevedeva fin dall'inizio un fattore, chiamato damping factor, il cui valore viene deciso da Google e che nella documentazione originale assumeva valore 0,85. Tale valore può essere aggiustato da Google per decidere la percentuale di PageRank che deve transitare da una pagina all'altra. Tale valore viene influenzato da molte variabili, tra cui il Traffic Ranking.

"The random surfer picks a web page and keeps clicking on links, this probability is called damping factor".

"The PageRank value of a page reflects the frequency of hits on that page by the random surfer".
Karla Alcazar
Seminar: Link mining (2004)
Intitute für Informatik - Universität Freiburg

Ecco la formula:

PR[A]=(1 - d) + dleft (frac{PR[T1]}{C[T1]} + ... + frac{PR[Tn]}{C[Tn]}right )

Dove:
  • PR[A] è il valore di PageRank della pagina A che vogliamo calcolare
  • T1...Tn sono le pagine che contengono almeno un link verso A
  • PR[T1] ... PR[Tn] sono i valori di PageRank delle pagine T1 ... Tn
  • C[T1] ... C[Tn] sono il numero complessivo di link contenuti nella pagina che offre il link
  • d è il damping factor

Cito anche quanto affermato da Fortunato, Flammini, Menczer, Vespignani nella ricerca "The egalitarian effect of search engines" pubblicato nel 2005:

"Traffic is the fraction of all user clicks in some period of time that lead to the page; this quantity, also known as view popularity, can be estimated using the Alexa Traffic Rankings service, which monitors the sites viewed by users of its toolbar"

[vedi anche J. Cho, S. Roy, and R. Adams. Page quality: In search of an unbiased web ranking. In Proc. ACM International Conference on Management of Data (SIGMOD), 2005]


Segnalo infine l'ottimo testo di Amy Langville (Assistant Professor of Mathematics al College di Charleston in South Carolina) e Carl D. Meyer (Professor of Mathematics alla North Carolina State University) dal titolo:


in particolare il cap. 12.3 dal titolo "Ranking Based on Traffic Flow" (pagine 136-138) la cui dimostrazione è troppo lunga per poter essere riportata in queste righe. Cito solo una interessante interpretazione degli autori a proposito del TrafficRank. Grazie al metodo matematico dei Moltiplicatori Langrange è possibile ottenere una soluzione che descrive la "temperatura" per ognuna delle pagine Web. Una interpretazione che affonda le sue radici nella relazione termodinamica tra entropia e calore (HotRank).


[4] cf., Hindman, M. et al., 2003. "Googlearchy: How a Few Heavily-Linked Sites Dominate Politics on the Web.".

[5] Claudio Pasqua, L'emergenza negli ecosistemi digitali e la scienza della complessità, The Daily Bit, Torino, 6 luglio 2007 e anche http://it.wikipedia.org/wiki/Emergenza

[6] Topical interests and the mitigation of search http://www.pnas.org/cgi/content/abstract/0605525103v1

[7] Filippo Menczer è professore associato di informatica, computer science presso l'ndiana University, Bloomington; i suoi interessi di ricerca sono orientati allo studio di sistemi intelligenti per il web Mining (estrazione di informazione utile da insiemi di dati). Santo Fortunato svolge un post-dottorato presso l'Indiana University School of Informatics; le sue ricerche più recenti riguardano la tecnologia delle reti e le dinamiche sociali sulla formazione di opinioni. Alessandro Flammini è assistente alla School of Informatics dell'Indiana University. I suoi interessi riguardano lo studio di reti complesse e la fisica di biopolimeri. Alessandro Vespignani è professore di informatica, scienze cognitive e fisica presso l'Indiana University; il suo lavoro si concentra sullo studio del sistemi complessi e delle reti.

[8] La seguente figura mostra i risultati dell'analisi. La previsione teorica segue una legge di potenza, ed è rappresentata da una linea retta sul grafico logaritmico. L'area blu rapprenta la previsione nel caso in cui l'effetto della googlearchy fosse vera mentre la linea chiamata "sufing model" rappresenta il caso in cui i motori di ricerca fossero neutrali, come se i visitatori navigassero sui siti senza effettuare delle ricerche.
I dati empirici non seguono una legge di potenza: è invece evidente che il traffico in entrata segue una proporzionalità con espontente inferiore a quello predetto.
Al contrario di quello cui ci si potrebbe attendere, questo risultato suggerisce che i motori di ricerca hanno un comportamento democratico, visto che indirizzano più traffico di quanto atteso verso i siti meno popolari della rete.
Questo effetto democratico viene spesso denotato con il termine googlocracy.