Stats: Ma i Referrer?!?

 

Stats: Ma i Referrer?!?

Posted by DElyMyth on Mon, 2004-10-18 20:40 in

Torno a parlare di statistiche web, per quanto magari ad alcuni possa dare noia, per raccontare un piccolo aneddoto.
Tutto comincio' dal fatto che ho un quasi-cliente che sta usando la beta del mio sistema (appena ho tempo finisco di sistemare il db sulla versione ufficiale va'...)

Ho un cliente che utilizza in prova la beta del mio sistema di statistica, e fin qui nulla di strano.
Questo cliente, essendo non sito personale bensi' sito aziendale, e' ovviamente interessato a referrer e keyword, se non altro per poter controllare meglio le campagne pubblicitarie che ha in corso.
Anche qui, nulla di male.

Oggi il problemone:
"Guarda che il tuo sistema di tracking non funziona, non vede i referrer!"
"Huh?!?"
Vai a vedere sul mio account.

Vado a vedere, effettivamente una discreta schiera di accessi diretti.
Accessi diretti che sembrano navigazione.

Alche' mi sovviene che un visitatore (un altro che cercava inviti gmail tanto per cambiare) proprio ieri mi ha contattata in merito alla questione image-leeching e htaccess.
Dopo aver implementato le mie righette di htaccess non vede piu' quasi nulla del suo sito.
Controllo i suoi accessi sul mio e vedo un discreto botto di hit alla 403 (sempre lei), tutti accessi diretti, nessun "Inside" (che significa che arrivi da dentro le pagine mie).
Gli spiego la cosa, dico che forse ha un programma le cui impostazioni di privacy bloccano il suddetto campo referrer e scopro che anche questo ha il Norton Internet Security (fosse il primo che qui non vede le immagini per colpa di quel coso...)

Guardo le pagine "top" ed effettivamente la 403 sta facendo una gran bella scalata in classifica, e sebbene sia normale che chi arriva dalla cache di google incappi in quella pagina, ben poco normale e' che incappino tante persone in quella pagina appena entrano sul sito.

Primo pensiero:
"Azzo, stanno aumentando quelli che impostano a massima sicurezza il NIS, cheppalle..."

Secondo pensiero, ma qui si va sul quasi filosofico...
Tempo fa (diciamo quando ho deciso di bloccare le immagini dall'esterno) ho cominciato a notare persone che avevano problemi ad accedere alle immagini su questo sito.
Erano pochi casi, ma e' li' che ho scoperto che una new entry nei firewall e' una cosa che si chiama "privacy nella navigazione"
Ora, sono d'accordo sul blocco dei cookie (qui la questione e' mezza controversa, ma bene o male sono fatti vostri se non volete mantenere eventuali impostazioni su alcuni siti...), meno d'accordo sul fatto che lasciar vedere il referrer sia una violazione della privacy.

In fondo, ci sono vari modi per bloccarlo senza bloccarlo.
Uno e' il buon vecchio click destro, copia collegamento (che da che mondo e' mondo si usa quando non si vuol far capire ad un webmaster come si e' arrivati sul suo sito).
L'altro e' il copia-incolla (piu' certosino) dell'url.
Perche' mai un programma per definizione e default dovrebbe dire che e' violazione della privacy lasciar vedere il referrer in caso di click?

A parte questo, il problema e' per chi vuole proteggere i propri contenuti, siano questi immagini (come da me) oppure file eseguibili o demo in flash (come il ragazzo che mi ha contattata ieri).
Penso sia diritto del proprietario di un sito pretendere che chi vuole scaricare il suo materiale gli faccia almeno una visita, e l'unico modo che abbiamo (che sia abbastanza pratico e non richieda macchinose cose in php o perl) e' quello, tramite htaccess, di controllare che il referrer per alcuni tipi di file sia proprio il nostro sito e non un accesso diretto o un link di qualcun altro.

Quando ancora esisteva l'area download e non bloccavo gli exe infatti avevo un bel po' di accessi ai download da parte di siti che facevano elenchi di mirror per scaricare file, e dopo un po' la cosa mi ha effettivamente dato abbastanza noia.
Eppure, un programma che ormai tutti hanno (firewall sta diventando troppo spesso sinonimo di Norton Internet Security) ha tra le sue impostazioni il blocco del referrer, e pare che sia abilitato di default.

Insomma, che si deve fare?
Permettere a chiunque di linkare le nostre demo o mettersi le nostre immagini sul suo sito senza nemmeno fare lo sforzo almeno di scaricarle?
Oppure dobbiamo restare qui a guardare la gente che passa e continua a finire nella pagina di "accesso negato" solo perche' un programma preinstallato sul computer decide che "e' male" che io webmaster sappia tu da dove arrivi?
Senza tener conto del problema del mio cliente: come fanno a sapere se gli accessi arrivano da una determinata campagna pubblicitaria se l'ultima moda e' sbucare tutti dal nulla?

Ho spiegato al mio cliente, e adesso si sta pensando a come fare a risolvere il problema (pagine diverse per diversi motori di ricerca e diverse campagne e una bella botta di robots.txt, ok, ma permettete che la cosa dia fastidio?)


Comment viewing options
Select your preferred way to display the comments and click "Save settings" to activate your changes.
ho l'impressione che diverr

ho l'impressione che diverr

Posted by tacco (not verified) on Mon, 2004-10-18 21:51
Non usare il "cloaking" con google. Ogni tanto mandano un google

Non usare il "cloaking" con google. Ogni tanto mandano un googlebot che ha come user-agent mozilla/5 che serve proprio a controllare che le pagine servite al googlebot classico non differiscano da quelle servite ai browser normali.

Se trova differenze, mette in lista nera, poi son cazzi per tornare nell'indice :)

Naturalmente, si può aggirare il problema impostando il riconoscimento del bot utilizzando contemporaneamente user-agent e classi ip di google. Cmq non ci andrei tranquillo, possono sempre mandarne uno con un UA totalmente inventato.

Posted by Cristiano (not verified) on Mon, 2004-10-18 23:18
tacco, di te lo so come stai messo, il problema e' che a questo

tacco, di te lo so come stai messo, il problema e' che a questo punto comunque diventa impossibile ottenere il referrer, e anche (quello rompe le balle a me) poter rendere visibili le immagini su questo sito (a meno di non mollarle per tutti, ma gia' tempo fa ne avevo trovate troppe in giro per forum, senza un link ne' niente, e sinceramente mi secca).

Cristiano, lo so che il cloaking e' male, ma facciamo esempio su due campagne, una su Arianna e una su Google.
Come fai a capire se uno arriva da uno o dall'altro motore se non vedi il referrer?
L'unica e' fare una copia di ogni pagina della campagna per campagna e impedire agli spider di leggere quelle che non sono di quel motore.
Semplicemente non fai indicizzare le pagine dedicate ad Arianna a Google, e le pagine "normali" (cioe' quelle non legate alle campagne, piuttosto che quelle che usi in pubblicita' cartacea) o non le fai proprio indicizzare da nessuno oppure te ne freghi e le fai indicizzare a tutti (ma sfalsa se uno la trova via google invece che arrivarci perche' ha immesso il link a mano).
Cioe', a me personalmente non e' che interessi troppo (se gli altri non vedono le immagini sono fatti loro), i referrer li guardo per curiosita' e le keyword spesso per farci quattro risate (ogni tanto ne arrivano davvero di mirabolanti...) e non ho campagne pubblicitarie.

Ad ogni modo se la tendenza dei software di privacy diventa quella di chiudere i referrer, si prospettano tempi duri, IMHO :(
(e non perche' ho fatto un tracker)

Posted by DElyMyth (not verified) on Tue, 2004-10-19 01:20
Ele, io rimarrei sempre per la pagina unica per tutti, perchè r

Ele, io rimarrei sempre per la pagina unica per tutti, perchè realizzare duplicati, oltre al grosso sbattimento per farli e differenziarli motore per motore, è anche rischioso che sia altamente controproducente se qualche bot "astuto" se ne accorge.

Potresti fare una stima a campione, che non sar

Posted by Cristiano (not verified) on Tue, 2004-10-19 04:03
non immaginavo fosse così complicato... Mi spiace non poterti d

non immaginavo fosse così complicato... Mi spiace non poterti dare una mano nello sviluppo, ma mi pare tu sia gi

Posted by efraim (not verified) on Tue, 2004-10-19 11:42
Cristiano, il problema e' che ad un sito commerciale interessa s

Cristiano, il problema e' che ad un sito commerciale interessa sapere "ma questo che ha comprato sta cosa, da dove e' arrivato?" e tutto va bene in caso di referrer passato (si vede da dove arriva), ma se ha il NIS (che sui pc nuovi e' disgraziatamente preinstallato) e non passa il referrer pare un accesso diretto (almeno OutPost mette nel referrer "Field Blocked by Outpost", cosi' ne hai la certezza che e' bloccato).
Questo significa che non magari quell'accesso che ti ha comprato mezzo sito arrivava da una campagna che hai pagato fior di soldi ma che a te pare non aver reso nulla.

Un calcolo empirico/statistico va bene finche' si tratta di accessi normali, cioe' ricerche su web...
Se vuoi sapere "quante persone arrivano da li'?".
Ma a quanto mi hanno detto ad alcuni interessa sapere "da dove e' arrivato questo?", e se "questo" blocca il referrer non e' possibile saperlo, a meno di non fare quella sottospecie di cloaking che dovrebbe essere al bando.

E idem per le keyword, posso anche li' dire "ok, questa keyword sulle mie keyword appare all'X%, quindi sto mese e' apparsa tot volte" e calcolare, ma se il tizio ha in corso campagne pay-per-click (Overture?) e si trova fatturati 100 click e gliene risultano solo 90 perche' gli altri 10 hanno un filtro sui referrer, capisci che la cosa funziona male...

Da quello che vedo guardando le mie statistiche, togliendo i visitatori piu' o meno fissi (che passando ogni giorno o quasi non fanno testo se devo calcolare le "abitudini generiche" del mondo), ho un venerabile 10% di referrer nulli causa blocco, e lo vedo dallo sproposito di accessi alla 403...
cioe', registro nelle statistiche accesso ad una pagina diretto e poi 3 accessi alla 403 da parte dello stesso ip, ogni tanto seguiti da altri accessi ad altre pagine, sempre accessi diretti (sarebbe navigazione interna, dovrebbe riportare me, quindi "Inside" come referrer).
E se guardo gli ultimi 25 accessi umani (pochini), nella videata trovo praticamente sempre almeno uno con "pagina diretta e 3 accessi alla 403".
A spanne, calcolo un 10% sui non habitue'.
Come percentuale e' decisamente alta :(

Efraim, qui non si tratta di programmazione, e' il browser che non passa il referrer, e purtroppo sono troppo poche le persone che smanettano a mano nelle configurazioni dei firewall per sistemare queste cose, oltre a quelli che dicono "che ti frega da dove arrivo" a cui rispondo (io personalmente per questo sito) allora scordati gli screen-shot, le copertine dei libri e compagnia limitrofa che sono jpg e sono filtrate :P

Posted by DElyMyth (not verified) on Tue, 2004-10-19 15:08
immagine in cima al blog, contenuto: vuoto, nulla. ma se ci arri

immagine in cima al blog, contenuto: vuoto, nulla. ma se ci arrivi con un 403 gli fai vedere un bel BRUTTO PEZZO DI IDIOTA, TOGLI QUELLA CACCA DI NIS!

Posted by skinner (not verified) on Tue, 2004-10-19 18:00
Uhm, pagine doppie mi sembra un sincero orrore, ma se l'obiettiv

Uhm, pagine doppie mi sembra un sincero orrore, ma se l'obiettivo è solo conteggiare delle campagne (in cui immagino pubblicizzi *un* URL specifico), perché non farli arrivare su una pseudo-pagina (un banale script) che si limiti a fare un 302 verso la pagina corretta? Qualcosa del genere lo fa agilent: pubblicizzano degli URL "semplici" (che so: www.agilent.com/find/33220A ), ed "atterri" nel posto giusto (magari lo stesso per più link, così distingui le campagne). E' anche facile da manutenere (basta una tabellina keyword -> URL_destinazione). Che ne dici?

Posted by alex (not verified) on Tue, 2004-10-19 23:14
Si alex, ma anche qui c'e' il problema dell'indicizzazione delle

Si alex, ma anche qui c'e' il problema dell'indicizzazione delle pagine da parte del motore "sbagliato".
E' vero che i referrer bloccati sono solo il 10% ma la cosa e' seccante lo stesso...
Per le campagne pay-per-click la pagina extra invece andrebbe bene, ovviamente invisibile agli spider pero' (per evitare click farlocchi).
Insomma, un mezzo casino che bene o male non tocca a me smazzare, se il referrer c'e', io lo vedo, se non c'e', mica e' colpa mia :D

Posted by DElyMyth (not verified) on Wed, 2004-10-20 00:25
A proposito di statistiche e referrers: uno è arrivato sul mio

A proposito di statistiche e referrers: uno è arrivato sul mio blog cercando "Delymyth foto nuda" ... Lascio a te un eventuale commento

Posted by Underblog (not verified) on Wed, 2004-10-20 15:53
dove? dove?!

dove? dove?!

Posted by skinner (not verified) on Wed, 2004-10-20 22:54
Post new comment
The content of this field is kept private and will not be shown publicly.
  • Allowed HTML tags: <a> <em> <strong> <cite> <code> <ul> <ol> <li> <dl> <dt> <dd> <br> <p>
  • Lines and paragraphs break automatically.
  • Web page addresses and e-mail addresses turn into links automatically.

More information about formatting options

CAPTCHA
This question is for testing whether you are a human visitor and to prevent automated spam submissions.