Referrer spam: cos’è e come combatterlo. La negative SEO si evolve…

Il referrer spam è un fenomeno di Negative SEO sempre più frequente, ma fortunatamente “facilmente” individuabile per chi monitora costantemente i propri siti web.
Vediamo come capire ed eliminare il problema.

Referrer spam: lo user-agent viene falsato

Referrer spam: lo user-agent viene falsato

Cos’è il “referrer spam“? Rappresenta uno degli ultimi ritrovati in ambito di Negative SEO e si manifesta attraverso l’utilizzo di un crawler, ovvero di un software che, molto similmente ai più noti spider (come Googlebot), scansiona la rete visitando un numero elevatissimo di siti web.

La scansione, però, solitamente, viene eseguita con una particolarità: falsando lo user-agent (la sequenza di caratteri che identifica i dettagli degli utenti che navigano un sito web) in modo che il referer, ovvero la parte che indica il sito web di provenienza dell’utente, indichi uno specifico URL.

Qual è lo scopo di tale azione? Come possiamo accorgerci immediatamente di esserne “vittima? Quali contromisure devono essere attuate per tutelarci? A breve lo scopriremo.

 

Referrer spam: come individuarlo?

Referrer spam: come individuarlo?

Com’è facile intuire, i dati significativi di Analytics per riconoscere un’attività “anomala” riguardano la combinazione dei seguenti “sintomi“.

  1. Frequenza di rimbalzo (la percentuale di visite di una sola pagina, ovvero le visite in cui una persona esce dal sito web dalla stessa pagina in cui è entrata) tendente al 100%.
  2. Rapporto pagine/sessione (il numero medio di pagine visualizzate durante una sessione) prossimo al valore 1,00.
  3. Durata sessione media (il tempo in cui un utente rimane all’interno del sito web prima di uscire) molto vicina allo zero.

Nessun visitatore “umano” potrebbe generare dei dati contrastanti come quelli descritti, ma per un robot sono assolutamente normali.

 

Come possiamo agire per evitare spiacevoli sorprese?

Esistono tre tipi di “visite fasulle” e/o referral spam:

  1. dai cosiddetti “ghost referrals” come “i love Italy“, “Darodar” o “Cenoval“;
  2. dai crowler utilizzati da alcuni servizi di monitoraggio (come il famoso “Semalt“) e dai referral “fake“, come “ranksonic.org“, “ranksonic.com“, “maridan.com.ua“, “12masterov.com“, ecc.;
  3. dagli spider che lavorano in maniera corretta.

 

Ghost Referrals: le visite fantasma
Ghost referrals: le visite fantasma

Ghost referrals: le visite fantasma

Viene utilizzato il termine “fantasma” poiché questi sistemi non determinano delle visite reali ad un sito web, ma lavorano generando delle visite a pagine che contengono delle rotazioni casuali di ID di tracciamento di  Google Analytics. Così facendo, se utilizzano, ad esempio, il nostro tracking ID, Google registrerà una visita al nostro sito web proveniente da una determinata sorgente.

Proprio a causa della loro natura “esterna“, queste azioni non sono arginabili mediante interventi specifici sui file del sito web (anche il file .htaccess non avrebbe potere): l’unico metodo attuabile consiste nella creazione di un filtro per escluderli dalle statistiche.
Il problema più grande, però, è rappresentato dal fatto che i ghost referrals cambiano così rapidamente che bisognerebbe aggiornare costantemente le regole di esclusione.

 

Come eliminare tutti i ghost referral

E’ possibile creare dei filtri specifici per eliminare ogni fonte di spam, ma esiste una tecnica che richiede meno sforzo, basata sugli host validi. Vediamo di cosa si tratta.

Come eliminare i ghost referrals

Come eliminare i ghost referrals

Dal momento che i referrer “conoscono” il tracking ID, ma non l’host corrispondente (perché, di fatto generano valori random), invieranno il “referral” utilizzando un nome host che non corretto. Sfruttando questo fattore, possiamo creare un filtro “INCLUDE” che considera solo i dati pervenuti da uno dei nostri host. Grazie a questa “mossa” intelligente possiamo svincolarci dall’aggiornamento costante della blacklist.

Implementare una soluzione di questo tipo richiede molta attenzione perché il rischio è quello di bloccare anche i dati validi.

Per prima cosa, è necessario individuare tutti gli “host validi“, ovvero tutti quelli che possono utilizzare il nostro codice di tracciamento di Google Analytics (potrebbero essere coinvolti diversi siti web).
Per farlo, prima di tutto allunghiamo il periodo di riferimento (meglio se pluriennale), in modo da valutare un numero di dati considerevole, e visualizziamo il report dei “Nomi Host (Pubblico > Tecnologia > Rete > Dimensione principale: Nome host). Dai dati, possiamo individuare da subito gli host certamente validi.

A questo punto, entrando in “Amministrazione“, possiamo generare una nuova vista ed applicare un filtro personalizzato che contiene in “Pattern filtro” la lista degli host da considerare.

Referrer spam: come creare i filtri su Google Analytics

Referrer spam: come creare i filtri su Google Analytics

Come va creato il pattern? Inserendo la lista degli host separati da un carattere “|“. Per evitare ogni problema, inoltre, consiglio di applicare anche un carattere “\” davanti ai “.” (punti), in quanto il “punto” potrebbe rappresentare un carattere di “escape” all’interno delle espressioni regolari.
Vediamo un esempio per fare chiarezza:

www\.dominio1\.com|www\.dominio2\.it|www\.dominio3\.net

IMPORTANTE: se si utilizza questa tecnica è assolutamente necessario mantenere il filtro aggiornato, nel caso in cui si aggiungesse un dominio alla lista degli host validi.

 

Crawler “problematici” e fake referrals
I fake referrals

I fake referrals

Non tutti i bot si identificano nel modo corretto e rispettano determinate regole; anzi, molti sono noti per essere dei veri e propri “falsa statistiche“. In alcuni casi, comunque, come per il noto Semalt, è possibile fare richiesta di esclusione dei propri domini dalla scansione. In altri non è così semplice, ma in ogni caso, l’azione da non eseguire assolutamente è quella di visitare i siti web che vengono indicati, in quanto spesso rappresentano destinazioni “malevole” o tentativi di negative SEO con l’obiettivo di far aumentare il traffico.

Come in precedenza, possiamo intervenire attraverso un filtro per escludere i domini indesiderati. Per farlo, è importante riconoscere la “firma” che li caratterizza. Solitamente, filtrando su “Sorgente campagna“, ed indicando la lista dei domini indesiderati si ottengono ottimi risultati. Attenzione a non fare l’errore di filtrare su “Referral” indicando i domini: questo criterio necessita del referrer completo, non del dominio.

Alcune considerazioni sull’aproccio
  • Lavorando in questo modo, stiamo filtrando le statistiche, ma non stiamo bloccando gli accessi al sito web e gli eventi che questi potrebbero scatenare. E’ consigliabile limitare anche questo spiacevole fenomeno, ad esempio attraverso il file .htaccess (successivamente affronteremo anche questo argomento).
  • Il filtro che creiamo va mantenuto aggiornato con i nuovi robots/referrals segnalati. Il campo contenente la regola ha un massimo di 255 caratteri, ma non vi è limite al numero di filtri che possiamo inserire.

 

I bot “educati

Dal titolo possiamo intuire che si tratta del caso migliore. E’ chiaro che non avrebbe alcun senso bloccare l’accesso di questi robots al nostro sito web (senza le loro scansioni, nessuno conoscerebbe la nostra esistenza), ma Google Analytics permette nativamente di filtrare i “bot noti” mediante una semplice spunta in corrispondenza della voce “Escludi tutti gli hit da bot e spider noti” all’interno delle impostazioni delle viste.

Referrer spam: filtro di Google Analytics per i bot noti

Il filtro di Google Analytics per i bot noti

 

 

Come bloccare il referrer spam utilizzando il file .htaccess

Come accennato in precedenza, il file .htaccess rappresenta il miglior mezzo per bloccare “fisicamente” l’ingresso di crawler malintenzionati.

L’esempio che segue, mostra come mettere in atto le esclusioni:

RewriteEngine On

RewriteCond %{HTTP_REFERER} ^http://.*sito1\.com [NC,OR]
RewriteCond %{HTTP_REFERER} ^http://.*sito2\.it [NC]
RewriteRule (.*) – [R=301,L]

L’opzione “NC” (no case) indica di non considerare differenze tra caratteri maiuscoli e minuscoli, mentre l’opzione “OR” permette di aggiungere condizioni successive.

 

Ma perché esiste il referrer spam?

I motivi possono essere molteplici, ma il più probabile è certamente un’azione di negative SEO che ha come obiettivo quello di far innalzare vertiginosamente le visite a determinate pagine. Ricordiamo che il traffico che deriva da queste manovre, può essere scambiato facilmente per “traffico di qualità“: è fatto da persone che cercano il motivo della presenza di quel determinato link sulle loro statistiche :)

Loading Facebook Comments ...