Filtrar spam en Analytics

Si leíste nuestro artículo “Qué es el tráfico Spam – No te fíes de Google Analytics” ya conocerás el peligro del tráfico spam y por qué necesitas eliminarlo cuanto antes. En el presente artículo aprenderás la forma definitiva de filtrar el tráfico spam en Google Analytics. Si aún no sabes de qué va esto, te recomiendo que leas el artículo anterior ahora mismo.

Como ya explicaba anteriormente, hay dos tipos de tráfico spam. El tráfico referido spam, y el tráfico fantasma spam. La diferencia es que el primero proviene de un robot o crawler que visita nuestra página web de forma automatizada y el segundo nunca llega a visitar nuestra sitio web (de ahí lo de fantasma).

¿Cómo lo hacen?

 

En cuanto al tráfico referido spam no hay mucho que explicar, básicamente se trata de un script que lanza peticiones a nuestra página web, ignorando vilmente el fichero robots.txt. Por este motivo este tipo de spam se podría bloquear editando el .htaccess. Sin embargo en este artículo voy a mostrarte una forma más amigable y fácil de mantener para realizar esta tarea.

Por otro lado, el tráfico fantasma spam ataca directamente al servidor de Google Analytics haciendo uso del Measurement Protocol, la API que Google pone a disposición de los desarrolladores para poder enviar datos a Analytics de forma programática. Lo único que necesitan saber es el código de Universal Analytics, el resto (fuente, página de destino, nombre del host, etc) lo inyectan sin problemas. Lo que hacen normalmente es generar estos códigos de forma aleatoria, con la forma UA-XXXXXX-1, que es el aspecto que tiene tu track ID de Analytics, por lo que antes o después te acabará tocando. Por todo esto, al no visitar realmente nuestro sitio, no es posible pararlos tirando de .htaccess, así que no te queda otra que crear un filtro de Google Analytics si de verdad quieres deshacerte del tráfico spam.

Cómo detectar el tráfico spam

 

En primer lugar tienes que ajustar la vista de Analytics para que te sea más fácil detectar el tráfico sospechoso, así que antes que nada ve a  Adquisición > Fuente/medio . A continuación tienes que hacer lo siguiente:

  • Seleccionar un período amplio, de al menos 4 meses. El fenómeno del SPAM empezó a hacerse patente sobre todo a partir de Octubre de 2014, así que no hace falta que te remontes más atrás de esa fecha.
  • Rango de tiempo en Google AnalyticsSelecciona Dimensión secundaria > Nombre de host

Dimensión secundaria hostname

Ahora vamos a hacer un poco de detectives. El tráfico fantasma es muy fácil de detectar,  ya que sólo nos bastará con fijarnos en la columna de “Nombre de host” y descartar aquel tráfico que venga de dominios reconocidos por nosotros. Es decir, nuestro propio dominio y unos cuantos más como el de youtube, la caché de google, el traductor de google u otros traductores como el de baidu en mi ejemplo.

  • www.tudominio.com: El dominio de tu sitio web.
  • www.youtube.com: Sitio de Youtube.
  • m.youtube.com: Sitio móvil de Youtube.
  • webcache.googleusercontent.com: Caché de Google.
  • translate.googleusercontent.com: Traductor de Google.
  • translate.baiducontent.com: Traductor de Baidu (El “Google chino”).
  • us2.campaign-archive.com: Campaña de Newsletter de Mailchimp.

Si en la columna “Nombre de host” aparece como (not set), se trata de tráfico spam. En la imagen de debajo puedes ver que para esta cuenta se nos estaba colando un 12,27% de tráfico directo que en realidad era tráfico spam.

Fuente hostname Google Analytics

En la siguiente captura se puede ver cómo nos estaban colando como tráfico orgánico tráfico spam del host forum.topic47904802.darodar.com:

Darodar spam

Y en esta nos engañan haciéndonos creer que se trata de tráfico directo cuando no lo es:

4webmasters spam

 

Cuando no tengas claro si un host es spam o no sólo tienes que hacer una sencilla búsqueda y enseguida Google te dará las pistas que necesitas. Por ejemplo, pon 4webmasters.org en Google y las sugerencias de búsqueda ya te harán ver que no se trata de trigo limpio:

 

Busqueda Google 4webmasters.org

Una vez lo tengas claro, apúntate los hosts válidos para tu caso particular porque tendrás que utilizarlo más adelante para crear un filtro.

En cuanto al tráfico referido spam, hay que recurrir a métodos un poco más heurísticos. Y como en toda tarea de investigación, lo primero es acotar el problema, así que hay que crear un segmento personalizado para reducir la muestra de datos. Si no has creado nunca un segmento, esta es una oportunidad de oro para aprender a usar esta herramienta tremendamente útil de Google Analytics.

Segmento personalizado Google Analytics

Crear segmento personalizado

Haz click en “Agregar segmento”, en la ventana de de creación de segmento haz click en Opciones avanzadas > Condiciones y aplica el siguiente filtro:

  • Nombre del host –> Coincide con la expresión regular –>

dominiodelsitio.com|webcache.googleusercontent.com|.*youtube.com|translate.*|us2.campaign-archive.com

  • Duración de la sesión = 0
  • Agrupación de canales predeterminada –> Coincide exactamente con –> Referral

 

Segmento personalizado tráfico referido spam

Esto nos va a dar un listado más reducido del tráfico referido candidato a ser tráfico spam. Pero como ya he dicho antes, no existe un método determinista para distinguir cuál es y cuál no. Tendremos que apoyarnos en listas de spammers que ya han sido reportados como tales, y en nuestro instinto. Por lo general las fuentes de tráfico con nombres “comerciales” que parece que nos quieren vender algo suelen ser spam (best-seo-offer, get-traffic-now, etc). Si haces un seguimiento habitual de tu sitio y lo conoces bien, lo más probable es que sepas identificar las fuentes de tráfico no maliciosas. Y si tienes duda con alguna fuente en concreto, te recomiendo que juegues con alguna dimensión secundaria como la URL de referencia o analices el comportamiento de ese tráfico en concreto. Hay pistas que te pueden ayudar, como por ejemplo que el tráfico de las fuentes spam suele tener un porcentaje de nuevas sesiones del 100%.

Aclaración: Que el tráfico spam tenga un porcentaje de rebote y un porcentaje de nuevas sesiones del 100% no quiere decir que todo el tráfico que cumpla esas condiciones sea tráfico spam. Sin embargo, sí que nos va a dar pistas para descartar fuentes de tráfico válido. O sea, que si una fuente en concreto tiene un porcentaje de rebote y de nuevas sesiones por debajo de 100% casi seguro que no va a ser spam.

Si has hecho los deberes y has aplicado el segmento como explicaba anteriormente, la muestra resultante debería ser lo suficientemente reducida como para poder detectar los spammers “a ojo”.En mi caso de prueba, una vez en Adquisición > Todo el tráfico > Fuente medio, observo lo siguiente:

Trafico referido spam en Analytics

En rojo he marcado las fuentes de tráfico que he identificado como spam. El resto de fuentes son fuentes conocidas, así que las descarto. Resumiendo, esta es la lista de fuentes de tráfico referido spam que he detectado:

semalt.com
buttons-for-website.com
best-seo-offer.com
best-seo-solution.com

Cómo crear un filtro para el tráfico spam

 

Y ahora el momento que tanto habías estado esperando. Como ya comentaba, la forma más sencilla y “mantenible” de bloquear el tráfico spam es mediante filtros de Google Analytics. Te cuento los pasos que deberías seguir:

1. Crear una vista de backup

 

Los filtros en Google Analytics no se aplican de forma retroactiva, así que deberías tener siempre una vista limpia a la que no le hayas aplicado ningún filtro. Para ello, lo mejor es que copies tu vista principal, que si no has creado ninguna previamente será la única que tengas. Ve al menú Administrador de la cuenta de Analytics, y en la tercera columna (columna “VER”) selecciona tu vista principal. en mi caso la he renombrado como 1) Vista maestra para diferenciarla de la vista que crearemos a continuación.

 

Seleccionar vista maestra Analytics

Seleccionar vista maestra

 

 

A continuación hacemos click en copiar vista y la renombramos como “2) Vista sin filtrar”.

Copiar vista en Google Analytics

Copiar vista

 

Al copiar una vista en Google Analytics, se copian las preferencias de zona horaria, moneda, etc. Sin embargo si tienes una cuenta de AdWords, no se enlazará automáticamente. Por tanto si quieres que aparezcan también los datos de conversiones de Google Adwords en la vista sin filtrar, tendrás que enlazarla a mano.

A continuación te pongo una captura de cómo enlazar Adwords a la vista que has creado. Si no tienes ninguna cuenta de Adwords enlazada, puedes saltarte este paso.

Enlazar cuenta Adwords con Analytics

Enlazar Adwords a la vista sin filtrar

 

Si has creado la vista correctamente, te aparecerán dos vistas en la lista desplegable, igual que en la imagen de abajo. Selecciona la vista maestra y podemos pasar al siguiente paso.

Seleccionar vista principal

Seleccionar vista maestra nuevamente

 

2. Crear un filtro para el tráfico fantasma:

 

Con la vista maestra seleccionada, haz click en filtros y a continuación en filtro nuevo.

Haz click en Filtro Nuevo

 

Como contaba anteriormente, para bloquear el tráfico spam lo que haremos será filtrar los nombres de host, de manera que sólo permitamos los dominios válidos. Todos los dominios que no estén en el patrón del filtro quedarán bloqueados en nuestra vista de Analytics. Por este motivo, si añades el código de tracking a otro dominio que no esté en la lista, debes incluirlo también. El filtro  “Hostnames válidos” tendrá los siguientes parámetros:

  • Tipo de filtro: Personalizado.
  • Modo: Incluir.
  • Campo de filtro: Nombre del host.
  • Patrón del filtro: .*tudominio.com|webcache.googleusercontent.com|.*youtube.com|translate.*|us2.campaign-archive.com

El wildcard .* se usa para repesentar una cadena de cualesquiera elementos y longitud, incluso vacía. Lo pongo para permitir subdominios. Puedes aprender más sobre esto en el artículo “Acerca de las expresiones regulares” de Google Support.

El aspecto que tendrá el filtro será el siguiente:

Filtro tráfico fantasma

Filtro para tráfico fantasma

 

3. Crear un filtro para el tráfico spam referido:

 

En el caso del tráfico spam referido lo que haremos será excluir aquellas fuentes de tráfico que hayamos identificado como spam. Decir que mientras el filtro anterior seguramente no tengas que volver a tocarlo, en el caso del filtro para el tráfico spam referido tendrás que revisarlo de vez en cuando, pues es posible que detectes fuentes de spam nuevas. De momento te propongo un filtro con los siguientes parámetros, si detectas alguna fuente más no dudes en incluirla en el patrón del filtro:

  • Tipo de filtro: Personalizado.
  • Modo: Excluir.
  • Campo de filtro: Fuente de la campaña.
  • Patrón del filtro: .*semalt.com|.*buttons-for-website.com|.*best-seo-offer.com|.*best-seo-solution.com|.*100dollars-seo.com|.*makemoneyonline.com|.*semaltmedia.com|.*anticrawler.org|.*only-search.com|.*antycrawler.org|.*4webmasters.org

Y nos quedará así:

Filtro trafico referido spam

Filtro tráfico referido spam

Con lo cual ya tendremos listos los dos filtros que necesitamos para bloquear el tráfico spam en Google Analytics:

Filtros para bloquear el spam

Filtros para bloquear el spam

4. Crear un segmento de tráfico válido:

 

Como los filtros no se aplican de forma retroactiva, si quieres analizar los datos anteriores a la fecha en que los creaste y que estos datos no tengan spam, no hay más remedio que aplicar un segmento personalizado.

Haz click en “Agregar segmento”, y en Opciones avanzadas > Condiciones y aplica el siguiente filtro:

  • Nombre del host > coincide con la expresión regular > .*tudominio.com|webcache.googleusercontent.com|.*youtube.com|translate.*|us2.campaign-archive.com
  • Condición: Y
  • Fuente > no coincide con la expresión regular100dollars-seo.com|semalt.com|buttons-for-website.com|best-seo-offer.com|best-seo-solution.com|makemoneyonline.com|semaltmedia.com|anticrawler.org|only-search.com|4webmasters.org|buttons-for-your-website.com

Como ves, se trata de combinar en un mismo segmento los mismos patrones que aplicamos anteriormente en los dos filtros de spam, de forma que en la vista solamente se muestre el tráfico válido. Comprueba que el modo de filtro está en “Sesiones”, “Incluir” (este es el modo por defecto). Como aclaración, en la parte que filtra las fuentes no he usado wildcards porque he comprobado que si no los resultados no son correctos, aunque no podría decir por qué. En el filtro que creamos más arriba sí que funciona. De cualquier forma he revisado los datos y puedo asegurarte que si lo haces así es correcto, confía en mi 😉

Segmento personalizado tráfico válido

Segmento Tráfico Válido

Haz click en Guardar y el segmento se aplicará automáticamente. Lo bueno de los segmentos en Google Analytics es que puedes combinar varios a la vez en una visualización, quitarlos cuando quieras, o aplicarlos a cualquier vista en cualquier momento.

Para que veas de forma gráfica la necesidad de bloquear el tráfico spam, he aplicado el segmento de tráfico válido a la Vista Maestra. En mi caso he dejado pasar una semana para ver qué tal funciona el filtro. Como puedes ver en la imagen, antes de la fecha en la que apliqué el filtro hay un gran desfase entre visitas reales y número total de visitas. Sin embargo a partir del momento en que aplicamos el filtro, tráfico válido y sesiones totales se solapan ¡misión cumplida!

trafico-valido-vs-todo-el-trafico

 

Resumen

  1. Detecta el tráfico spam y haz una lista de Hosts válidos y Fuentes SPAM.
  2. Crea una vista de backup (vista sin filtrar).
  3. Crea un filtro para el tráfico fantasma –> “Hostnames válidos”
  4. Crea un filtro para las fuentes referidas spam –> “Fuente referida SPAM”
  5. Crea un segmento para el tráfico válido
  6. SÉ FELIZ.

Si has llegado hasta aquí ¡ENHORABUENA! Te tomas esto de la analítica web en serio. No te olvides de compartirlo en las redes sociales, el mundo puede ser mejor gracias a héroes como tú 😉

Y si lo que necesitas es que te echen una mano con tu sitio web o comercio electrónico, no dudes en ponerte en contacto con nosotros.

  • ferchup

    Comprobando en una de mis cuentas he visto que todo lo que tiene nombre de host diferente de los que marcas, es todo el tráfico spam que tengo. Y creo que siempre el tráfico spam, referral o no, tiene que tener un nombre de host diferente a los que marcas.
    Si no me estoy equivocando en lo que digo, con el “filtro para el tráfico fantasma” debería valer, no haría falta el filtro para el tráfico referido porque también estaría cubierto con el filtro anterior.
    ¿Me equivoco en algo?

    • Si solamente filtras por nombre del host, se te puede colar tráfico referido spam porque dicho tráfico proviene de crawlers que sí impactan en tu página web. Deberías implementar los dos tipos de filtro para estar totalmente seguro. Sin embargo puede que en tu caso no tengas suficiente tráfico spam proveniente de crawlers y por eso no ves que varíe el resultado.
      Espero haberme explicado, un saludo 🙂

      • ferchup

        Efectivamente, toda la razón. He mirado en otra web con más visitas, y
        tengo referrer spam con el nombre de host de la web. Así que toca ir
        revisando de vez en cuando. Mil gracias, es la info más completa de cómo
        evitar el spam en Analytics que he encontrado hasta ahora!

        Y una
        curiosidad, si estos “atacantes” son referral y visitan realmente mi
        página web, ¿Quiere decir que tienen enlaces en su web hacia la mía?
        ¿Por tanto me están haciendo un favor, aunque sea pequeño, de cara al
        SEO de mi web?

  • Gourman

    Muy buen post!! Muy currado! Una pregunta. en el filtro del los host válidos, ¿se debe poner el nombre del dominio sin las tres www o con las tres www? Gracias por la respuesta.

  • Pingback: Las 48 mejores "Mega Guías" de Marketing Digital en Español()

©2017 Bukimedia S.L.U. Todos los derechos reservados.

Inicia Sesión con tu Usuario y Contraseña

¿Olvidó sus datos?