Herramientas para detectar contenido duplicado

Si estás buscando una herramienta para detectar contenidos duplicados, copiados o plagiados, muy probablemente sea porque ya te habrás dado cuenta que la replicación de información es una problemática frecuente en el ecosistema de Internet. En ciertas ocasiones es un hecho que se produce de forma intencionada aunque también puede ocurrir desintencionadamente por diversos motivos. La cuestión es que puede ocasionar consecuencias perjudiciales en diferentes aspectos, por lo que han surgido diversas utilidades o herramientas para buscar información duplicada de forma relativamente fácil.

A continuación se enumeran algunas de las mejores herramientas u opciones que tienes disponibles para encontrar contenidos duplicados de una web externamente en otros sitios de Internet o internamente entre las diferentes direcciones accesibles en tu propia página web, permitiéndonos actuar posteriormente en consecuencia para solventarlo.

Consecuencias del contenido duplicado para el SEO

Centrándonos en el ámbito del SEO (Search Engine Optimization), el contenido duplicado puede ser bastante perjudicial para el posicionamiento en buscadores como Google, Bing, Yandex, etc. Las diferentes direcciones URLs de tu web accesibles por los robots de los buscadores deberían tener principalmente contenidos únicos y originales que generen una respuesta positiva en los usuarios para sus intenciones de búsquedas. Así que sería recomendable supervisar periódicamente la información de tu sitio web para asegurarte de tener esto bajo control.

En caso de detectar un alto porcentaje de información duplicada por alguna causa, habría que intentar solventarlo lo antes posible para seguir mejorando el posicionamiento en las SERPs o para evitar penalizaciones por contenido considerado de baja calidad o «Thin Content«. En esta página de ayuda de Google puedes encontrar más información al respecto.

Gráfica de vistas web tras una penalización de Google Panda por contenido duplicado de baja calidad

Imagen publicada por evolvecreativegroup.com mostrando la caída del tráfico de visitas procedentes del buscador tras una penalización de Google Panda (algoritmo de Google centrado en combatir sitios de baja calidad; +info en Wikipedia).

Detectar contenido duplicado interno en web (Duplicidad On-Site)

El contenido duplicado interno en una web es uno de los casos que más ocurre si no se controla/configura adecuadamente algún gestor de contenidos (CMS) o plataforma eCommerce como PrestaShop, WooCommerce+WordPress, Magento, Joomla!, Drupal, etc. Aunque tengas una web estática sin utilizar ninguna de las plataformas mencionadas anteriormente, podría estar generándose contenidos duplicados sin requerir copiar/replicar intencionadamente la información; Parámetros de seguimiento de Google Analytics o de otras plataformas de analítica web podrían ocasionar URLs con contenidos duplicados y los robots de los buscadores podrían estar accediendo a rastrear/indexar las distintas direcciones con esos parámetros derivando en información duplicada.

Especialmente en tiendas online, es muy habitual encontrar diversos parámetros que se añaden a las direcciones URLs, por ejemplo para ordenar o filtrar listados de productos, generando múltiples URLs adicionales con la misma información en títulos, descripciones y demás contenidos de cada página. Adicionalmente hay muchas más causas que podrían estar ocasionando duplicidad de la información de cara a los buscadores (inexistencia de etiquetas «canonical», duplicidad del dominio con/sin www, arquitectura inadecuada de etiquetas/categorías, gestión incorrecta de multiidiomas/traducciones…).

Considerando lo comentado anteriormente, es importante monitorizar periódicamente si se están generando contenidos con un alto porcentaje de duplicidad en diferentes direcciones de tu web y si están accesibles por los robots de los buscadores. Entonces, ¿Cómo saber si es contenido duplicado? Por suerte, tenemos a nuestro alcance diversas herramientas SEO para realizar estas tareas más fácilmente indicándonos una serie de métricas y paneles informativos para ver si hay contenido duplicado:

Detectar contenido plagiado o duplicado en todo Internet

El contenido de nuestra web que se duplica, copia o plagia en otros sitios de Internet, en la mayoría de los casos está fuera de nuestro control y no es fácil de detectar. Aún así podemos hacer uso de algunas utilidades para intentar detectar plagio del mismo contenido web en otros sitios de Internet y poder actuar consecuentemente en cada caso (aprovechando para contactar e intentar obtener menciones/links, asegurándonos que los robots de los buscadores indexan en primer lugar nuestros contenidos originales en vez de los del otros sitio web, aplicando acciones legales por contenido robado con derechos de autor, etc.):

 

Detectar imágenes duplicadas, iguales o similares en Internet

Si deseas centrarte exclusivamente en detectar fotos duplicadas o copiadas en otros sitios de Internet, también existen herramientas muy útiles para esta funcionalidad. Concretamente podremos utilizar lo que se denomina «Reverse Image Search» o «Búsqueda Inversa de Imágenes» y como bonus-extra en este artículo tienes un listado con algunas de las herramientas que también he utilizado en más de una ocasión para buscar fotos duplicadas. Si realizas alguna acción social, podrás ver mis 4 herramientas preferidas para encontrar fotos duplicadas en Internet:

 

Consideraciones importantes a la hora de comprobar contenido copiado o duplicado

Estas herramientas son de gran ayuda para saber si tienes contenido duplicado pero no son 100% efectivas y podría haber algunos casos indetectados.  Sería recomendable probar o utilizar varias de las herramientas listadas anteriormente para verificar los resultados con más fiabilidad. El inconveniente, como habrás podido comprobar, es que algunas de estas herramientas ofrecen una versión gratuita limitada y requieren de una versión de pago o premium para poder utilizar sus funcionalidades al completo periódicamente. Cabe matizar que algunos de estos software requieren de instalación, configuración o procesos manuales que conllevan tiempo adicional, pero lo ideal es que inicialmente pruebes todas las opciones para ver la que mejor satisface tus necesidades.

Obviamente, el criterio de cada una de estas herramientas puede diferir a la hora de decidir qué se considera contenido duplicado; Citar algún fragmento de texto o realizar un breve resumen referenciando a la fuente no tiene porqué significar directamente «contenido duplicado» si en dicha página se aporta mucha más información original y contenido de valor añadido que genere una respuesta de usuario positiva. Principalmente te diría que intentes mantener lo más alto posible el porcentaje de contenido diferencial de valor para generar respuesta positiva de los usuarios en cada una de tus páginas, implementa mecanismos para prevenir la existencia de altos porcentajes de contenidos duplicados o copiados y actúa rápidamente para solventa las incidencias que se detecten.

Teniendo en cuenta todo lo anterior, personalmente podría destacar a SemRush como la herramienta que más tiempo y dinero me ha ahorrado de todas las citadas. No es una herramienta que directamente permita verificar contenido duplicado externamente en todo Internet, pero SemRush Site Audit Tool sí analiza bastante bien el posible contenido duplicado internamente entre las diferentes direcciones URLs de una web, indicándote de forma periódica las incidencias detectadas. También dispondrás de consejos para solventarlo y unifica en una sola plataforma otras muchas funcionalidades imprescindibles para el SEO por una cuota mensual que realmente compensa si se considera el coste que tendría obtener todas esas funcionalidades en diferentes herramientas.

Contenido duplicado interno en una web detectado con Semrush Site Audit Tool

Contenido duplicado interno en una web analizada con Semrush Site Audit Tool.

El punto más fuerte de SemRush es la investigación de palabras claves (Keyword Research) para SEO/SEM, pero cumple perfectamente para realizar una auditoria SEO de una web y otras muchas funcionalidades imprescindibles para Marketing Online en una única plataforma: Monitorizar posiciones de palabras claves de una web en las SERPs, analizar enlaces de una web, etc.

#####

¿Cuál es tu herramienta favorita para analizar el contenido duplicado? Cuenta tu experiencia al respecto o deja un comentario si conoces alguna otra opción que no se haya citado aquí.


Por favor, comparte ahora...

COMMENTS

Adri

Hola me gusto mucho este articulo, es justo lo que ando buscando. Una pregunta, el Semrush te localiza exactamente donde esta el contenido duplicado interno? Así como lo hace el Siteliner?

Seo Andorra

La mayoría de empresas es por falta de conocimiento tanto a nivel programación o de la edición del archivo robots, con el cual puedes llegar a atajar un 80% el contenido duplicado.
Yo para detectar el contenido duplicado quito el archivo robots para empezar y con el Screaming frog analizo toda la web, también puedes bloquear el robots.txt desde el settings del Screaming frog, y con el Netpeak spider aun puedes analizar más a fondo la web, de esta manera no necesitar pagar herramientas tan caras como es Semrush o el propio Ahrefs

    jrc

    Hola @SEO Andorra,

    Cierto, en muchas ocasiones se genera gran cantidad de «contenido duplicado» por falta de conocimiento y se podría solventar fácilmente con herramientas/utilidades básicas. La gran ventaja de herramientas como Semrush o Ahrefs es que disponen de otras muchas funcionalidades y la posibilidad de automatizar/monitorizar ciertas comprobaciones a lo largo del tiempo desde una plataforma online, así que en ocasiones podría compensar pagar el precio de ciertas herramientas si se tiene en cuenta todo el trabajo/tiempo que nos ahorran.

    Un saludo y muchas gracias por tu comentario.

Julio Dominguez

Hola me ha sido de mucha utilidad para mi web padelzoom.es.
Saludos
Julio Domínguez – juliojdominguez.com

hosting

Excelente artículo creo que recopila las mejores herramientas.

Joseba

Gracias por el aporte amigo
Tendremos en cuenta tus consideraciones 😉

Luis Miguel Pérez García

Buenos días
He estado leyendo tu árticulo el cual me parece muy interesante ya que mi web aparece en la consola del webmaster con unas 396 metadescripciones y etiquetas duplicadas, dicho esto creo que me han penalizado en google ya que hace una semana que a bajado dastricamente mis visitas la web que es artes-graficas.net, pero realmente no sé si es así.
Como podría comprobar realmente que google me ha penalizado por metadescripciones y etiquetas duplicadas?
de ser así que recomiendas hacer la Rel=”canonical” ya que el contenido es muy parecido.
Un saludo y gracias

    jrc

    Hola Luis, hay algunas herramientas que intentan identificar o comprobar penalizaciones de Google que hayan podido suceder en tu sitio web pero tampoco conozco que haya una 100% fiable. Muchas de las herramientas software existentes en el mercado se basan en analizar el tráfico del sitio web y comprobar si la curva de descenso/incremento del tráfico coincide con las fechas que se conocen del Historial de Cambios en el Algoritmo de Google (https://moz.com/google-algorithm-change).

    La etiqueta Canonical no es la única solución para intentar combatir el contenido duplicado interno en un sitio web, dependiendo de las intenciones que se tengan de cara a los usuarios y de la optimización de Crawl Budget que se desee realizar, quizás podría interesarte más bloquear en robots.txt las URL o parámetros que estarían generando problemas de información duplicada o quizás directamente eliminar y redireccionar todo el contenido duplicado si no es útil para los usuarios.

Miguel

Varias herramientas como las Smallseotools Plagiarism Checker SEOmatica Detector Plagio
PlagScam son malísimas, unas te consideran plagio lo que no es, -comprobado poniendo las frases entre comillas en google-… Las otras copias dos frases enteras de la wikipedia y te dicen que no es contenido duplicado…

    jrc

    Gracias por tu comentario Miguel. Aunque algunas herramintas funcionan mejor que otas, realmente no hay una herramienta 100% efectiva para comprobar contenido duplicado en Internet, así que la mejor opción es utilizar varias de ellas para obtener una visión más global 😉 ¿Cuál ha sido tu herramienta favorita de todas las que has probado?

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

*Acepta la Política de Privacidad