Problemas y Soluciones Practicas Para Contenido Duplicado

Google recientemente emitió una opinión oficial respecto al contenido duplicado en un artículo titulado Demystifying the “duplicate content penalty” (Desmitificando la penalidad por contenido duplicado). Representantes del Buscador enfatizaron que algunas técnicas no crean penalidades; sin embargo podrían afectar el desempeño en el posicionamiento de un sitio Web en las páginas de resultados de búsqueda (SERP por sus siglas en Inglés).

De acuerdo a un artículo publicado por miembros de Google con fecha Lunes 18 de Diciembre del 2006 a las 2:28 PM, se lee:

El contenido duplicado generalmente se refiere a bloques substantivos de contenido dentro y a través de dominio de Internet que completamente coinciden con otro contenido o que son apreciablemente similares.

En un artículo diferente, los representantes de Google también indicaron que “El contenido duplicado no causa que su website sea puesto en el índice suplemental. Sin embargo, la duplicidad podría influenciar indirectamente”.

De hecho, talvez no exista una penalidad por contenido duplicado, pero eso no significa que el contenido duplicado no pueda dañar tu website, o que un revisor manual no lo removiera de las páginas de resultados de búsqueda debido a problemas de duplicidad.

La clarificación hecha por Google ha creado especulación, mal entendimiento y confusión por dos razones fundamentales:

  1. La gente esta empezando a creer que ahora no existe problema alguno en reproducir contenido utilizando páginas puente (doorway pages) ó sitios de afiliación delgados sin obtener alguna penalidad. Incluso me aventuraría a decir que los scrappers por lo pronto se sienten más cómodos con sus actividades ilícitas de violación de los derechos de propiedad intelectual, cuando en realidad estas acciones todavía constituyen infringimiento de los Términos de Servicios (TOS) de los buscadores.
  2. Otros aspectos que directamente afectan el contenido duplicado no fueron cubiertos en su totalidad, lo que perpetua el mito, uso y abuso de algunas técnicas. Por ejemplo, todavía existen preguntas pendientes sobre la posición de Google en cuanto a contenido duplicado en sitios globales orientados ha mercados con un mismo idioma como en el caso de España (.es), Argentina (.ar), Perú (.pe) y Estados Unidos (.us).

En este artículo explicaré algunas formas bastante comunes de contenido duplicado en que algunos webmasters incurren. También presentaré soluciones para lidiar con esos problemas de duplicidad de contenido, que no necesariamente sean las mejores para cada caso. Siempre es conveniente investigar cada opción más detalladamente y ejercitar discreción antes de tomar alguna acción.

Duplicidad de URL, Títulos de Páginas, Meta Descripciones y Meta Palabras Claves

Uno de los problemas principales que algunos de los webmasters novatos, y otros mas experimentados, enfrentan en términos de contenido duplicado y Posicionamiento en Buscadores, es largamente creado por sitios dinámicos como Content Management Systems (CMS), blogs y sitios de Comercio Electrónico.

Por ejemplo, digamos que tienes un sitio de Comercio Electrónico con 20 productos distribuidos en 2 páginas. Lo más probable es que la primera URL sea algo similar a esta:

www.TuWebsite.com/producto-contenido-duplicado.html

La segunda URL probablemente agregará un número indistinto, carácter no numérico, o la combinación de ambos al final de la URL con el propósito de hacerla única tal y como se muestra en el siguiente ejemplo:

www.TuWebsite.com/producto-contenido-duplicado-p2.html

A pesar que las URLs son técnicamente diferentes, desde el punto de vista de los Buscadores estas son casi idénticas, por lo que incrementaría la posibilidad de URLs duplicadas.

Recuerda que aunque un sitio de Comercio Electrónico use URLs dinámicas, estas pueden ser cambiadas a URL estáticas usando mod_rewrites a fin de que sean más amigables desde el punto de vista de SEO.

Adicionalmente, sería necesario implementar un módulo que permita agregar títulos de páginas, descripciones y palabras claves que sean únicas para cada URL. Caso contrario es muy probable que los título de las páginas, las Meta etiquetas de descripción y palabras claves sean las mismas en la primera y segunda URL.

Este tipo de problemas son detectados a través de notificaciones via Google Webmaster Tools, programas de rastreo de enlaces rotos y software de verificación de contenido.

En cuanto a paginación (los número 1,2,3, etc. que indican páginas sucesivas), lo recomendado sería usar el atributo nofollow en estos enlaces y los atributos noindex/nofollow en la Meta etiqueta Robots en las subsecuentes páginas. Las páginas subsecuentes también deberán ser bloqueadas con el comando disallow en robots.txt.

No hay que confiarse en descripciones cortas, porque estas tienden a crear más problemas de lo esperado. Puedes hacer uso de la etiqueta nosnippet si no deseas mostrar la descripción en SERP.

Múltiples URLs Apuntando a la misma Página

Del 2000 al 2003, William Pugh y Monika Henzinger realizaron investigación para Google relacionada a contenido duplicado. Uno de los temas tratados en la presentación en PDF de US Patent 6658423 fue que múltiples URLs como http://www.cs.umd.edu/~pugh y http://www.cs.umd.edu/users/pugh podrían crear problemas de contenido duplicado o cercano a contenido duplicado.

Por ahora esa preocupación parece ser parte del pasado. Google, y aparentemente otros Motores de Búsqueda, agrupan todas las URLs similares en un cluster y luego proceden a seleccionar la que ellos consideran es la mejor URL que represente al cluster. Una vez que la URL ha sido seleccionada, el link popularity (popularidad del link) será consolidado en ese enlace.

Sin embargo, esto no significa que tener múltiples URLs no podría diluir la popularidad del link, tal y como lo indicaran los representantes de Google.

De la misma forma, apuntar a una página a través de varias URLs similares puede ser contraproducente, ya que quedaría a discreción de los Buscadores el determinar cual es la fuente principal dentro un grupo de opciones. Tal como Michael Gray mencionara:

Cuando dejas a criterio de Google estas esperanzándote a que ellos adivinen lo que quieres. Aunque en la mayoría de casos lo hacen bien, hay varios casos en los que no.

Existen una par de opciones que pueden ayudar. La primera es usar conceptos como Theming y Siloing para la agrupación de información. Por ejemplo, si estas utilizando un sitio sobre Posicionamiento en Buscadores como este, puedes categorizar la información y tratar de mantener cada entrada en una sola categoría en vez de dispersarla en 5 o 6 categorías. Enlazar entradas en la misma categoría también ayudaría con la agrupación temática.

La segunda opción es ayudar a los Buscadores a identificar cual es la URL preferida, de las muchas apuntando hacia la misma página, a través de la inclusión de Sitemap.xml. Y si no eres partidario de utilizar Sitemap.xml para indicar tu preferencia, la otra opción es usar comandos en robots.txt para bloquear las URLs no preferidas. Esto debe ser combinado con el uso del atributo nofollow en todos aquellos enlaces internos a las URLs no preferidas.

URLs Canónicas

El problema con URLs Canónicas ha sido cubierto en diferentes partes de la web. Básicamente, debes decidir usar la versión con www, como en www.SpanishSEO.org, ó la versión sin www, por ejemplo SpanishSEO.org. Una vez que la decisión se ha llevado a cabo, puedes utilizar la redirección 301 para redireccionar la versión no preferida hacia la preferida.

También debes hacer de conocimiento de Google cual es la URL de preferencia a través de la consola de Google Webmaster Tools.

Una pequeña aclaración respecto a la URL de este sitio. La preferencia canónica afectaria a www.SpanishSEO.org convirtiendolo en SpanishSEO.org o viceversa. Sin embargo, esto no afectaría el sub-dominio es.SpanishSEO.org.

Archivos de Texto y Páginas de Impresión

El otro caso de duplicidad de contenido que es bastante conocido es creado por archivos PDF, MS Word, MS Excel y cualquier otra forma que pueda ser leída por las arañas de la Web (crawlers) y que no han sido excluidos en robots.txt. La misma situación se aplica a páginas usadas para propósitos de impresión que son creadas con fines de brindar información textual y/o gráfica que excluyen los elementos de diseño del website como banners o el menú de navagación.

Para solucionar este problema simplemente bloquea el acceso de las arañas a estos archivos y páginas de impresión usando el comando “disallow” en robots.txt. También agrega los atributos noindex/nofollow en la Meta etiqueta Robots de esas páginas.

Problemas de Navegación

Si tienes varias formas de acceder a la misma página a través de la barra de navegación, asegúrate de eliminar, bloquear o restringir todas las rutas de navegación innecesarias. En este punto deberías considerar preservar la popularidad de los enlaces al no servir varias URLs y permitir que los bots accedan al contenido de distintos ángulos creando un potencial problema de navegación circular. Esto tendería a confundir a los bots durante el proceso de descubrimiento de información a la par que aumentaría el uso de ancho de banda.

También puedes usar el atributo nofollow en los links de la barra de navegación o usar JavaScript a fin de tener mejor control. Recuerda que teorías como el primer anchor text es lo que cuenta, aunque no exista una conclusión contundente, podría afectar el peso dado a los links en una página.

Y si estas utilizando breadcrumbs para propósitos de usabilidad, una buena forma de mejorar este sistema es utilizar cookies. Sin embargo, este debe ser cuidadosamente planeado e investigado para evitar otros problemas.

Estructura de Enlaces

¿Haz escuchado de los problemas causados por dominios con PageRank dividido (Split PR)? Este es un problema que muchos webmasters fallan en reconocer principalmente debido al uso inadecuado de rutas de URLs como por ejemplo es.SpanishSEO.org/blog y es.SpanishSEO.org/blog/. Estas son dos direcciones completamente diferentes.

Si tus enlaces apuntan a TuWebsite.com, TuWebsite.com/index.php o www.TuWebsite.com, básicamente estas lidiando con 2 o mas sitios diferentes. Existen 5 cosas que puedes hacer para solucionar este problema:

  1. Asegúrate que todos los enlaces internos en tu website apunten al dominio preferido basado en tu preferencia canónica.
  2. Usa solamente la dirección canónica preferida en todos los enlaces externos. NO USES www.TuWebsite.com/index.htm ó TuWebsite.com/index.htm. Si tienes enlaces externos apuntando a URLs que no sean tu opción preferida, trata de cambiarlas una por una.
  3. Si usas breadcrumbs, asegúrate de verificar que todos los enlaces usados sean de tu opción preferida. Las personas tienden a olvidar de cambiar el enlace apuntando a “Home” (o Spanish SEO en este sitio) en el breadcrumbs.
  4. Usa enlaces absolutos o relativos; pero no ambos. Un ejemplo de un enlace relativo es el uso de “/” en la URL que conecta a la página central de este sitio. Un link absoluto es http://es.SpanishSEO.org/.
  5. Agrega el siguiente código a tu archivo .htaccess para redireccionar páginas estáticas como www.TuWebsite.com/index.htm a www.TuWebsite.com
    
    RewriteRule   /index.htm    / [NC,R=301,L]
    

    Este código funciona para dominios con www o sin www. Si usas páginas dinámicas, el siguiente código puede servir. Ten en cuenta que dependiendo de la configuración de tu sitio y tus necesidades, el archivo .htaccess podría requerir ajustes mayores talvez no incluídos en el siguiente código.

    
    RewriteCond %{THE_REQUEST} ^[A-Z]{3,9}\ /([^/]*/)*(index¦home)\.(html?¦php¦aspx?).*\ HTTP/
    RewriteRule ^(([^/]*/)*)(index¦home)\.(html?¦php¦aspx?)$ http://www.TuWebsite.com/$1? [R=301,L]
    

    No olvides de cambiar www.TuWebsite.com por el nombre de tu dominio.

Creo que esto cubre algunos de los problemas más severos que causan contenido duplicado. Y aunque discutible, estas son las formas más efectivas de lidiar con cada problema. Si hay algo más que consideres que deba agregar o cambiar, por favor deja tus comentarios o sugerencias aquí.

Popularidad de esta página: 48%

Compártenos:

  • E-mail this story to a friend!
  • Digg
  • del.icio.us
  • Google
  • BarraPunto
  • Blogosphere News
  • Furl
  • Ma.gnolia
  • Meneame
  • MisterWong
  • Technorati
  • BlogMemes Sp
  • Blogsvine
  • Pownce

Información Relacionada:

Comentarios

2 respuestas para “Problemas y Soluciones Practicas Para Contenido Duplicado”

  1. Fernando Tellado - Sábado 4 de Octubre de 2008 (10:39 am)

    Genial artículo, va para mis compartidos de GReader ;)

  2. Augusto Ellacuriaga - Sábado 4 de Octubre de 2008 (3:08 pm)

    Gracias Fernando. Un placer tenerte por acá mi estimado amigo.

    Voy a cerrar esta entrada ya que tiene un valor sentimental muy alto para mí.

    La termine de escribir el día que mi padre se fue de este mundo, y la voy a utilizar como fuente de inspiración para continuar con su legajo de ayuda al prójimo.

    Espero que esta información pueda servir a personas con problemas de contenido duplicado.