Saltar al contenido
Codifíca.me | Desarrollo web | Programación

Cómo eliminar el contenido duplicado de tu web

2 junio, 2012
canonical

Eliminar Contenido duplicado indexado

Para que los motores de búsquedas como Google no indexen contenido duplicado de tu web, debemos realizar algunos cambios para indicar a los buscadores que pueden indexar y que no pueden indexar de nuestra web. De esta manera Google indexará el contenido que tu quieras que indexe y no almacenará contenido duplicado.

Por ejemplo, cuando utilizamos un gestor de contenidos como WordPress o Druppal para crear nuestra web, muchas entradas o páginas se pueden mostrar desde diferentes url.

Cuando esto ocurre los buscadores encuentran varias url con el mismo contenido o parecido, y deciden cuales indexan y cuáles no o indexan ambas duplicando el contenido.

En estos casos puede ocurrir que los buscadores no indexen la url correcta y muestren una url incorrecta, esto puede suponer algunos cambios en la página, por ejemplo el titulo de la pagina no sería igual si entras por una url o por otro, tampoco sería igual el enlace de la url, también pueden variar las cabezeras (h1,h2) dependiendo de como las tengas definidas en tu gestor de contenidos y en algunos casos incluso puede variar parte del contenido porque lo recorte o algo similar.

Conocer el número de páginas indexadas por Google

La forma más sencilla de ver cuántas paginas tiene indexadas Google sería escribir en el buscador site:nombreDeLaPagina.com por ejemplo.

Si el número que obtienes es superior a las páginas que has desarrollado en tu web, es obvio que Google está indexando más contenido del que realmente tienes. Por consiguiente tienes contenido duplicado indexable en tu web. Puedes echar un vistazo a cada uno de los link que te salen y ver todas las url que Goglee tiene en su índice.

indexar contenido duplicado canonical

Eliminar contenido duplicado con robots.txt

Para eliminar el contenido que no quieres indexar, puedes utilizar el fichero robot.txt e indicar que páginas no quieres que te indexe.
Por ejemplo, puedes eliminar la indexación de todas las páginas que partan del directorio /category/ o las paginas que cuelguen del directorio /tag/

Disallow: /category/
Disallow: /tag/

Eliminar contenido duplicado utilizando el link canonical

Ahora, tambien puedes hacer esto utilizando las url canónicas, con ellas vas a sugerir que google indexe la página que le has indicado en lugar de la que estás.

Supongamos que estás en la página www.ejemplo.com y quieres que esta página no se indexe y que en cambio se indexe otra que tiene más o menos el mismo contenido, en esta caso www.ejemplo.com /page2 . Para realizar esto tienes que incluir en la primera página “www.viajerossinrumbo.com” el link relativo canonical dentro de las etiquetas…, que en este ejemplo quedaría así:

Es muy importante saber que canonical no actua como una directiva sino como sugerencia, por lo google o cualquier otro motor de búsqueda será finalmente el que decida si aplica o no este cambio, dependiendo de lo que google cree que es mejor indexar.

En este video de Matt Cutts (ingeniero de Google) lo explica

Eliminar contenido duplicado a traves del fichero .htaccess

Por último, podemos redireccionar las páginas, a traves del fichero .htaccess, para ello basta con realizar una redirección 301 e indicar cuál es la página que quieres que muestre.

Para solucionar la duplicación del contenido desde el fichero .htaccess tendrías que modificar este fichero indicando a dónde se redireccionan las url que no quieres indexar, quedaría así:


Redirect 301 http://www.noindexable.com http://www.indexable.com

Redirect 301 http://www.noindexable.com/paginax http://www.indexable.com/paginay

Después de realizar los cambios anteriores tendrán que pasar algunas semanas o incluso meses para que los buscadores des-indexen las páginas duplicadas que no quieres que muestre el navegador.

Lo mejor es que después de los cambios solicites la eliminación del índice de Google a través del WebMasterTools de Google.

Eliminar rápidamente una página de Google

Forzar la desindexación de Google

La forma más rápida de lograr que google te desindexe xxx urls , es realizarlo directamente desde la Search Console. Google te desindexará durante 90 días, eso si , asegúrate de que luego tu página sea noindex, o no exista. Puedes solicitarlo desde este link dexindexar url Google Search Console

En la última versión de la search console te aparecerá una pantallita como esta en la que tienes que introducir las urls que quieres eliminar.

Entradas relacionadas

Deja una respuesta

Tu dirección de correo electrónico no será publicada.

Comentarios (14)

Buenas, muy buen blog y muy bien explicado! pero tenia una pequeña pregunta ya que ando un poco perdido.
Tenia un blog a media construcción con wordpress en un dominio antiguo mio, ahora lo pase y lo finalice al nuevo dominio, por error deje un mes el otro blog con el mismo contenido pero la mitad de paginas( sin finalizar) activo, hace poco borre todo y ahora el nuevo blog en herramientas de webmaster de google no me indexa las paginas, si desde donde miras las paginas del sitemap pero donde esta el estado de indexacion me pone que 0.
Espero que me puedas ayudar, esque con esto me pierdo! jeje
Un saludo y gracias

Responder

Hola,

Si tienes dos dominios diferentes y el contenido ha variado no deberías tener problemas para indexarlo, asegurate de que tienes un sitemap de la web y que pueden llegar a él.

O si lo prefieres enlaza el sitemap de tu sitio desde las herramientes de webmaster.

Desde ahí puedes borrar, añadir o probar el fichero sitemap que quieras enlazar.

Saludos

Responder

Buanas, Gracias por contestar primero de todo.
Haber el contenido ha variado pero 4 o 5 paginas eran iguales, la principal y 4 mas por ejemplo son las mismas porque exporte wordpres a otro dominio y tarde un mes en borrar el otro…
No se si por aqui podria venir el pobrema.
Gracias por echarme una mano.
Un saludo

Responder

El problema puede venir por ahí, prueba a reescribir los artículos! suerte!

Responder

Gracias por contestar, la verdad es que ya lo suponía que seria ese el problema, supongo que si el otro contenido lo borre, tardara un tiempo google en desindexar los otros contenidos e indexarlos estos como nuevos… Quiza espere un poco y luego cambie el contenido no? porque la verdad es que no lo se…
Muchas gracias!!
un saludoo

Responder

Sabes como le puedo hacer para que el título de mi post no sea h1

Trabajo con seo pressor y este me pide que mi post contenga una h1 (no reconoce que el titulo de wordpress es h1) y por ende todos mis posts tienen dos h1 y se que no es lo ideal

Veo que tu no tienes este problema… Saludos

Responder

Hola,
Entiendo lo que te sucede, pero eso es cosa del theme de tu WordPress, si programas un poquito edítalo y cambia ahí la cabecera de cada post para que no sea un h1.

Por lo general es muy fácil de hacer.
Saludos

Responder

Buenos días, si esto es factible ya que tuve un problema hace tiempo con esto pero lo solucioné con un codigo èrp ahora parece que ya no funciona. Ahora según sus conocimientos se puede hacer esto: Redirect 301 noindexable.com www indexable.com

Redirect 301 www noindexable.com/paginax www indexable.com/paginay pero en mi caso lo veo medio confuso porque recién llevo 2 pero llegué a tener más de 3000 url duplicadas que daban a un adjunto como es la imagen, ejemplo: rsanahuano.com/la-moda-de-ser-inculto-y-vulgar/la-moda-de-ser-inculto-y-vulgar1-2/ que es la que sale como duplicada, señalando que hay otra con 1. Lo correcto es rsanahuano.com/la-moda-de-ser-inculto-y-vulgar/ En el ejemplo que pones ¿Cómo sería lo que debo cambiar en el .htaccess? Desde luego tomando en cuenta que saben salir extensiones 1, 1-2, y hasta 1-2-3-4/

Gracias por la respuesta.

Responder

Hola, no se si te he entendido bien, pero en el caso de que tengas muchas urls duplicadas para un mismo contenido, lo mejor es que lleven el atributo canonical con la url que quieres que Google tenga en cuenta.

Si todas tienes el contenido similar y una es la que quieres que indexe Google, yo utilizaría el rel canonical que te da Google para ello.

paginaA tiene rel=canonical paginaA (es la buena)
paginaB tiene rel canonical paginaA (tiene menos contenido)
paginaC tiene rel canonical paginaA (tiene menos contenido)

Le puedes echar un ojo a este link.
https://support.google.com/webmasters/answer/139066?hl=es

Saludos

Responder

Hola en mi tienda online es xxxxxx en el buscado de google no sale https: sino http: eso es porque aún no la indexado o es que tengo duplicado?

He mirado todo el sitemap y parece todo bién.

Un saludo y gracias.

Responder

Hola Rosa, qué tal.

Vuelve a comprobarlo ya que yo lo veo correctamente, yo acabo de comprobarlo en Google y tienes con las dos la misma cantidad de entradas, así que no veo ningún problema.

Respecto a la tienda, te comentaré que WordPress suele gestionar bien todo lo que sea indexación, SEO, etc, además el plugin que tienes de YOAST realiza todo el trabajo correctamente.

En cuanto a SEO, te comento que Google no te va a enviar casi nada de tráfico a tu web por múltiples motivos, que te resumo a continuación.
Primero no tienes textos en tus artículos, los artículos tienen que tener un texto grande, de muchas muchas palabras, y tienes unas 10 palabras por producto.
Abusas de los links hacia tus propios artículos, si te fijas tienes un footer con unos 100 , 150 links, que se repetirán en cada una de tus páginas de productos, seguramente esto te traiga también problemas con Google.
Además pones links en páginas que no tienen una temática relacionada con tu web, por ejemplo, tienes links en páginas de horóscopos, en páginas de helados y en esta página que es de programación, como ves no tiene nada que ver con tu temática. Deberías buscar links en webs que estén relacionadas con la tuya.
Deberías corregir todo esto para lograr que Google te valore un poco más.

Si tienes dudas estoy por aquí.
Un cordial saludo,

Responder

hola. Qué como siempre estamos en manos de los señores buscadores o sea google un máquina con muchos fallos pero que sabe vender su producto y nada más un poco bueno la podrían mejorar

Responder

Hola Fco, gracias por tu comentario.

Pues si, lo podrían mejorar, aunque en el fondo somos nosotros los culpables que hacemos que Google tenga el monopolio. Y teniendo el monopolio y siendo el número uno en esto, después tenemos que bailar exactamente como Google quiera.

Saludos

Responder

Hola el problema es que tengo urls duplicadas desde hace unos 7 meses y google despues de modificar el
hhtces no baja las urls de ninguna manera las baja 20 o 30 cada vez que quiere es realmente un problema muy grande que solucion puede haber

Responder