Eliminar Contenido duplicado indexado
Para que los motores de búsquedas como Google no indexen contenido duplicado de tu web, debemos realizar algunos cambios para indicar a los buscadores que pueden indexar y que no pueden indexar de nuestra web. De esta manera Google indexará el contenido que tu quieras que indexe y no almacenará contenido duplicado.
Por ejemplo, cuando utilizamos un gestor de contenidos como WordPress o Druppal para crear nuestra web, muchas entradas o páginas se pueden mostrar desde diferentes url.
Cuando esto ocurre los buscadores encuentran varias url con el mismo contenido o parecido, y deciden cuales indexan y cuáles no o indexan ambas duplicando el contenido.
En estos casos puede ocurrir que los buscadores no indexen la url correcta y muestren una url incorrecta, esto puede suponer algunos cambios en la página, por ejemplo el titulo de la pagina no sería igual si entras por una url o por otro, tampoco sería igual el enlace de la url, también pueden variar las cabezeras (h1,h2) dependiendo de como las tengas definidas en tu gestor de contenidos y en algunos casos incluso puede variar parte del contenido porque lo recorte o algo similar.
Conocer el número de páginas indexadas por Google
La forma más sencilla de ver cuántas paginas tiene indexadas Google sería escribir en el buscador site:nombreDeLaPagina.com por ejemplo.
Si el número que obtienes es superior a las páginas que has desarrollado en tu web, es obvio que Google está indexando más contenido del que realmente tienes. Por consiguiente tienes contenido duplicado indexable en tu web. Puedes echar un vistazo a cada uno de los link que te salen y ver todas las url que Goglee tiene en su índice.
Eliminar contenido duplicado con robots.txt
Para eliminar el contenido que no quieres indexar, puedes utilizar el fichero robot.txt e indicar que páginas no quieres que te indexe.
Por ejemplo, puedes eliminar la indexación de todas las páginas que partan del directorio /category/ o las paginas que cuelguen del directorio /tag/
Disallow: /category/
Disallow: /tag/
Eliminar contenido duplicado utilizando el link canonical
Ahora, tambien puedes hacer esto utilizando las url canónicas, con ellas vas a sugerir que google indexe la página que le has indicado en lugar de la que estás.
Supongamos que estás en la página www.ejemplo.com y quieres que esta página no se indexe y que en cambio se indexe otra que tiene más o menos el mismo contenido, en esta caso www.ejemplo.com /page2 . Para realizar esto tienes que incluir en la primera página “www.viajerossinrumbo.com” el link relativo canonical dentro de las etiquetas…, que en este ejemplo quedaría así:
Es muy importante saber que canonical no actua como una directiva sino como sugerencia, por lo google o cualquier otro motor de búsqueda será finalmente el que decida si aplica o no este cambio, dependiendo de lo que google cree que es mejor indexar.
En este video de Matt Cutts (ingeniero de Google) lo explica
Eliminar contenido duplicado a traves del fichero .htaccess
Por último, podemos redireccionar las páginas, a traves del fichero .htaccess, para ello basta con realizar una redirección 301 e indicar cuál es la página que quieres que muestre.
Para solucionar la duplicación del contenido desde el fichero .htaccess tendrías que modificar este fichero indicando a dónde se redireccionan las url que no quieres indexar, quedaría así:
Redirect 301 http://www.noindexable.com http://www.indexable.com
Redirect 301 http://www.noindexable.com/paginax http://www.indexable.com/paginay
Después de realizar los cambios anteriores tendrán que pasar algunas semanas o incluso meses para que los buscadores des-indexen las páginas duplicadas que no quieres que muestre el navegador.
Lo mejor es que después de los cambios solicites la eliminación del índice de Google a través del WebMasterTools de Google.
Eliminar rápidamente una página de Google
Forzar la desindexación de Google
La forma más rápida de lograr que google te desindexe xxx urls , es realizarlo directamente desde la Search Console. Google te desindexará durante 90 días, eso si , asegúrate de que luego tu página sea noindex, o no exista. Puedes solicitarlo desde este link dexindexar url Google Search Console
En la última versión de la search console te aparecerá una pantallita como esta en la que tienes que introducir las urls que quieres eliminar.