5 erros comuns ao usar URL’s canônicas para evitar o conteúdo duplicado – Wwwhat's new?

O atributo em HTML rel=canonical foi criado para combater o conteúdo duplicado na web, indicando aos buscadores (Yahoo!, Bing, Google, etc.,) que, dado um conjunto de páginas de similar conteúdo, devem prestar atenção somente a uma página específica. Os buscadores fazem isso de forma predeterminada, ao ver várias páginas similares (p. e., as geradas por lojas virtuais ao permitir ao usuário ordenar por “preço” e por “popularidade” um conjunto de artigos já que aparece o mesmo conteúdo porém, em outra ordem) mostrarão as mais “relevantes”, assim que o atributo rel=canonical é quem diz qual as que têm que dedicar mais atenção.

Pois bem, no Blog oficial para Webmasters do Google compartilham alguns conselhos sobre o que fazer ao tratar com esse tipo de link:

1. rel=canonical apontando à primeira de uma série de páginas

É simples, se tem algum artigo dividido em várias páginas e por se acreditar que seu conteúdo seja duplicado, se toma como URL canônica a primeira, e automaticamente se estaria ocultando dos buscadores o conteúdo da segunda, a terceira, a quarta, etc. Agora bem, se o que deseja é tratar com conteúdo paginado de outras maneiras poderia documentar sobre o “View-all” e as etiquetas“rel=prev” y “rel=next”.

2. URLs absolutas escritas como URLs relativas

Uma URL absoluta é uma do tipo “http://www.ejemplo.com/wp-images/gatos.png” con el sufijo “http://www.”. Uma URL relativa é uma mais simples que prescinde de tal sufixo para indicar rapidamente arquivos em sub-diretórios do site web, por exemplo, algo do tipo “wp-images/gatos.png” assinalará uma busca da imagem “gatos.png” dentro da pasta “wp-images”. Por conseguinte, ao misturar indiscriminadamente ambos tipos de URL internas, o única coisa que será feita é criar links com erros. Como exemplo, ao por <link rel=canonical href=“ejemplo.com/wp-images/gatos.png” />, estaria indicando que se trata de toda essa cadeia como uma URL relativa, o que o rel=canonical apontará à URL errônea http://www.ejemplo.com/ejemplo.com/wp-images/gatos.png

3. Múltiplos rel=canonical em uma página e/ou apontando a sites externos

Múltiplas declarações diferentes de rel=canonical dentro de uma mesma página pode fazer com que se perca por completo os benefícios de se valer de links com este atributo. Pode ser que passe direto e nem veja, pondo um par de exemplos, quando utiliza um modelo usado por outros usuários e os rel=canonical apontam a seu site web em vez do seu, ou quando os plugins SEO agregam links extra automaticamente. Assim, a única solução é revisar bem o código dos cabeçalhos para evitar dores de cabeça por negligências.

4. Páginas de categorias ou landing pages com rel=canonical que apontam a um artigo destacado

“Por querer fazer mais pode estar fazendo menos”. Ao pretender evitar o conteúdo duplicado entre uma página de categoria e um artigo destacado criando um link rel=canonical que aponte ao segundo, o que realmente pode acontecer é que os buscadores prescindam do primeiro por completo, logo se estaria arriscando todo um conjunto de artigos em troca de um, o que aparece como destacado; o mesmo acontece com as landing pages. Concluindo, não precisa colocá-los.

5. rel=canonical no corpo (`<`body`>`) da página

Falta reafirmar a importância do rel=canonical para evitar conteúdo duplicado por isso que deve ser uma das primeiras coisas visíveis ao carregar a página. Isso é conseguido só se for colocado devidamente o link com tal atributo na cabeceira da página, especificamente disposto tão acima quanto for possível dentro das etiquetas <head> ya que de otra manera, por ejemplo, al ponerlo en el <body> da página, será ignorado pelos buscadores.

1. rel=canonical apontando à primeira de uma série de páginas

2. URLs absolutas escritas como URLs relativas

3. Múltiplos rel=canonical em uma página e/ou apontando a sites externos

4. Páginas de categorias ou landing pages com rel=canonical que apontam a um artigo destacado

5. rel=canonical no corpo (<body>) da página

5. rel=canonical no corpo (`<`body`>`) da página