Vídeo: Augusto Nunes: Espero que imprensa corrija suas próprias falhas (Novembro 2024)
Para receber minhas notícias, costumo digitalizar o Google Notícias, que agrega artigos de todo o mundo com base nas tendências do "robô". É tudo sobre o que é tendência. Geralmente, perde notícias de última hora e ignora totalmente comentários importantes, como minha coluna. Em vez disso, parece preferir usar links mortos - com o que quero dizer o Wall Street Journal , que exige uma assinatura para ser lido.
Hoje é um exemplo disso. Houve uma notícia de última hora na CES sobre a Dish Network fazendo uma oferta para comprar a Clearwire. Mas, em vez de vincular a qualquer uma das matérias relacionadas por sites gratuitos e legíveis, o Google decide que a matéria principal deve vir do Wall Street Journal .
No passado, o Google tinha algum tipo de acordo que permitia aos usuários ler pelo menos o parágrafo principal, ou mesmo o artigo inteiro, antes de serem bloqueados pelo paywall. A menos que você conheça um truque de desvio (discutido abaixo), isso não se aplica mais. Agora você corre para o paywall e está pronto. Suponho que os assinantes reais superem isso, mas me pergunto como os robôs do Google conseguem encontrar a história em primeiro lugar. O Google está pagando? Eu duvido. Então deve haver algum tipo de backdoor para os bots do Google, certo?
Isso é falso e faz um desserviço aos usuários do Google. O Google passa por todo esse problema para derrotar as pessoas que tentam burlar o sistema, mas permite que o Wall Street Journal faça esse truque? Isso é essencialmente pago pelas assinaturas do Wall Street Journal . É isso que o Google quer? O Google está recebendo um corte?
Não pode ser tão difícil para o Google simplesmente corrigir esse aborrecimento. Levaria um minuto - cinco tops. Isso é muito trabalho?
Se uma empresa tiver um paywall embutido em seu serviço, o Google não deverá procurar no site. Os bots devem saber que existe um paywall e simplesmente evitar a pesquisa. E, sim, gostaria de uma explicação sobre como exatamente os bots podem pesquisar em um site bloqueado por um paywall. É um mistério.
Um paywall deve ser exatamente o mesmo que um "robots.txt" que diz ao bot do rastreador para ir embora. Mas há algo suspeito no relacionamento entre o WSJ e o Google. A maneira mais fácil de matar todos os bots é uma metatag no arquivo robots.txt, assim: .
O WSJ bloqueia especificamente determinados subdiretórios, mas aparentemente não todos. E mais estranho ainda, se você pesquisar exatamente o mesmo artigo no Google Notícias, em vez de simplesmente clicar no link do resumo, você o conseguirá através de outro mecanismo.
Desafio os leitores mais técnicos a descobrir o que está acontecendo com esses dois examinando o arquivo robots.txt empregado pelo WSJ . Um documento público está disponível aqui.
Seja qual for o caso, os sites têm paywalls por razões financeiras. Se eles querem jogar com seu conteúdo, é uma coisa, mas deve ser banido dos resultados da pesquisa da mesma maneira que o Google tenta frustrar as pessoas que tentam jogar no sistema. O Google proibirá um blogueiro infeliz com um comportamento superficial. Que tal lidar com sites maiores da mesma maneira?
Você pode seguir John C. Dvorak no Twitter @therealdvorak.
Mais John C. Dvorak:
Fique de fora do tópico com John C. Dvorak.
VER TODAS AS FOTOS DA GALERIA