No artigo de hoje, daremos continuidade no tema “Entendendo mais sobre Mecanismos de Busca” e veremos com um pouco mais de detalhes cada um dos tipos de buscadores, no caso, os Crawler-based Search Engines, diretórios e mecanismos pagos por performance.

Mecanismos de Busca Crawler-based

Crawler-based SEs, também chamados de spiders ou crawlers, usam um software especial para automática e regularmente visitar os websites para criar e suplementar os seus imensos depósitos de páginas Web.

Este software é chamado como “bot”, “robot”, “spider”, ou “crawler”. Todos esses termos denotam o mesmo conceito. Estes programas rodam em mecanismos de busca. Eles navegam em páginas que já existem em seus depósitos e encontram um site seguindo links destas páginas.

Depois que um spider encontrou uma página, ele solicita esta página via http – como qualquer outro internauta que digita uma URL no campo do endereço do navegador – o Servidor Web então retorna a fonte do código HTML da sua página para o spider. O spider então lê (esse processo é chamado “crawling” ou “spidering”) e é neste momento que as diferenças entre um visitante humano e um software crawler começam a surgir.

Enquanto um visitante humano pode apreciar a qualidade gráfica, design e as animações contidas na página, um spider não faz isso, ele efetua a leitura, dando mais valor ao conteúdo e a forma que ele é colocado no código fonte.

Muitas vezes muito dinheiro é investido em design e animações um website para cativar e ganhar a admiração de seus visitantes. São inseridas muitas animações em Flash e scripts em Javascript. O problema é que o spider de mecanismo de busca verá apenas que existem alguns objetos na página e alguns códigos embutidos na tag “<script>”, que são em grande parte ignorados. Portanto, se forem aplicados de maneira errada, estes elementos de design podem se tornar grandes obstáculos na busca do spider pelo conteúdo da página. Isso resulta no rebaixamento da classificação da página, fazendo como que ninguém encontre o website, nem aprecie o design e animações.

Isso não quer dizer que não se deve inovar no design, mas que a visibilidade do conteúdo deve ser levada em conta na hora do desenvolvimento.

Depois de ler a página do website, o mecanismo de busca vai comprimi-la numa forma que é conveniente para armazenar em grandes depósitos de páginas web chamados “índices de mecanismos de busca” (Search Engine Index). Os dados são armazenados nesses índices de maneira que a busca consiga rapidamente encontrar as páginas relevantes de acordo com as palavras-chave informadas e exibi-las nas páginas de resultados. O processo de inclusão da página no índice é chamado “indexação”. Depois que a página foi indexada, ela aparecerá em resultados dos mecanismos de busca, entretanto sua posição na lista, pode variar.

O mecanismo de busca agora usa uma sofisticada técnica para determinar o quão relevante a sua página é para estes termos. Ele considera muitos fatores tanto internos como externos e avalia a página posicionando-a nos resultados de acordo com essa pontuação. Este processo é chamado “ranking”.

O Google é um exemplo perfeito de um mecanismo de busca crawler-based.

Diretórios

Os Diretórios, também conhecidos como catálogos, são sistemas de busca que têm como característica a organização dos sites em categorias, que seguem uma estrutura lógica e são subdivididas em outras categorias mais detalhadas. Por exemplo, a categoria esportes tem a subdivisão futebol que por sua vez pode ser divida em profissional e amador.

Os diretórios são normalmente desenvolvimentos por seres humanos, diferente das ferramentas de busca que usam robôs como será apresentado a frente. Apesar de serem pouco conhecidos, os diretórios são muito valiosos no mercado de ferramentas de busca. Eles servem de base para diversos mecanismos começarem sua busca por links. Os principais diretórios existentes são o DMOZ.org e o Yahoo!. O Google utiliza o DMOZ, já o Yahoo!, até por causa de sua origem, possui um diretório próprio. Além disso, como diretórios são usualmente criados por editores experientes, eles geralmente produzem melhores (pelo menos melhor filtrados) resultados.

Mecanismos pagos por performance (Pay-for-performance engines) ou com inclusão paga (Paid inclusion engines).

Para terminar, como o próprio nome já diz, com esses mecanismos não há outra forma senão pagar periodicamente ou uma única taxa, para manter determinado site nos resultados, revisto por spiders, ou bem posicionado para palavras-chave previamente escolhidas. Existem poucos mecanismos de busca que são somente focados nas listagens pagas. Entretanto, a maior parte dos mecanismos de busca oferece uma opção de listagem paga (Links Patrocinados do Google ou Yahoo!) como uma parte de sua indexação e sistema de ranking.

Eric N. Princi

Formação técnica pela Unicamp e bacharel em Ciência da Computação pela USP. É diretor da Princi Agência Web e trabalha com desenvolvimento web desde 2001. Siga-me no Twitter: @agenciaweb e @ericprinci.

Deixe seu comentário

Comentários

Nenhum comentário em “Classificação dos Mecanismos de Busca”.


Sobre

No Blog da Princi Agência Web você fica por dentro das novidades da nossa agência, além de conferir nossos artigos sobre as tecnologias de desenvolvimento web, web design e marketing digital.

XHTML