Robôs de Busca
Clique na imagem para melhor visualização
Um Web crawler é um tipo de robô de Internet ou agente de software. Em geral, ele começa com uma lista de URLs para visitar. À medida que o crawler visita essas URLs, ele identifica todos os links na página e os adiciona na lista de URLs para visitar. Tais URLs são visitadas recursivamente de acordo com um conjunto de regras.
Crawler
É um software desenvolvido para realizar uma varredura na internet de maneira sistemática através de informação vista como relevante a sua função. Eles capturam os textos das páginas e cadastram os links encontrados e assim possibilitam encontrar novas páginas. São uma das bases das Search Engines, eles são os responsáveis pela indexação dos sites, armazenando-os na base de dados dos motores de busca. Também são conhecidos como Spider ou Bot (robô).Spider
Também conhecido como Robô, Robot, Bot ou Crawler. São programas usados pelos mecanismos de busca para explorar a internet de maneira automática e fazer download de conteúdo web de sites web. De forma metódica, não expões o conteúdo que julga irrelevante no código fonte dos sites, e armazena o resto em seu banco de dados. Deste modo, os mecanismos de busca baseados em robôs (spider ou crawlers) que vasculham a Internet atrás de informações e classificam as buscas de acordo com os links e também os conteúdos encontrados nas páginas de busca, como é o caso do maior portal de buscas da web, o Google.- Primeiro eles acham as páginas do sítio (processo chamado spidering ou crawling) e constroem uma lista de palavras e frases encontradas em cada página;
- Com esta lista eles fazem um banco de dados e encontram as páginas exatas que eles devem procurar, inserindo o sítio vasculhado no banco de dados geral organizado pelas características encontradas em suas páginas. A máquina que insere o sítio no banco de dados geral se chama indexer;
- Depois disso o robô já está apto a encontrar este sítio quando o usuário final digitar na busca uma palavra ou expressão relativa ao conteúdo encontrado no sítio. Essa etapa é chamada query processor.

Como
podemos perceber, por trás de qualquer busca realizada na internet, há uma
série de mecanismos que trabalham unidos para fornecer um resultado
satisfatório ao usuário. O processo parece um tanto complexo, no entanto, nada
perceptível a nós, meros buscadores de informações.
No similar posts
Assinar:
Postar comentários
(
Atom
)
Nenhum comentário :
Postar um comentário