Hoje, todo mundo usa o Google; é uma das maiores corporações do mundo. Todos assistimos a vídeos do YouTube, escrevemos no Google Docs e sabemos que nosso telefone contém um mecanismo de pesquisa. Mas você entende como funciona o mecanismo de pesquisa? É fundamental entender como o software conhecido como mecanismo de pesquisa busca informações, especialmente se você trabalha on-line ou deseja criar seu próprio site.
O que são mecanismos de pesquisa?
Os mecanismos de pesquisa são programas de software que localizam e categorizam o conteúdo da Web que corresponde à consulta de um usuário. Ou seja, se você digitar "jogos de tabuleiro" no Google, provavelmente desejará ver primeiro uma loja de jogos ou uma locadora de jogos em sua área e só depois, por exemplo, a coleção de jogos de tabuleiro de algum homem de outro continente.</p >
A tarefa crucial de um mecanismo de pesquisa é fornecer aos usuários os resultados mais relevantes. Isto é, em teoria, como eles ganham ou mantêm participação de mercado. Alguns dos mecanismos de pesquisa mais populares são Google, Bing e DuckDuckGo. Se você perguntar a um estranho o que é um mecanismo de pesquisa, ele quase certamente dirá "Google".
Quanto mais sites houver na internet, mais difícil será encontrar conteúdo interessante. Nos anos 90, quando você digitava algo no Google, o programa pesquisava sua biblioteca até encontrar as palavras digitadas. Agora, o mecanismo de busca emprega um algoritmo, que é um conjunto de regras que determina a relevância de uma página para sua consulta . Por exemplo, se houver muitos links na Web que digam "Recomendo esta ótima loja de jogos de tabuleiro", o programa saberá qual é esse site.
Índice de pesquisa e algoritmos
Os mecanismos de busca indexam a Web usando bots conhecidos como spiders.... não, eles não são robôs reais, são programas que executam uma função simples. No caso deles, é seguir links de página em página para descobrir novos conteúdos para o índice de pesquisa. Eles agem como se fossem humanos, clicando em todos os links que encontram e salvando cada página no índice. Cada mecanismo de pesquisa consiste em dois componentes principais:
- Índice de pesquisa. Esta é uma biblioteca digital de informações sobre páginas da web. As páginas da web são armazenadas nela conforme o robô as "vê". Por exemplo, o Google pede que os web designers adicionem descrições de ilustrações às imagens para que possam ser encontradas com mais facilidade.
- Algoritmo de pesquisa. São programas de computador que processam os resultados do índice de pesquisa e sabem quando fornecer qual resultado. Tal algoritmo organiza adequadamente as páginas da web, desde as melhores relacionadas ao tópico até as menos. Por exemplo, uma pesquisa por "jogos de tabuleiro" resultará em lojas de jogos ou no banco de dados de jogos de tabuleiro boardgamegeek.com - que é muito popular e frequentemente vinculado.
Como os mecanismos de pesquisa criam seus índices
Os índices de pesquisa dos mecanismos de pesquisa mais populares, como Google e Bing, contêm trilhões de páginas. O Google fornece o seguinte procedimento básico de indexação de conteúdo:
- Tudo começa com uma lista conhecida de URLs. O Google os descobre por meio de vários métodos. Antigamente, os internautas costumavam falar sobre "portais da web" como yahoo.com ou aol.com - este era um site especial, constituindo basicamente um "portal" para a Internet. Nele, você podia encontrar links para um site, onde havia links para outro e assim por diante. Havia diretórios de sites, agregando vários sites, que hoje não funcionam mais. Então, como estão as páginas de indexação "robôs" do Google hoje em dia?
- O índice do Google já contém trilhões de sites. Os robôs "retornam" aos sites antigos de tempos em tempos para ver o que mudou. Os robôs seguirão um link de um desses sites para uma de suas páginas. É uma boa ideia adicionar seu próprio site ao índice do Google ao construí-lo - existem ferramentas especiais para isso.
O spider examinará facilmente seu site se você usar um sitemap que inclua todas as subpáginas. O envio de um sitemap ao Google pode ajudá-los a encontrar seu conteúdo mais rapidamente.
O Google pesquisa na Internet, você pesquisa no Google
A indexação é o processo de visitar e avaliar páginas descobertas por um bot de computador conhecido como spider (por exemplo, Googlebot). Ele detecta palavras-chave como "jogos de tabuleiro", "dados", "peões" e "jogos de família" aqui. Mais palavras-chave nem sempre significam “melhor”. Quando os mecanismos de busca foram desenvolvidos, por exemplo, havia fazendas de links, que eram páginas preenchidas com conteúdo gerado aleatoriamente contendo palavras-chave. Felizmente, o algoritmo aprendeu a ignorar esses farms e frequentemente penaliza as páginas que os utilizam.
A seção a seguir é uma classificação. O Google classifica as páginas de indexação com base em vários fatores, incluindo sua popularidade, a frequência com que o URL muda, como as palavras-chave são distribuídas e se a página é bem projetada. Ninguém além do Google está ciente de todo o processo. Quanto maior o Page Rank, maior a posição do site em um mecanismo de pesquisa do Google, o que é importante para as pessoas que vendem coisas na Internet
De acordo com esses critérios, as páginas da web são adicionadas ao índice do Google. Ao digitar uma consulta em um mecanismo de pesquisa, você não está pesquisando resultados correspondentes na Internet. Você está pesquisando no índice de sites do Google. Se você criou um site há 10 minutos, o Google ainda não o indexou e não irá pesquisá-lo. O Google tem backups de grandes áreas da rede WWW (as páginas que você vê quando faz login na Internet) e outros serviços da Internet, como os arquivos Usenet, que eram como os primeiros fóruns de discussão da Internet.
Os usuários de mecanismos de pesquisa não encontrarão um site se ele não estiver no índice de pesquisa. Por isso é tão importante que seu site esteja indexado nos principais buscadores como Google e Bing. Muitos conteúdos são mantidos na chamada Darknet - que são essencialmente páginas da web não indexadas por mecanismos de busca.
O mecanismo de pesquisa mais popular é…
O Google é o mecanismo de pesquisa mais popular, com 92% de todos os usuários usando-o. O Bing da Microsoft é bastante popular, com muitos recursos avançados semelhantes aos que o Google usa. Ele sobrevive porque é integrado ao Microsoft Office e ao navegador Edge.
Existem mecanismos de pesquisa locais — a China usa o Baidu e a Rússia, o Yandex — não apenas por causa da censura pesada, mas também porque os mecanismos locais são melhores na indexação de conteúdo local. Por exemplo, muitas pessoas na República Tcheca usam o Seznam local, enquanto Naver é popular na Coréia do Sul. Muitos usuários do Linux preferem o DuckDuckGo porque ele não rastreia seus hábitos de navegação e oferece privacidade. Você pode encontrar muitos outros exemplos aqui.
Novos recursos dos mecanismos de pesquisa
O Google vem adicionando cada vez mais recursos ao mecanismo de pesquisa nos últimos anos. Você provavelmente sabe que o Google pode converter moedas e unidades dos EUA para métrico e vice-versa. Ele se integra à Wikipedia para fornecer a você conhecimento específico sobre o tópico pesquisado, bem como a outros sites locais confiáveis para fornecer informações locais, como previsões do tempo e listagens de filmes.
Os usuários de mecanismos de pesquisa não encontrarão um site se ele não estiver no índice de pesquisa. Por isso é tão importante que seu site esteja indexado nos principais buscadores como Google e Bing. Muitos conteúdos são mantidos na chamada Darknet - que são essencialmente páginas da web não indexadas por mecanismos de busca.