Semalt fornece dicas sobre como lidar com bots, aranhas e rastreadores

Além de criar URLs compatíveis com os mecanismos de pesquisa , o arquivo .htaccess permite que os webmasters bloqueiem o acesso de sites específicos a robôs específicos. Uma maneira de bloquear esses robôs é através do arquivo robots.txt. No entanto, Ross Barber, gerente de sucesso do cliente Semalt , afirma que viu alguns rastreadores ignorando essa solicitação. Uma das melhores maneiras é usar o arquivo .htaccess para impedi-los de indexar seu conteúdo.
O que são esses bots?
Eles são um tipo de software usado pelos mecanismos de pesquisa para excluir novos conteúdos da Internet para fins de indexação.

Eles executam as seguintes tarefas:
- Visite páginas da web às quais você vinculou
- Verifique seu código HTML quanto a erros
- Eles salvam em quais páginas da web você está vinculando e vêem quais páginas da web estão vinculadas ao seu conteúdo
- Eles indexam seu conteúdo
No entanto, alguns bots são maliciosos e pesquisam em seu site endereços de email e formulários geralmente usados para enviar mensagens indesejadas ou spam. Outros ainda procuram brechas de segurança no seu código.
O que é necessário para bloquear rastreadores da Web?
Antes de usar o arquivo .htaccess, é necessário verificar o seguinte:
1. Seu site deve estar em execução em um servidor Apache. Hoje em dia, mesmo as empresas de hospedagem de sites com um desempenho decente, oferecem acesso ao arquivo necessário.
2. Você deve ter acesso aos logs brutos do servidor do seu site para poder localizar quais bots estão visitando suas páginas da web.
Observe que não há como você bloquear todos os bots prejudiciais, a menos que você os bloqueie, mesmo aqueles que considere úteis. Novos robôs surgem todos os dias, e os mais antigos são modificados. A maneira mais eficiente é proteger seu código e dificultar o envio de spam por bots.
Identificação de bots
Os robôs podem ser identificados pelo endereço IP ou pela "Cadeia do agente do usuário", que eles enviam nos cabeçalhos HTTP. Por exemplo, o Google usa "Googlebot".
Você pode precisar dessa lista com 302 bots se já tiver o nome do bot que gostaria de manter afastado usando .htaccess
Outra maneira é baixar todos os arquivos de log do servidor e abri-los usando um editor de texto. A localização deles no servidor pode mudar dependendo da configuração do servidor. Se você não conseguir encontrá-los, procure assistência do seu host.

Se você souber qual página foi visitada ou a hora da visita, é mais fácil vir com um bot indesejado. Você pode procurar o arquivo de log com esses parâmetros.
Uma vez, você anotou quais bots você precisa bloquear; você pode incluí-los no arquivo .htaccess. Observe que bloquear o bot não é suficiente para detê-lo. Pode voltar com um novo IP ou nome.
Como bloqueá-los
Faça o download de uma cópia do arquivo .htaccess. Faça backups, se necessário.
Método 1: bloqueio por IP
Este trecho de código bloqueia o bot usando o endereço IP 197.0.0.1
Negar pedido, permitir
Negar a partir de 197.0.0.1
A primeira linha significa que o servidor bloqueará todas as solicitações correspondentes aos padrões que você especificou e permitirá todas as outras.
A segunda linha diz ao servidor para emitir uma página 403: proibida
Método 2: bloqueio por agentes do usuário
A maneira mais fácil é usar o mecanismo de reescrita do Apache
RewriteEngine On
RewriteCond% {HTTP_USER_AGENT} BotUserAgent
RewriteRule. - [F, L]
A primeira linha garante que o módulo de reescrita esteja ativado. A linha dois é a condição à qual a regra se aplica. O "F" na linha 4 diz ao servidor para retornar um 403: Proibido enquanto o "L" significa que esta é a última regra.
Você fará o upload do arquivo .htaccess para o servidor e substituirá o existente. Com o tempo, você precisará atualizar o IP do bot. Caso você cometa um erro, basta fazer o upload do backup que você fez.