В последние годы владельцы сайтов все чаще сталкиваются с неожиданными всплесками посещаемости. Если это не живые пользователи и не результат рекламы, такой рост не только искажает аналитику, но и может негативно повлиять на позиции сайта в поисковых системах. В этой статье разберем, почему это происходит и какие могут быть последствия.
На изображении ниже — пример из Яндекс Метрики, где видно резкое увеличение числа посетителей.
Если сайт не рекламировали и не ожидалось роста трафика, в большинстве случаев виноваты вредоносные боты. Они могут имитировать поведение реальных пользователей: заходят на страницы, проводят на них минимум времени, слегка двигают курсором и быстро уходят.
Из-за этого поисковые системы могут решить, что сайт не представляет ценности для пользователей, и понизить его позиции в выдаче. Конечно, алгоритмы умеют отличать ботов от людей, но не всегда делают это точно.
С точки зрения поисковой системы, такая активность выглядит как искусственная накрутка поведенческих факторов, то есть попытка нечестным способом улучшить позиции сайта.
Со временем боты исчезнут, нагрузка на сайт снизится, но поисковая система уже зафиксирует факт накрутки. В результате сайт может потерять позиции и оказаться на последних страницах выдачи.
Помимо ботов, искажающих поведенческие факторы, существуют и другие, которые не видны в Яндекс Метрике. Они могут сканировать сайт на уязвимости, парсить контент или просто замедлять его работу.
Прежде чем разделять ботов на категории, важно понимать, что программный код — это инструмент. В руках опытного разработчика он помогает решать задачи и создавать полезные программы, а в руках злоумышленника — становится средством для взломов, кражи данных и атак. Это же касается ботов: одни выявляют ошибки, а другие их используют.
Если говорить просто, бот — это программа, выполняющая определенные действия. Например, поисковые боты Яндекса и Google анализируют сайты для индексации, а вредоносные боты могут портить статистику или снижать позиции сайта в поиске.
Ботов, заходящих на сайт, можно разделить на две основные категории:
Эти боты предназначены для накрутки или скручивания поведенческих факторов. Они умеют:
Они используют машинное обучение для максимально точного копирования действий человека, что помогает им обходить защиту и обманывать поисковые системы.
Как их заметить?
Как работают?
Влияние на сайт
Эти боты не имитируют поведение человека, а просто выполняют заданные действия:
Виды простых ботов
Как их заметить?
Влияние на сайт
В отличие от сложных ботов, простые не влияют на позиции в поисковой выдаче, но могут ухудшить производительность сайта.
Защита от ботов требует комплексного подхода, так как одни методы могут работать против простых ботов, но быть неэффективными против сложных. Рассмотрим основные способы.
Один из самых надежных способов защиты – Cloudflare. Он действует как прокси-сервер, проверяя каждого посетителя перед допуском на сайт. Cloudflare анализирует IP-адрес, User-Agent, поведение пользователя, фильтрует подозрительный трафик, останавливает DDoS-атаки и массовые сканирования.
✔️ Плюсы: Защищает от большинства видов ботов.
❌ Минусы: Может блокировать полезных ботов (например, поисковые), если их не добавить в белый список.
Каждый HTTP-запрос содержит заголовок User-Agent, по которому можно определить, является ли запрос ботом.
Как фильтровать?
Пример фильтрации в PHP по User Agent
$badUserAgentsFile = 'bad_user_agents.txt';
$userAgent = $_SERVER['HTTP_USER_AGENT'] ?? '';
// Если пустой USER AGENT, то вернем 403 ошибку
if (empty($userAgent)) {
header('HTTP/1.1 403 Forbidden');
exit('Access Denied: Empty User-Agent');
}
// Если в txt файле есть совпадения, то вернем 403 ошибку
if (file_exists($badUserAgentsFile) && is_readable($badUserAgentsFile)) {
$file = fopen($badUserAgentsFile, 'r');
if ($file) {
while (($badAgent = fgets($file)) !== false) {
$badAgent = trim($badAgent);
if ($badAgent !== '' && stripos($userAgent, $badAgent) !== false) {
fclose($file);
header('HTTP/1.1 403 Forbidden');
exit('Access Denied');
}
}
fclose($file);
}
}
Пример файла bad_user_agents.txt
BadBot
EvilScraper
MaliciousUserAgent
SpamCrawler
FakeGoogleBot
✔️ Плюсы: Быстрая настройка, легко добавлять новые User-Agent в черный список.
❌ Минусы: User-Agent можно подделать, может создавать лишнюю нагрузку на сервер.
Лучше реализовывать блокировку на уровне сервера (например, через NGINX).
Можно настроить блокировку IP, если с него слишком много запросов за короткий промежуток времени.
Принцип работы:
В CMS Битрикс, в некоторых редакциях, есть встроенный проактивный фильтр, который автоматически блокирует IP при превышении порога запросов.
✔️ Плюсы: Хорошая защита от парсеров.
❌ Минусы: Боты могут использовать прокси и менять IP.
Некоторые боты используют IPv6. Отключение этого протокола может временно снизить активность ботов.
Пример блокировки IPv6 через .htaccess:
RewriteEngine On
RewriteCond %{REMOTE_ADDR} ^[0-9A-Fa-f:.]+$
RewriteRule .* - [F,L]
После внесения правила, необходимо убедиться, что оно действительно помогает.
Если правило не помогает, то лучше его убрать.
✔️ Плюсы: Ограничивает доступ к сайту через IPv6.
❌ Минусы: Может помешать индексации сайта поисковыми системами, использующими IPv6.
Боты могут перегружать сервер, если кэширование не настроено.
Что делать?
Для выявления активности ботов полезно вести логирование и анализ запросов.
Инструменты:
В современном цифровом мире защита сайта от ботов становится важной задачей для владельцев веб-ресурсов. Боты могут существенно исказить статистику, создать дополнительную нагрузку на сервер, снизить позиции сайта в поисковой выдаче, а в худших случаях – привести к утечке данных или взлому.
Несмотря на множество способов защиты, важно понимать, что ни один метод не является универсальным. Боты постоянно совершенствуются, учатся обходить стандартные механизмы защиты, а злоумышленники разрабатывают новые способы атак. Поэтому рекомендуется регулярно анализировать логи, следить за поведением пользователей в аналитике и своевременно внедрять новые методы защиты.
Грамотный подход к безопасности не только сохранит стабильность работы сайта, но и обеспечит его долгосрочное развитие без потери позиций в поисковой выдаче.