- Реферальный спам (спам в реферере, спам в логах) – спам через реферер, т.е. сайт получает фейковый трафик от спам-ботов. В Google Analytics такой источник трафика помечен как «не определён».
- Бот – специальная программа, разработанная для выполнения повторяющихся задач с высокой степенью точности и скорости.
Обычно они используются для веб-индексации (индексация содержимого сайтов). Но, кроме того, для таких злонамеренных целей:
- кликфрода (т.е. для намеренного скликивания рекламных объявлений);
- сбора адресов электронной почты;
- воровства контента;
- распространения вредоносных программ;
- искусственного завышения трафика веб-сайта и т.д.
Таким образом, в зависимости от того, для каких целей используется бот, он может быть «хорошим» и «плохим».
Не каждый сайт в равной степени подвергается воздействию спам-ботов
Это объясняется тем, что в основе работы спам-ботов лежит обнаружение и использование слабостей сайта в своих корыстных целях.
Спам-боты зачастую нападают на плохо защищенные сайты. Так что если ваш сайт расположен на какой-нибудь дешевой хостинговой платформе или вы используете пользовательскую CMS интернет-магазина, знайте, что у вас больше шансов подвергнуться нападению ботов.
Дело в том, что зачастую пользовательская CMS/движок интернет-магазина не столь хорошо протестированы для обнаружения и исправления уязвимых мест программы. Поэтому используйте зарекомендовавший себя хостинг-провайдер, CMS и движки интернет-магазина.
Если ваш сайт часто подвергается атаке плохих ботов, то замена веб-хостинга может помочь избавиться от этой проблемы.
Инструкция по обнаружению и устранению рефспама:
Шаг 1: Зайдите в GA «Источники трафика» → «Весь трафик» → «Рефералы» и отсортируйте отчет по «Показателю отказов» в порядке убывания:
Шаг 2: Обратите внимание на рефералы с показателем отказов в 100% или 0% и показателем «Сеансы» в 10 или более. Как правило, это и есть рефспам.
Шаг 3: Если подозрительный реферал принадлежит к одному из сайтов, перечисленных в нижеприведенном списке, — это точно рефспам:
1. semalt.com
2. semalt.semalt.com
3. buttons-for-website.com
4. blackhatworth.com
5. makemoneyonline.com
6. ilovevitaly.com
7. priceg.com
(для русскоязычного сегмента список сайтов будет другим. Например, hulfingtonpost.com, darodar.com (спасибо читателю Marin за уточнение)
Шаг 4: Если вы не можете определить принадлежность подозрительного реферала, не остается ничего другого, как на свой страх и риск пройти по ссылке.
Однако прежде чем это сделать, убедитесь в том, что у вас установлен антивирус/программа для защиты от вредоносного ПО, т.к. переход по ссылке может заразить ваш компьютер.
Шаг 5: Как только вы убедитесь, что интересующий вас реферал является плохим ботом, ваша задача как можно скорее заблокировать его и не позволить вновь зайти на сайт.
- Не тратьте драгоценное время на блокировку плохих ботов через создание фильтра в GA.
Это объясняется, по крайней мере, двумя причинами:
#1 Существуют сотни, тысячи плохих ботов и каждый день их появляется столько же, т.е. чисто физически невозможно создать такое количество фильтров, которое бы справлялось с атаками ботов.
#2 Чем больше фильтров вы будете применять для сайта, тем больше вопросов по выборке данных вы получите в GA.
То есть:
- Невозможно устранить рефспам из источника трафика рефералов, используя «Реферальный список исключений».
В итоге вы просто скрываете проблему, но не решаете ее, т.к. трафик от спам-ботов будет отображаться в отчете GA как прямой трафик. При этом у вас не будет возможности оценить влияние спам-ботов на общий трафик сайта.
Визиты спам-ботов нанесут колоссальный удар по отчетам GA и навсегда исказят данные по трафику.
Возникает вопрос, что делать в таком случае?
#1 К графику «Сеансы» добавьте комментарий, объясняющий причину необычного всплеска трафика.
#2 Заблокируйте реферал, используемый спам-ботом
Зайдите в файл «.htaccess» (или в «web config», если вы используете IIS) и добавьте следующий код:
RewriteEngine On
Options +FollowSymlinks
RewriteCond %{HTTP_REFERER} ^https?://([^.]+\.)*semalt\.com\ [NC,OR]
RewriteRule .* – [F]
Данный код заблокирует все http и https рефералы с сайта semalt.com и со всех его поддоменов.
#3 Заблокируйте IP адрес, используемый спам-ботом
Зайдите в файл «.htaccess file» и добавьте следующий код:
RewriteEngine On
Options +FollowSymlinks
Order Deny,Allow
Deny from 234.45.12.33
Примечание: не копируйте этот код в свой файл .htaccess — это лишь пример, в таком виде он не сработает, вам необходимо подставить свои значения.
Спам-боты могут заходить со многих различных IP-адресов, поэтому вы должны регулярно добавлять в код IP адреса, использующиеся ботами для захода на ваш сайт.
- Блокируйте только те IP адреса, которые негативно влияют на ваш сайт.
Не пытайтесь блокировать все известные вредоносные IP-адреса через файл «htaccess», т.к. он станет настолько огромным, что вы не сможете качественно управлять сайтом. Это также не самым лучшим образом повлияет на производительность веб-сервера.
Если ваш черный список IP-адресов будет расти как на дрожжах, это означает, что у вас серьезные проблемы с безопасностью. Свяжитесь с сотрудником веб-хостинга или системным администратором для разрешения данной проблемы. Поищите в Google черный список IP-адресов, быть может, кто-то до вас уже работал с чем-то подобным.
Вы должны автоматизировать процесс блокировки, написав сценарий, который позволит автоматически находить и блокировать вредоносные IP-адреса.
#4 Блокируйте диапазон IP-адресов, используемый спам-ботом
Если вы уверены, что определенный диапазон IP-адресов используется спам-ботами, то вы можете заблокировать весь спектр IP-адреса с помощью нижеприведенного кода:
RewriteEngine On
Options +FollowSymlinks
Deny from 76.149.24.0/24
Allow from all
Здесь 76.149.24.0/24 – это CIDR диапазон.
- CIDR – это метод IP-адресации, позволяющий гибко управлять пространством IP-адресов.
Блокировка через CIDR – это более эффективный способ, чем блокировка отдельных IP-адресов, т.к. данный метод займет намного меньше места на сервере.
#5 Блокировка вредоносных пользовательских агентов, используемых спам-ботами
Раз в неделю просматривайте на сервере лог-файлы, находите и блокируйте вредоносные пользовательские агенты, чтобы они не смогли зайти на ваш сайт. Сделать это можно следующим образом:
RewriteEngine On
Options +FollowSymlinks
RewriteCond %{HTTP_USER_AGENT} Baiduspider [NC]
RewriteRule .* – [F,L]
Простой поиск через Google может выдать большой список сайтов, содержащих информацию о вредоносных пользовательских агентах (ПА), используйте ее для определения ботов, которые заходят на ваш сайт.
Вам необходимо написать сценарий для автоматизации процесса блокировки. Ведите базу данных всех известных вредоносных ПА, а затем используйте скрипт для автоматического определения и блокировки агентов, содержащихся в базе данных. Постоянно обновляйте и редактируйте базу данных, т.к. постоянно возникают новые ПА, а старые исчезают.
Блокируйте лишь те вредоносные ПА, которые атакуют ваш сайт. Не пытайтесь заблокировать все известные пользовательские агенты, иначе это сделает ваш файл «.htaccess» настолько большим, что вы не сможете корректно управлять сайтом. Кроме того, это негативно отразится на производительности веб-сервера.
#6 Используйте функцию GA фильтрации роботов «Исключение обращений роботов и «пауков»» (находится под отчетом «Настройки представления»).
#7 Хотя бы раз в неделю мониторьте логи сервера
Борьбу с плохими ботами необходимо начинать на уровне сервера. Если вы сможете в первую очередь защитить сайт от атак ботов, вам не придется потом их удалять из отчетов GA.
#8 Используйте программу «Firewall» (защита от сетевых атак)
«Firewall» – это своеобразный фильтр между компьютером/веб-сервером и интернетом, который может защитить ваш сайт от плохих ботов. Если вы работаете в крупной организации, то вы, скорее всего, не понаслышке знаете об этой программе и активно ее используете в своей работе.
#9 Обращайтесь за помощью к системному администратору
Защищать веб-сайт необходимо 7 дней в неделю все 24 часа сутки, и это действительно не ваша работа. Ваш системный администратор – это тот самый человек, который должен отвечать за безопасность и борьбу с ботами, поэтому когда вы обнаружите новый плохой бот, сообщите ему об этом.
#10 Используйте в качестве браузера Google Chrome
Если вы еще не пользуетесь программой «Firewall», то вторым лучшим решением будет использование Google Chrome.
- Chrome обнаруживает и сканирует вредоносные программы быстрее, чем любой другой браузер.
Если вы пользуетесь Google Chrome, у вас меньше шансов заразиться при переходе по подозрительной ссылке в отчете GA «Рефералы».
#11 Используйте пользовательское уведомление для мониторинга необычного всплеска трафика, особенно если оно касается прямых заходов и рефералов. Если вы будете пользоваться данным уведомлением в GA, то сможете быстро обнаруживать и устранять плохие боты.
#12 Вкладывайте деньги в испытания, проверяющие возможность проникновения в систему
Если несмотря на регулярную блокировку IP адресов и подозрительных рефералов, а также смену хостинга, у вас наблюдается значительный трафик от спам-ботов, то самое время задуматься об инвестировании в тестирования по защите от несанкционированного доступа или в программы по защите от ботов.
Оригинал статьи можно просмотреть тут.