
6 ПРИЧИН – НАВІЩО ПОТРІБНИЙ ФАЙЛ ROBOTS.TXT
Індексація ресурсу пошуковими роботами – обов’язковий етап SEO просування. Файл robots.txt призначений для передачі їм рекомендацій щодо перегляду та додавання до індексу сторінок сайту.
Далеко не всі наповнення сайту підлягають індексації – поза увагою пошукових алгоритмів мають виявитися службові, технічні сторінки, дублі, а також контент із низькою частотою пошукового запиту. У robots.txt прописуються закриті для перегляду сторінки, а також даються різні службові вказівки для пошукових роботів Google та Яндекс.
ОСНОВНА РОЛЬ ROBOTS.TXT У SEO
Якщо розглядати роботу файлу robots.txt в цілому, то можна помітити відразу три великі завдання:
- заборона індексації допоміжних сторінок веб-ресурсу;
- дозвіл на доступ та допоміжні вказівки для сканування основних сторінок;
- розвантаження сервера за рахунок зміни часу індексування.
На окрему увагу заслуговує роль robots.txt в SEO. За рахунок скорочення завдань та відсутності не потрібної інформації, пошуковий бот може приділити більше уваги індексації нових даних, а значить допомагає:
- швидше залучити цільову аудиторію;
- збільшити релевантність;
- відстежити зміни позицій сайту
Використання файлу не є обов’язковим, тому для невеликих проектів можна використовувати інші рішення, наприклад, Sitemap або Host.

ЛЕГКО ТА ШВИДКО – ЯК СКЛАСТИ ПРАВИЛЬНИЙ ROBOTS.TXT
Роботу над новим файлом robots.txt зручніше вести в одному із простих текстових редакторів, наприклад, у Блокноті. Основне завдання всіх дій – усунути з індексації всю зайву чи конфіденційну інформацію та задати ботам чіткий алгоритм дій.
Складання інструкцій передбачає:
- стандартне звернення-директиву до пошукової роботи – User-agent;
- далі слідує ім’я робота, наприклад: YandexBot, Googlebot;
- якщо вказівка призначена всім ботів, то ставлять «*», якщо якийсь однієї системи, то вказують її назва;
- хештег «#» означає коментарі для ботів;
- завдання роботам прописують як директив: Disallow – заборона, Allow – дозвіл, Crawl-delay – зменшити швидкість обходу;
- інформацію записують як блоків, кожен із яких містить правила для певного бота;
Поєднання файлу robots.txt та SEO просування допомагає прискорити індексацію потрібних сторінок і тим самим вивести сайт на перші рядки видачі.
Правильний robots.txt для CMS WordPress
Ось що вийшло:
User-agent: * # загальні правила для роботів усіх пошукових систем
Disallow: /cgi-bin # службова папка для зберігання серверних скриптів
Disallow: /? # всі параметри запиту на головній
Disallow: /wp- # всі файли WP: /wp-json/, /wp-includes, /wp-content/plugins
Disallow: /wp/ # якщо є підкаталог /wp/, де встановлено CMS (якщо ні,
# правило можна видалити)
Disallow: *?s= # пошук по сайту
Disallow: *&s= # пошук по сайту
Disallow: /search/ # пошук по сайту
Disallow: /author/ # архів автора
Disallow: /users/ # архів користувачів
Disallow: */trackback # трекбеки, повідомлення в коментарях про посилання на веб-документ
Disallow: */feed # всі фіди
Disallow: */rss # rss фід
Disallow: */embed # всі вбудовування
Disallow: */wlwmanifest.xml # xml-файл маніфесту Windows Live Writer (якщо не використовуєте,
# правило можна видалити)
Disallow: /xmlrpc.php # файл WordPress API
Disallow: *utm*= # посилання з utm-мітками
Disallow: *openstat= # посилання з позначками openstat
Allow: */uploads # відкриваємо папку з файлами uploads
Allow: /*/*.js # відкриваємо файли скриптів js
Allow: /*/*.css # відкриваємо фали css
Allow: # дозволяємо індексувати зображення
Allow: # дозволяємо індексувати зображення
Allow: # дозволяємо індексувати зображення
Allow: # дозволяємо індексувати гіфки
Allow: /wp-admin/admin-ajax.php # дозволяємо ajax
# Вкажіть головне дзеркало сайту, як у прикладі нижче (з WWW / без WWW, якщо HTTPS
то пишемо протокол, якщо потрібно вказати порт, вказуємо). Команда стала необов'язковою. Раніше Host розумів
# Яндекс та Mail.RU. Тепер усі основні пошукові системи команду Host не враховують.
Host: www.site.ru
# Вкажіть один або кілька файлів Sitemap (дублювати для кожного User-agent
# не потрібно). Google XML Sitemap створює дві карти сайту, як у прикладі нижче.
Sitemap: http://site.ua/sitemap.xml
Sitemap: http://site.ua/sitemap.xml.gz
Перевірка robots.txt
Якщо файл robots.txt налаштований неправильно, це може призвести до множинних помилок в індексації сайту. Перевірити правильність налаштування вашого robots.txt можна за допомогою безкоштовного інструменту Google Robots Testing Tool
Вибираємо наш сайт:

Вводимо в рядок шлях до нашого файлу robots.txt і натискаємо кнопку Перевірити:

В результаті не повинно бути помилок і попереджень і файл повинен бути доступний для роботів:

Якщо файл robots.txt правильно налаштований, це значно прискорить процес індексації вашого сайту.


