Robots.txt-помічник при оптимізації сайту

415

Сьогодні поговоримо про те, як використовувати файл robots.txt.
Але для початку давайте розберемося, для чого власне потрібен файл robots.txt?

Файл robots.txt призначений для того, щоб вказати пошуковим роботам пошукових систем які файли і папки необхідно заборонити індексувати. Він повинен бути розташований в кореневій директорії сайту.

Для дуже маленьких сайтів, які містять 10-30 сторінок необхідність файлу robots.txt відпадає, так як всі файли такого сайту необхідно індексувати.

У разі ж великих динамічних сайтів з’являється безліч спеціальних сторінок, абсолютно не призначених для опублікування, а для оновлення сайту необхідна зручна внутрішня структура сайту і активне використання файлу robots.txt.

Наприклад, Yandex, для швидкого видалення з індексу директорій сайту вимагає прописування цих директорій у файлі robots.txt.

Файл robots.txt зазвичай виглядає так:

User-agent: *
Disallow: /delo.php
Disallow: /d123/
Disallow: /travel/dat/

У рядку User-agent: вказується конкретний робот ( Yandex, StackRambler ) або * — всі роботи. У рядку Disallow вказується шлях до папки або конкретного файлу, забороненого до індексації (абсолютний шлях, відраховується від кореневої папки сайту). Щоб дозволити доступ робота до деяких частин сайту або сайту загалом, використовуйте директиву Allow. Порожніх рядків у файлі між рядком User-agent і Disallow, Allow бути не повинно.

Якщо ви використовуєте карту сайту описану за допомогою формату sitemaps.xml і хочете, щоб робот дізнався про неї, вкажіть шлях до sitemaps.xml параметр директиви Sitemap (якщо файлів декілька, вкажіть всі).
Приклади:

User-agent: Yandex
Allow: /
Sitemap: http://mysite.ru/site_structure/my_sitemaps1.xml
Sitemap: http://mysite.ru/site_structure/my_sitemaps2.xml

Якщо ваш сайт має дзеркала, спеціальний робот дзеркальник визначить їх і сформує групу дзеркал вашого сайту. У пошуку буде брати участь тільки головне дзеркало. Для цього Ви повинні вказати його robots.txt, використовуючи директиву Host, визначивши як її параметр ім’я головного дзеркала. Директива Host, як трактує Help Яндекса, не гарантує вибір зазначеного головного дзеркала, тим не менш, алгоритм при прийнятті рішення враховує її з високим пріоритетом.

Приклад: Якщо www.mysite.ru головне дзеркало сайту, то robots.txt для всіх сайтів з групи дзеркал виглядає так

User-Agent: *
Disallow: /forum
Disallow: /cgi-bin
Host: www.mysite.ru

Так само можна задати час відвідування пошукового робота на сторінці вашого сайту, для цього можна скористатися директивою Crawl-delay. Вона дозволяє задати пошуковому роботу мінімальний період часу (в секундах) між кінцем закачування однієї сторінки і початком закачування наступної. Обов’язково, в цілях сумісності з роботами, директиву Crawl-delay необхідно додавати в групі, починається із запису «User-Agent», безпосередньо після директив Disallow (Allow).

Яндекса підтримує дробові значення Crawl-Delay, наприклад, 0.5. Це не гарантує, що пошуковий робот буде заходити на ваш сайт кожні півсекунди, але дає роботу більше свободи і дозволяє прискорити обхід сайту.

Приклади:

User-agent: Yandex
Crawl-delay: 2 # задає таймаут в 2 секунди

User-agent: *
Disallow: /search
Crawl-delay: 4.5 # задає таймаут в 4.5 секунди

Як бачите все досить легко і зрозуміло. Використовуйте це на своїх сайтах, тим самим ви допоможете пошуковому роботу правильно прочитати ваш веб-ресурс.