Файл robots.txt — это основной файл, описывающий правила обработки страниц поисковым роботов. Данный файл нужен для указания основного имени сайта, карты сайта (sitemap.xml), открытых и закрытых разделов сайта.
Файл robots.txt включает следующие директивы:
- User-agent — директива указывающая для какого робота нижеследующие правила
 - * - все роботы
 - Yandex — основной робот Яндекс
 - Googlebot — основной робот Google
 - StackRambler — поисковый робот Рамблер
 - Aport — поисковый робот Апорт
 - Slurp — робот Yahoo
 - MSNBot — робот MSN
 
- Disallow — директива запрета части сайта
 - Allow — директива разрешения части сайта
 - Host — директива указания основного имени сайта
 - Sitemap— директива указания карты сайта (sitemap.xml)
 - Crawl-delay — директива указывающая сколько секунд робот может ждать ответа от сайта (необходима на сильно загруженных ресурсах, чтобы робот не посчитал сайт недоступным)
 - Clean-param — директива описывающая динамические параметры не влияющие на содержимое сайта
 
Помимо директив в robots.txt используются спец символы:
- * - любай (в том числе и пустая) последовательность символов
 - $ — является ограничением правила
 
Для составления robots.txt используются вышеперечисленные директивы и спет символы по следующему принципу:
- Указывается имя робота для которого пишется список правил
(User-agent: * - правило для всех роботов) - Пишется перечень запрещенных разделов сайта для указанного робота
( Disallow: / - запрет индексации всего сайта) - Пишется перечень разрешённых разделов сайта
(Allow: /home/ — разрешен раздел home) - Указывается имя сайта
(Host: crazysquirrel.ru — основное имя сайта crazysquirrel.ru) - Указывается абсолютный путь до файла sitemap.xml
(Sitemap: https:// crazysquirrel.ru/sitemap.xml) 
Если на сайте нет запрещенных разделов, то robots.txt должен состоять минимум из 4 строчек:
User-Agent: *
Allow: /
Host: crazysquirrel.ru
Sitemap: https://crazysquirrel.ru/sitemap.xmlПроверить robots.txt и то, как он влияет на индексацию сайта можно с помощью инструментов Яндекса