В этой статье приведу примеры файлов robots.txt и humans.txt. robots.txt — тестовый файл, в котором прописываются рекомендации для поисковых роботов по индексации страниц и файлов сайта. Почему рекомендации? Потому что правила, указанные в robots.txt, необязательны к исполнению, особенно это касается роботов, которые запускают в сеть злоумышленники. Формат robots.txt имеет определённую структуру. Стандарт был принят в 1996 году, но несмотря на это кроме общепринятых директив каждый поисковик может иметь свои индивидуальные правила. Часть правил можно задать для конкретного поискового робота. robots.txt размещают в корневой директории сайта. Далее приведу пример файла robots.txt для WordPress, который используется на этом блоге.
Код robots.txt:
User-agent: * Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /wp-config.php Disallow: /feed/ Disallow: /tag/ Disallow: /trackback Disallow: */trackback Disallow: */feed Disallow: */comments Disallow: /*?* Disallow: /*? Disallow: /category/*/* Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /wp-admin/ Disallow: /wp-includes/ User-agent: Yandex Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /wp-config.php Disallow: /feed/ Disallow: /tag/ Disallow: /trackback Disallow: */trackback Disallow: */feed Disallow: */comments Disallow: /*?* Disallow: /*? Disallow: /category/*/* Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /wp-admin/ Disallow: /wp-includes/ Host: www.seorubl.ru Sitemap: https://seorubl.ru/sitemap.xml
Disallow: — директива запрета индексации. Например /wp-admin/ запрещает поисковому роботу индексировать содержимое папки wp-admin, а /wp-login.php — конкретный файл wp-login.php. * — заменяет произвольный набор символов, который может быть в том числе пустым. Следует учитывать, что по умолчанию в конце директив дописывается символ *, поэтому, например /feed запрещает к индексации все файлы и папки, которые в своём пути содержат /feed: /feed/catalog, /feed.png, /feed/catalog/somename.png. Чтобы отменить действие *, нужно в конце директивы поставить $, например /feed$, тогда от индексации будет закрыт только файл с именем feed. /*?* — закрывает от индексации служебные адреса, по которым выводятся результаты поиска, сортировки и т.п.
User-Agent: — определяет к какому роботу относиться следующая за ним секция директив. Секции разделяются пустой строкой. Для поискового робота Яндекс значение этой директивы Yandex, для Google — Googlebot. У поисковиков есть кроме основных специализированные роботы, например за индексацию картинок в Google отвечает Googlebot-Image. * — говорит о том, что директивы предназначены для всех поисковых систем (ПС).
Host: — определяет основное зеркало сайта, адрес должен указываться без протокола, т.е. без http(s)://. Носит рекомендательный характер, но поисковые роботы его обычно учитывают.
Sitemap: — задаётся путь к xml карте сайта. Host: и Sitemap: — межсекционные директивы, т.е. они могут указываться в любом месте файла robot.txt. Директивы в файле robot.txt не чувствительны к регистру, но стоит помнить, что имена файлов и каталогом регистрозависимы. Само название robots.txt надо писать строчными буквами, поисковый робот ищет его в корневой папке сайта. Для это блога вы можете посмотреть файл robots.txt по адресу: https://seorubl.ru/robots.txt.
Что такое файл humans.txt и как его составить?
Основной смысл humans.txt выражается следующей идеей: «Мы люди, а не машины». В некотором смысле этот файл противопоставляется robots.txt, в котором мы общаемся с роботами, а в humans.txt — с людьми. Чётких правил по составлению humans.txt нет, размещают его также в корневую папку. В заголовочную часть страниц сайта можно добавить следующий тег:
<link rel="author" href="http://domain/humans.txt" type="text/plain" />
Что пишут в humans.txt? Информацию о разработчиках сайта, их контактные данные, сведения о сайте, его стандартах и т.п. Выражают благодарность тем людям, которые помогают развивать ресурс. Подробнее о humans.txt можно узнать на сайте движения, на этом ресурсе также собирается коллекция humans.txt со всего мира.
Пример с этого блога https://seorubl.ru/humans.txt:
Notes enterprising person - https://seorubl.ru /* humanstxt.org */ /* TEAM */ Author: Pavel Seorubl - Not a robot, but a blogger, webmaster and optimizator Site: https://seorubl.ru Site Name: Notes enterprising person Contact: seorubl.ru[@nospam]gmail.com Twitter: @seorubl Google+: https://plus.google.com/102967354858915717090 Facebook: http://facebook.com/seorubl RSS feed: http://feeds.feedburner.com/seorubl From: Russia Location: Internet /* THANKS */ All my Visitors and Readers /* SITE */ Last update: weekly Language: Russian Standards: HTML5, CSS3, JavaScript (Strict mode) Software: CMS WordPress IDE: Notepad++, WebBrowsers, GIMP Thanks for reading!
Аккуратнее с указанием e-mail, примените простейшие способы защиты своего адреса от спамеров. На данный момент humans.txt никак не влияет на выдачу поисковиков, но идея интересная.
Понравилась статья? Поделитесь ею с друзьями в соц.сетях. Не забудьте подписаться на обновления блога.
Да, определенные приключения были с robots.txt…Изначально мы установили этот robots.txt на занятии школы, как уж там его индексировали машинки, не знаю,а в вебмастере на Яндексе постоянно шло уведомление — нет robots.txt)))) Но через полгода пришло срочное извещение от школы Твой старт, что срочно переделайте этот робот текст, там был пробел — убирала срочно, а что было с индексацией, конечно, её не было.А всего-то махонький пробел))) Сложно очень, не разбираясь в цифровых кодировках, понять даже, как делать humans.txt и есть ли он у меня?)))))
Да, бывает такая проблема, когда в начале файла в кодировке UTF ставится Byte Order Mark (BOM) — бит порядка байтов, из-за которого потом могут неправильно работать скрипты и выдаваться абра-кадабры. Чтобы избежать такой проблемы нужно пользоваться «продвинутыми» текстовыми редакторами, например Notepad++, в котором есть настройка «кодировать в UTF без BOM)». Файла humans.txt у вас нет. Он носит необязательный характер и создаётся самостоятельно автором сайта по его личному желанию. Это такой своеобразный флешмоб среди блогеров и вебмастеров со всего мира. Пишется в произвольной форме в обычном текстовом редакторе, потом сохраняется в корневой папке сайта рядом с файлом robots.txt.
Что-то я тоже в этом не очень «догоняю»))) Поставила в закладки, завтра почитаю, спасибо.
У вас на блоге уже есть robots.txt, так что «догонять» особо никого и не нужно :-). Так для общего развития почитать, может когда-нибудь понадобится что-то дополнительно от ПС закрыть на сайте.
Спасибо вам большое, сегодня уже не «догнать» ничего — целый день провела в городе, устала, голова туго соображает)))) Но обещаю — завтра спокойно всё почитаю, если что не понятно — можно к вам обратиться? А вот выделять — да, нас так учили, спасибо за подсказку! Успехов вам, хотя и так уверена — успех вам обеспечен!
Конечно, можно. Буду рад любым вопросам, комментариям и замечаниям. Я пока молодой блогер, читателей у меня мало, поэтому сейчас каждому могу уделить немного внимания. Пользуйтесь возможностью, задавайте вопросы, получайте бесплатные ответы :-).
Спасибо вам большое!
А у меня самый убойный файл роботс.тхт и менять его пока не собираюсь, всем вполне устраивает http://web-servise.com/robots.txt ))) Зато прикольно )))
Действительно, весёлый robots.txt получился. Менять не надо :-). Сам планирую доработать свой robots.txt с учётом современных тенденций.