Пример файла robots.txt для WordPress

Зачем нужен файл robots.txt? Пример robots.txt для WordPress. Создание humans.txt.

Пример файла robots.txt для WordPressВ этой статье приведу примеры файлов robots.txt и humans.txt. robots.txt — тестовый файл, в котором прописываются рекомендации для поисковых роботов по индексации страниц и файлов сайта. Почему рекомендации? Потому что правила, указанные в robots.txt, необязательны к исполнению, особенно это касается роботов, которые запускают в сеть злоумышленники. Формат robots.txt имеет определённую структуру. Стандарт был принят в 1996 году, но несмотря на это кроме общепринятых директив каждый поисковик может иметь свои индивидуальные правила. Часть правил можно задать для конкретного поискового робота. robots.txt размещают в корневой директории сайта. Далее приведу пример файла robots.txt для WordPress, который используется на этом блоге.

Код robots.txt:

User-agent: *
 Disallow: /wp-login.php
 Disallow: /wp-register.php
 Disallow: /wp-config.php
 Disallow: /feed/
 Disallow: /tag/
 Disallow: /trackback
 Disallow: */trackback
 Disallow: */feed
 Disallow: */comments
 Disallow: /*?*
 Disallow: /*?
 Disallow: /category/*/*
 Disallow: /wp-content/plugins
 Disallow: /wp-content/cache
 Disallow: /wp-content/themes
 Disallow: /wp-admin/
 Disallow: /wp-includes/

User-agent: Yandex
 Disallow: /wp-login.php
 Disallow: /wp-register.php
 Disallow: /wp-config.php
 Disallow: /feed/
 Disallow: /tag/
 Disallow: /trackback
 Disallow: */trackback
 Disallow: */feed
 Disallow: */comments
 Disallow: /*?*
 Disallow: /*?
 Disallow: /category/*/*
 Disallow: /wp-content/plugins
 Disallow: /wp-content/cache
 Disallow: /wp-content/themes
 Disallow: /wp-admin/
 Disallow: /wp-includes/
 Host: www.seorubl.ru

 Sitemap: https://seorubl.ru/sitemap.xml

Disallow: — директива запрета индексации. Например /wp-admin/ запрещает поисковому роботу индексировать содержимое папки wp-admin, а /wp-login.php — конкретный файл wp-login.php. * — заменяет произвольный набор символов, который может быть в том числе пустым. Следует учитывать, что по умолчанию в конце директив дописывается символ *, поэтому, например /feed запрещает к индексации все файлы и папки, которые в своём пути содержат /feed: /feed/catalog, /feed.png, /feed/catalog/somename.png. Чтобы отменить действие *, нужно в конце директивы поставить $, например /feed$, тогда от индексации будет закрыт только файл с именем feed. /*?* — закрывает от индексации служебные адреса, по которым выводятся результаты поиска, сортировки и т.п.

User-Agent: — определяет к какому роботу относиться следующая за ним секция директив. Секции разделяются пустой строкой. Для поискового робота Яндекс значение этой директивы Yandex, для Google — Googlebot. У поисковиков есть кроме основных специализированные роботы, например за индексацию картинок в Google отвечает Googlebot-Image. * — говорит о том, что директивы предназначены для всех поисковых систем (ПС).

Host: — определяет основное зеркало сайта, адрес должен указываться без протокола, т.е. без http(s)://. Носит рекомендательный характер, но поисковые роботы его обычно учитывают.

Sitemap: — задаётся путь к xml карте сайта. Host: и Sitemap: — межсекционные директивы, т.е. они могут указываться в любом месте файла robot.txt. Директивы в файле robot.txt не чувствительны к регистру, но стоит помнить, что имена файлов и каталогом регистрозависимы. Само название robots.txt надо писать строчными буквами, поисковый робот ищет его в корневой папке сайта. Для это блога вы можете посмотреть файл robots.txt по адресу: https://seorubl.ru/robots.txt.

Что такое файл humans.txt и как его составить?

Основной смысл humans.txt выражается следующей идеей: «Мы люди, а не машины». В некотором смысле этот файл противопоставляется robots.txt, в котором мы общаемся с роботами, а в humans.txt — с людьми. Чётких правил по составлению humans.txt нет, размещают его также в корневую папку. В заголовочную часть страниц сайта можно добавить следующий тег:

<link rel="author" href="http://domain/humans.txt" type="text/plain" />

Что пишут в humans.txt? Информацию о разработчиках сайта, их контактные данные, сведения о сайте, его стандартах и т.п. Выражают благодарность тем людям, которые помогают развивать ресурс. Подробнее о humans.txt можно узнать на сайте движения, на этом ресурсе также собирается коллекция humans.txt со всего мира.

Пример с этого блога https://seorubl.ru/humans.txt:

Notes enterprising person - https://seorubl.ru
/* humanstxt.org */

/* TEAM */

	Author: Pavel Seorubl - Not a robot, but a blogger, webmaster and optimizator
    Site: https://seorubl.ru                            
    Site Name: Notes enterprising person
	Contact: seorubl.ru[@nospam]gmail.com
	Twitter: @seorubl
	Google+: https://plus.google.com/102967354858915717090
	Facebook: http://facebook.com/seorubl
	RSS feed: http://feeds.feedburner.com/seorubl
	From: Russia
	Location: Internet

/* THANKS */

	All my Visitors and Readers

/* SITE */
	Last update: weekly
	Language: Russian
	Standards: HTML5, CSS3, JavaScript (Strict mode)
	Software: CMS WordPress
	IDE: Notepad++, WebBrowsers, GIMP

Thanks for reading!

Аккуратнее с указанием e-mail, примените простейшие способы защиты своего адреса от спамеров. На данный момент humans.txt никак не влияет на выдачу поисковиков, но идея интересная.

Понравилась статья? Поделитесь ею с друзьями в соц.сетях. Не забудьте подписаться на обновления блога.

9 thoughts on “Зачем нужен файл robots.txt? Пример robots.txt для WordPress. Создание humans.txt.”
  1. Да, определенные приключения были с robots.txt…Изначально мы установили этот robots.txt на занятии школы, как уж там его индексировали машинки, не знаю,а в вебмастере на Яндексе постоянно шло уведомление — нет robots.txt)))) Но через полгода пришло срочное извещение от школы Твой старт, что срочно переделайте этот робот текст, там был пробел — убирала срочно, а что было с индексацией, конечно, её не было.А всего-то махонький пробел))) Сложно очень, не разбираясь в цифровых кодировках, понять даже, как делать humans.txt и есть ли он у меня?)))))

    1. Да, бывает такая проблема, когда в начале файла в кодировке UTF ставится Byte Order Mark (BOM) — бит порядка байтов, из-за которого потом могут неправильно работать скрипты и выдаваться абра-кадабры. Чтобы избежать такой проблемы нужно пользоваться «продвинутыми» текстовыми редакторами, например Notepad++, в котором есть настройка «кодировать в UTF без BOM)». Файла humans.txt у вас нет. Он носит необязательный характер и создаётся самостоятельно автором сайта по его личному желанию. Это такой своеобразный флешмоб среди блогеров и вебмастеров со всего мира. Пишется в произвольной форме в обычном текстовом редакторе, потом сохраняется в корневой папке сайта рядом с файлом robots.txt.

    1. У вас на блоге уже есть robots.txt, так что «догонять» особо никого и не нужно :-). Так для общего развития почитать, может когда-нибудь понадобится что-то дополнительно от ПС закрыть на сайте.

  2. Спасибо вам большое, сегодня уже не «догнать» ничего — целый день провела в городе, устала, голова туго соображает)))) Но обещаю — завтра спокойно всё почитаю, если что не понятно — можно к вам обратиться? А вот выделять — да, нас так учили, спасибо за подсказку! Успехов вам, хотя и так уверена — успех вам обеспечен!

    1. Конечно, можно. Буду рад любым вопросам, комментариям и замечаниям. Я пока молодой блогер, читателей у меня мало, поэтому сейчас каждому могу уделить немного внимания. Пользуйтесь возможностью, задавайте вопросы, получайте бесплатные ответы :-).

    1. Действительно, весёлый robots.txt получился. Менять не надо :-). Сам планирую доработать свой robots.txt с учётом современных тенденций.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *