Nazyrov.ru » » Как сделать правильный robots.txt и что это такое?

Как сделать правильный robots.txt и что это такое?

robots.txt для блога

Здравствуйте, дорогие читатели моего блога nazyrov.ru! Сегодня я хотел бы рассказать о том как сделать правильный robots.txt, и что это вообще за штука.

robots.txt – это файл, который находится в корневой директории блога или сайта, и указывает поисковым системам что следует индексировать, а что нет.

Файл robots.txt всегда должен располагаться в корневой директории по адресу — http://ваш сайт/robots.txt

Этим файлом ни в коем случае не стоит пренебрегать. Роботы поисковых систем ориентируются на сайте в первую очередь по нему.

Так для чего же вообще нужен этот файл? В robots.txt прописываются определенные правила, которые запрещают индексировать страницы, файлы и папки, не содержащие нужной информации. Это такие папки, как wp-admin, wp-includes, которые необходимы для работы движка. А так же страницы, содержащие дублированный контент – архивы, архивы меток, рубрики, ленты новостей RSS и прочая ерунда.

Дублированный контент, это вообще отдельная большая тема, о нем уже немало написано в интернете. Не буду на этом останавливаться подробно, внизу статьи есть ссылка, перейдя по которой можете более детально ознакомиться с различными дублями, которые тормозят сайт. Информация проверена, работает 100 %.

Кроме вышеперечисленных файлов и папок, в robots.txt необходимо закрывать все страницы, содержащие большое количество исходящих ссылок, скриптов и страницы не содержащие какой-либо нужной информации.

Настройка robots.txt

Вот так выглядит стандартный файл robots.txt для WordPress:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
 
User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Host: nazyrov.ru
 
Sitemap: /sitemap.xml.gz
Sitemap: /sitemap.xml

Но у меня он нестандартный, дело в том, что Google не всегда следует правилам запрета в robots.txt, и как следствие, получается большое количество дублей страниц, если использовать  Wordpress. Поэтому я использую нестандартный файл robots.txt и делаю запрет индексации дублей уже на самой странице. Подробней можете посмотреть здесь. Вот как выглядит мой robots:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
User-agent: *
Disallow: /wp-includes
Disallow: /wp-feed
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Host: nazyrov.ru
Sitemap: /sitemap.xml
 
User-agent: Googlebot-Image
Allow: /wp-content/uploads/
 
User-agent: YandexImages
Allow: /wp-content/uploads/

Сейчас я объясню, что это все означает.

Директива User-agent:

Содержит название поискового робота. Если прописывается robots.txt для всех роботов, то нужно поставить звездочку: User-agent: *.Если допустим сообщение предназначено исключительно для поисковой системы Яндекс, то прописываем:
User – agent: Yandex.

Директива Disallow:

Означает запрет индексирования чего-либо. Если вы хотите полностью запретить индексировать сайт, то достаточно прописать в файле robots.txt следующее:

1
2
User-agent: *
Disallow: *

В моем случае запрещены к индексированию файлы

wp-includes
wp-feed
wp-content/plugins
wp-content/cache
wp-content/themes

Директива Host:

Здесь прописывается ваш домен с www.sait.ru или просто sait.ru

Директива Sitemap:

Здесь нужно указать ссылку на карту сайта XML. О том, как ее сделать я писал в статье – как сделать карту сайта на WordPress.

Директива Allow:

Эта директива, наоборот показывает поисковому роботу, что данный раздел необходимо индексировать.
Вы можете заметить, что у меня нет запрета в robots.txt файлов replytocom, category и т. д. это потому, что я закрыл их отдельно, чтобы избежать дублей страниц. Подробнее об этом можете почитать здесь. Уверен, информация окажется полезной.

Я описал лишь основные директивы и спецсимволы, необходимые для простого сайта или блога. Но если страницы вашего сайта содержат какие-то динамические параметры – рефереров, идентификаторы сессий, то для этого можно использовать дополнительные директивы, которые рекомендует Яндекс. Подробнее модете увидеть по ссылке: http://help.yandex.ru/webmaster/controlling-robot/robots-txt.xml

Юзер агенты поисковых систем для файла robots.txt

.pth futyns gjbcrjds[ cbcntv

У каждой поисковой системы есть свои юзер агнты, отвечающие за определенную часть контента. Один агент отвечает, за изображения, второй за мультимедию и так далее.

Добавление их в файл robots.txt может расширить его возможности. Например, вы хотите запретить индексировать все изображения на сайте поисковому роботу яндекса. Для этого достаточно прописать:

1
2
User-agent: YandexImages
Disallow: /wp-content/uploads/

Для поисковой системы Яндекс, существуют следующие юзер агенты:

Yandex — все роботы поисковой системы яндекс.
YandexBot — основной индексирующий робот яндекса
YandexMedia — робот мультимедийных данных;
YandexImages — индексирующий Яндекс.Картинки;
YandexDirect — робот, индексирующий страницы, участвующих в Рекламной сети Яндекса;
YandexBlogs — робот поиска по блогам, индексирующий комментарии постов;
YandexNews — робот Яндекс.Новостей;
YandexPagechecker — робот, обращающийся к странице при валидации микроразметки;

А для поисковой системы Google следующие:

Googlebot – веб поиск Google;
Googlebot-News – робот Google новостей;
Googlebot-Images – робот Google – картинок;
Googlebot-Video — робот мультимедийных данных;
Googlebot-Mobile – робот индексирующий оптимизацию под мобильные устройства;
Googlebot-AdSense — робот, страницы, участвующих в сети AdSense;
Adsbot-Google – проверка качества целевой страницы и отсутствие копипаста.

P. S. В прошлой статье я объявил о старте марафона «Помоги себе сам». К сожалению за это время участвовать в марафоне изъявил желание лишь один блоггер. Возможно на это повлиял тот факт, что сейчас проходит аналогичный SEO марафон 100DaysForChanges, о котором я не знал к сожалению.

В любом случае, марафон продолжается!

Напоминаю правила и условия марафона – вам нужно в новой статье сделать анонс, или написать статью, в которой сообщить, что вы принимаете участие в SEO марафоне, дать закрытую или открытую ссылку на страницу моего блога : /pomogi-sebe-sam-seo-marafon.html. В своей статье рассказать о планах по развитию блога на ближайшие 2 недели, а по их истечении, делиться с успехами и ставить планы на следующие 2 недели.

На странице с условиями марафона, всегда будет расположен список участников с активными ссылками на их блоги!

Марафон позволит нам познакомиться ближе, перенять опыт друг у друга, исправить все недочеты, накопленные за это время.

Запись опубликована в .
Как вам статья?
Полная ерундаНичего интересногоТак себеХорошоОтлично (Голосов нет. Стать первым.)
Loading...Loading...

Понравилась статья? Поделись с другими, нажав на одну из кнопок.


Комментариев 28 на “Как сделать правильный robots.txt и что это такое?

  1. Надо будет сегодня посмотреть на свой robots.txt, если что, возьму твой, спасибо. А про роботов слышу впервые, оказывается их очень много ))

    • Алексей, если ты возьмёшь роботс Андрея, то ты обязан будешь прочитать его статью про дубли (которую он указал в этом посте) иначе твоему блогу будет жо...

      Андрей я прав?

  2. Андрей, прикинь, у меня этого файла долгое время тупо не было))

    Потом Оля (bloggoved.ru) сказала, что надо закачать))

  3. Исходя из твоего роботса, я вижу что ты внимательно почитал статьи А.Б. я сделал тоже самое!

  4. Сейчас наверное у многих блоггеров стоит этот роботс, особенно у тех кто читает Борисова)))

  5. Да, по недавней практике, тоже думаю, что это самый правильный роботс!

    После этих манипуляций Яндекс выпюнул 40 тыщ страниц сразу, Гугл постепенно, но пока уже 570 страницы основном индексе, ждем'с =)

    Меня иногда напрягает, что приходится еще быть немного СЕОшником! Хочется дарить добро людям, а как, если к тебе идут из-за отсутствия таких знания? =)))

  6. Я поставил себе такой роботс, так у меня статьи перестали индексироваться поисковиками, поэтому поставил старый роботс.

    • Вряд ли это является причиной. Как раз такой роботс разрешает индексировать все, влючая многие, дубли страниц. А чтобы избавиться от дублей. нужно дополнительно изменить файл htaccess, и прописать на страницах дублей <meta name='robots' content='noindex,follow' />

      Подробнее можно узнать по ссылке в статье, которая ведет на блог Борисова.

      В вашем случае думаю другая причина вылета из индекса. Я бы на вашем месте написал Платону с вопросом!

  7. Да, даже не знаю а стоит ли переписывать. Я например просто открыл эти дубли как показывал Александр и все. То есть убрал две вот эти строчки

    Disallow: /*?*

    Disallow: /*?

    Так что как то так.

      • Если честно, то нет. Можете посмотреть мой роботс. Да и Андрей, а что измениться если будут эти репликоны? Например Вы что перестанете ходить ко мне? Я думаю что друзья как ходили так и продолжат. Просто если писать все по правилам, то для начала надо бы домен поменять. А так, какая разница.

        • Андрей, к вам разумеется буду ходить :)

          Но ведь основная цель любого продвижения, это трафик с ПС, а они Птерпеть не могут дубли страниц. И если Яндекс их фильтрует, что заметно из Яндекс Вебмастер, то Google упорно их индексирует и понижает такие блоги в ранжировании. Вот такая вот петрушка получается.

  8. Как же я мучилась в одно время с этим роботсом, в одном месте писали что вот так надо настраивать, в другом месте по другому, поисковик принимать не хотел мой файл, говорил, что там ошибки, ааа, паника была))

    А сейчас уже все настроено, слава богу, все хорошо работает.)

    • То в реальности можно Вас Диана и поздравить, а многим приходится еще над этим вопросом трудится

  9. Да марафон 100DaysForChanges, проходил в то же время что и твой марафон, в нем приняли участие достаточно много продвинутых и успешных блоггеров, с удовольствием следил за их работой, было интересно. Сам участие не принимал, но всегда со стороны люблю наблюдать

  10. Скажите, если стоят 2 блока роботс, в частности:

    1. User-agent: *

    ..........

    2. User-agent: Yandex

    ..........

    Первый блок означает правила для всех роботов, второй — для яндекса, вопрос: имеет ли приоритет второй блок, или роботы могут не обращать внимание на блок для яндекса, а следовать только первому блоку?

    • Приветствую, Янис. В этом случае робот Яндекса будет игнорировать первую директиву User-agent: * и индексировать сайт по второй — User-agent: Yandex.

Добавить комментарий для Андрей Назыров Отменить ответ

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Можно использовать следующие HTML-теги и атрибуты: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Андрей Назыров