Home / SEO / Как сделать правильный robots.txt и что это такое?
Хостинг от Макхост

Как сделать правильный robots.txt и что это такое?

Здравствуйте, дорогие читатели моего блога nazyrov.ru! Сегодня я хотел бы рассказать о том как сделать правильный robots.txt, и что это вообще за штука.

robots.txt для блога

robots.txt – это файл, который находится в корневой директории блога или сайта, и указывает поисковым системам что следует индексировать, а что нет.

Файл robots.txt всегда должен располагаться в корневой директории по адресу — http://ваш сайт/robots.txt

Этим файлом ни в коем случае не стоит пренебрегать. Роботы поисковых систем ориентируются на сайте в первую очередь по нему.

Так для чего же вообще нужен этот файл? В robots.txt прописываются определенные правила, которые запрещают индексировать страницы, файлы и папки, не содержащие нужной информации. Это такие папки, как wp-admin, wp-includes, которые необходимы для работы движка. А так же страницы, содержащие дублированный контент – архивы, архивы меток, рубрики, ленты новостей RSS и прочая ерунда.

Дублированный контент, это вообще отдельная большая тема, о нем уже немало написано в интернете. Не буду на этом останавливаться подробно, внизу статьи есть ссылка, перейдя по которой можете более детально ознакомиться с различными дублями, которые тормозят сайт. Информация проверена, работает 100 %.

Кроме вышеперечисленных файлов и папок, в robots.txt необходимо закрывать все страницы, содержащие большое количество исходящих ссылок, скриптов и страницы не содержащие какой-либо нужной информации.

Настройка robots.txt

Я считаю, что при создании файла robots.txt нужно прописывать 3 директивы для разных поисковых роботов — для Google, Яндекс и остальных роботов.

Конечно, можно было бы задать одно правило для всех, но как показывает практика, отечественная и западная поисковая система во многих вопросах никак не придут к соглашению.

К примеру, если закрыть доступ Гуглботу к скриптам и CSS,то он упорно не будет видеть что блог адаптирован к мобильным, а для Яндекс открытие этих файлов в роботс может наплодить немало дублей страниц. Сейчас Яндекс тоже начинает индексироватьCSS, но пока все на стадии тестирования и неизвестно сколько это тестирование продлится.

Для блогов, использующих движок WordPress я бы рекомендовал использовать следующий robots.txt (я сам его использую):

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: */trackback
Disallow: */feed
Disallow: /*?
Disallow: /author/
Disallow: /transfers.js
Disallow: /go.php
Disallow: /xmlrpc.php

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: */trackback
Disallow: */feed
Disallow: /*?
Disallow: /author/
Disallow: /transfers.js
Disallow: /go.php
Disallow: /xmlrpc.php
Host: nazyrov.ru

User-agent: Googlebot
Allow: *.css
Allow: *.js
Allow: /wp-includes/*.js
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/cache
Disallow: */trackback
Disallow: */feed
Disallow: /author/
Disallow: /transfers.js
Disallow: /go.php
Disallow: /xmlrpc.php
Disallow: /*?
Sitemap: http://nazyrov.ru/sitemap.xml

Сейчас я объясню, что это все означает.

Возможно вас заинтересует:  Как оптимизировать статьи для успешного SEO продвижения?

Директива User-agent:

Содержит название поискового робота. Если прописывается robots.txt для всех роботов, то нужно поставить звездочку: User-agent: *.Если допустим сообщение предназначено исключительно для поисковой системы Яндекс, то прописываем:
User – agent: Yandex.

Директива Disallow:

Означает запрет индексирования чего-либо. Если вы хотите полностью запретить индексировать сайт, то достаточно прописать в файле robots.txt следующее:

User-agent: *
Disallow: *

Директива Host:

Здесь прописывается ваш домен с www.sait.ru или просто sait.ru

Директива Host обязательно должна присутствовать для робота Яндекса. Она указывает на главное зеркало.

Директива Sitemap:

Здесь нужно указать ссылку на карту сайта XML. О том, как ее сделать я писал в статье – как сделать карту сайта на WordPress.

Директива Allow:

Эта директива, наоборот показывает поисковому роботу, что данный раздел необходимо индексировать.

Я описал лишь основные директивы и спецсимволы, необходимые для простого сайта или блога. Но если страницы вашего сайта содержат какие-то динамические параметры – рефереров, идентификаторы сессий, то для этого можно использовать дополнительные директивы, которые рекомендует Яндекс. Подробнее можете увидеть по ссылке: http://help.yandex.ru/webmaster/controlling-robot/robots-txt.xml

Юзер агенты поисковых систем для файла robots.txt

.pth futyns gjbcrjds[ cbcntv

У каждой поисковой системы есть свои юзер агенты, отвечающие за определенную часть контента. Один агент отвечает, за изображения, второй за мультимедию и так далее.

Добавление их в файл robots.txt может расширить его возможности. Например, вы хотите запретить индексировать все изображения на сайте поисковому роботу яндекса. Для этого достаточно прописать:

User-agent: YandexImages
Disallow: /wp-content/uploads/

Для поисковой системы Яндекс, существуют следующие юзер агенты:

Yandex — все роботы поисковой системы яндекс.
YandexBot — основной индексирующий робот яндекса
YandexMedia — робот мультимедийных данных;
YandexImages — индексирующий Яндекс.Картинки;
YandexDirect — робот, индексирующий страницы, участвующих в Рекламной сети Яндекса;
YandexBlogs — робот поиска по блогам, индексирующий комментарии постов;
YandexNews — робот Яндекс.Новостей;
YandexPagechecker — робот, обращающийся к странице при валидации микроразметки;

А для поисковой системы Google следующие:

Googlebot – веб поиск Google;
Googlebot-News – робот Google новостей;
Googlebot-Images – робот Google – картинок;
Googlebot-Video — робот мультимедийных данных;
Googlebot-Mobile – робот индексирующий оптимизацию под мобильные устройства;
Googlebot-AdSense — робот, страницы, участвующих в сети AdSense;
Adsbot-Google – проверка качества целевой страницы и отсутствие копипаста.

 

Об авторе: Андрей Назыров

Приветствую Вас на своем блоге! Здесь Вы найдете всю необходимую информацию по созданию своего блога (сайта), его SEO оптимизации и последующего заработка.

48 комментариев

  1. Юрий Йосифович:

    Да, файл реально нужный, удалять его не стоит!

    Ответить
    • Иван Зелинский:

      Какой файл, Юрий — robots.txt?

      Ответить
      • Юрий Йосифович:

        Да, я его удалил полностью — теперь придется восстанавливать.

      • Иван Зелинский:

        А стоило это делать, тобыш удалять?

      • Юрий Йосифович:

        Разницы я не увидел — что он был, что его нет — как все работало, так и работает. Как были посетители на блоге — так и остались.

  2. Алексей:

    Надо будет сегодня посмотреть на свой robots.txt, если что, возьму твой, спасибо. А про роботов слышу впервые, оказывается их очень много ))

    Ответить
    • Игорь Черноморец:

      Алексей, если ты возьмёшь роботс Андрея, то ты обязан будешь прочитать его статью про дубли (которую он указал в этом посте) иначе твоему блогу будет жо..
      Андрей я прав?

      Ответить
      • Андрей Назыров:

        Абсолютно!

  3. Азик:

    Андрей, прикинь, у меня этого файла долгое время тупо не было))
    Потом Оля (bloggoved.ru) сказала, что надо закачать))

    Ответить
    • Андрей Назыров:

      Главное, что закачал 😉

      Ответить
  4. Игорь Черноморец:

    Исходя из твоего роботса, я вижу что ты внимательно почитал статьи А.Б. я сделал тоже самое!

    Ответить
    • Андрей Назыров:

      🙂

      Ответить
  5. Татьяна:

    Сейчас наверное у многих блоггеров стоит этот роботс, особенно у тех кто читает Борисова)))

    Ответить
    • Андрей Назыров:

      🙂

      Ответить
  6. Александр:

    Да, по недавней практике, тоже думаю, что это самый правильный роботс!

    После этих манипуляций Яндекс выпюнул 40 тыщ страниц сразу, Гугл постепенно, но пока уже 570 страницы основном индексе, ждем’с =)

    Меня иногда напрягает, что приходится еще быть немного СЕОшником! Хочется дарить добро людям, а как, если к тебе идут из-за отсутствия таких знания? =)))

    Ответить
  7. Ира:

    Очень интересно спасибо

    Ответить
  8. Ivanovskij:

    Я поставил себе такой роботс, так у меня статьи перестали индексироваться поисковиками, поэтому поставил старый роботс.

    Ответить
    • Андрей Назыров:

      Вряд ли это является причиной. Как раз такой роботс разрешает индексировать все, влючая многие, дубли страниц. А чтобы избавиться от дублей. нужно дополнительно изменить файл htaccess, и прописать на страницах дублей
      Подробнее можно узнать по ссылке в статье, которая ведет на блог Борисова.
      В вашем случае думаю другая причина вылета из индекса. Я бы на вашем месте написал Платону с вопросом!

      Ответить
      • Ivanovskij:

        Не знаю, Андрей. Но как только я поменял его, сразу же статьи начали индексироваться !

  9. Андрей:

    Да, даже не знаю а стоит ли переписывать. Я например просто открыл эти дубли как показывал Александр и все. То есть убрал две вот эти строчки
    Disallow: /*?*
    Disallow: /*?
    Так что как то так.

    Ответить
    • Андрей Назыров:

      Андрей, а вы прописывали как советовал Александр?

      Ответить
      • Андрей:

        Если честно, то нет. Можете посмотреть мой роботс. Да и Андрей, а что измениться если будут эти репликоны? Например Вы что перестанете ходить ко мне? Я думаю что друзья как ходили так и продолжат. Просто если писать все по правилам, то для начала надо бы домен поменять. А так, какая разница.

      • Андрей Назыров:

        Андрей, к вам разумеется буду ходить 🙂
        Но ведь основная цель любого продвижения, это трафик с ПС, а они Птерпеть не могут дубли страниц. И если Яндекс их фильтрует, что заметно из Яндекс Вебмастер, то Google упорно их индексирует и понижает такие блоги в ранжировании. Вот такая вот петрушка получается.

  10. Диана:

    Как же я мучилась в одно время с этим роботсом, в одном месте писали что вот так надо настраивать, в другом месте по другому, поисковик принимать не хотел мой файл, говорил, что там ошибки, ааа, паника была))
    А сейчас уже все настроено, слава богу, все хорошо работает.)

    Ответить
    • Иван Зелинский:

      То в реальности можно Вас Диана и поздравить, а многим приходится еще над этим вопросом трудится

      Ответить
  11. Александр:

    Да марафон 100DaysForChanges, проходил в то же время что и твой марафон, в нем приняли участие достаточно много продвинутых и успешных блоггеров, с удовольствием следил за их работой, было интересно. Сам участие не принимал, но всегда со стороны люблю наблюдать

    Ответить
  12. ЯНИС:

    Скажите, если стоят 2 блока роботс, в частности:
    1. User-agent: *
    ……….
    2. User-agent: Yandex
    ……….
    Первый блок означает правила для всех роботов, второй — для яндекса, вопрос: имеет ли приоритет второй блок, или роботы могут не обращать внимание на блок для яндекса, а следовать только первому блоку?

    Ответить
    • Андрей Назыров:

      Приветствую, Янис. В этом случае робот Яндекса будет игнорировать первую директиву User-agent: * и индексировать сайт по второй — User-agent: Yandex.

      Ответить
  13. Александр:

    Андрей, а как вы относитесь к недавним «просьбам» от Гугла (сообщения пришло многим вебмастерам в панель) о необходимости открыть для робота некоторые директории, которые ранее было принято закрывать во избежание дублей?

    Ответить
    • Андрей Назыров:

      Александр, а вы мой роботс видели? У меня большая часть открыта. То, что другие закрывают, я открыл уже давно, и сделал редирект со страниц дублей на основную.
      Единственное, что боюсь пока открывать, это доступ к теме блога. Я закрываю ссылки с помощью ajax, а гугл прекрасно индексирует CSS и Javascript, поэтому неизвестно как он отреагирует на мою хитрость )) Но открывать, думаю все же придется. без этого Google упорно не хочет считать мой блог адаптивным, а когда открывал доступ к CSS было все отлично, в выдаче показывал ярлык «Для мобильных».

      Ответить
  14. Людмила:

    Как много нужно знать много владельцам сайтов. Детально нужно заняться robots на своем сайте. Ваша статья очень в этом случае пригодится. И написано подробно и доступно. Вам вопрос можно будет задать, если такой возникнет?

    Ответить
    • Андрей Назыров:

      Конечно можно. С удовольствием отвечу 😉

      Ответить
  15. Татьяна ObzorFan:

    Андрей, доброго дня! Я вас уже замучила своими вопросами, но такому новичку как я без вас просто никуда))). Скажите пожалуйста, надо ли как-то дополнительно закрывать от индексации форму подписки на сайте

    Push-уведомления

    Или она уже автоматически закрыта в моем файле Роботс? И еще такой вопрос. Можно ли делать так: в статье я делаю ссылку, ведущую на страницу, которая содержит всего лишь одну фотографию Сертификата продукта? Т.е. нет никакого текста на ней, а просто одна картинка. В общем человек читает статью, хочет посмотреть Сертификат качества, клацает по ссылке и переходит на страницу с его фото. Где-то слышала, что такие страницы считаются мусором и они очень плохо влияют на ранжирование. Есть ли какой-то другой способ демонстрировать подобные документы? Подскажите пожалуйста, как лучше поступить?

    Ответить
    • Андрей Назыров:

      Здравствуйте, Татьяна. Форму можете не скрывать, никакого вреда она не принесет. Она у вас выводится через iframe.
       
      Страницы с сертификатами лучше закрыть от индексации. Плагин Yoast Seo позволяет для каждой страницы в отдельности задать метаданные noindex, nofollow.

      Ответить
  16. Евгений:

    Добрый вечер! Скажите пожалуйста, всё-таки как правильно сделать? У меня есть сайт онлайн на uCoz, купил новый домен и я в Панели Управления сайтом уже припарковал его, но ещё не делал его основным, теперь как мне дальше поступить, как правильно настроить robots.txt с минимальными потерями ранее проиндексированными страницами? Как сделать всё правильно и по шагово? Кто говорит что будет достаточно этого:

    Старый:

    Host: hd-onlayn.ru
    Sitemap: http://hd-onlayn.ru/sitemap.xml

    Поменять на новый и всё!

    Host: kinogod.net
    Sitemap: http://kinogod.net/sitemap.xml

    Ответить
    • Андрей Назыров:

      Здравствуйте, Евгений. Вообще процедура смены домены подразумевает изменение HOST в robots.txt и 301 редирект со старого домена на новый. В случае с uCoz кажется редирект идет автоматически, достаточно лишь изменить основной домен и прописать HOST, как вы и написали выше. Но я могу ошибаться, лучше уточните эту информацию у службы поддержки.

      Ответить
      • Евгений:

        Доброе утро Андрей! Мне тоже кажется что автоматически стоит, а так просто сменить старый на новый и сделать его основным и прописать Host: и всё? Спасибо! Вот в настройках написано:

        HD-ONLAYN.RU основной домен
        Поисковые системы индексируют сайты только по домену главного зеркала. В настоящее время таковым является домен «hd-onlayn.ru». Остальные домены редиректят на него при помощи 301-го серверного редиректа.

        Вот ещё и эта функция у меня включена:

        Автоматически перенаправлять с системного поддомена на прикреплённый домен:
        Устанавливает 301 редирект с системного поддомена на прикреплённый домен. При обращении по системному поддомену посетитель будет автоматически перенаправлен на эту же страницу в прикреплённом домене. Советуем включить данную опцию.

  17. Евгений:

    И ещё Андрей! В Вебмастере добавляю новый домен, а мне пишет Подтверждение прав на kinogod.net:
    Добавьте в код главной страницы вашего сайта (в раздел head) мета-тег:

    Нужно удалить старый — тег и внести новый или просто ниже старого внести?

    Ответить
    • Андрей Назыров:

      Старый код подтверждения можно удалить, а можно и оставить. В любом случае учитываться будет лишь новый код.

      Ответить
  18. Евгений:

    Вот это куда: HTML-файл

    В корне сайта создайте файл с именем yandex_d90eb71f4cef4fbb.html и со следующим содержимым:

    Verification: d90eb71f4cef4fbb

    Убедитесь, что файл по адресу http://kinogod.net/yandex_d90eb71f4cef4fbb.html открывается

    DNS-запись

    Добавьте в DNS домена kinogod.net такую TXT-запись:
    yandex-verification: d90eb71f4cef4fbb
    Убедитесь, что правильно выбрали домен! Если в сервисе домен с www, а вы добавили запись для домена без www (или наоборот), то подтверждение не сработает. Обновление записей DNS может занимать достаточно долгое время. Нажмите на кнопку «Проверить» после того, как записи обновятся.

    И самое не понятное: WHOIS

    Добавьте и подтвердите в Яндекс.Паспорте адрес электронной почты, указанный в данных WHOIS, после чего нажмите на кнопку «Проверить». Проверяются следующие поля из WHOIS: Email, Contact, Registrant Email, Admin Email, Tech Email.

    Ответить
    • Андрей Назыров:

      Если вы подтверждали права владения сайтом при помощи мета-тега, то не нужно загружать HTML файл. HTML файл, это просто один из трех вариантов подтверждения.

      Ответить
  19. Евгений:

    Спасибо большое Андрей! Значит так и буду делать!

    Ответить
    • Андрей Назыров:

      Пожалуйста

      Ответить
  20. Евгений:

    Андрей! Ещё вопросик, не по теме. Какова может быть причина, падения сайта, ссылки ранжируются, ни каких ограничений со стороны алгоритмов, в банн не попадал, под фильтр тоже, на Текст.ру, мне пишут 100% уникальности статьи к фильмам по 2000 символов! Реклам с кликандером нету, переходы только с закладок, но ни как не с Яндекса! Закинул фильм «На пятьдесят оттенков темнее» сразу появился на первой странице в поиске, люди сразу пошли, а через пару часов, вообще пропала ссылка из поиска, почему так? Вот я и хочу поменять домен, так как делал прогон сайта пару раз, может это из-за этого?

    Ответить
  21. Евгений:

    Да и вдогонку, забыл просто, более 3000 хоста в сутки нет, был по фильму «другой мир: Воины крови, тогда был Хост 14000, ну это было всего лишь дней 5 и всё!

    Ответить
    • Андрей Назыров:

      Просто в этой тематике очень много трастовых конкурентов. К примеру запрос «На пятьдесят оттенков темнее смотреть» имеет конкуренцию по мутагену более 25. Если же посмотреть в выдачу то в ТОПе либо очень трастовые конкуренты, такие как кинопоиск и kinogo, либо сайты с недавно проиндексированным контентом (менее 24 часов). Как правило, если сайты имеют низкие поведенческие, то через пару дней они тоже вылетят с ТОПа, а их место займут новые, более трастовые сайты.

      скрин выдачи

      Прогон думаю тут не при чем, скорее дело в поведенческих факторах, так как санкций со стороны Яндекса нет. Но это лишь мое мнение )

      Ответить
      • Евгений:

        Доброе утро! Ну правильно будет если я поменяю домен, ваш совет и что делать с этим поведенческим фактором?

      • Андрей Назыров:

        Привет. Я не знаю, поможет ли чем-то смена домена. Чтобы улучшить поведенческие, попробуйте проанализировать поведение пользователей с помощью Яндекс Метрики, может заметите по каким причинам пользователи покидают сайт и найдете способы их удержать.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *