Как сделать правильный robots.txt и что это такое?

Здравствуйте, дорогие читатели моего блога nazyrov.ru! Сегодня я хотел бы рассказать о том как сделать правильный robots.txt, и что это вообще за штука.

robots.txt для блога

robots.txt – это файл, который находится в корневой директории блога или сайта, и указывает поисковым системам что следует индексировать, а что нет.

Файл robots.txt всегда должен располагаться в корневой директории по адресу — http://ваш сайт/robots.txt

Этим файлом ни в коем случае не стоит пренебрегать. Роботы поисковых систем ориентируются на сайте в первую очередь по нему.

Так для чего же вообще нужен этот файл? В robots.txt прописываются определенные правила, которые запрещают индексировать страницы, файлы и папки, не содержащие нужной информации. Это такие папки, как wp-admin, wp-includes, которые необходимы для работы движка. А так же страницы, содержащие дублированный контент – архивы, архивы меток, рубрики, ленты новостей RSS и прочая ерунда.

Дублированный контент, это вообще отдельная большая тема, о нем уже немало написано в интернете. Не буду на этом останавливаться подробно, внизу статьи есть ссылка, перейдя по которой можете более детально ознакомиться с различными дублями, которые тормозят сайт. Информация проверена, работает 100 %.

Кроме вышеперечисленных файлов и папок, в robots.txt необходимо закрывать все страницы, содержащие большое количество исходящих ссылок, скриптов и страницы не содержащие какой-либо нужной информации.

Настройка robots.txt

Я считаю, что при создании файла robots.txt нужно прописывать 3 директивы для разных поисковых роботов — для Google, Яндекс и остальных роботов.

Конечно, можно было бы задать одно правило для всех, но как показывает практика, отечественная и западная поисковая система во многих вопросах никак не придут к соглашению.

К примеру, если закрыть доступ Гуглботу к скриптам и CSS,то он упорно не будет видеть что блог адаптирован к мобильным, а для Яндекс открытие этих файлов в роботс может наплодить немало дублей страниц. Сейчас Яндекс тоже начинает индексироватьCSS, но пока все на стадии тестирования и неизвестно сколько это тестирование продлится.

Для блогов, использующих движок WordPress я бы рекомендовал использовать следующий robots.txt (я сам его использую):

User-agent: *  Disallow: /cgi-bin  Disallow: /wp-admin  Disallow: /wp-includes  Disallow: /wp-content/plugins  Disallow: /wp-content/cache  Disallow: /wp-content/themes  Disallow: */trackback  Disallow: */feed  Disallow: /*?  Disallow: /author/  Disallow: /transfers.js  Disallow: /go.php  Disallow: /xmlrpc.php    User-agent: Yandex  Disallow: /cgi-bin  Disallow: /wp-admin  Disallow: /wp-includes  Disallow: /wp-content/plugins  Disallow: /wp-content/cache  Disallow: /wp-content/themes  Disallow: */trackback  Disallow: */feed  Disallow: /*?  Disallow: /author/  Disallow: /transfers.js  Disallow: /go.php  Disallow: /xmlrpc.php  Host: nazyrov.ru    User-agent: Googlebot  Allow: *.css  Allow: *.js  Allow: /wp-includes/*.js  Disallow: /cgi-bin/  Disallow: /wp-admin/  Disallow: /wp-includes/  Disallow: /wp-content/cache  Disallow: */trackback  Disallow: */feed  Disallow: /author/  Disallow: /transfers.js  Disallow: /go.php  Disallow: /xmlrpc.php  Disallow: /*?  Sitemap: /sitemap.xml  

Сейчас я объясню, что это все означает.

Директива User-agent:

Содержит название поискового робота. Если прописывается robots.txt для всех роботов, то нужно поставить звездочку: User-agent: *.Если допустим сообщение предназначено исключительно для поисковой системы Яндекс, то прописываем:
User – agent: Yandex.

Директива Disallow:

Означает запрет индексирования чего-либо. Если вы хотите полностью запретить индексировать сайт, то достаточно прописать в файле robots.txt следующее:

User-agent: *  Disallow: *

Директива Host:

Здесь прописывается ваш домен с www.sait.ru или просто sait.ru

Директива Host обязательно должна присутствовать для робота Яндекса. Она указывает на главное зеркало.

Директива Sitemap:

Здесь нужно указать ссылку на карту сайта XML. О том, как ее сделать я писал в статье – как сделать карту сайта на WordPress.

Директива Allow:

Эта директива, наоборот показывает поисковому роботу, что данный раздел необходимо индексировать.

Я описал лишь основные директивы и спецсимволы, необходимые для простого сайта или блога. Но если страницы вашего сайта содержат какие-то динамические параметры – рефереров, идентификаторы сессий, то для этого можно использовать дополнительные директивы, которые рекомендует Яндекс. Подробнее можете увидеть по ссылке: http://help.yandex.ru/webmaster/controlling-robot/robots-txt.xml

Юзер агенты поисковых систем для файла robots.txt

.pth futyns gjbcrjds[ cbcntv

У каждой поисковой системы есть свои юзер агенты, отвечающие за определенную часть контента. Один агент отвечает, за изображения, второй за мультимедию и так далее.

Добавление их в файл robots.txt может расширить его возможности. Например, вы хотите запретить индексировать все изображения на сайте поисковому роботу яндекса. Для этого достаточно прописать:

User-agent: YandexImages  Disallow: /wp-content/uploads/

Для поисковой системы Яндекс, существуют следующие юзер агенты:

Yandex — все роботы поисковой системы яндекс.
YandexBot — основной индексирующий робот яндекса
YandexMedia — робот мультимедийных данных;
YandexImages — индексирующий Яндекс.Картинки;
YandexDirect — робот, индексирующий страницы, участвующих в Рекламной сети Яндекса;
YandexBlogs — робот поиска по блогам, индексирующий комментарии постов;
YandexNews — робот Яндекс.Новостей;
YandexPagechecker — робот, обращающийся к странице при валидации микроразметки;

А для поисковой системы Google следующие:

Googlebot – веб поиск Google;
Googlebot-News – робот Google новостей;
Googlebot-Images – робот Google – картинок;
Googlebot-Video — робот мультимедийных данных;
Googlebot-Mobile – робот индексирующий оптимизацию под мобильные устройства;
Googlebot-AdSense — робот, страницы, участвующих в сети AdSense;
Adsbot-Google – проверка качества целевой страницы и отсутствие копипаста.

 

Рейтинг автора
Автор статьи
Назыров Андрей
Основатель блога и его главный редактор.
Написано статей
105
Поделись информацией:
Помогла статья? Оцените её
1 Звезда2 Звезды3 Звезды4 Звезды5 Звезд
Оценок: 1
Загрузка...

Подписка на рассылку

Комментарии
  1. Юрий Йосифович

    Да, файл реально нужный, удалять его не стоит!

    • Иван Зелинский

      Какой файл, Юрий — robots.txt?

      • Юрий Йосифович

        Да, я его удалил полностью — теперь придется восстанавливать.

      • Иван Зелинский

        А стоило это делать, тобыш удалять?

      • Юрий Йосифович

        Разницы я не увидел — что он был, что его нет — как все работало, так и работает. Как были посетители на блоге — так и остались.

  2. Алексей

    Надо будет сегодня посмотреть на свой robots.txt, если что, возьму твой, спасибо. А про роботов слышу впервые, оказывается их очень много ))

    • Игорь Черноморец

      Алексей, если ты возьмёшь роботс Андрея, то ты обязан будешь прочитать его статью про дубли (которую он указал в этом посте) иначе твоему блогу будет жо..
      Андрей я прав?

      • Андрей Назыров

        Абсолютно!

  3. Азик

    Андрей, прикинь, у меня этого файла долгое время тупо не было))
    Потом Оля (bloggoved.ru) сказала, что надо закачать))

    • Андрей Назыров

      Главное, что закачал 😉

  4. Игорь Черноморец

    Исходя из твоего роботса, я вижу что ты внимательно почитал статьи А.Б. я сделал тоже самое!

    • Андрей Назыров

      🙂

  5. Татьяна

    Сейчас наверное у многих блоггеров стоит этот роботс, особенно у тех кто читает Борисова)))

    • Андрей Назыров

      🙂

  6. Александр

    Да, по недавней практике, тоже думаю, что это самый правильный роботс!

    После этих манипуляций Яндекс выпюнул 40 тыщ страниц сразу, Гугл постепенно, но пока уже 570 страницы основном индексе, ждем’с =)

    Меня иногда напрягает, что приходится еще быть немного СЕОшником! Хочется дарить добро людям, а как, если к тебе идут из-за отсутствия таких знания? =)))

  7. Ира

    Очень интересно спасибо

  8. Ivanovskij

    Я поставил себе такой роботс, так у меня статьи перестали индексироваться поисковиками, поэтому поставил старый роботс.

    • Андрей Назыров

      Вряд ли это является причиной. Как раз такой роботс разрешает индексировать все, влючая многие, дубли страниц. А чтобы избавиться от дублей. нужно дополнительно изменить файл htaccess, и прописать на страницах дублей


      Подробнее можно узнать по ссылке в статье, которая ведет на блог Борисова.
      В вашем случае думаю другая причина вылета из индекса. Я бы на вашем месте написал Платону с вопросом!

      • Ivanovskij

        Не знаю, Андрей. Но как только я поменял его, сразу же статьи начали индексироваться !

  9. Андрей

    Да, даже не знаю а стоит ли переписывать. Я например просто открыл эти дубли как показывал Александр и все. То есть убрал две вот эти строчки
    Disallow: /*?*
    Disallow: /*?
    Так что как то так.

    • Андрей Назыров

      Андрей, а вы прописывали

      как советовал Александр?

      • Андрей

        Если честно, то нет. Можете посмотреть мой роботс. Да и Андрей, а что измениться если будут эти репликоны? Например Вы что перестанете ходить ко мне? Я думаю что друзья как ходили так и продолжат. Просто если писать все по правилам, то для начала надо бы домен поменять. А так, какая разница.

      • Андрей Назыров

        Андрей, к вам разумеется буду ходить 🙂
        Но ведь основная цель любого продвижения, это трафик с ПС, а они Птерпеть не могут дубли страниц. И если Яндекс их фильтрует, что заметно из Яндекс Вебмастер, то Google упорно их индексирует и понижает такие блоги в ранжировании. Вот такая вот петрушка получается.

  10. Диана

    Как же я мучилась в одно время с этим роботсом, в одном месте писали что вот так надо настраивать, в другом месте по другому, поисковик принимать не хотел мой файл, говорил, что там ошибки, ааа, паника была))
    А сейчас уже все настроено, слава богу, все хорошо работает.)

    • Иван Зелинский

      То в реальности можно Вас Диана и поздравить, а многим приходится еще над этим вопросом трудится

  11. Александр

    Да марафон 100DaysForChanges, проходил в то же время что и твой марафон, в нем приняли участие достаточно много продвинутых и успешных блоггеров, с удовольствием следил за их работой, было интересно. Сам участие не принимал, но всегда со стороны люблю наблюдать

  12. ЯНИС

    Скажите, если стоят 2 блока роботс, в частности:
    1. User-agent: *
    ……….
    2. User-agent: Yandex
    ……….
    Первый блок означает правила для всех роботов, второй — для яндекса, вопрос: имеет ли приоритет второй блок, или роботы могут не обращать внимание на блок для яндекса, а следовать только первому блоку?

    • Андрей Назыров

      Приветствую, Янис. В этом случае робот Яндекса будет игнорировать первую директиву User-agent: * и индексировать сайт по второй — User-agent: Yandex.

  13. Александр

    Андрей, а как вы относитесь к недавним «просьбам» от Гугла (сообщения пришло многим вебмастерам в панель) о необходимости открыть для робота некоторые директории, которые ранее было принято закрывать во избежание дублей?

    • Андрей Назыров

      Александр, а вы мой роботс видели? У меня большая часть открыта. То, что другие закрывают, я открыл уже давно, и сделал редирект со страниц дублей на основную.
      Единственное, что боюсь пока открывать, это доступ к теме блога. Я закрываю ссылки с помощью ajax, а гугл прекрасно индексирует CSS и Javascript, поэтому неизвестно как он отреагирует на мою хитрость )) Но открывать, думаю все же придется. без этого Google упорно не хочет считать мой блог адаптивным, а когда открывал доступ к CSS было все отлично, в выдаче показывал ярлык «Для мобильных».

  14. Людмила

    Как много нужно знать много владельцам сайтов. Детально нужно заняться robots на своем сайте. Ваша статья очень в этом случае пригодится. И написано подробно и доступно. Вам вопрос можно будет задать, если такой возникнет?

    • Андрей Назыров

      Конечно можно. С удовольствием отвечу 😉

  15. Татьяна ObzorFan

    Андрей, доброго дня! Я вас уже замучила своими вопросами, но такому новичку как я без вас просто никуда))). Скажите пожалуйста, надо ли как-то дополнительно закрывать от индексации форму подписки на сайте

    Push-уведомления

    Или она уже автоматически закрыта в моем файле Роботс? И еще такой вопрос. Можно ли делать так: в статье я делаю ссылку, ведущую на страницу, которая содержит всего лишь одну фотографию Сертификата продукта? Т.е. нет никакого текста на ней, а просто одна картинка. В общем человек читает статью, хочет посмотреть Сертификат качества, клацает по ссылке и переходит на страницу с его фото. Где-то слышала, что такие страницы считаются мусором и они очень плохо влияют на ранжирование. Есть ли какой-то другой способ демонстрировать подобные документы? Подскажите пожалуйста, как лучше поступить?

    • Андрей Назыров

      Здравствуйте, Татьяна. Форму можете не скрывать, никакого вреда она не принесет. Она у вас выводится через iframe.
       
      Страницы с сертификатами лучше закрыть от индексации. Плагин Yoast Seo позволяет для каждой страницы в отдельности задать метаданные noindex, nofollow.

  16. Евгений

    Добрый вечер! Скажите пожалуйста, всё-таки как правильно сделать? У меня есть сайт онлайн на uCoz, купил новый домен и я в Панели Управления сайтом уже припарковал его, но ещё не делал его основным, теперь как мне дальше поступить, как правильно настроить robots.txt с минимальными потерями ранее проиндексированными страницами? Как сделать всё правильно и по шагово? Кто говорит что будет достаточно этого:

    Старый:

    Host: hd-onlayn.ru
    Sitemap: http://hd-onlayn.ru/sitemap.xml

    Поменять на новый и всё!

    Host: kinogod.net
    Sitemap: http://kinogod.net/sitemap.xml

    • Андрей Назыров

      Здравствуйте, Евгений. Вообще процедура смены домены подразумевает изменение HOST в robots.txt и 301 редирект со старого домена на новый. В случае с uCoz кажется редирект идет автоматически, достаточно лишь изменить основной домен и прописать HOST, как вы и написали выше. Но я могу ошибаться, лучше уточните эту информацию у службы поддержки.

      • Евгений

        Доброе утро Андрей! Мне тоже кажется что автоматически стоит, а так просто сменить старый на новый и сделать его основным и прописать Host: и всё? Спасибо! Вот в настройках написано:

        HD-ONLAYN.RU основной домен
        Поисковые системы индексируют сайты только по домену главного зеркала. В настоящее время таковым является домен «hd-onlayn.ru». Остальные домены редиректят на него при помощи 301-го серверного редиректа.

        Вот ещё и эта функция у меня включена:

        Автоматически перенаправлять с системного поддомена на прикреплённый домен:
        Устанавливает 301 редирект с системного поддомена на прикреплённый домен. При обращении по системному поддомену посетитель будет автоматически перенаправлен на эту же страницу в прикреплённом домене. Советуем включить данную опцию.

  17. Евгений

    И ещё Андрей! В Вебмастере добавляю новый домен, а мне пишет Подтверждение прав на kinogod.net:
    Добавьте в код главной страницы вашего сайта (в раздел head) мета-тег:

    Нужно удалить старый — тег и внести новый или просто ниже старого внести?

    • Андрей Назыров

      Старый код подтверждения можно удалить, а можно и оставить. В любом случае учитываться будет лишь новый код.

  18. Евгений

    Вот это куда: HTML-файл

    В корне сайта создайте файл с именем yandex_d90eb71f4cef4fbb.html и со следующим содержимым:

    Verification: d90eb71f4cef4fbb

    Убедитесь, что файл по адресу http://kinogod.net/yandex_d90eb71f4cef4fbb.html открывается

    DNS-запись

    Добавьте в DNS домена kinogod.net такую TXT-запись:
    yandex-verification: d90eb71f4cef4fbb
    Убедитесь, что правильно выбрали домен! Если в сервисе домен с www, а вы добавили запись для домена без www (или наоборот), то подтверждение не сработает. Обновление записей DNS может занимать достаточно долгое время. Нажмите на кнопку «Проверить» после того, как записи обновятся.

    И самое не понятное: WHOIS

    Добавьте и подтвердите в Яндекс.Паспорте адрес электронной почты, указанный в данных WHOIS, после чего нажмите на кнопку «Проверить». Проверяются следующие поля из WHOIS: Email, Contact, Registrant Email, Admin Email, Tech Email.

    • Андрей Назыров

      Если вы подтверждали права владения сайтом при помощи мета-тега, то не нужно загружать HTML файл. HTML файл, это просто один из трех вариантов подтверждения.

  19. Евгений

    Спасибо большое Андрей! Значит так и буду делать!

    • Андрей Назыров

      Пожалуйста

  20. Евгений

    Андрей! Ещё вопросик, не по теме. Какова может быть причина, падения сайта, ссылки ранжируются, ни каких ограничений со стороны алгоритмов, в банн не попадал, под фильтр тоже, на Текст.ру, мне пишут 100% уникальности статьи к фильмам по 2000 символов! Реклам с кликандером нету, переходы только с закладок, но ни как не с Яндекса! Закинул фильм «На пятьдесят оттенков темнее» сразу появился на первой странице в поиске, люди сразу пошли, а через пару часов, вообще пропала ссылка из поиска, почему так? Вот я и хочу поменять домен, так как делал прогон сайта пару раз, может это из-за этого?

  21. Евгений

    Да и вдогонку, забыл просто, более 3000 хоста в сутки нет, был по фильму «другой мир: Воины крови, тогда был Хост 14000, ну это было всего лишь дней 5 и всё!

    • Андрей Назыров

      Просто в этой тематике очень много трастовых конкурентов. К примеру запрос «На пятьдесят оттенков темнее смотреть» имеет конкуренцию по мутагену более 25. Если же посмотреть в выдачу то в ТОПе либо очень трастовые конкуренты, такие как кинопоиск и kinogo, либо сайты с недавно проиндексированным контентом (менее 24 часов). Как правило, если сайты имеют низкие поведенческие, то через пару дней они тоже вылетят с ТОПа, а их место займут новые, более трастовые сайты.

      Прогон думаю тут не при чем, скорее дело в поведенческих факторах, так как санкций со стороны Яндекса нет. Но это лишь мое мнение )

      • Евгений

        Доброе утро! Ну правильно будет если я поменяю домен, ваш совет и что делать с этим поведенческим фактором?

      • Андрей Назыров

        Привет. Я не знаю, поможет ли чем-то смена домена. Чтобы улучшить поведенческие, попробуйте проанализировать поведение пользователей с помощью Яндекс Метрики, может заметите по каким причинам пользователи покидают сайт и найдете способы их удержать.

Добавить комментарий