Как сделать правильный robots.txt и что это такое?
Здравствуйте, дорогие читатели моего блога nazyrov.ru! Сегодня я хотел бы рассказать о том как сделать правильный robots.txt, и что это вообще за штука.
Файл robots.txt всегда должен располагаться в корневой директории по адресу — http://ваш сайт/robots.txt
Этим файлом ни в коем случае не стоит пренебрегать. Роботы поисковых систем ориентируются на сайте в первую очередь по нему.
Так для чего же вообще нужен этот файл? В robots.txt прописываются определенные правила, которые запрещают индексировать страницы, файлы и папки, не содержащие нужной информации. Это такие папки, как wp-admin, wp-includes, которые необходимы для работы движка. А так же страницы, содержащие дублированный контент – архивы, архивы меток, рубрики, ленты новостей RSS и прочая ерунда.
Дублированный контент, это вообще отдельная большая тема, о нем уже немало написано в интернете. Не буду на этом останавливаться подробно, внизу статьи есть ссылка, перейдя по которой можете более детально ознакомиться с различными дублями, которые тормозят сайт. Информация проверена, работает 100 %.
Кроме вышеперечисленных файлов и папок, в robots.txt необходимо закрывать все страницы, содержащие большое количество исходящих ссылок, скриптов и страницы не содержащие какой-либо нужной информации.
Настройка robots.txt
Я считаю, что при создании файла robots.txt нужно прописывать 3 директивы для разных поисковых роботов — для Google, Яндекс и остальных роботов.
Конечно, можно было бы задать одно правило для всех, но как показывает практика, отечественная и западная поисковая система во многих вопросах никак не придут к соглашению.
К примеру, если закрыть доступ Гуглботу к скриптам и CSS,то он упорно не будет видеть что блог адаптирован к мобильным, а для Яндекс открытие этих файлов в роботс может наплодить немало дублей страниц. Сейчас Яндекс тоже начинает индексироватьCSS, но пока все на стадии тестирования и неизвестно сколько это тестирование продлится.
Для блогов, использующих движок WordPress я бы рекомендовал использовать следующий robots.txt (я сам его использую):
User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: */trackback Disallow: */feed Disallow: /*? Disallow: /author/ Disallow: /transfers.js Disallow: /go.php Disallow: /xmlrpc.php User-agent: Yandex Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: */trackback Disallow: */feed Disallow: /*? Disallow: /author/ Disallow: /transfers.js Disallow: /go.php Disallow: /xmlrpc.php Host: nazyrov.ru User-agent: Googlebot Allow: *.css Allow: *.js Allow: /wp-includes/*.js Disallow: /cgi-bin/ Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /wp-content/cache Disallow: */trackback Disallow: */feed Disallow: /author/ Disallow: /transfers.js Disallow: /go.php Disallow: /xmlrpc.php Disallow: /*? Sitemap: /sitemap.xml
Сейчас я объясню, что это все означает.
Директива User-agent:
Содержит название поискового робота. Если прописывается robots.txt для всех роботов, то нужно поставить звездочку: User-agent: *.Если допустим сообщение предназначено исключительно для поисковой системы Яндекс, то прописываем:
User – agent: Yandex.
Директива Disallow:
Означает запрет индексирования чего-либо. Если вы хотите полностью запретить индексировать сайт, то достаточно прописать в файле robots.txt следующее:
User-agent: * Disallow: *
Директива Host:
Здесь прописывается ваш домен с www.sait.ru или просто sait.ru
Директива Host обязательно должна присутствовать для робота Яндекса. Она указывает на главное зеркало.
Директива Sitemap:
Здесь нужно указать ссылку на карту сайта XML. О том, как ее сделать я писал в статье – как сделать карту сайта на WordPress.
Директива Allow:
Эта директива, наоборот показывает поисковому роботу, что данный раздел необходимо индексировать.
Я описал лишь основные директивы и спецсимволы, необходимые для простого сайта или блога. Но если страницы вашего сайта содержат какие-то динамические параметры – рефереров, идентификаторы сессий, то для этого можно использовать дополнительные директивы, которые рекомендует Яндекс. Подробнее можете увидеть по ссылке: http://help.yandex.ru/webmaster/controlling-robot/robots-txt.xml
Юзер агенты поисковых систем для файла robots.txt
У каждой поисковой системы есть свои юзер агенты, отвечающие за определенную часть контента. Один агент отвечает, за изображения, второй за мультимедию и так далее.
Добавление их в файл robots.txt может расширить его возможности. Например, вы хотите запретить индексировать все изображения на сайте поисковому роботу яндекса. Для этого достаточно прописать:
User-agent: YandexImages Disallow: /wp-content/uploads/
Для поисковой системы Яндекс, существуют следующие юзер агенты:
Yandex — все роботы поисковой системы яндекс.
YandexBot — основной индексирующий робот яндекса
YandexMedia — робот мультимедийных данных;
YandexImages — индексирующий Яндекс.Картинки;
YandexDirect — робот, индексирующий страницы, участвующих в Рекламной сети Яндекса;
YandexBlogs — робот поиска по блогам, индексирующий комментарии постов;
YandexNews — робот Яндекс.Новостей;
YandexPagechecker — робот, обращающийся к странице при валидации микроразметки;
А для поисковой системы Google следующие:
Googlebot – веб поиск Google;
Googlebot-News – робот Google новостей;
Googlebot-Images – робот Google – картинок;
Googlebot-Video — робот мультимедийных данных;
Googlebot-Mobile – робот индексирующий оптимизацию под мобильные устройства;
Googlebot-AdSense — робот, страницы, участвующих в сети AdSense;
Adsbot-Google – проверка качества целевой страницы и отсутствие копипаста.
Да, файл реально нужный, удалять его не стоит!
Какой файл, Юрий — robots.txt?
Да, я его удалил полностью — теперь придется восстанавливать.
А стоило это делать, тобыш удалять?
Разницы я не увидел — что он был, что его нет — как все работало, так и работает. Как были посетители на блоге — так и остались.
Надо будет сегодня посмотреть на свой robots.txt, если что, возьму твой, спасибо. А про роботов слышу впервые, оказывается их очень много ))
Алексей, если ты возьмёшь роботс Андрея, то ты обязан будешь прочитать его статью про дубли (которую он указал в этом посте) иначе твоему блогу будет жо..
Андрей я прав?
Абсолютно!
Андрей, прикинь, у меня этого файла долгое время тупо не было))
Потом Оля (bloggoved.ru) сказала, что надо закачать))
Главное, что закачал 😉
Исходя из твоего роботса, я вижу что ты внимательно почитал статьи А.Б. я сделал тоже самое!
🙂
Сейчас наверное у многих блоггеров стоит этот роботс, особенно у тех кто читает Борисова)))
🙂
Да, по недавней практике, тоже думаю, что это самый правильный роботс!
После этих манипуляций Яндекс выпюнул 40 тыщ страниц сразу, Гугл постепенно, но пока уже 570 страницы основном индексе, ждем’с =)
Меня иногда напрягает, что приходится еще быть немного СЕОшником! Хочется дарить добро людям, а как, если к тебе идут из-за отсутствия таких знания? =)))
Очень интересно спасибо
Я поставил себе такой роботс, так у меня статьи перестали индексироваться поисковиками, поэтому поставил старый роботс.
Вряд ли это является причиной. Как раз такой роботс разрешает индексировать все, влючая многие, дубли страниц. А чтобы избавиться от дублей. нужно дополнительно изменить файл htaccess, и прописать на страницах дублей
Подробнее можно узнать по ссылке в статье, которая ведет на блог Борисова.
В вашем случае думаю другая причина вылета из индекса. Я бы на вашем месте написал Платону с вопросом!
Не знаю, Андрей. Но как только я поменял его, сразу же статьи начали индексироваться !
Да, даже не знаю а стоит ли переписывать. Я например просто открыл эти дубли как показывал Александр и все. То есть убрал две вот эти строчки
Disallow: /*?*
Disallow: /*?
Так что как то так.
Андрей, а вы прописывали
как советовал Александр?Если честно, то нет. Можете посмотреть мой роботс. Да и Андрей, а что измениться если будут эти репликоны? Например Вы что перестанете ходить ко мне? Я думаю что друзья как ходили так и продолжат. Просто если писать все по правилам, то для начала надо бы домен поменять. А так, какая разница.
Андрей, к вам разумеется буду ходить 🙂
Но ведь основная цель любого продвижения, это трафик с ПС, а они Птерпеть не могут дубли страниц. И если Яндекс их фильтрует, что заметно из Яндекс Вебмастер, то Google упорно их индексирует и понижает такие блоги в ранжировании. Вот такая вот петрушка получается.
Как же я мучилась в одно время с этим роботсом, в одном месте писали что вот так надо настраивать, в другом месте по другому, поисковик принимать не хотел мой файл, говорил, что там ошибки, ааа, паника была))
А сейчас уже все настроено, слава богу, все хорошо работает.)
То в реальности можно Вас Диана и поздравить, а многим приходится еще над этим вопросом трудится
Да марафон 100DaysForChanges, проходил в то же время что и твой марафон, в нем приняли участие достаточно много продвинутых и успешных блоггеров, с удовольствием следил за их работой, было интересно. Сам участие не принимал, но всегда со стороны люблю наблюдать
Скажите, если стоят 2 блока роботс, в частности:
1. User-agent: *
……….
2. User-agent: Yandex
……….
Первый блок означает правила для всех роботов, второй — для яндекса, вопрос: имеет ли приоритет второй блок, или роботы могут не обращать внимание на блок для яндекса, а следовать только первому блоку?
Приветствую, Янис. В этом случае робот Яндекса будет игнорировать первую директиву User-agent: * и индексировать сайт по второй — User-agent: Yandex.
Андрей, а как вы относитесь к недавним «просьбам» от Гугла (сообщения пришло многим вебмастерам в панель) о необходимости открыть для робота некоторые директории, которые ранее было принято закрывать во избежание дублей?
Александр, а вы мой роботс видели? У меня большая часть открыта. То, что другие закрывают, я открыл уже давно, и сделал редирект со страниц дублей на основную.
Единственное, что боюсь пока открывать, это доступ к теме блога. Я закрываю ссылки с помощью ajax, а гугл прекрасно индексирует CSS и Javascript, поэтому неизвестно как он отреагирует на мою хитрость )) Но открывать, думаю все же придется. без этого Google упорно не хочет считать мой блог адаптивным, а когда открывал доступ к CSS было все отлично, в выдаче показывал ярлык «Для мобильных».
Как много нужно знать много владельцам сайтов. Детально нужно заняться robots на своем сайте. Ваша статья очень в этом случае пригодится. И написано подробно и доступно. Вам вопрос можно будет задать, если такой возникнет?
Конечно можно. С удовольствием отвечу 😉
Андрей, доброго дня! Я вас уже замучила своими вопросами, но такому новичку как я без вас просто никуда))). Скажите пожалуйста, надо ли как-то дополнительно закрывать от индексации форму подписки на сайте
Или она уже автоматически закрыта в моем файле Роботс? И еще такой вопрос. Можно ли делать так: в статье я делаю ссылку, ведущую на страницу, которая содержит всего лишь одну фотографию Сертификата продукта? Т.е. нет никакого текста на ней, а просто одна картинка. В общем человек читает статью, хочет посмотреть Сертификат качества, клацает по ссылке и переходит на страницу с его фото. Где-то слышала, что такие страницы считаются мусором и они очень плохо влияют на ранжирование. Есть ли какой-то другой способ демонстрировать подобные документы? Подскажите пожалуйста, как лучше поступить?
Здравствуйте, Татьяна. Форму можете не скрывать, никакого вреда она не принесет. Она у вас выводится через iframe.
Страницы с сертификатами лучше закрыть от индексации. Плагин Yoast Seo позволяет для каждой страницы в отдельности задать метаданные noindex, nofollow.
Добрый вечер! Скажите пожалуйста, всё-таки как правильно сделать? У меня есть сайт онлайн на uCoz, купил новый домен и я в Панели Управления сайтом уже припарковал его, но ещё не делал его основным, теперь как мне дальше поступить, как правильно настроить robots.txt с минимальными потерями ранее проиндексированными страницами? Как сделать всё правильно и по шагово? Кто говорит что будет достаточно этого:
Старый:
Host: hd-onlayn.ru
Sitemap: http://hd-onlayn.ru/sitemap.xml
Поменять на новый и всё!
Host: kinogod.net
Sitemap: http://kinogod.net/sitemap.xml
Здравствуйте, Евгений. Вообще процедура смены домены подразумевает изменение HOST в robots.txt и 301 редирект со старого домена на новый. В случае с uCoz кажется редирект идет автоматически, достаточно лишь изменить основной домен и прописать HOST, как вы и написали выше. Но я могу ошибаться, лучше уточните эту информацию у службы поддержки.
Доброе утро Андрей! Мне тоже кажется что автоматически стоит, а так просто сменить старый на новый и сделать его основным и прописать Host: и всё? Спасибо! Вот в настройках написано:
HD-ONLAYN.RU основной домен
Поисковые системы индексируют сайты только по домену главного зеркала. В настоящее время таковым является домен «hd-onlayn.ru». Остальные домены редиректят на него при помощи 301-го серверного редиректа.
Вот ещё и эта функция у меня включена:
Автоматически перенаправлять с системного поддомена на прикреплённый домен:
Устанавливает 301 редирект с системного поддомена на прикреплённый домен. При обращении по системному поддомену посетитель будет автоматически перенаправлен на эту же страницу в прикреплённом домене. Советуем включить данную опцию.
И ещё Андрей! В Вебмастере добавляю новый домен, а мне пишет Подтверждение прав на kinogod.net:
Добавьте в код главной страницы вашего сайта (в раздел head) мета-тег:
Нужно удалить старый — тег и внести новый или просто ниже старого внести?
Старый код подтверждения можно удалить, а можно и оставить. В любом случае учитываться будет лишь новый код.
Вот это куда: HTML-файл
В корне сайта создайте файл с именем yandex_d90eb71f4cef4fbb.html и со следующим содержимым:
Verification: d90eb71f4cef4fbb
Убедитесь, что файл по адресу http://kinogod.net/yandex_d90eb71f4cef4fbb.html открывается
DNS-запись
Добавьте в DNS домена kinogod.net такую TXT-запись:
yandex-verification: d90eb71f4cef4fbb
Убедитесь, что правильно выбрали домен! Если в сервисе домен с www, а вы добавили запись для домена без www (или наоборот), то подтверждение не сработает. Обновление записей DNS может занимать достаточно долгое время. Нажмите на кнопку «Проверить» после того, как записи обновятся.
И самое не понятное: WHOIS
Добавьте и подтвердите в Яндекс.Паспорте адрес электронной почты, указанный в данных WHOIS, после чего нажмите на кнопку «Проверить». Проверяются следующие поля из WHOIS: Email, Contact, Registrant Email, Admin Email, Tech Email.
Если вы подтверждали права владения сайтом при помощи мета-тега, то не нужно загружать HTML файл. HTML файл, это просто один из трех вариантов подтверждения.
Спасибо большое Андрей! Значит так и буду делать!
Пожалуйста
Андрей! Ещё вопросик, не по теме. Какова может быть причина, падения сайта, ссылки ранжируются, ни каких ограничений со стороны алгоритмов, в банн не попадал, под фильтр тоже, на Текст.ру, мне пишут 100% уникальности статьи к фильмам по 2000 символов! Реклам с кликандером нету, переходы только с закладок, но ни как не с Яндекса! Закинул фильм «На пятьдесят оттенков темнее» сразу появился на первой странице в поиске, люди сразу пошли, а через пару часов, вообще пропала ссылка из поиска, почему так? Вот я и хочу поменять домен, так как делал прогон сайта пару раз, может это из-за этого?
Да и вдогонку, забыл просто, более 3000 хоста в сутки нет, был по фильму «другой мир: Воины крови, тогда был Хост 14000, ну это было всего лишь дней 5 и всё!
Просто в этой тематике очень много трастовых конкурентов. К примеру запрос «На пятьдесят оттенков темнее смотреть» имеет конкуренцию по мутагену более 25. Если же посмотреть в выдачу то в ТОПе либо очень трастовые конкуренты, такие как кинопоиск и kinogo, либо сайты с недавно проиндексированным контентом (менее 24 часов). Как правило, если сайты имеют низкие поведенческие, то через пару дней они тоже вылетят с ТОПа, а их место займут новые, более трастовые сайты.
Прогон думаю тут не при чем, скорее дело в поведенческих факторах, так как санкций со стороны Яндекса нет. Но это лишь мое мнение )
Доброе утро! Ну правильно будет если я поменяю домен, ваш совет и что делать с этим поведенческим фактором?
Привет. Я не знаю, поможет ли чем-то смена домена. Чтобы улучшить поведенческие, попробуйте проанализировать поведение пользователей с помощью Яндекс Метрики, может заметите по каким причинам пользователи покидают сайт и найдете способы их удержать.