Здравствуйте, дорогие читатели моего блога nazyrov.ru! Сегодня я хотел бы рассказать о том как сделать правильный robots.txt, и что это вообще за штука.
Файл robots.txt всегда должен располагаться в корневой директории по адресу — http://ваш сайт/robots.txt
Этим файлом ни в коем случае не стоит пренебрегать. Роботы поисковых систем ориентируются на сайте в первую очередь по нему.
Так для чего же вообще нужен этот файл? В robots.txt прописываются определенные правила, которые запрещают индексировать страницы, файлы и папки, не содержащие нужной информации. Это такие папки, как wp-admin, wp-includes, которые необходимы для работы движка. А так же страницы, содержащие дублированный контент – архивы, архивы меток, рубрики, ленты новостей RSS и прочая ерунда.
Дублированный контент, это вообще отдельная большая тема, о нем уже немало написано в интернете. Не буду на этом останавливаться подробно, внизу статьи есть ссылка, перейдя по которой можете более детально ознакомиться с различными дублями, которые тормозят сайт. Информация проверена, работает 100 %.
Кроме вышеперечисленных файлов и папок, в robots.txt необходимо закрывать все страницы, содержащие большое количество исходящих ссылок, скриптов и страницы не содержащие какой-либо нужной информации.
Настройка robots.txt
Вот так выглядит стандартный файл robots.txt для WordPress:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 |
User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* User-agent: Yandex Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Host: nazyrov.ru Sitemap: /sitemap.xml.gz Sitemap: /sitemap.xml |
Но у меня он нестандартный, дело в том, что Google не всегда следует правилам запрета в robots.txt, и как следствие, получается большое количество дублей страниц, если использовать Wordpress. Поэтому я использую нестандартный файл robots.txt и делаю запрет индексации дублей уже на самой странице. Подробней можете посмотреть здесь. Вот как выглядит мой robots:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 |
User-agent: * Disallow: /wp-includes Disallow: /wp-feed Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Host: nazyrov.ru Sitemap: /sitemap.xml User-agent: Googlebot-Image Allow: /wp-content/uploads/ User-agent: YandexImages Allow: /wp-content/uploads/ |
Сейчас я объясню, что это все означает.
Директива User-agent:
Содержит название поискового робота. Если прописывается robots.txt для всех роботов, то нужно поставить звездочку: User-agent: *.Если допустим сообщение предназначено исключительно для поисковой системы Яндекс, то прописываем:
User – agent: Yandex.
Директива Disallow:
Означает запрет индексирования чего-либо. Если вы хотите полностью запретить индексировать сайт, то достаточно прописать в файле robots.txt следующее:
1 2 |
User-agent: * Disallow: * |
В моем случае запрещены к индексированию файлы
wp-includes
wp-feed
wp-content/plugins
wp-content/cache
wp-content/themes
Директива Host:
Здесь прописывается ваш домен с www.sait.ru или просто sait.ru
Директива Sitemap:
Здесь нужно указать ссылку на карту сайта XML. О том, как ее сделать я писал в статье – как сделать карту сайта на WordPress.
Директива Allow:
Эта директива, наоборот показывает поисковому роботу, что данный раздел необходимо индексировать.
Вы можете заметить, что у меня нет запрета в robots.txt файлов replytocom, category и т. д. это потому, что я закрыл их отдельно, чтобы избежать дублей страниц. Подробнее об этом можете почитать здесь. Уверен, информация окажется полезной.
Я описал лишь основные директивы и спецсимволы, необходимые для простого сайта или блога. Но если страницы вашего сайта содержат какие-то динамические параметры – рефереров, идентификаторы сессий, то для этого можно использовать дополнительные директивы, которые рекомендует Яндекс. Подробнее модете увидеть по ссылке: http://help.yandex.ru/webmaster/controlling-robot/robots-txt.xml
Юзер агенты поисковых систем для файла robots.txt
У каждой поисковой системы есть свои юзер агнты, отвечающие за определенную часть контента. Один агент отвечает, за изображения, второй за мультимедию и так далее.
Добавление их в файл robots.txt может расширить его возможности. Например, вы хотите запретить индексировать все изображения на сайте поисковому роботу яндекса. Для этого достаточно прописать:
1 2 |
User-agent: YandexImages Disallow: /wp-content/uploads/ |
Для поисковой системы Яндекс, существуют следующие юзер агенты:
Yandex — все роботы поисковой системы яндекс.
YandexBot — основной индексирующий робот яндекса
YandexMedia — робот мультимедийных данных;
YandexImages — индексирующий Яндекс.Картинки;
YandexDirect — робот, индексирующий страницы, участвующих в Рекламной сети Яндекса;
YandexBlogs — робот поиска по блогам, индексирующий комментарии постов;
YandexNews — робот Яндекс.Новостей;
YandexPagechecker — робот, обращающийся к странице при валидации микроразметки;
А для поисковой системы Google следующие:
Googlebot – веб поиск Google;
Googlebot-News – робот Google новостей;
Googlebot-Images – робот Google – картинок;
Googlebot-Video — робот мультимедийных данных;
Googlebot-Mobile – робот индексирующий оптимизацию под мобильные устройства;
Googlebot-AdSense — робот, страницы, участвующих в сети AdSense;
Adsbot-Google – проверка качества целевой страницы и отсутствие копипаста.
P. S. В прошлой статье я объявил о старте марафона «Помоги себе сам». К сожалению за это время участвовать в марафоне изъявил желание лишь один блоггер. Возможно на это повлиял тот факт, что сейчас проходит аналогичный SEO марафон 100DaysForChanges, о котором я не знал к сожалению.
В любом случае, марафон продолжается!
Напоминаю правила и условия марафона – вам нужно в новой статье сделать анонс, или написать статью, в которой сообщить, что вы принимаете участие в SEO марафоне, дать закрытую или открытую ссылку на страницу моего блога : /pomogi-sebe-sam-seo-marafon.html. В своей статье рассказать о планах по развитию блога на ближайшие 2 недели, а по их истечении, делиться с успехами и ставить планы на следующие 2 недели.
На странице с условиями марафона, всегда будет расположен список участников с активными ссылками на их блоги!
Марафон позволит нам познакомиться ближе, перенять опыт друг у друга, исправить все недочеты, накопленные за это время.
Да, файл реально нужный, удалять его не стоит!
Какой файл, Юрий — robots.txt?
Да, я его удалил полностью — теперь придется восстанавливать.
А стоило это делать, тобыш удалять?
Разницы я не увидел — что он был, что его нет — как все работало, так и работает. Как были посетители на блоге — так и остались.
Надо будет сегодня посмотреть на свой robots.txt, если что, возьму твой, спасибо. А про роботов слышу впервые, оказывается их очень много ))
Алексей, если ты возьмёшь роботс Андрея, то ты обязан будешь прочитать его статью про дубли (которую он указал в этом посте) иначе твоему блогу будет жо...
Андрей я прав?
Абсолютно!
Андрей, прикинь, у меня этого файла долгое время тупо не было))
Потом Оля (bloggoved.ru) сказала, что надо закачать))
Главное, что закачал
Исходя из твоего роботса, я вижу что ты внимательно почитал статьи А.Б. я сделал тоже самое!
Сейчас наверное у многих блоггеров стоит этот роботс, особенно у тех кто читает Борисова)))
Да, по недавней практике, тоже думаю, что это самый правильный роботс!
После этих манипуляций Яндекс выпюнул 40 тыщ страниц сразу, Гугл постепенно, но пока уже 570 страницы основном индексе, ждем'с =)
Меня иногда напрягает, что приходится еще быть немного СЕОшником! Хочется дарить добро людям, а как, если к тебе идут из-за отсутствия таких знания? =)))
Очень интересно спасибо
Я поставил себе такой роботс, так у меня статьи перестали индексироваться поисковиками, поэтому поставил старый роботс.
Вряд ли это является причиной. Как раз такой роботс разрешает индексировать все, влючая многие, дубли страниц. А чтобы избавиться от дублей. нужно дополнительно изменить файл htaccess, и прописать на страницах дублей
<meta name='robots' content='noindex,follow' />
Подробнее можно узнать по ссылке в статье, которая ведет на блог Борисова.
В вашем случае думаю другая причина вылета из индекса. Я бы на вашем месте написал Платону с вопросом!
Не знаю, Андрей. Но как только я поменял его, сразу же статьи начали индексироваться !
Да, даже не знаю а стоит ли переписывать. Я например просто открыл эти дубли как показывал Александр и все. То есть убрал две вот эти строчки
Disallow: /*?*
Disallow: /*?
Так что как то так.
Андрей, а вы прописывали
<meta name='robots' content='noindex,follow' />
как советовал Александр?Если честно, то нет. Можете посмотреть мой роботс. Да и Андрей, а что измениться если будут эти репликоны? Например Вы что перестанете ходить ко мне? Я думаю что друзья как ходили так и продолжат. Просто если писать все по правилам, то для начала надо бы домен поменять. А так, какая разница.
Андрей, к вам разумеется буду ходить
Но ведь основная цель любого продвижения, это трафик с ПС, а они Птерпеть не могут дубли страниц. И если Яндекс их фильтрует, что заметно из Яндекс Вебмастер, то Google упорно их индексирует и понижает такие блоги в ранжировании. Вот такая вот петрушка получается.
Как же я мучилась в одно время с этим роботсом, в одном месте писали что вот так надо настраивать, в другом месте по другому, поисковик принимать не хотел мой файл, говорил, что там ошибки, ааа, паника была))
А сейчас уже все настроено, слава богу, все хорошо работает.)
То в реальности можно Вас Диана и поздравить, а многим приходится еще над этим вопросом трудится
Да марафон 100DaysForChanges, проходил в то же время что и твой марафон, в нем приняли участие достаточно много продвинутых и успешных блоггеров, с удовольствием следил за их работой, было интересно. Сам участие не принимал, но всегда со стороны люблю наблюдать
Скажите, если стоят 2 блока роботс, в частности:
1. User-agent: *
..........
2. User-agent: Yandex
..........
Первый блок означает правила для всех роботов, второй — для яндекса, вопрос: имеет ли приоритет второй блок, или роботы могут не обращать внимание на блок для яндекса, а следовать только первому блоку?
Приветствую, Янис. В этом случае робот Яндекса будет игнорировать первую директиву User-agent: * и индексировать сайт по второй — User-agent: Yandex.