Грубейшая ошибка XML карты сайта, которая возможно есть и у вас!
Привет, друзья! Как вы поняли из названия статьи, сегодня я расскажу об одной грубейшей ошибке c индексацией новых статей, которая возможно есть и у вас, если вы используете плагин All In One Seo Pack для генерации карты сайта в формате XML.
Если вы читали мою прошлую статью, то знаете, что я принял участие в SEO конкурсе, по условиям которого нужно вывести статью как можно выше в ТОП. Если не читали, то вот ссылка на конкурсную статью.
С чего я вообще заговорил об ошибке. Дело в том, что я давно заметил, как в индексе поисковых систем появляется много дублей страниц такого вида:
https://nazyrov.ru/ссылка поста.html/название изображения на странице
То есть, если на странице 5 изображений значит, в индексе появляется 5 дублей страниц, которые не содержат контента за исключением одного изображения и его описания. Вот скриншот такого дубля:
Я сначала подумал, что дело в файле robots.txt так как я в нем прописывал принудительную индексацию изображений. Но дело оказалось совсем в другом. Кстати, если не знаете как настроить robots.txt, рекомендую ознакомиться с этой статьей.
Возможно я бы еще долго не придавал этому значения, если бы не конкурс, о котором я упоминал выше.
Перед публикацией статьи, я как всегда добавил текст в Яндекс, для того, чтобы защитить от копирования и ускорить индексацию, и сразу после публикации добавил страницу в аддурилку гугла.
Прошло два дня, и в поиске гугла появилась страница по запросу «как я пришел в блогосферу». Появится то появилась, да только не основная страница, а ее дубликат, причем аж на 47 позиции. А где же еще быть пустой странице 🙂 И это в то время, как самые сильнейшие «конкуренты» уже были в ТОПе.
Я уже собирался просить совета на форумах, как вдруг подумал, дай ка я проверю карту сайта. И что вы думаете? В карте десятки ссылок на подобные страницы. Получается я сам направляю поисковых роботов на дубликаты, ведь роботы поисковых систем в первую очередь ориентируются по карте сайта XML. А самое интересное, что в этой карте на дубликате стоял приоритет перед основной страницей.
А вся эта канитель получилась из-за банальной невнимательности при настройке карты сайта в плагине All In One Seo Pack. Может это произошло при очередном обновлении, не знаю.
Как проверить есть ли у вас такая ошибка с индексацией страниц? Элементарно. Откройте настройки карты сайта XML.
Теперь давайте проверим все настройки. Сразу скажу, что у меня стоит версия 2.2.6 если у вас другая, то настройки могут несколько отличаться.
Итак, поехали.
1. Префикс файла. Это название ссылки по которой будет доступна карта сайта. Я рекомендую вписать стандартное – sitemap.
2. Уведомлять Google и Bing. Здесь обязательно должны стоять галочки. Благодаря этой настройке, при появлении новой статьи, будет отправляться уведомление поисковым системам, что соответственно ускорит индексацию.
3. Включить Sitemap Indexes. Если поставить здесь галочку, то карта сайта будет разбита на несколько файлов. Поэтому ни в коем случае не делайте этого, если у вас менее 50 000 страниц.
4. Типы записей. А вот та самая грубейшая ошибка, о которой я говорил с самого начала. В данном разделе мы указываем ссылки на какие страницы должны присутствовать в карте сайта XML. По логике вещей для блога это записи и страницы. А я когда-то поставил галочку на все типы записей, вследствие чего начали индексироваться медиа, что соответственно неправильно. Теперь придется из индекса Google удалять около пятисот проиндексированных страниц, или ждать пока он сам их выкинет.
Обязательно проверьте у себя, чтобы в разделе «Медиа/Вложения» у вас отсутствовала галочка! Исключением являются сайты-галереи.
5. Таксономии. Поставив здесь галочки, вы отправляете в sitemap.xml ссылки на рубрики и метки.
6. Включать архивы за день и страницы авторов не стоит. Во избежание опять же дублей страниц.
7. Создать сжатую версию карты. Кто пользовался когда-то плагином Google XML Sitemap, помнит что нужно было архивировать карту и закидывать его в корень сайта, а в файле robots.txt прописывать к нему путь. В итоге в файле robots.txt были две ссылки, одна из которых вела на архивированную сжатую версию карты, вторая на основную. В плагине All In One Seo Pack все гораздо умнее. При запросе поисковым роботом XML карты сайта, плагин автоматически генерирует сжатую карту и предоставляет роботу.
8. Ссылка на карту из robots.txt. Обязательно поставьте галочку, если ее у вас еще нет. Присутствие такой ссылки обязательное условие для оптимизированного блога.
9. Динамическая карта сайта. Тоже нужно поставить галочку. Вы ведь регулярно обновляете блог новыми записями, следовательно и карта у вас должна быть динамическая.
10. Noindex Sitemap file. Этой опцией можно запретить индексировать карту. Не могу понять зачем вообще разработчики внедрили эту функцию. Если вы ставили здесь галочку, срочно убирайте!
В дальнейших настройках можно указать исключенные страницы, это те, которые вы хотите запретить индексировать. Но это больше рекомендация для робота, а не обязательное условие.
P.S. Я не просто так рассказал об этой ошибке, чтобы повыпендриваться. Буквально через день после исправления, статья оказалась в ТОП 1 Яндекса.
Ничего себе!!! Бегу проверять свои настройки, хотя мне мало верится, что есть проблемы. Но ты наверно тоже так думал 🙂
Спасибо Андрей! Супер полезная статья
Да я даже представить себе не мог, что у меня есть подобное. Я думаю, что после какого-то обновления просто не проверил настройки 🙂
Проблем не нашел, но зметил, что у меня не отмечена галочка напротив рубрик. Получается, что все рубрики не индексируются совсем?
Да ссылок в карте на них нет, и в индексе ПС я их не нашел.
У меня другая проблема с картой сайта была, да может это и не проблема. Ну в общем при открытии карты должен появляться список со всеми статьями, страницами и т.д. в зависимости с настройками, а у меня вместо этого открывалась пустая страница. Хотя исходный код в порядке, там все ссылки есть.
При поверке через seolib у тебя xml карта доступна. А то что не видно ссылок, так это наоборот плюс 🙂 не будут лезть, куда не следует 🙂 для пользователей есть HTML карта, пусть по ней и ориентируются.
Поздравляю с выходом ТОП 1!
Только не понятно, почему на скрине нет моего поста, ведь моя статья после индексации сразу стала на 3 позицию и стоит там по сей день. Что у тебя за настройки поиска Яндекса?
Да, кому как не тебе знать, что поздравлять рано 🙂 за 2 месяца могу скатиться далеко назад.
Я смотрел через анонимайзер гугла. Твоя статья утром была на 4 позиции в Яндексе, сейчас на 3.
Я же тебя не с победой поздравляю…
Андрей, спасибо за предупреждения. У меня установлен на сайтах WordPress SEO Йоаст и в карту включены только записи и страницы=) Как=то одно время намучилась с дублями изображений, поэтому на этот параметр сразу пристальное внимание обратила.
Привет, Оль. А по своему опыту что скажешь, какой плагин лучше All In one Seo Pack или WordPress SEO? Просто я вторым не пользовался, но многие его рекомендуют. Думаю, может попробовать сменить.
Это не ошибка. Просто в WordPress действительно имеется много форматов записей. По сути, сведения о каждой картинке хранятся в базе данных и для них имеются отдельные страницы. Но это не дубликаты, так что сказать, что это проблема для поисковых систем тоже нельзя. Всё зависит от того как подробно вы описываете каждую картинку. Думаю так 😉 Удачи!
Как тогда объяснить, что такая страница появилась в поиске выше канонической?
Для того чтобы ответить на ваш вопрос нужно понаблюдать за ситуацией. С одной стороны, очевидно, что на такая страница будет более релевантной за счёт наличия меньшего количества другого текста. Т.е., условно говоря, ключевик на всю страницу. С другой стороны, думаю, со временем такая страница всё же потеряет свой приоритет за счёт низкой дополнительной ценности. Просто робот Яндекс работает не слишком шустро. Однако я и считаю ваши действия совершенно правильными — нечего создавать вторсырьё :))
Вот все в точности так и было 🙂 сначала эта пустышка появлялась в индексе, но Google быстро убирал ее в дополнительный индекс, а Яша медлил. Я же недоумевал почему столько страниц в дополнительном индексе.
К тому же с моей стороны было большой ошибкой по выставлению приоритета индексирования в XML карте. Собственно я и не выставлял, оставил по умолчанию, и этим самым говорил поисковым роботам, что вторсырье важнее основного :))
Sitemap служит для поисковых роботов только рекомендацией по индексации. Нельзя сказать, что это особо помогает, но тем не менее.
Приоритеты в Sitemap не оказывают влияние на ранжирование. Просто вы можете сообщить поисковому роботу, что вот это для меня важно, а вот с тем можно погодить. Но опять же, всё очень условно.
Своё имхо о причинах временного ранжирования «вторсырья» выше основного я уже озвучил, так что проблемы нет. Но согласен с вами на 100% — лучше такое подчистить. И при вставке картинки смотреть, что за код ставится и куда ссылка ведёт.
Спасибо вам, Сергей, за комментарии и советы!
Блин у меня тоже была эта ошибка. Стояла галочка на против «Все типы записей». Спасибо, Андрей все исправила по твоей рекомендации.
Привет, Тань. Ну мы с тобой учились по одному курсу, поэтому и ошибки у нас похожие 😉
От плагина All In One Seo Pack давно отказалась, он тяжелый, создает дубли страниц и не безопасен. Заменила на Platinum SEO Pack. К дублям относилась всегда очень предвзято, с самого начала создания сайта.
А я вот думаю переехать на WordPress SEO Yoast, но как-то уже привык к All In One Seo Pack. Если найду явные преимущества у первого, то перееду, но пока их не увидел.
Вика, извините, но вы глупость написали о том, что AIOSP создает дубли. Никаких дублей плагин никогда не создавал. У автора статьи, всего лишь была неправильная настройка параметров плагина (как я прочитал в комментариях, кто-то так рекомендовал), у других, с настройками все нормально.
Platinum SEO Pack не обновлялся уже два года, он заброшен. Кстати, тот кто рекомендовал срочно переходить на Platinum SEO, давно не пользуется этим плагином. Он втихаря перешел на другой плагин.
Привет, Андрей. Да, повнимательнее надо быть 🙂 У меня ведь тоже такая карта, но после апдейтов галочки сами не ставятся 🙂
Привет, Егор. Да я уже разобрался с проблемой 🙂 Когда-то создавал блог по популярному видеокурсу. Так вот в нем галочка стояла. Поэтому сейчас все меньше доверяю различным курсам, пока не проверю информацию самостоятельно и не найду доказательство 🙂
Слушай, это на курсе учат так писать статьи, что-бы по определенному запросу быть как можно выше? Или есть материал в свободном доступе? Я понимаю что таких материалов много, но все-же?
Не совсем понял вопроса, ты про какой курс? Я не учусь на курсах писать статьи, а этот пост вообще был незапланированным 🙂 просто нашел ошибку, которую когда-то допустил, исправил ее и решил предупредить других.
Спасибо, что делитесь с народом собственным опытом и наработками в сфере ведения блога. Я давно не пользуюсь упомянутым сео-плагином. Но статейку в закладки на всякий случай добавлю.
У меня стоит Google XML Sitemap, чем он плох?
Ну во первых Google XML Sitemap создает корявую карту, в ней куча ссылок на страницы разработчиков. Одно время для Google XML Sitemap была отключена поддержка, сейчас не знаю есть она или нет. К тому же зачем еще один плагин, если есть SEO плагин выполняющий эту функцию намного лучше.
Благодаря Вашей статье проверил свою xml карту сайта и с прискорбием обнаружил, что она не обновляется. То есть, у меня несколько другая проблема. Буду настраивать динамическое обновление, чтобы сделать приятно поисковым роботам 🙂
Давно перешел с All In One Seo Pack на Yoast WordPress SEO. Но XML карту и в нем не включаю. Использую Google XML Sitemaps, ничего в нем плохого не вижу. Плагин теперь поддерживается и обновляется, к примеру у меня версия 4.0.8. Использую также Google XML Sitemap for Images и Google XML Sitemap for Videos. Ссылки на разработчиков не индексируются, ведь в файле robots запрещено: Disallow: /wp-content/plugins, Disallow: /wp-admin/ и много еще чего.
Валентин, а чем лучше Yoast WordPress SEO, не подскажете?
Огромное спасибо за эту статью! Давно уже искал причину дублей статей в индексе. Все оказалось банально просто. Следовал вашим советам и убрал эту галочку. Посмотрим что будет через несколько дней. Только возник вопрос по таксономии, — нужно ли ставить галочки на метках и рубриках?
Семен, причины дублей могут быть разные, в этой статье лишь один из примеров.Несколько дней ничего не покажет, если на сайте много страниц, то вылет дублей может занять несколько месяцев.
По поводу меток и рубрик, это на ваше усмотрение. Если хотите, чтобы поисковый робот их индексировал, то ставьте. Я метки вообще не использую, поэтому не ставил галочку.
Добрый день!
Вы начали статью с ошибки, а закончили картой. Значит ли это что страницы вида https://nazyrov.ru/ссылка поста.html/название изображения на странице отсутствуют в карте, а значит не попадают в индекс? Сейчас я решаю вопрос с подобными страницами, а карте ссылок на них нет, а яндекс их проиндексировал, примерно через год после создания сайта, то есть он их нашел каким-то путем. Хочу запретить их индексацию в robots.txt но не знаю как правильно прописать. У меня карта сайта создана плагином Google XML Sitemaps, в нем нет такого чтобы типы записей отметить можно было, сейчас поменяю на плагин от All in One SEO Pack. В самом сео паке есть такой чекбокс и там я тоже отметила медиафайлы галочкой, так как думала, что это чтобы фото индексировались, а ниже есть конкретно индексация — здесь нао отметить медиафайды галочкой. Сверху сейчас сняла галку. Статья от 2015 года — через 2 года индексируются ли эти страницы у вас или проблема ушла?
Здравствуйте, Наталья. Эта проблема была с плагином All In One Seo Pack. Сейчас ее вроде нет, но точно сказать не могу, так как я вместо него уже давно использую Yoast WordPress Seo. Он намного удобнее и лучше, вам тоже рекомендую на него переехать. Подробнее об этом плагине можете почитать здесь https://nazyrov.ru/plagin-yoast-seo-wordpress-nastrojka.html
А нужны ли категории в карте? Я оставил только главную страницу и записи.
Если рубрики продвигаются, то нужны.
Тєк-с, побежал и я проверять. Мало ли что. Напугал меня, Андрей. 😉
Щас посмотрю и доложу.
Фух, я же тоже уже давно перешёл на плагин на Yoast WordPress SEO. Только сейчас увидел, что это старая Ваша статья, Андрей. Но, как говорится, попытка — не пытка. Заодно вспомнил, какие у меня в блоге установлены плагины. ))
Правильно ли я понял что в карту нужно включать — записи, страницы, рубрики и теги? А домашнюю страницу?
В чем может быть причина, если XML файл формируется, но страница недоступна (ошибка 500)?
500 это ошибка сервера — internal server error. Обратитесь к техподдержке хостинга.