Грубейшая ошибка XML карты сайта, которая возможно есть и у вас!

Привет, друзья! Как вы поняли из названия статьи, сегодня я расскажу об одной грубейшей ошибке c индексацией новых статей, которая возможно есть и у вас, если вы используете плагин All In One Seo Pack для генерации карты сайта в формате XML.

Если вы читали мою прошлую статью, то знаете, что я принял участие в SEO конкурсе, по условиям которого нужно вывести статью как можно выше в ТОП. Если не читали, то вот ссылка на конкурсную статью.

С чего я вообще заговорил об ошибке. Дело в том, что я давно заметил, как в индексе поисковых систем появляется много дублей страниц такого вида:

/ссылка поста.html/название изображения на странице

То есть, если на странице 5 изображений значит, в индексе появляется 5 дублей страниц, которые не содержат контента за исключением одного изображения и его описания. Вот скриншот такого дубля:

Я сначала подумал, что дело в файле robots.txt так как я в нем прописывал принудительную индексацию изображений. Но дело оказалось совсем в другом. Кстати, если не знаете как настроить robots.txt, рекомендую ознакомиться с этой статьей.

Возможно я бы еще долго не придавал этому значения, если бы не конкурс, о котором я упоминал выше.

Перед публикацией статьи, я как всегда добавил текст в Яндекс, для того, чтобы защитить от копирования и ускорить индексацию, и сразу после публикации добавил страницу в аддурилку гугла.

Прошло два дня, и в поиске гугла появилась страница по запросу «как я пришел в блогосферу». Появится то появилась, да только не основная страница, а ее дубликат, причем аж на 47 позиции. А где же еще быть пустой странице :) И это в то время, как самые сильнейшие «конкуренты» уже были в ТОПе.

Я уже собирался просить совета на форумах, как вдруг подумал, дай ка я проверю карту сайта. И что вы думаете? В карте десятки ссылок на подобные страницы. Получается я сам направляю поисковых роботов на дубликаты, ведь роботы поисковых систем в первую очередь ориентируются по карте сайта XML. А самое интересное, что в этой карте на дубликате стоял приоритет перед основной страницей.

А вся эта канитель получилась из-за банальной невнимательности при настройке карты сайта в плагине All In One Seo Pack. Может это произошло при очередном обновлении, не знаю.

Как проверить есть ли у вас такая ошибка с индексацией страниц? Элементарно. Откройте настройки карты сайта XML.

Теперь давайте проверим все настройки. Сразу скажу, что у меня стоит версия 2.2.6 если у вас другая, то настройки могут несколько отличаться.

Итак, поехали.

1. Префикс файла. Это название ссылки по которой будет доступна карта сайта. Я рекомендую вписать стандартное – sitemap.

2. Уведомлять Google и Bing. Здесь обязательно должны стоять галочки. Благодаря этой настройке, при появлении новой статьи, будет отправляться уведомление поисковым системам, что соответственно ускорит индексацию.

3. Включить Sitemap Indexes. Если поставить здесь галочку, то карта сайта будет разбита на несколько файлов. Поэтому ни в коем случае не делайте этого, если у вас менее 50 000 страниц.

4. Типы записей. А вот та самая грубейшая ошибка, о которой я говорил с самого начала. В данном разделе мы указываем ссылки на какие страницы должны присутствовать в карте сайта XML. По логике вещей для блога это записи и страницы. А я когда-то поставил галочку на все типы записей, вследствие чего начали индексироваться медиа, что соответственно неправильно. Теперь придется из индекса Google удалять около пятисот проиндексированных страниц, или ждать пока он сам их выкинет.

Обязательно проверьте у себя, чтобы в разделе «Медиа/Вложения» у вас отсутствовала галочка! Исключением являются сайты-галереи.

5. Таксономии. Поставив здесь галочки, вы отправляете в sitemap.xml ссылки на рубрики и метки.

6. Включать архивы за день и страницы авторов не стоит. Во избежание опять же дублей страниц.

7. Создать сжатую версию карты. Кто пользовался когда-то плагином Google XML Sitemap, помнит что нужно было архивировать карту и закидывать его в корень сайта, а в файле robots.txt прописывать к нему путь. В итоге в файле robots.txt были две ссылки, одна из которых вела на архивированную сжатую версию карты, вторая на основную. В плагине All In One Seo Pack все гораздо умнее. При запросе поисковым роботом XML карты сайта, плагин автоматически генерирует сжатую карту и предоставляет роботу.

8. Ссылка на карту из robots.txt. Обязательно поставьте галочку, если ее у вас еще нет. Присутствие такой ссылки обязательное условие для оптимизированного блога.

9. Динамическая карта сайта. Тоже нужно поставить галочку. Вы ведь регулярно обновляете блог новыми записями, следовательно и карта у вас должна быть динамическая.

10. Noindex Sitemap file. Этой опцией можно запретить индексировать карту. Не могу понять зачем вообще разработчики внедрили эту функцию. Если вы ставили здесь галочку, срочно убирайте!

В дальнейших настройках можно указать исключенные страницы, это те, которые вы хотите запретить индексировать. Но это больше рекомендация для робота, а не обязательное условие.

P.S. Я не просто так рассказал об этой ошибке, чтобы повыпендриваться. Буквально через день после исправления, статья оказалась в ТОП 1 Яндекса.

Запись опубликована в .
Как вам статья?
Полная ерундаНичего интересногоТак себеХорошоОтлично (3 голосов, оценка: 5,00 из 5)
Loading...Loading...

Понравилась статья? Поделись с другими, нажав на одну из кнопок.


Комментариев 26 на “Грубейшая ошибка XML карты сайта, которая возможно есть и у вас!
  1. Ничего себе!!! Бегу проверять свои настройки, хотя мне мало верится, что есть проблемы. Но ты наверно тоже так думал :)

    Спасибо Андрей! Супер полезная статья

    • Да я даже представить себе не мог, что у меня есть подобное. Я думаю, что после какого-то обновления просто не проверил настройки :)

  2. Проблем не нашел, но зметил, что у меня не отмечена галочка напротив рубрик. Получается, что все рубрики не индексируются совсем?

  3. У меня другая проблема с картой сайта была, да может это и не проблема. Ну в общем при открытии карты должен появляться список со всеми статьями, страницами и т.д. в зависимости с настройками, а у меня вместо этого открывалась пустая страница. Хотя исходный код в порядке, там все ссылки есть.

    • При поверке через seolib у тебя xml карта доступна. А то что не видно ссылок, так это наоборот плюс :) не будут лезть, куда не следует :) для пользователей есть HTML карта, пусть по ней и ориентируются.

  4. Поздравляю с выходом ТОП 1!

    Только не понятно, почему на скрине нет моего поста, ведь моя статья после индексации сразу стала на 3 позицию и стоит там по сей день. Что у тебя за настройки поиска Яндекса?

    • Да, кому как не тебе знать, что поздравлять рано :) за 2 месяца могу скатиться далеко назад.

      Я смотрел через анонимайзер гугла. Твоя статья утром была на 4 позиции в Яндексе, сейчас на 3.

  5. Андрей, спасибо за предупреждения. У меня установлен на сайтах WordPress SEO Йоаст и в карту включены только записи и страницы=) Как=то одно время намучилась с дублями изображений, поэтому на этот параметр сразу пристальное внимание обратила.

    • Привет, Оль. А по своему опыту что скажешь, какой плагин лучше All In one Seo Pack или WordPress SEO? Просто я вторым не пользовался, но многие его рекомендуют. Думаю, может попробовать сменить.

  6. Это не ошибка. Просто в WordPress действительно имеется много форматов записей. По сути, сведения о каждой картинке хранятся в базе данных и для них имеются отдельные страницы. Но это не дубликаты, так что сказать, что это проблема для поисковых систем тоже нельзя. Всё зависит от того как подробно вы описываете каждую картинку. Думаю так ;-) Удачи!

    • Как тогда объяснить, что такая страница появилась в поиске выше канонической?

      • Для того чтобы ответить на ваш вопрос нужно понаблюдать за ситуацией. С одной стороны, очевидно, что на такая страница будет более релевантной за счёт наличия меньшего количества другого текста. Т.е., условно говоря, ключевик на всю страницу. С другой стороны, думаю, со временем такая страница всё же потеряет свой приоритет за счёт низкой дополнительной ценности. Просто робот Яндекс работает не слишком шустро. Однако я и считаю ваши действия совершенно правильными — нечего создавать вторсырьё :))

        Ответить
        • Вот все в точности так и было :) сначала эта пустышка появлялась в индексе, но Google быстро убирал ее в дополнительный индекс, а Яша медлил. Я же недоумевал почему столько страниц в дополнительном индексе.

          К тому же с моей стороны было большой ошибкой по выставлению приоритета индексирования в XML карте. Собственно я и не выставлял, оставил по умолчанию, и этим самым говорил поисковым роботам, что вторсырье важнее основного :))

        • Sitemap служит для поисковых роботов только рекомендацией по индексации. Нельзя сказать, что это особо помогает, но тем не менее.

          Приоритеты в Sitemap не оказывают влияние на ранжирование. Просто вы можете сообщить поисковому роботу, что вот это для меня важно, а вот с тем можно погодить. Но опять же, всё очень условно.

          Своё имхо о причинах временного ранжирования «вторсырья» выше основного я уже озвучил, так что проблемы нет. Но согласен с вами на 100% — лучше такое подчистить. И при вставке картинки смотреть, что за код ставится и куда ссылка ведёт.

        • Спасибо вам, Сергей, за комментарии и советы!

  7. Блин у меня тоже была эта ошибка. Стояла галочка на против «Все типы записей». Спасибо, Андрей все исправила по твоей рекомендации.

    Ответить
    • Привет, Тань. Ну мы с тобой учились по одному курсу, поэтому и ошибки у нас похожие ;)

      Ответить
  8. От плагина All In One Seo Pack давно отказалась, он тяжелый, создает дубли страниц и не безопасен. Заменила на Platinum SEO Pack. К дублям относилась всегда очень предвзято, с самого начала создания сайта.

    Ответить
    • А я вот думаю переехать на WordPress SEO Yoast, но как-то уже привык к All In One Seo Pack. Если найду явные преимущества у первого, то перееду, но пока их не увидел.

      Ответить
  9. Привет, Андрей. Да, повнимательнее надо быть :) У меня ведь тоже такая карта, но после апдейтов галочки сами не ставятся :)

    Ответить
    • Привет, Егор. Да я уже разобрался с проблемой :) Когда-то создавал блог по популярному видеокурсу. Так вот в нем галочка стояла. Поэтому сейчас все меньше доверяю различным курсам, пока не проверю информацию самостоятельно и не найду доказательство :)

      Ответить
  10. Слушай, это на курсе учат так писать статьи, что-бы по определенному запросу быть как можно выше? Или есть материал в свободном доступе? Я понимаю что таких материалов много, но все-же?

    Ответить
    • Не совсем понял вопроса, ты про какой курс? Я не учусь на курсах писать статьи, а этот пост вообще был незапланированным :) просто нашел ошибку, которую когда-то допустил, исправил ее и решил предупредить других.

      Ответить
  11. Спасибо, что делитесь с народом собственным опытом и наработками в сфере ведения блога. Я давно не пользуюсь упомянутым сео-плагином. Но статейку в закладки на всякий случай добавлю.

    Ответить

Добавить комментарий для Андрей Назыров Отменить ответ

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Можно использовать следующие HTML-теги и атрибуты:

Андрей Назыров