Sevdresscode.ru

Финансы и бизнес
0 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Как найти robots txt на сайте

Создание Robots.txt

Последовательно заполняйте все необходимые поля. По мере ваших указаний, Вы будете видеть наполнение вашего Robots.txt директивами. Ниже подробно описаны все директивы файла Robots.txt.

Пометьте, скопируйте и вставьте текст в текстовый редактор. Сохраните файл как «robots.txt» в корневой директории Вашего сайта.

Описание формата файла robots.txt

Файл robots.txt состоит из записей, каждая из которых состоит из двух полей: строки с названием клиентского приложения (user-agent), и одной или нескольких строк, начинающихся с директивы Disallow:

Robots.txt должен создаваться в текстовом формате Unix. Большинство хороших текстовых редакторов уже умеют превращать символы перевода строки Windows в Unix. Либо ваш FTP-клиент должен уметь это делать. Для редактирования не пытайтесь пользоваться HTML-редактором, особенно таким, который не имеет текстового режима отображения кода.

Директива User-agent:

Вы можете создать инструкцию для всех роботов:

Директива Disallow:

Вторая часть записи состоит из строк Disallow. Эти строки — директивы (указания, команды) для данного робота. В каждой группе, вводимой строкой User-agent, должна быть хотя бы одна инструкция Disallow. Количество инструкций Disallow не ограничено.Они сообщают роботу какие файлы и/или каталоги роботу неразрешено индексировать. Вы можете запретить индексацию файла или каталога.

Следующая директива запрещает индексацию каталога /cgi-bin/:

Обратите внимание на / в конце названия директории! Чтобы запрещать посещение именно каталога "/dir", инструкция должна иметь вид: "Disallow: /dir/". А строка "Disallow: /dir" запрещает посещение всех страниц сервера, полное имя которых (от корня сервера) начинается с "/dir". Например: "/dir.html", "/dir/index.html", "/directory.html".

Записанная следующим образом директива запрещает индексацию файла index.htm находящегося в корне:

Директиву Allow понимает только Яндекс. Для остальных поисковиков вам придется перечислять все закрытые документы. Продумайте структуру сайта, чтобы закрытые для индексирования документы были собраны по возможности в одном месте.

Если директива Disallow будет пустой, это значит, что робот может индексировать ВСЕ файлы. Как минимум одна директива Disallow должна присутствовать для каждого поля User-agent, чтобы robots.txt считался верным. Полностью пустой robots.txt означает то же самое, как если бы его не было вообще.

Робот Рамблера понимает * как любой символ, поэтому инструкция Disallow: * означает запрещение индексации всего сайта.

Директивы Allow, Disallow без параметров. Отсутствие параметров у директив Allow, Disallow трактуется следующим образом:

Использование спецсимволов «*» и «$».
При указании путей директив Allow-Disallow можно использовать спецсимволы ‘*’ и ‘$’, задавая, таким образом, определенные регулярные выражения. Спецсимвол ‘*’ означает любую (в том числе пустую) последовательность символов. Примеры: Спецсимвол ‘$’.
По умолчанию к концу каждого правила, описанного в robots.txt, приписывается ‘*’, например: чтобы отменить ‘*’ на конце правила, можно использовать спецсимвол ‘$’, например:

Читать еще:  Как добавить фавикон на сайт

Директива Host.

Примеры игнорируемых директив Host:

Директива Crawl-delay

Задает таймаут в секундах, с которым поисковый робот закачивает страницы с вашего сервера (Crawl-delay).

Если сервер сильно нагружен и не успевает отрабатывать запросы на закачку, воспользуйтесь директивой «Crawl-delay». Она позволяет задать поисковому роботу минимальный период времени (в секундах) между концом закачки одной страницы и началом закачки следующей. В целях совместимости с роботами, которые не полностью следуют стандарту при обработке robots.txt, директиву «Crawl-delay» необходимо добавлять в группе, начинающейся с записи «User-Agent», непосредственно после директив «Disallow» («Allow»).

Поисковый робот Яндекса поддерживает дробные значения Crawl-Delay, например, 0.5. Это не гарантирует, что поисковый робот будет заходить на ваш сайт каждые полсекунды, но дает роботу больше свободы и позволяет ускорить обход сайта.

Директива Clean-param

Директива для исключения параметров из адресной строки. т.е. запросы содержащие такой параметр и не содержащие — будут считаться идентичными.

Пустые строки и комментарии

Пустые строки допускаются между группами инструкций, вводимыми User-agent.

Инструкция Disallow учитывается, только если она подчинена какой-либо строке User-agent — то есть если выше нее есть строка User-agent.

Любой текст от знака решетки «#» до конца строки считается комментарием и игнорируется.

Следующий простой файл robots.txt запрещает индексацию всех страниц сайта всем роботам, кроме робота Рамблера, которому, наоборот, разрешена индексация всех страниц сайта.

Распространенные ошибки:

Кроме использования файла robots.txt, Вы можете управлять индексацией с помощью МЕТА-тега robots и директив .

Использованы материалы с сайтов поисковых систем: Rambler, Yandex, Google.

Для чего нужен файл robots.txt сайту и как его правильно составить

Файл robots.txt – это обычный текстовый файл, находящийся в корне сайта, в котором находятся некие указания для роботов поисковых систем, что им нужно индексировать, а что нужно исключить. Его используют на любых типах сайтов, а в интернет-магазинах он особенно актуален, т.к. скрывать от индексации есть чего, иначе в поисковой выдаче есть риск увидеть совсем не те страницы, которые вы хотели бы видеть. Отсутствующий или неправильно составленный файл может сказаться на дальнейшем SEO-продвижении не в лучшую сторону, как вы понимаете.

Читать еще:  На каких сайтах можно поискать работу

Проверить есть ли у вас этот файл можно в корне вашего сайта используя файловый менеджер в панели управления хостингом, либо подключившись по FTP. А также при помощи добавления в адресную строку названия файла «robots.txt», должно получится что-то вроде – «https://ваш-сайт/robots.txt». Если файл существует, то вы увидите содержимое этого текстового файла с набором так называемых директив, о которых поговорим чуть ниже. Создать файл можно в любом текстовом редакторе, который поддерживает формат UTF-8.

Директивы файла robots.txt

Их в общем не много и разобраться не составит большого труда. Однако у Гугла и Яндекса количество директив различается, у Яндекса их чуть больше:

User-agent. Это обязательная директива, которая указывает для какого робота действуют правила. Часто правила прописывают для всех роботов, тогда вместо их названия используется звездочка – «*». Если же требуется написать правила отдельно для каждой поисковой системы или для конкретного робота в частности, то и это можно сделать, указав после директивы название робота. Их существует огромное количество (несколько сотен), но нам достаточно будет знать всего несколько для поисковых систем Яндекса и Гугла (их список я приведу ниже в этой статье).

Disallow. Эта директива является второй по значимости, она запрещает индексирование разделов или отдельных страниц сайта, а также каких-либо папок или файлов на сервере. Обычно с ее помощью закрывают от индексации административный раздел сайта, кабинет пользователя, корзину, либо иные страницы, которые могут содержать конфиденциальную информацию. Также можно закрыть какие-либо файлы и папки, которые вы храните на сервере для использования вашими сотрудниками или постоянными клиентами. Поисковики помимо индексации HTML страниц еще с легкостью умеют индексировать файлы MS Office (Word, Excel например) или PDF-файлы. Поэтому, не закрыв их от поисковиков, вы покажите тем самым эти файлы всему миру и эти данные будут доступны в результатах выдачи поисковых систем. Однако я не рекомендую хранить файлы с конференциальной информацией на своем сервере незащищенными, т.к. файл robots.txt не скрывает их никак от посторонних глаз, да и поисковая система их прекрасно видит, однако не индексирует, а соответственно эти данные просто не появляются в поисковой выдаче и найти их немного сложнее неподготовленному пользователю.

Allow. Эта директива напротив разрешает сканирование того или иного раздела сайта, отдельной страницы или каких-либо папок и файлов на сервере. Обычно используется для того, чтобы например в уже закрытой папке содержащей внутри огромное количество подпапок, открыть одну или несколько для индексации. Это значительно проще чем указывать для закрытия каждую подпапку в отдельности (ведь их на сервере могут быть десятки или даже сотни).

Читать еще:  Бесплатный сайт своими руками

Sitemap. Эта директива указывает на наличие на сайте файла sitemap.xml. Это некая карта, которая содержит структуру вашего сайта и помогает поисковикам быстрее находить те страницы, которые еще не были проиндексированы или были недавно изменены. Указывается директива в виде полного URL с префиксами HTTP и HTTPS или с элементом WWW и без него.

Clean-param. Данная директива доступна только для робота Яндекса и используется чтобы исключить из индекса страницы, которые содержат в адресе GET-параметры (идентификаторы сессий или пользователей) или UTM-метки, которые не влияют на содержимое страницы. Это нужно для того, чтобы не было дублей, т.к. страницы с этими параметрами и без – это разные страницы для поисковика, даже если их содержимое идентично. А дубли страниц не очень хорошо влияют на SEO-продвижение.

Crawl-delay. Это устаревшая директива Яндекса, которая перестала учитываться 22 февраля 2018 года. Отвечала она за минимальный период времени в секундах, которые должны пройти между окончанием загрузки одной страницы и началом загрузки следующей. Вместо этого Яндекс рекомендует использовать настройку скорости обхода сайта в Яндекс.Вебмастере. Если у вас уже есть файл robots.txt на вашем сервере, и вы видите там эту директиву, то можете смело ее удалять.

Host. Это также уже устаревшая директива Яндекса, которая перестала учитываться 12 марта 2018 года. На замену ей пришел 301 редирект. Если вы хотите сменить главное зеркало сайта, то необходимо в Яндекс.Вебмастере в разделе «Индексирование -> Переезд сайта» его изменить. Практически у любого сайта сегодня есть зеркала, например для поисковой системы сайт c WWW и без него – это разные сайты, такие же дела обстоят и в случае с HTTP и HTTPS. Поэтому и нужно указывать обязательно что является главным зеркалом сайта.

В файле robots.txt при написании правил могут использоваться некоторые символы:

  • Звездочка «*» – означает любую последовательность символов.
  • Знак доллара «$» – означает завершение строки, после него уже не идут никакие символы.
  • Решетка «#» – это комментарий, который вы можете оставить. Все что будет после этого знака, не будет учитываться поисковиками.

Вот один из простых примеров robots.txt:

Ссылка на основную публикацию
Adblock
detector