Консультации Портала - Консультация #75368

Задать вопрос Консультации Пользователи Форум

Задать вопрос экспертам

Консультация № 75368

12.02.2007, 14:01

0.00 руб.

0 4 4

Компьютеры Интернет и сети

Здравствуйте!
Я хочу сделать так, чтобы некоторые страницы моего сайта поисковая система не индексировала. Как сообщить, какие страницы надо индексировать, а какие нет? Я слышала что-то о файлах noindex. Раскажите, пожалуйста, подробнее, как ими пользоваться.

Обсуждение

Неизвестный

12.02.2007, 14:19

общий

это ответ

Здравствуйте, Marama!

Удобнее для этого пользоваться файлом robots.txt - его понимают все культурные поисковые боты.

Чтоб не пересказывать: http://hosttest.info/robots-txt.php

Неизвестный

12.02.2007, 14:19

общий

это ответ

Здравствуйте, Marama!

Вы немножко напутали, прочитайте <a href=http://svoysite.net.ru/1.html>здесь</a>.

Статья взята из рассылки сервера Subscribe.ru

Удачи!

Неизвестный

12.02.2007, 15:41

общий

это ответ

Здравствуйте, Marama!

Немного дополню уважаемых экспертов.

Файл robots.txt - это текстовый файл, который создаётся в любом текстовом редакторе.
Этот файл может сообщить роботу поисковой системы, который индексирует страницы, что ему нельзя индексировать определенные страницы. Таким образом, Вы можете формировать страницы для поисковика А и сообщать роботу поисковика Б, чтобы он их игнорировал. Файл должен находиться обязательно в корневом каталоге.
Синтаксис довольно-таки прост:
User-agent: {Имя_Паука}
Disallow: {Путь_К_Папке\Файлу}
Например, чтобы сообщить пауку Рамблера (он называется StackRambler) не индексировать папку cgi-bin полностью и 2 файла в корне: error404.php, error500.php, нужно записать это в файле таким образом:
User-agent: StackRambler
Disallow: /cgi-bin/
Disallow: /error404.php
Disallow: /error500.php
Первая строка говорит о том, что нижеприведённые адреса не следует индексировать только роботам Рамблера.
Вторая строка сообщает нам, что папка cgi-bin полностью закрыта для поисковиков.
Третья и четвёртая строки дают понять поисковому боту Рамблера, что файлы error404.php, error500.php, которые лежат в корневом каталоге также индексировать не надо.
Переходим дальше. Запрещаем всем поисковым ботам индексировать эти файлы.
User-agent: *
Disallow: /cgi-bin/
Disallow: /error404.php
Disallow: /error500.php
Запретим всем поисковикам индексировать все страницы сайта, т.е. весь сайт :
User-agent: *
Disallow: /
Вам наверное, так и хотелось в этом случае во второй строке также поставить звёздочку. Но это будет грубейшей ошибкой, которая не принесёт эффекта.
Хотя, всё-таки нет, эффект будет, но противоположный, т.к. файлов начинающихся со знака * в природе просто не существует. Аналогично можно запретить поисковому боту Яндекса (он так и зовётся Yandex) не индексировать этот сайт.
User-agent: Yandex
Disallow: /
Если одни и те же файлы вы хотите исключить для нескольких поисковиков, то это делается так: сперва записываются имена ботов, затем файлы вот в таком формате:
User-agent: Yandex
User-agent: StackRambler
Disallow: /cgi-bin/
Disallow: /error404.php
Disallow: /error500.php
С помощью файла robots.txt указать роботам поисковых систем на то, какое зеркало нужно считать основным:
User-agent: Yandex
Disallow: /admin/
Host: www.mainsite.ru
Директива Host уникальна для каждого поискового бота.
Теперь давайте поговорим о тонкостях работы с файлом и типичных ошибках, о поисковых роботах и альтернативных способах НЕиндексирования страниц.
Тонкости есть везде и у нас тоже. Вот лишь небольшой список их:
Как правильно: User-Agent или User-agent. Я рекомендую Вам придерживаться второго варианта, согласно спецификации файла robots.txt.
Если записать просто:
User-agent: Yandex
Disallow: /admin
То это будет означать, что к запрету для бота Яндекса причисляются все файлы и папки, которые начинаются с данного слова.
Файл должен находиться, только в корневом каталоге, и нигде больше.
Имя файла может быть только таким: robots.txt Такие имена как: Robots.txt, ROBOTS.TXT являются ошибочными:
Файл может быть только текстовым *.txt
Нельзя в тексте допускать лишних пустых строк. Пустая строка означает, что следующая за ней строка будет иметь параметры для другого поискового робота. Ошибочный пример:
User-agent: *
Disallow: /1/
Disallow: /free.html
Disallow: /cgi/
В строках с полем Disallow записываются не абсолютные, а относительные префиксы. Неправильным будет:
Disallow: www.sitec.ru/free.html
Что касается директивы Host. Вот несколько наглядных примеров как делать нельзя:
Host: www.myhost-.ru
Host: www.-myhost.ru
Host: www.myhost.ru:0
Host: www.my_host.ru
Host: .my-host.ru:8000
Host: my-host.ru.
Host: my..host.ru
Host: www.myhost.ru/
Host: www.myhost.ru:8080/
Host: http://www.myhost.ru
Host: www.mysi.te
Host: 213.180.194.129
Host: www.firsthost.ru,www.secondhost.ru
Host: www.firsthost.ru www.secondhost.ru
Пауки
Имена поисковых ботов не всегда соответствуют названия поисковых машин.
Вот самые распространённые в Рунете поисковые боты:
Рамблер - StackRambler
Яндекс - Yandex
Google - Googlebot
MSN - msnbot
Если Вы имеете доступ к логам сервера (например: последние посетители), то сможете узнать какие боты обходят Ваш сайт. Но чаще всего названия их бывают такими:
Googlebot/2.1 (+http://www.google.com/bot.html);
Yandex/1.01.001; msnbot/1.0 (+http://search.msn.com/msnbot.htm) и т.д.
Но не стоит это имя сразу загонять в robots.txt
Всё что пишется в имени бота после слэша - нам не нужно. В файл robots.txt вносится только первая часть.
Альтернативные методы
Файл robots.txt позволяет скрыть от глаз разных поисковых роботов разные файлы, а то и вообще все. Но есть и другие альтернативные способы, правда не всегда такие удобные, т.к. robots.txt позволяет делать это лишь изменением своего содержимого.
Мета тег robots.
<meta name="robots" content="index, follow"> - индексируется данная страница, робот идёт по ссылкам с этой страницы.
<meta name="robots" content="noindex, follow"> - страница не индексируется, но робот идет дальше по ссылкам.
<meta name="robots" content="index, nofollow"> - страница индексируется, но робот не идёт по ссылкам на другие страницы, т.е. он их не индексирует.
<meta name="robots" content="noindex, nofollow"> - страница не индексируется, робот по ссылкам не идёт. Если поместить такой код на все страницы сайта - он не проиндексируется.
<meta name="robots" content="none"> - идентичное последнему. Сайт не индексируется.
Тег <noindex>, который позволяет не индексировать лишь определённый кусок кода страницы. Например:
HTML-код
.. . .
<noindex>
привет любимая :))
</noindex>
.. . .
HTML-код

(http://packpymku.net/)

Успехов!

Неизвестный

13.02.2007, 00:39

общий

это ответ

Здравствуйте, Marama!
Ну во первых ни какой ноиндекс здесь не нужен, во вторых создаете ТХТ файл и называете его robots.txt, после этого вписываете:

Приложение:
User-agent: *Disallow: /здесь указываете какую директорию не индексировать поисковикам/ последний слеш обязательноDisallow: /здесь указываете файл для запрета индексации.если файл находится в какой либо директории то пишете такDisallow: /директория/файл

Форма ответа

Отправка постов/ответов доступна только зарегистрированным и подтвержденным пользователям.

Если Вы уже зарегистрированы на Портале - войдите в систему, если Вы еще не регистрировались - пройдите простую процедуру регистрации.