бесплатные списки прокси
[ Обновленные темы · Новые сообщения · Участники · Правила форума · Поиск · RSS ]
  • Страница 1 из 1
  • 1
форум webanet » Помоги себе сам компьютеры и интернет » Раскрутка сайта » Robots.txt управление индексацией (взаимоотношения robots.txt с поисковиками)
Robots.txt управление индексацией
worldname Дата: Вторник, 2011-08-30, 01:42 | Сообщение # 1
Генералиссимус
Группа: lown
Сообщений: 202
Статус: Offline

Что такое robots.txt и зачем он нужен



Файл robots.txt - это обыкновенный текстовый файл, с помощью которого можно управлять индексацией сайта. Чаще всего используется для описания запрещающих директив. В некоторых случаях используется комбинация из директив запрещающий и разрешающих. Файл позволяет обращаться ко всем роботам поддерживающих стандарт или к каждому в отдельности, особенно когда для каждого робота, нужно прописать различные указания
Полное отсутствие файла robots.txt является командой по умолчанию - всё разрешено
С помощью роботса можно запрещать к индексации как отдельные страницы, так и целые каталоги, а так же файлы

Примеры использования robots.txt



user-agent: * обращение ко всем роботам поддерживающим стандарт
user-agent: googlebot общее обращение к роботу Google, так же можно обращаться к различным роботам Google отдельно
user-agent: YandexBot общее обращение к роботу Яндекса, так же можно обращаться отдельно к различным роботам Яндекса
user-agent: Yandex общее обращение ко всем роботам Яндекса
Рамблер поддерживает стандарт, но понимает общее обращение ко всем роботам и только директивы запрета

Если нужно запретить весь сайт к индексированию всеми роботами, то используется следующая конструкция

Code
user-agent: *
   Disallow: /


Если нужно запретить целый каталог к индексации, то используется следующая конструкция

Code
user-agent: *
Disallow: /название каталога/  обязательно с закрывающим слешем


Если нужно запретить несколько каталогов на сайте, то запрет для каждого каталога пишется с новой строчки. Пример
Code
user-agent: *
Disallow: /название каталога/
Disallow: /название каталога2/
Disallow: /название каталога3/

Если прописать название каталога без закрывающего слеша, то это будет означать блокировку всех страниц, начинающихся с названия каталога. Пример:

Code
Disallow: /название каталога

То есть по сути - это блокировка страниц в каталоге

Директива Allow:

Ошибочно считать, что это директива разрешения для индексации сайта и на её основе можно разрешать сайт к индексированию. На самом деле, данная директива используется только для тонких настроек запрета!
Если у вас запрещен к индексации целый каталог, но нужно дать разрешение на индексацию всего одной страницы каталога, то в этом случае уместно применить директиву Allow: Пример:

Code
Allow: /название каталога/primer.html
Disallow: /название каталога/


Большой глупостью будет писать robots.txt только разрешениями Allow: в надежде на полную индексацию сайта. Нужна полная индексация, или не удаляем robots.txt вообще, или прописываем
Code
user-agent: *
Disallow:


Запретить к индексации некоторые страницы сайта можно так:

Code
user-agent: *
Disallow: /primer1.html
Disallow: /primer2.html
Disallow: /primer3.html


Каждую страницу с новой строки и без закрывающего слеша на конце

Тонкие настройки



Если нужно запретить к индексации файл по расширению
Code
user-agent: *
Disallow: /название каталога/*.xml данная конструкция запрещает /название каталога/primer1.xml так же запрещает /название каталога/primer1/file1.xml и /название каталога/primer3/file2.xml то есть идет запрет на все что оканчивается на .xml   
                    
Disallow: /*primer  данная конструкция запрещает  /primer  и так же запрещает /название каталога/primer
то есть все страницы имеющие в адресе после слеша  primer   


Можно настроить ещё тоньше
Code
user-agent: *
Disallow: /primer$ данная конструкция запрещает к индексации /primer, но при этом не запрещает /primer.xml


Как это работает



Файл robots.txt является рекомендательным, это значит, что директивы прописанные не обязательны к исполнению. Но, думается мне, что после скандала с Яндексом поисковые роботы станут более вежливыми в смысле исполнения запрещающего файла. Запрещенные страницы и каталоги могут быть отсканированы роботом, но не включены в поисковый индекс или эти страницы и каталоги будут пущены под фильтр и увидеть их в выдаче можно будет только вызвав содержимое фильтра. В общей выдаче запрещенные URL не будут числиться и выдаваться.
Если есть на сайте запрещенная к индексированию страница, то так же если адрес данной страницы будет найден роботом на стороннем ресурсе, то не исключено попадание запрещенной страницы в поисковый индекс
Поэтому, если вам нужно наверняка заблокировать появление страницы в индексе, лучше всего на этой странице прописать мета-тег
Code
<meta name="robots" content="noindex">

Единственное что исполняется роботами практически без оговорок - это полный запрет к индексации всего сайта
Code
User-agent: *
   Disallow: /
 
форум webanet » Помоги себе сам компьютеры и интернет » Раскрутка сайта » Robots.txt управление индексацией (взаимоотношения robots.txt с поисковиками)
  • Страница 1 из 1
  • 1
Поиск: