Сервис онлайн-записи на собственном Telegram-боте

Тот, кто работает в сфере услуг, знает — без ведения записи клиентов никуда. Мало того, что нужно видеть свое расписание, но и напоминать клиентам о визитах тоже. Нашли самый бюджетный и оптимальный вариант: сервис VisitTime.
Для новых пользователей первый месяц бесплатно.
Чат-бот для мастеров и специалистов, который упрощает ведение записей:
— Сам записывает клиентов и напоминает им о визите;
— Персонализирует скидки, чаевые, кэшбэк и предоплаты;
— Увеличивает доходимость и помогает больше зарабатывать;
Начать пользоваться сервисом
Как продвинуть сайт на первые места?

Вы создали или только планируете создать свой сайт, но не знаете, как продвигать? Продвижение сайта – это не просто процесс, а целый комплекс мероприятий, направленных на увеличение его посещаемости и повышение его позиций в поисковых системах.

Ускорение продвижения

Если вам трудно попасть на первые места в поиске самостоятельно, попробуйте технологию Буст, она ускоряет продвижение в десятки раз, а первые результаты появляются уже в течение первых 7 дней. Если ни один запрос у вас не продвинется в Топ10 за месяц, то в SeoHammer за бустер вернут деньги.
Начать продвижение сайта

[ Обновленные темы · Новые сообщения · Участники · Правила форума · Поиск · RSS ]

Страница 1 из 1
1

форум webanet » Помоги себе сам компьютеры и интернет » Раскрутка сайта » Robots.txt управление индексацией (взаимоотношения robots.txt с поисковиками)

Robots.txt управление индексацией

worldname

Дата: Вторник, 2011-08-30, 01:42 | Сообщение # 1

Генералиссимус

Группа: lown

Сообщений: 202

Статус: Offline

Что такое robots.txt и зачем он нужен

Файл robots.txt - это обыкновенный текстовый файл, с помощью которого можно управлять индексацией сайта. Чаще всего используется для описания запрещающих директив. В некоторых случаях используется комбинация из директив запрещающий и разрешающих. Файл позволяет обращаться ко всем роботам поддерживающих стандарт или к каждому в отдельности, особенно когда для каждого робота, нужно прописать различные указания
Полное отсутствие файла robots.txt является командой по умолчанию - всё разрешено
С помощью роботса можно запрещать к индексации как отдельные страницы, так и целые каталоги, а так же файлы

Примеры использования robots.txt

user-agent: * обращение ко всем роботам поддерживающим стандарт
user-agent: googlebot общее обращение к роботу Google, так же можно обращаться к различным роботам Google отдельно
user-agent: YandexBot общее обращение к роботу Яндекса, так же можно обращаться отдельно к различным роботам Яндекса
user-agent: Yandex общее обращение ко всем роботам Яндекса
Рамблер поддерживает стандарт, но понимает общее обращение ко всем роботам и только директивы запрета

Если нужно запретить весь сайт к индексированию всеми роботами, то используется следующая конструкция

Code

user-agent: *
Disallow: /

Если нужно запретить целый каталог к индексации, то используется следующая конструкция

Code

user-agent: *
Disallow: /название каталога/ обязательно с закрывающим слешем

Если нужно запретить несколько каталогов на сайте, то запрет для каждого каталога пишется с новой строчки. Пример

Code

user-agent: *
Disallow: /название каталога/
Disallow: /название каталога2/
Disallow: /название каталога3/

Если прописать название каталога без закрывающего слеша, то это будет означать блокировку всех страниц, начинающихся с названия каталога. Пример:

Code

Disallow: /название каталога

То есть по сути - это блокировка страниц в каталоге

Директива Allow:

Ошибочно считать, что это директива разрешения для индексации сайта и на её основе можно разрешать сайт к индексированию. На самом деле, данная директива используется только для тонких настроек запрета!
Если у вас запрещен к индексации целый каталог, но нужно дать разрешение на индексацию всего одной страницы каталога, то в этом случае уместно применить директиву Allow: Пример:

Code

Allow: /название каталога/primer.html
Disallow: /название каталога/

Большой глупостью будет писать robots.txt только разрешениями Allow: в надежде на полную индексацию сайта. Нужна полная индексация, или не удаляем robots.txt вообще, или прописываем

Code

user-agent: *
Disallow:

Запретить к индексации некоторые страницы сайта можно так:

Code

user-agent: *
Disallow: /primer1.html
Disallow: /primer2.html
Disallow: /primer3.html

Каждую страницу с новой строки и без закрывающего слеша на конце

Тонкие настройки

Если нужно запретить к индексации файл по расширению

Code

user-agent: *
Disallow: /название каталога/*.xml данная конструкция запрещает /название каталога/primer1.xml так же запрещает /название каталога/primer1/file1.xml и /название каталога/primer3/file2.xml то есть идет запрет на все что оканчивается на .xml

Disallow: /*primer  данная конструкция запрещает  /primer  и так же запрещает /название каталога/primer
то есть все страницы имеющие в адресе после слеша  primer

Можно настроить ещё тоньше

Code

user-agent: *
Disallow: /primer$ данная конструкция запрещает к индексации /primer, но при этом не запрещает /primer.xml

Как это работает

Файл robots.txt является рекомендательным, это значит, что директивы прописанные не обязательны к исполнению. Но, думается мне, что после скандала с Яндексом поисковые роботы станут более вежливыми в смысле исполнения запрещающего файла. Запрещенные страницы и каталоги могут быть отсканированы роботом, но не включены в поисковый индекс или эти страницы и каталоги будут пущены под фильтр и увидеть их в выдаче можно будет только вызвав содержимое фильтра. В общей выдаче запрещенные URL не будут числиться и выдаваться.
Если есть на сайте запрещенная к индексированию страница, то так же если адрес данной страницы будет найден роботом на стороннем ресурсе, то не исключено попадание запрещенной страницы в поисковый индекс
Поэтому, если вам нужно наверняка заблокировать появление страницы в индексе, лучше всего на этой странице прописать мета-тег

Code

Единственное что исполняется роботами практически без оговорок - это полный запрет к индексации всего сайта

Code

User-agent: *
Disallow: /

Страница 1 из 1
1