Net Форумы

 
 FAQFAQ   ПоискПоиск   ПользователиПользователи   ГруппыГруппы   РегистрацияРегистрация 
 ПрофильПрофиль   Войти и проверить личные сообщенияВойти и проверить личные сообщения   ВходВход 
Генеральный спонсор: www.Net.Ru - серьезный, профессиональный хостинг.

PhP и поисковики!!!! Проблемы индексирования динамических ст

 
Начать новую тему   Ответить на тему    Список форумов Net Форумы -> PHP скриптинг
Предыдущая тема :: Следующая тема  
Автор Сообщение
Sacura
Member


Зарегистрирован: 01.01.1970
Сообщения: 22

СообщениеДобавлено: 13.10.2002 06:33    Заголовок сообщения: Ответить с цитатой

Насколько мне известно спайдеры многих поисковых систем не понимают знаки "?", "&", "=" в адресах. Хотелось бы получить подробные инструкции по наиболее приемлемым методам обхода данной проблемы для динамических страниц расположеных у провайдера net.ru <BR>
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Посетить сайт автора
mm
Member


Зарегистрирован: 01.01.1970
Сообщения: 25

СообщениеДобавлено: 21.10.2002 18:12    Заголовок сообщения: Ответить с цитатой

Вообще то - не многих, а помочь может mod_rewrite. Где-то на форуме здешнем обсуждалось... у меня работает...
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
Age
Member


Зарегистрирован: 01.01.1970
Сообщения: 25

СообщениеДобавлено: 23.11.2002 17:54    Заголовок сообщения: Ответить с цитатой

Сейчас эта проблема не так остра. <BR> <BR>Яндекс всегда понимал динамические страницы. (Под динамической понимается адрес страницы со знаком ? и прочей инфой после него) <BR> <BR>Рамблер начал индексировать динамику 7 сентября 2002. Подробности мне не известны. <BR> <BR>Апорт динамику индексирует, но ограничено (по числу страниц). <BR> <BR>Google - не помню, надо посмотреть. <BR> <BR>Кроме того, некоторые поисковики индексируют динамические страницы, но по ссылкам с нее дальше не идут. Т.е. на сайте надо иметь статическую страницу со ссылками на все остальные страницы сайта, например, карту сайта. Такую же страницу надо иметь, если навигация построена на Яве и прочих модных фишках. Их поисковики не переваривают. <BR> <BR>Кроме того, как сказано в пред. сообщении, можно вообще обойти эту проблему используя mod_rewrite. <BR> <BR>Более подробно о поисковиках см. форум <BR><!-- BBCode auto-link start --><a href="http://www.searchengines.ru" target="_blank">http://www.searchengines.ru</a><!-- BBCode auto-link end --><BR><BR><font size=-1>[ Это Сообщение было отредактировано: Age в 2002-11-23 14:56 ]</font>
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail
Age
Member


Зарегистрирован: 01.01.1970
Сообщения: 25

СообщениеДобавлено: 24.11.2002 00:40    Заголовок сообщения: Ответить с цитатой

Ссылка по теме: <BR>Секреты индексации динамических страниц в поисковых системах (http://www.searchengines.ru/stories.php?story=02/08/19/6194243) <BR> <BR>
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail
Sacura
Member


Зарегистрирован: 01.01.1970
Сообщения: 22

СообщениеДобавлено: 26.11.2002 11:17    Заголовок сообщения: Ответить с цитатой

Существует еще один момент. При попадании с поисковой машины на страницу удаленную в БД на страницу выводится сообщение об ошибке в БД как выводить в этом случае сообщение об ошибке 404? Посоветуйте систематику этого процесса?
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Посетить сайт автора
Age
Member


Зарегистрирован: 01.01.1970
Сообщения: 25

СообщениеДобавлено: 27.11.2002 22:14    Заголовок сообщения: Ответить с цитатой

<ul>При выборке из базы, надо проверять, количество результирующих строк. Если 0, то действуем следующим образом: <BR> <BR><li>выдаем соответствующий header:<br>header("HTTP/1.0 404 Not Found"); <BR><li>затем формируем HTML страницу как обычно и сообщаем пользователю, что страница не найдена <BR><li>можно попробовать подыскать альтернативу и предложить ее пользователю, но ни в коем случае не редиректить - пользователь мог прийти совершенно за другим. <BR></ul> <BR> <BR>По Лебедеву <IMG SRC="/images/smiles/icon_smile.gif">, 404-я страница должна отличаться от остальных, но не должна быть тупиком. <BR> <BR><BR><BR><font size=-1>[ Это Сообщение было отредактировано: Age в 2002-11-27 19:16 ]</font>
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail
Sacura
Member


Зарегистрирован: 01.01.1970
Сообщения: 22

СообщениеДобавлено: 30.11.2002 00:35    Заголовок сообщения: Ответить с цитатой

Header не решает проблему выдать заголовок в моем случае трудно т.к. на страницу уже выведена какаято инфа (допустим текстовая реклама) А файл с запросом в Бд инклюдится. Соответственно то что в include() выдает ошибку базы. Как в этом случае лучше поступить? Заголовок отправить невозможно т.к. уже,как правило, что то отправлено.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Посетить сайт автора
Sacura
Member


Зарегистрирован: 01.01.1970
Сообщения: 22

СообщениеДобавлено: 30.11.2002 08:53    Заголовок сообщения: Ответить с цитатой

Проблему решил изменив скрипт так, чтоб Бд не делала запросов на несуществующие записи но это не полностью корректно т.к. проследить все возможные варианты комбинаций переменных трудно. Может существует какое-нибудь другое решение (кроме отправки хидеров и моего варианта)? Смотрите тему в разделе по MySql.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Посетить сайт автора
KW
Helper


Зарегистрирован: 01.01.1970
Сообщения: 274

СообщениеДобавлено: 02.12.2002 15:19    Заголовок сообщения: Ответить с цитатой

Можно воспользоваться буферезированным выводом: <BR><!-- BBCode auto-link start --><a href="http://www.php.net/manual/en/ref.outcontrol.php" target="_blank">http://www.php.net/manual/en/ref.outcontrol.php</a><!-- BBCode auto-link end --> <BR> <BR>пример: <BR><?php <BR> <BR>ob_start(); <BR>echo "Hello\n"; <BR> <BR>/* если записей в базе нет, в инклюде устанавливается $error */ <BR>include ("selector"); <BR> <BR>/* выдаем код заголовка 404 */ <BR>if ( $error ) <BR> header ("Status: 404 not found"); <BR> <BR>ob_end_flush(); <BR> <BR>?> <BR>
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Посетить сайт автора
Age
Member


Зарегистрирован: 01.01.1970
Сообщения: 25

СообщениеДобавлено: 02.12.2002 16:46    Заголовок сообщения: Ответить с цитатой

Фишка !!! Возьмем на вооружение. <IMG SRC="/images/smiles/icon_smile.gif">
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail
Sacura
Member


Зарегистрирован: 01.01.1970
Сообщения: 22

СообщениеДобавлено: 03.12.2002 18:43    Заголовок сообщения: Ответить с цитатой

Колеги, еще возник один вопрос. Кто может сказать как поисковики реагируют на запрет индексации при редиректе директивой апача. <BR>Размещаем а коренном каталоге robot с содержанием к примеру <BR> <BR>User-Agent: * <BR>Disallow: /tmp/ <BR> <BR>Данная дирректория физически не существует, а в .htaccess прописан редирект на нужный скрипт. <BR>Как будет реагировать робот поисковой машины на запрещение индексации этой директории в этом случае? <BR>
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Посетить сайт автора
Age
Member


Зарегистрирован: 01.01.1970
Сообщения: 25

СообщениеДобавлено: 04.12.2002 11:13    Заголовок сообщения: Ответить с цитатой

<!-- BBCode Quote Start --><TABLE BORDER=0 ALIGN=CENTER WIDTH=85%><TR><TD><font size=-1>Quote:</font><HR></TD></TR><TR><TD><FONT SIZE=-1><BLOCKQUOTE> <BR>On 2002-12-03 15:43, Sacura wrote: <BR>как поисковики реагируют на запрет индексации при редиректе директивой апача. <BR></BLOCKQUOTE></FONT></TD></TR><TR><TD><HR></TD></TR></TABLE><!-- BBCode Quote End --> <BR> <BR>Интересная постановка вопроса. <IMG SRC="/images/smiles/icon_smile.gif"> <BR>На запрет в robots поисковики будут реагировать однозначно: они не полезут в tmp, кроме того, если там ранее было что-то проиндексировано, то эти страницы из индекса удаляются. <BR> <BR>Кстати, у меня встречный вопрос: редирект директивой в апаче выполняется незаметно от пользователя, как в mod_rewrite, или через http заголовки? <BR>(Так, извиняюсь, явный офф-топик. Создаю новую тему)<BR><BR><font size=-1>[ Это Сообщение было отредактировано: Age в 2002-12-04 08:16 ]</font>
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail
Sacura
Member


Зарегистрирован: 01.01.1970
Сообщения: 22

СообщениеДобавлено: 08.12.2002 00:07    Заголовок сообщения: Ответить с цитатой

Я немного неправильно выше сказал. У меня не редирект а подстановка скрипта дрирективой ErrorDocument соответственно возникли вопросы. Каой ответ в заголовке получает клиент и как поисковики реагируют на директорию прописаную в robot. Видит ли поисковик в ответном заголовке HTML подстановку скрипта и может ли обнаружить сообщение о ошибке. <BR>Я понимаю так: поисковик оперирует строкой URL. Имея URL для индексирования, он обрабатывает в первую очередь ROBOT данной директории, затем начинает индексировать документ. Если это так, то значит в ответе HTTP моего сервера будет только та инфа, которую выдаст в заголовке подставленный скрипт. Еще вопрос как поисковик получает задание на индексацию URL? Наверняка у Яндекса есть несколько вариантов получения такого задания. <BR> Поправьте если я не прав.<BR><BR><font size=-1>[ Это Сообщение было отредактировано: Sacura в 2002-12-08 01:43 ]</font>
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Посетить сайт автора
Age
Member


Зарегистрирован: 01.01.1970
Сообщения: 25

СообщениеДобавлено: 14.12.2002 17:00    Заголовок сообщения: Ответить с цитатой

<!-- BBCode Quote Start --><TABLE BORDER=0 ALIGN=CENTER WIDTH=85%><TR><TD><font size=-1>Quote:</font><HR></TD></TR><TR><TD><FONT SIZE=-1><BLOCKQUOTE> <BR>Каой ответ в заголовке получает клиент и как поисковики реагируют на директорию прописаную в robot.</BLOCKQUOTE></FONT></TD></TR><TR><TD><HR></TD></TR></TABLE><!-- BBCode Quote End --> <BR> <BR>В заголовке клиент получает то, что ты пошлешь(надо следующее: протокол, статус 200, last-modified, expires). А про robot я уже писал: не индексируют. Только в данном случае тебе это зачем? <BR> <BR><!-- BBCode Quote Start --><TABLE BORDER=0 ALIGN=CENTER WIDTH=85%><TR><TD><font size=-1>Quote:</font><HR></TD></TR><TR><TD><FONT SIZE=-1><BLOCKQUOTE> <BR>Видит ли поисковик в ответном заголовке HTML подстановку скрипта и может ли обнаружить сообщение о ошибке.</BLOCKQUOTE></FONT></TD></TR><TR><TD><HR></TD></TR></TABLE><!-- BBCode Quote End --> <BR>Нет, если все правильно сделаешь. <BR> <BR><!-- BBCode Quote Start --><TABLE BORDER=0 ALIGN=CENTER WIDTH=85%><TR><TD><font size=-1>Quote:</font><HR></TD></TR><TR><TD><FONT SIZE=-1><BLOCKQUOTE>он обрабатывает в первую очередь ROBOT данной директории</BLOCKQUOTE></FONT></TD></TR><TR><TD><HR></TD></TR></TABLE><!-- BBCode Quote End --> <BR>Насколько мне известно, ни один поисковик не гарантирует просмотр ROBOT в директориях, только в корневике. <BR> <BR><!-- BBCode Quote Start --><TABLE BORDER=0 ALIGN=CENTER WIDTH=85%><TR><TD><font size=-1>Quote:</font><HR></TD></TR><TR><TD><FONT SIZE=-1><BLOCKQUOTE>Еще вопрос как поисковик получает задание на индексацию URL? Наверняка у Яндекса есть несколько вариантов получения такого задания. </BLOCKQUOTE></FONT></TD></TR><TR><TD><HR></TD></TR></TABLE><!-- BBCode Quote End --> <BR>Да. И у яндекса и у других. Во-первых, у поисковиков есть форма добавления урлов (сабмит). В рунете они еще сохранились. В большинстве же западных искалках ее уже закрыли. То бишь, сам ты о сайте не сообшишь. Наши постепенно движутся в том же направлении. <BR> <BR>Другой способ: поисковик находит тебя по ссылке с другого сайта. Работает на всех поисковиках. Эт очень любимый ими способ. <BR> <BR>Ну и за деньги, разумеется <IMG SRC="/images/smiles/icon_smile.gif"> <BR> <BR>Сейчас наметилась тенденция в сторону последних двух методов. Например, Аппорт увеличивает вес факта наличия в своем каталоге. Скоро собирается убрать сабмит. И условием индексации будет наличие ссылок с других сайтов (заметте, их должно быть несколько и не с бесплатных хостов). <BR> <BR>В результате, скоро мы получим в рунете следующую ситуацию: некоммерческие проекты должны будут стать довольно интересными, что бы на них начали ссылаться. А коммерческие будут платить деньги. Вот такие пироги <IMG SRC="/images/smiles/icon_smile.gif"> <BR> <BR>Так что, спешите попасть в поисковики, пока на халяву можно. <BR> <BR>_________________ <BR>Всему свое время. Age<BR><BR><font size=-1>[ Это Сообщение было отредактировано: Age в 2002-12-14 14:02 ]</font>
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail
Sacura
Member


Зарегистрирован: 01.01.1970
Сообщения: 22

СообщениеДобавлено: 19.07.2003 18:40    Заголовок сообщения: Я довел до логического конца данную систему Ответить с цитатой

Если посмотреть страницы большинства динамических сайтов, проиндексированные
поисковиками, то в базе поисковиков находится много страниц содержащих
ошибки, или вовсе осутствующих в данный момент. Это происходит по трем основным
причинам:
1. Отсутствие вывода страниц ресурса по умолчанию.
2. Не удаление из базы поисковых машин уже не существующих страниц
Вашего сайта.
3. Отсутствие системы анализа динамически изменяемых страниц и анализа
допустимости всех URI запросов.

Почему это плохо? Рассмотрим на примере поисковой машины "Яндекс".
Яндекс в своей базе держит обычно около 1000 проиндексированных
страниц доступного ресурса, какая-то часть которых будет занята индексами
страниц с ошибками(т.е. не существующих у Вас на сайте страниц), что
не позволит использовать эти индексы полноценно.

Подключение модуля двойной навигации и модуля-анализа URI запросов решает эти проблемы.
Данный скрипт осуществляет вывод данных выбранного товара по запросу
uri, адаптированного к обработке любой поисковой машиной,в том числе и не
понимающей специальных знаков в строке запроса. Модуль позволяет
всегда определять правильность запроса, и при запросах на вывод не
существующих страниц, выдаёт запрограммированный ответ. Данный модуль
позволяет избежать сканирования поисковыми роботами ошибок вывода
контента и автоматически, в динамике, убирать из базы поисковой машины уже
не существующую страницу. Модуль сконфигурирован так, что никогда не
выдает ошибок вывода базы данных на страницах, доступных для индексации поисковыми
роботами. Кроме всего, настройки данного модуля позволяют управлять индексацией страниц поисковыми системами.

Основные решения перечисляю:
1. Все страницы имеют вывод по умолчанию(если возникают ошибки в БД).
Динамический анализ.
2. Анализ допустимости запроса URI и анализ ответа БД
3. Автоматическое удаление из базы поисковиков проиндексированых
страниц не существующих на сайте.
4. Полноценная навигация с адаптированым URI и одновременная навигация по обычным запросам , навигация работает с включенным и
выключенным JS.

Если Вам интересно внедрение моей разработки у себя на сайте, я готов за небольшое вознаграждение интегрировать данную систему с Вашим ресурсом.
Для коллег Всегда бесплатные консультации.
Мой тел. 8 926 234-65-27
e-mail indos@online.ru
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Посетить сайт автора
Показать сообщения:   
Начать новую тему   Ответить на тему    Список форумов Net Форумы -> PHP скриптинг Часовой пояс: GMT + 3
Страница 1 из 1

 
Перейти:  
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах


Powered by phpBB
Русская поддержка phpBB