На главную страницу

ПОИСКОВЫЕ ИНТЕРНЕТ-СИСТЕМЫ НОВОГО ПОКОЛЕНИЯ

Введение

В сети Интернет (далее «Сеть»), как известно, можно отыскать практически любую информацию. Вот только сделать это не так-то просто. Ведь с точки зрения поиска информации Сеть представляет собой нечто вроде громадной библиотеки, где на стеллажах в беспорядке навалены отдельные страницы и более солидные фолианты (сайты), содержащие искомую информацию. То, что она (информация то есть) здесь где-то есть, не вызывает никаких сомнений. Вот только где? Ответ прост – делать надо то же самое, что делают в обычной библиотеке, когда нужно найти требуемую книгу: следует обратиться к библиотечному каталогу.

Для этого существуют специальные Интернет-ресурсы, выполняющие роль своеобразных "библиотечных коллекторов", собирающих данные о публикуемых материалах и составляющих их аннотированные списки. Это собственно каталоги ресурсов Интернета – «Каталоги ссылок». Примером такого рода Интернет-ресурса является достаточно известный в Рунете каталог ссылок List.RU (http://www.list.ru).

Существует и другой тип программ, позволяющих найти необходимые ссылки на ресурсы – это «Поисковые машины», или, попросту, "искалки" или "поисковики".

Между этими двумя видами сетевых "всезнаек" имеется достаточно большая разница. Каталог ссылок, как и следует из названия, представляет собой упорядоченную по темам коллекцию ссылок на многочисленные Интернет-страницы и сайты. В отличие от каталога, поисковая машина включает в себя три основных компонента:

1. Программу-робота (Спайдер - Spider или Crawler или Bot или Robot), непрерывно просматривающую Сеть или определенную ее часть (например, русскоязычные ресурсы) в поисках новых сайтов, а также с целью проверки существования ранее найденных ресурсов. Такая программа, которая посещает веб-страницы, считывает (индексирует) полностью или частично их содержимое и далее следует по ссылкам, найденным на данной странице. Spider возвращается через определенные периоды времени (например, каждый месяц) и индексирует страницу снова.

2. Индексную базу данных, в которой хранятся сведения о найденных Интернет-ресурсах. Все, что находит и считывает Spider, попадает в индексы поисковой системы. Индексы системы представляют собой гигантскую базу данных информации, где хранятся копии текстовой информации, составляющей части всех посещенных и проиндексированных Spider-ом страниц.

3. Поисковую систему - программу, которая осуществляет поиск по индексу с учетом заданных пользователем критериев запроса. Программа, которая в соответствии с запросом пользователя перебирает индексы поисковой системы в поисках информации, интересующей пользователя, и выдает ему на гора в порядке убывания релевантности найденные документы. Каждая поисковая система имеет своего собственного спайдера, со своими собственными "повадками". Каждая система индексирует страницы своим особым способом и приоритеты при поиске по индексам также отличны. Поэтому, произведя запрос по определенным ключевым словам или выражениям, мы будем иметь разные результаты для каждой из поисковых систем.

Стоит опровергнуть бытующий среди части пользователей Сети стойкий миф о том, что поисковая машина, для того чтобы найти требуемую информацию, "перелопачивает" весь Интернет. На самом деле по запросу пользователя поиск ведется по ключевым словам в индексной базе. Кстати, подтверждением этому служат порой появляющиеся в результатах поиска "мертвые" ссылки на уже несуществующие ресурсы.

Но у всех поисковых систем есть общие признаки:

- Даже в самых "умных и точных" поисковых системах определенный процент от всех сайтов проходит "ручную" проверку (визуальный просмотр) администратором поисковой системы (модератором).

- Владельцы поисковых систем стараются держать в секрете точную формулу (алгоритм) ее работы, на основе которой строятся их рейтинги. Этим достигаются две основные цели: защита от конкурентов и защита от направленного поискового – «Спама».

- Любой алгоритм разрабатывается людьми. Людям свойственно ошибаться. Рейтинги поисковой системы могут также содержать ошибки.

- Алгоритм работы поисковой системы "умнеет" вместе с самими разработчиками, его создавшими. Чем больше знаний у самих разработчиков, тем "умнее и точнее" работа поисковой системы, тем удобнее искать и получать в ней необходимую информацию.

- Поисковые системы - не благотворительные организации. Основной целью работы поисковой системы является получение прибыли. Выдача результатов осуществляется на основе рейтинга. Чем популярнее поисковая система, тем больше стремление отдельных сайтов тем или иным способом повысить свой рейтинг. Чем сложнее это сделать, тем честнее поисковая система и рейтинг сайтов, ссылки на которые она выстраивает. Рейтинг сайта периодически меняется: появляются или исчезают какие-то сайты, вводятся изменения и дополнения в алгоритм работы поисковых систем, меняется структура вашего сайта, представленная на сайте информация и т.п. Поисковые системы характеризуются объемом проиндексированных страниц и периодом обновления своего индекса. Объём индексации поисковых систем оценивается по двум основным параметрам: по количеству веб-страниц, которые посетил Spider и количеству веб-страниц, которые проиндексированы в индексной базе данных поисковой системы.

- Поисковые системы различаются периодом обновления своего индекса, то есть временем, за которое происходит полное обновление базы данных поисковой системы. Чем короче этот период, тем более точными будут результаты, тем меньше будет "мертвых ссылок" по результатам запроса. В зависимости от того, к какой тематике относится сайт, период обновления индекса может быть различен.

В поисковых системах возможны две крайности:

• Отсутствие в поисковой машине поискового алгоритма. Их работа сводится к очистке текста сайта от программного кода и выстраивания слов, встречающихся на сайте по их частоте.

• Сложный алгоритм работы поисковой машины. В этом случае в погоне за вероятностью получения наиболее точных и полных результатов при поиске, увеличивается и вероятность ошибок в работке самого алгоритма. Кроме того, WEB-дизайнер вставляет в сайт слова или выражения, не совсем логичные с точки зрения литературного языка. Разные блюда можно приготовить из одних и тех же продуктов. Поисковые системы получают разные результаты, основываясь на одних и тех же исходных данных.

Все зависит от алгоритмов обработки этих данных, заложенных создателями поисковых систем. Одни поисковые системы уделяют внимание "индексу цитирования", другие анализируют мета-теги, и д.т. Если посмотреть рейтинги одного и того же сайта в разных поисковых системах, он везде окажется различным. Оптимизировать сайт (или содержание сайта – web-страницы) под все поисковые системы технически невозможно.

НАИБОЛЕЕ ПОПУЛЯРНЫЕ ПОИСКОВЫЕ ИНТЕРНЕТ-СИСТЕМЫ У РОССИЯН

Rambler (http://www.rambler.ru)

Запущен в октябре 1996. Система обладает обычной и расширенной формами ввода запроса. Кроме того, эта система предоставляет дополнительные возможности в ограничении запроса различными параметрами, задании критерия сортировки результатов и степени развернутости выводимых результатов. По умолчанию результаты поиска группируются по сайтам, что весьма логично, поскольку на одном сайте термин используется, как правило, в едином контексте. Всегда четко указывается дата создания документа и дата его последнего индексирования поисковым роботом.

Помимо наличия и местоположения ключевых слов, механизм выдачи результатов Rambler учитывает также популярность ресурса, которая определяется его посещаемостью (в случае, если на странице установлен счетчик Rambler Top100) и количеством внешних ссылок на данную страницу. Достоинством модуля выдачи результатов Rambler также является отсев нерелевантных документов и система защиты от сайтов-двойников.

Яндекс (http://www.yandex.ru) или (www.ya.ru)

Запущен в сентябре 1997 года. В настоящее время - признанный лидер российского поискового сервиса. Интерфейс максимально прост - состоит из единственной строки ввода. За счет встроенной системы морфологической обработки терминов Яндекс приспособлен для формирования запросов на естественном русском языке. Мощнейшая лингвистика позволяет учесть практически все возможные оттенки употребления ключевых слов и составить поисковое предписание в высшей степени широко, охватив все возможные сочетания терминов. Имеется также технология "Расширенного поиска", в котором с помощью структурированного меню можно легко задать ограничения по различным сочетаниям ключевых слов, местоположению термина в документе, времени и языку публикации, месте на сайте.

Google (http://www.google.com) или (http://www.google.ru)

Была разработана в 1998 выпускниками Стэндфордского университета Сергеем Брином (Sergey Brin) и Ларри Пейджем (Larry Page), которые применили для ранжирования метод определения "авторитетности" конкретного документа на основе информации о документах, ссылающихся на него. Говоря общими словами, чем больше документов ссылается на данный документ - тем более авторитетным данный документ становится. Эта технология позволила ему обеспечить выдачу довольно релевантных результатов на фоне других поисковиков. Довольно быстро Google стал лидировать в различных опросах по такому показателю, как удовлетворенность пользователей результатами поиска.

УНИВЕРСАЛЬНОСТЬ ИЛИ СПЕЦИФИЧНОСТЬ?

Настало время, когда четко просматриваются информационные ниши, где универсальные поисковые машины должны уступить место узкоспециализированным поисковым системам нового поколения. Более того, в некоторых случаях организация поиска, построенного на основе принципов заложенных в самой Сети, просто не приемлемы. Судите сами, набор слов, которые находит поисковый робот, убирая из гипертекста web-страницы весь программный код, очень далек от четкого понимания его того, какую информацию или цель несет исследуемая web-страница.

Сегодня во многих отраслях человеческих знаний (особенно в тех, где предусмотрена четкая формализация – например при преследовании целей коммерции) есть достаточно четкие классификаторы объектов, понятий, разделов и подразделов. Использование таких классификаторов (называемых отраслевыми тезаурусами) может значительно ускорять и конкретизировать поиск в Интернет-пространстве.

В универсальном поисковике для изменения направленности поиска следует изменять поисковую фразу – меняя последовательность слов, используя различные их комбинации и вариации поисковой фразы. Но и в этом случае нельзя рассчитывать на успех, так как универсальная система при ответе вываливает огромное количество информационного мусора, который просто является платой за ту самую «универсальность».

Что же конкретно предлагается взамен?

Cтандарт ОСВ (абривиатура от имени создателя – Охитин Сергей Васильевич) — полная координатная система в информационном пространстве, предложенная ульяновским математиком–алгебраистом, владельцем информационной компании «ВолгаГИС».

Информационное общество сегодня переживает четвёртую информационную революцию, связанную с изобретением электронных носителей информации и Интернета. Прежние методы систематизации сведений и доступа к ним в новой ситуации оказались непригодны. Изобретение баз данных, гипертекста и поисковых роботов временно снизило остроту проблемы, но ненадолго, так как объём накапливаемых сведений (в том числе и научных) растёт экспоненциально даже без учёта прогресса технологий, а с учётом роста технологий — сверхэкспоненциально. Таким образом, необходим прорыв в области исследования пространства знаний и законов его формирования. Кое-что уже воплощено в роботах Google, Рамблер и других. Создатель Википедии Джимми Уэйлс (Jimmy Wales) планирует сделать собственную поисковую систему Wikia Search, которая превзойдёт все существующие поисковые системы. По всей видимости, упор делается на грамматический анализ текстов и поиск алгоритмов релевантного ответа на запросы.

Охитин С.В. несколько лет назад описал полный набор отношений пространства знаний и создал экспертно–интеллектуальный индексатор, использующий коллективный опыт пользователей его системы на принципах нейронной сети. Классификация информации в стандарте OSV дает следующие преимущества перед всеми современными поисковыми машинами:

• Настраиваются связи между терминами и понятиями, а не отдельными Интернет–ресурсами.

• Эволюция информационной системы и классификация новых объектов может быть осуществлена в результате анализа запросов пользователей.

• Существенно повышается релевантность при поисковых запросах.

• Осуществляется переход от линейного каталога к пространственному.

• Становится возможным классифицировать абстрактные и научные термины.

Стандарт ОСВ предназначается для позиционирования в пространстве знаний, и состоит из четырёх типов информационных характеристик, подлежащих обязательной индексации в случае наличия таковых:

1. смысловые характеристики:

- ключевое слово

- синонимы понятия

- морфология терминов

- этимология терминов

- определение понятия

- символьные обозначения

2. иерархические характеристики

- генерализации понятия (информационные надобъекты)

- специализации понятия (информационные подобъекты, дочерние объекты, атрибуты)

- понятийные соседи

- бренды, марки и школы

3. сервисные характеристики

- дистрибьюторы, то есть распространители описываемого объекта

- потребители объекта

- сопутствующие объекты

- службы поддержки и их инструментарий, условия продолжения существования объекта

- обучение пользователей

- документальная база, библиография об объекте

4. событийные характеристики

- история объекта

- творцы и источники объекта и понятия

- свежие новости и прогнозы

Уточнённое, формальное определение нового алгоритма таково:

Standard OSV — это числовая функция с двумя аргументами, первым из которых является смысловое понятие (для робота — словосочетание запроса), а вторым — информационный объект (для робота — электронная страница). Тем самым, данный алгоритм индексирования каждой электронной странице сопоставляет спектр её значений на списке возможных запросов пользователей, и этот спектр используется для определения уровня релевантности ссылки, предоставляемой поисковым роботом.

Система индексирования в ОСВ–стандарте подразумевает, что описываемые характеристики должны одновременно служить и гипер-переходами на другие объекты информационного пространства, в особенности — внутри разрабатываемого ресурса. Разумеется, здесь нужно придерживаться определённой меры и не перегружать текст однотипными связями (Link-ами). Гиперссылку на стабильный, тематически интересный внешний ресурс следует осуществлять в двух важнейших случаях (хотя возможны и исключения):

- на общезначимый источник;

- на дружественный ресурс.

Логика правил гипер-переходов одновременно подчиняется двум целям, стимулирующим развитие пространства знаний в надлежащем направлении:

- гиперссылка поощряет целевой ресурс информационного пространства;

- она помогает своей аудитории ориентироваться в этом пространстве;

- Аналогичные правила действуют и в отношении библиографии.

Парадокс, но в специфичных системах можно проводить более мощные механизмы (в частности движение по иерархической классификационной сети понятий), влияющие на поиск информационном пространстве.

Все слова имеют определенные частоты и вероятности в сочетании с другими словами – так образуется обширное подмножество связей слов. Но не все словосочетания образуют понятия, которые реально представляют объекты окружающего нас мира. А вот понятия или объекты реального мира во многих отраслях знаний поддаются классификации и структурированию, причем характерные специфической области знаний. Следовательно, специализированная поисковая система всегда может предложить альтернативный более качественный алгоритм поиска, базирующийся на естественных связей понятий и объектов, которые присущи нашему человеческому взгляду на мир.

В основу работы системы положены 3 принципа:

1. Полную систему связности может построить только робот, человеку это просто не под силу. Но ее основу может заложить только человек – специалист (и не один) в конкретной предметной области.

2. Каждая дуга связи устанавливается только между двумя объектами: двумя словами или двумя понятиями. Именно эти дуги и будут предлагать пользователю возможность ускоренного движения в информационном пространстве при поиске необходимых ему данных.

3. Гипертекст – и есть средство, позволяющее организовать правильное взаимодействие всех слов и понятий. По сути, технология поиска создается теми же средствами, что и само информационное пространство. Результатом должна стать поисковая система с сотнями миллионов поисковых страниц, на каждой из которых отражено одно конкретное понятие, который воспринимается нами как четко понятный нам объект или термин.

Конкретный проект не может быть нацелен на охват всех отраслей знаний. Для реализации идеи выбраны две конкретные объектные тематики:

1. Строительство.

2. Промышленность.

Более того, если проанализировать источники информации, из которых обыватели черпают знания по строительным материалам и технологиям, то выясняется что самый мощный на сегодняшний день источник, каковым является Интернет, очень скромно задействован под эти цели:




Кроме того, все каталоги (часто называемые классификаторами в самих специализированных изданиях) являются двумерными (плоскими) и вряд ли могут удовлетворить пользователя в детальном или специфичном поиске строительного материала или технологии.

Приведем пример такого классификатора (рубикатора) одного из самых популярных на сегодняшний день специализированных изданий – газету «СТРОЙКА»:


Рубрикатор газеты «Стройка»:


СтройИнформ

Строительные рынки и магазины

Строительные материалы

Древесноплитные изделия и лесопиломатериалы

ЖБИ, бетон, раствор

Кирпич. Стеновые материалы

Сыпучие материалы

Кровельные и фасадные материалы

Изоляционные материалы

Стекло, зеркала, пластики

Ворота. Окна. Двери. Лестницы

Ворота, шлагбаумы, комплектующие Двери, перегородки Окна, витражи и комплектующие Лестницы, лифты

Металлы. Металлоизделия. Металлоконструкции

Метизы

Металлоконструкции, металлоизделия

Металлопрокат, трубы

Крепежи, замки

Отделочные материалы

Сухие смеси

Облицовочные материалы, плитка

Материалы для пола

Материалы для стен и потолков

Обои, пленка

Лакокрасочные изделия

Сантехника. Инженерные сети

Водопровод, канализация

Трубы, запорная арматура

Техника, оборудование и инструмент

Сварочное оборудование

Климатическое оборудование и вентиляция

Оборудование, отопительное и водогрейное

Контрольно-измерительное оборудование, приборы

Насосное, компрессорное оборудование

Станки. Инструменты

Строительное, подъемное оборудование

Противопожарное, и охранное оборудование.

Спецтехника

Электрооборудование и светотехника

Электротехническое оборудование Светотехника и осветительное оборудование

Строительство. Благоустройство.

Готовые сооружения, здания и конструкции

Бани, сауны, бассейны, фонтаны Благоустройство, ландшафтный дизайн Дизайн, проектирование, архитектура Капитальное строительство Строительные, ремонтные, монтажные работы Интерьер. Мебель. Фурнитура

Спецодежда. Услуги. Разное

Спецодежда. Хозтовары. Тара

Разное. Спрос

Резинотехнические изделия, строительная химия

Услуги

Выставки

Служебная информация

Современному потребителю информации нужны детали, нужны нюансы, нужна обстоятельная информация, которая ко всему прочему поможет ему сделать квалифицированный и правильный выбор без субъективного взгляда на проблему. Ни для кого не секрет, что все информация представленная в специализированных изданиях или других развитых средствах массовой информации является конъюнктурной, т.е. отражает интересы платящих за информацию производителей и сбытчиков продукции. А у них лишь единственная цель выгодно отработать вложенные средства, которая не всегда совпадает с объективным взглядом на предметную область.

Принцип нейронной системы связей объектов в предметной области позволит в будущем не только приводить к точным результатам при поиске, но и структурировать саму предметную область – помогая человеку сформировать достойное ее понимание. Такое свойство системы можно смело назвать уже мировоззренческой миссией, значение которой трудно оценить сегодня.

Для большей наглядности приведем один из примеров возможной реализации приводимой технологии:

10001.0 == Ключевое слово

10001.1 == Родитель (надкаталог)

10001.2 == Каталог (подкаталог)

10001.3 == Морфологический разбор (падежи)

10001.4 == Синонимы

10001.5 == ПРОИЗВОДИТЕЛИ

10001.6 == ПРОДАВЦЫ

10001.s == УСЛУГИ / Обслуживание товара

10001.i == ИНФОРМАЦИЯ (Выставки / Каталоги / Описание товара / Доски )

10001.m == Модели/ Марки

10001.t == Сопутствующие товары и услуги

10001.d == Definition - Определение

1) Инструменты

2) Оборудование

3) Приборы

4) Станки

5) Стройматериалы

ПРИМЕРЫ:

10001.0 Автомобили

10001.1 Транспорт, Автотехника,

10001.2 Легковые автомобили, Грузовые автомобили, Спецавтомобили, Внедорожники, Иномарки, Спортивные автомобили,

10001.3 Автомобиль, Автомобилей, Автомобиля,

10001.4 Машина, Тачка, Дом на колесах, Автомашина, Легковушка, Иномарка, motor-car, car, motor vehicle, Kraftwagen, Automobil, automobile, auto, voiture, automobile, automezzo, automovil, auto, coche, carro

10001.5 Автозаводы, Автомобильная промышленность,

10001.6 Автосалоны, Автомагазины, Продажа автомобилей,

10001.s Автосервис, Ремонт автомобилей, Тюнинг, Станции техобслуживания, Автомобильный транспорт, Подготовка водителей, Прокат автомобилей, Автопутешествия,

10001.i Автострахование, Автошоу, Автомобильные издания, Автоновости, Автоклубы, Авторынок, Автоспорт, Цены на автомобили, Правила дорожного движения,

10001.m Марки автомобилей, ВАЗ, ГАЗ, КАМАЗ, МАЗ, ИЖ, Audi, BMW, Chevrolet, Citroen, Daewoo, Ford, Honda, Hyundai, Mercedes, Kia, Mercedes, Mitsubishi, Nissan, Toyota, Volvo, Volkswagen,

10001.t Автоакксессуары, Автосигнализация, Автохимия, Автозвук, Шины, Диски, Двигатели, Гаражи,

20001.0 Инструменты

20001.1 Оборудование, Приспособления,

20001.2 Бензоинструменты, Гидроинструменты, Деревообрабатывающие инструменты, Железнодорожные инструменты, Измерительные инструменты, Мерные инструменты, Медицинские инструменты, Пневматические инструменты, Ручные инструменты, Механические инструменты, Термоинструменты, Электроинструменты

20001.3 Инструмент, Инструментов, Инструмента,

20001.4 Инструмент, инструментальный

20001.5 Заводы, Кооперативы, Мастерские, Инструментальное производство,

20001.6 Автосалоны, Автомагазины, Магазины, Продажа инструмента,

20001.s Ремонт инструмента, Наладка инструмента, Настройка инструмента, Поверка инструмента,

20001.i Промышленные товары, Авторынок, Выставки инструмента,

20001.m Калибр, Gramex, Dewalt, Black, Skil, Makita, Bosch, Kress, Sparky, Ижевск, Копаково, Смоленск, Пермь, Hitachi, Stanley, Arrow, Irwin

20001.t Аксессуары к инструменту, Комплектующий инструмент,

20002.0 Производственное и промышленное оборудование

20002.1 Оборудование, Производственное электрооборудование, Приспособления, Инструмент

20002.2 Оборудование для металлообрабатывающего производства, оборудование для машиностроительного производства, строительное оборудование, сварочное оборудование, грузоподъемное оборудование, оборудование для деревообрабатывающего и мебельного производства, оборудование для пищевой промышленности, оборудование для медицинской промышленности, оборудование для фармацевтического и парфюмерно-косметического производства, оборудование для целюлозно-бумажной промышленности, оборудование для производства изделий из полимеров, оборудование для производства химических волокон, оборудование для производства каучуков, оборудования для транспортировки и хранения жидкостей и газов, пылеулавливающее оборудования, газо- и водоочистное оборудования, котельное оборудования, отопительное оборудования, насосное оборудования, вентиляционное оборудования, лабораторное оборудования,

20002.3 Оборудование, Оборудования, Оборудования,

20002.4 Промышленное, производственное

20002.5 Заводы, Кооперативы, Мастерские, Инструментальное производство,

20002.6 Магазины, Продажа оборудования,

20002.s Монтаж оборудования, Ремонт оборудования, Наладка оборудования, Настройка оборудования,

20002.i Промышленные товары, Промышленный рынок, Выставки оборудования,

20002.m ZMM Bulgaria, IronMac, Kawasaki, Karcher, Dalex, EWM, Elmatech, Telwin, Koike, Noblift, Beaver, Hellios, Seba, Freud, Juki, Brother, Sunstar, Typical, Yamoto, Titan, Trevil, SWF, Kansai Special, Juki, Mitsubishi, Siruba, K-Chance, ShingRay, Scmetz, Protex, Ozcelik, Woojin Selex, Brogen, Blacksea, Energodrive, Siemens, Scorpogrup, ДВТ, Ками станагрегат, АСВ-техника, Литман, Ремстройдормаш, Еврохим, Л-строй, ЭОП-сервис, Балатон, КристалМ, ВПК, Акрон, Леанд, АкТиСнаб, Мотэк99, Элсо2000, Комби, Дюкон, Станкомашторг, Восход, НПФ, Пакверк, Ингредиент, Потенциал, Компакс, Техника Пак, Уралэлектромаш, Техпривод, Приводные механизмы, Мехпривод, Технолайн, Мегаприбор, ЛаборКомплект,

20002.t Аксессуары к оборудованию, Комплектующие к оборудованию, Ремонтные комплекты

РЕЗЮМЕ

Таким образом, имеется теоретический фундамент для построения интеллектуальной специализированной информационно-поисковой системы нового поколения. Многолетние наработки в области базы знаний "Строительство" позволяют в течение года создать такую систему для более полного информационного обеспечения этой важнейшей отрасли.



В начало страницы
Hosted by uCoz