Студопедия

КАТЕГОРИИ:

АстрономияБиологияГеографияДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРиторикаСоциологияСпортСтроительствоТехнологияФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника


Поиск информации в Internet




Как правило, последовательность поиска информации в Internet выглядит следующим образом:

Конкретизируется область поиска, выделяются ключевые слова, характерные для интересующей области. Рекомендуется по возможности подбирать такие слова, которые не используются ни в каких других областях деятельности или знания.

На поисковый сервер посылается запрос, сформированный из ключевых слов. На многих поисковиках имеется возможность конкретизировать область поиска путем выбора соответствующих пунктов предлагаемых меню.

Так или иначе, от сервера приходит список ссылок на WWW- страницы, в которых обнаружены запрошенные слова с кратким описанием каждой из них или просто с небольшим начальным фрагментом страницы.

Далее следует исследование подходящих (судя по заголовку или описанию) страниц. Здесь начинается “свободное плавание”, то есть переход по ссылкам с текстом, который обещает нечто интересное.

Сохранение на диске интересующего материала.

Отыскать нужную информацию в Седьмом океане - океане информации было бы просто невозможно если бы не существовало поисковых серверов. Такие серверы предоставляют возможность поиска страниц по ключевому слову или в иерархическом дереве каталога. Существуют как чисто англоязычные и русскоязычные, так и смешанные серверы. Документов на английском языке в Internet гораздо больше, чем на русском, поэтому имеет смысл посетить также и западные поисковики.

Для поиска информации по ключевому слову на поисковый сервер посылается запрос. Запрос формируется автоматически - нужно только ввести слова в поле ввода, выбрать нужные опции поиска и нажать кнопку. Обратно приходит Web-страница с отчетом о результатах поиска. Так как список найденных документов может быть очень большим, он разбивается на фрагменты по 10-100 элементов (на каждом сервере по-разному), а в конце отчета приводятся ссылки на следующие фрагменты списка.

Каждый элемент отчета формируется следующим образом:

- в начале идет заголовок документа являющийся также и ссылкой на этот документ (если у документа нет заголовка - - может быть и такое - - то здесь помещается надпись "No title");

- далее следует небольшой фрагмент самого документа по которому практически всегда можно понять, о чем идет речь в документе и, следовательно, подходит он вам или нет;

- и, наконец, список URL данного документа (один и тот же документ может быть продублирован по разным адресам).

Чтобы перейти к документу, достаточно щелкнуть либо по ссылке с текстом заголовка, либо по одной из ссылок с URL. Кстати, единственный поисковик, который выдает пользователю не фрагмент документа, а настоящую аннотацию (на английском языке), написанную людьми - это Yahoo.

Второй метод отыскания документов, предоставляемый поисковыми серверами - - поиск по каталогам. Практически на всех поисковых машинах есть такие каталоги (исключение - - Altavista, Rambler). В таких каталогах вся область знаний разбивается на несколько крупных подобластей, например, искусство, бизнес, компьютеры, образование, спорт, политика, путешествия, здоровье и т.д. и т.п. Дале каждая такая подобласть разбивается на более мелкие разделы и подразделы. Таким образом в процессе поиска вы на каждом шаге будете уточнять искомое понятие, сужая область поиска, пока не получите список ссылок на документы, уже более соответствующих нужной вам теме.

Наиболее популярными англоязычными поисковиками являются: Yahoo, Magellan, Infoseek, Excite, WebCrawler, русскоязычными: Rambler, Русская Машина Поиска, всеязычным - - Altavista, Altavista Telia.

Классификация поисковых машин

Первая таблица включает в себя ведущие мировые поисковые машины, которые были первыми поисковыми службами в сети Интернет. С их помощью пользователи могут вести поиск, используя ключевые слова или логические конструкции. Большинство служб использует специальные языки запросов. Кроме того, можно воспользоваться уже существующей иерархией каталогов. Например, если вы ищете сайт определенной газеты, то нужно следовать по каталогу Yahoo! следующим образом:

News and Media >> Newspapers > The New York Times

Altavista и Yahoo! лидируют в этом списке. На этих сайтах существует обширная база данных и хорошо структурированная иерархия. Euroseek незаменим при поиске отдельных европейских ресурсов.

Глобальные поисковые машины
Altavista - http://www.altavista.com
Yahoo! - http://www.yahoo.com
Lycos - http://www.lycos.com/
HotBot - http://www.hotbot.com
EuroSeek - http://www.euroseek.net/page?ifl=uk
Excite - http://www.excite.com
Infoseek - http://www.infoseek.com/

Поскольку все вышеперечисленные поисковые системы используют различные базы данных, то используя одни и те же ключевые слова, можно получить совершенно разные результаты. Иногда лучше обратится к так называемым системам "мета-поиска". Такие поисковые машины посылают ваш запрос на огромное количество разных поисковых систем. Затем обрабатывают полученные результаты, удаляют повторяющиеся адреса ресурсов и представляют более широкий спектр того, что представлено в сети Интернет.

Системы мета-поиска
Inference Find - http://www.inference.com/infind/
Meta Find - http://www.metafind.com/
Metacrawler - http://www.metacrawler.com/
Webcrawler - http://www.webcrawler.com/
Dogpile - http://www.dogpile.com/

Иногда по определенной тематике поисковая система выдает такое огромное количество ссылок, что пользователь просто не в состоянии просмотреть их всех и найти лучшее. Northern Light и About.com (раннее известный как The Mining Company) используют услуги экспертов, которые вносят в базу данных самые лучшие ресурсы. Эти сайты очень информативны и представляют очень ценную информацию.

Специальные поисковые системы
Northern Light - http://www.nlsearch.com/
About.com - http://about.com

Иногда вам необходима самая общая информация. Для этого можно воспользоваться онлайновыми энциклопедиями. В некоторых случаях статьи энциклопедии содержат ссылки на необходимые ресурсы.

Энциклопедии
Энциклопедия Британника - http://www.britannica.com/
Кирилл и Мефодий - http://www.km.ru

Из-за невероятного увеличения информационных ресурсов Интернет в последние годы некоторые старые поисковые системы перестали быть эффективными. Поэтому появились такие поисковые машины, как Google и Direct Hit, которые сортируют ссылки по принципу популярности. Используя математический алгоритм, они выдают адреса тех ресурсов, на которые чаще всего указывают другие сайты.

Поисковые системы второго поколения
Google - http://www.google.com/
Direct Hit - http://www.directhit.com/
 

42.

 

Продолжается информационный бум - растут количество и объемы серверов в WWW, увеличиваются мощности локальных сетей. Каждый день Вам приходится иметь дело с грудами текстов на русском языке. Это и новости, и подшивки газет в электронном виде, и электронная почта, и новые документы, и письма. Очень важно уметь быстро искать и находить в этом море действительно нужную информацию. Уже давно во всем мире крупнейшие компьютерные корпорации разрабатывают всевозможные средства интеллектуализации поиска... но без учета нашего "великого и могучего, правдивого и свободного", на 80% изменяемого русского языка.

Поисковые системы обычно состоят из трех компонент:

· агент (паук или кроулер), который перемещается по Сети и собирает информацию;

· база данных, которая содержит всю информацию, собираемую пауками;

· поисковый механизм, который люди используют как интерфейс для взаимодействия с базой данных.

Средства поиска и структурирования, иногда называемые поисковыми механизмами, используются для того, чтобы помочь людям найти информацию, в которой они нуждаются. Средства поиска типа агентов, пауков, кроулеров и роботов используются для сбора информации о документах, находящихся в Сети Интернет. Это специальные программы, которые занимаются поиском страниц в Сети, извлекают гипертекстовые ссылки на этих страницах и автоматически индексируют информацию, которую они находят для построения базы данных. Каждый поисковый механизм имеет собственный набор правил, определяющих, как собирать документы. Некоторые следуют за каждой ссылкой на каждой найденной странице и затем, в свою очередь, исследуют каждую ссылку на каждой из новых страниц, и так далее. Некоторые игнорируют ссылки, которые ведут к графическим и звуковым файлам, файлам мультипликации; другие игнорируют cсылки к ресурсам типа баз данных; другие проинструктированы, что нужно просматривать прежде всего наиболее популярные страницы.

Агенты - самые "интеллектуальные" из поисковых средств. Они могут делать больше, чем просто искать: они могут выполнять даже транзакции от Вашего имени. Уже сейчас они могут искать cайты специфической тематики и возвращать списки cайтов, отсортированных по их посещаемости. Агенты могут обрабатывать содержание документов, находить и индексировать другие виды ресурсов, не только страницы. Они могут также быть запрограммированы для извлечения информации из уже существующих баз данных. Независимо от информации, которую агенты индексируют, они передают ее обратно базе данных поискового механизма.

Общий поиск информации в Сети осуществляют программы, известные как пауки. Пауки сообщают о содержании найденного документа, индексируют его и извлекают итоговую информацию. Также они просматривают заголовки, некоторые ссылки и посылают проиндексированную информацию базе данных поискового механизма.

Кроулеры просматривают заголовки и возвращают только первую ссылку.

Роботы могут быть запрограммированы так, чтобы переходить по различным ссылкам различной глубины вложенности, выполнять индексацию и даже проверять ссылки в документе. Из-за их природы они могут застревать в циклах, поэтому, проходя по ссылкам, им нужны значительные ресурсы Сети. Однако, имеются методы, предназначенные для того, чтобы запретить роботам поиск по сайтам, владельцы которых не желают, чтобы они были проиндексированы.

Когда кто-либо хочет найти информацию, доступную в Интернет, он посещает страницу поисковой системы и заполняет форму, детализирующую информацию, которая ему необходима. Здесь могут использоваться ключевые слова, даты и другие критерии. Критерии в форме поиска должны соответствовать критериям, используемым агентами при индексации информации, которую они нашли при перемещении по Сети.

База данных выводит ранжированный подобным образом список документов с HTML и возвращает его человеку, сделавшему запрос. Различные поисковые механизмы также выбирают различные способы показа полученного списка - некоторые показывают только ссылки; другие выводят cсылки c первыми несколькими предложениями, содержащимися в документе или заголовок документа вместе с ccылкой.

Когда Вы щелкаете на ссылке к одному из документов, который вас интересует, этот документ запрашивается у того сервера, на котором он находится.

Яndex

Программные продукты серии Яndex (Языковый index) - набор средств полнотекстовой индексации и поиска в текстовых данных с учетом морфологии русского языка.

Яndex включает модули морфологического анализа и синтеза, индексации и поиска, а также набор вспомогательных модулей, таких, как анализатор документов, языки разметки, конверторы форматов, сетевой "паук".

Алгоритмы морфологического анализа и синтеза, основанные на базовом словаре, умеют нормализовать слова, то есть находить их начальную форму, а также строить гипотезы для слов, не содержащихся в базовом словаре. Система полнотекстового индексирования позволяет создавать компактный индекс и быстро осуществлять поиск с учетом логических операторов.

Язык запросов: скобки; логическое И (в пределах одного абзаца); логическое ИЛИ; оператор И НЕ (в пределах одного абзаца); близость - расстояние в словах.

Список выданных документов упорядочивается по релевантности - по количеству найденных слов. В каждом документе выделяются (подсвечиваются) найденные слова.

Для интеллектуализации поиска используется словарь на 90 тыс. слов. Алгоритм морфологического разбора умеет корректно обрабатывать и слова, не найденные в словаре. Морфология работает для русского и английского языка.


Поделиться:

Дата добавления: 2015-04-04; просмотров: 110; Мы поможем в написании вашей работы!; Нарушение авторских прав





lektsii.com - Лекции.Ком - 2014-2024 год. (0.005 сек.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав
Главная страница Случайная страница Контакты