Студопедия

КАТЕГОРИИ:

АстрономияБиологияГеографияДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРиторикаСоциологияСпортСтроительствоТехнологияФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника


Словарные (автоматические) поисковые системы.




В отличие от рассматриваемых выше, основой словарной (автоматической) ИПС является размещенная на поисковом сервере БД, содержащая в себе адреса сайтов, перечень соответствующих размещенным на них web-страницам ключевых слов, копий HTML-текстов этих страниц (в ряде ИПС), а также систему управления БД, действующую по технологии «клиент-сервер».

Посетителю такого поискового сервера предоставляется форма для ввода ключевого слова (слов) или фразы. После щелчка мышью на расположенной рядом с полем кнопке ПОИСК введенная пользователем ключевая фраза пересылается на сервер, обрабатывается, из имеющейся БД извлекаются адреса, соответствующие запросу, и список этих адресов (сгенерированный в виде HTML-документа, строки которого являются гипертекстовыми ссылками на сайты) пересылаются пользователю в качестве результата поиска.

 

Из всех типов ресурсов Сети подробно рассмотрим глобальные и российские словарные поисковые системы, правила составления запросов.

Всего известно более 200 поисковых серверов. Они различаются по регионам охвата, принципам проведения поиска (а следовательно, по входному языку и характеру воспринимаемых запросов), языку, по объему индексной базы, скорости обновления информации, способности искать «нестандартную» информацию, дружественности интерфейса, методам сортировки найденных документов (ранжирование, чаще по релевантности и частоте обновления), точности поиска, лингвистике (слова синонимы).

Глобальные поисковые системы.

Поисковые системы глобального масштаба распространены в большем количестве, нежели электронные справочники и число их, составляющее ныне несколько десятков, продолжает неуклонно увеличиваться. Работа с ними требует некоторых, порой весьма серьезных, предварительных навыков. Простой ввод искомого термина в строку запроса может привести к получению списка из сотен тысяч документов, что практически равносильно нулевому результату.

Все глобальные поисковые машины осуществляют поиск материалов на русском языке, но не поддерживают русскую морфологию. Этот факт необходимо учитывать при поиске информации.

Google (www.google.com)(рис. 22)

Самая популярная среди пользователей и имеющая одну из самых больших баз проиндексированных документов поисковая система. Была разработана в 1998 выпускниками Стэндфордского университета Сергеем Брином (Sergey Brin) и Ларри Пейджем (Larry Page), которые применили для ранжирования документов технологию PageRank, где одним из ключевых моментов является определение "авторитетности" конкретного документа на основе информации о документах, ссылающихся на него. Говоря общими словами, чем больше документов ссылается на данный документ и чем они авторитетнее, тем более авторитетным данный документ становится. Количественное значение авторитетности документа (другими словами, взвешенное количество ссылок или PageRank) относится к так называемым статическим факторам (т.е. независящим от конкретного запроса) и учитывается при определении релевантности документа конкретному запросу как весовой коэффициент. Наряду с этим Google применил для определения релевантности документа не только текст самого документа, но и текст ссылок на него. Эта технология позволила ему обеспечить выдачу довольно релевантных результатов на фоне других поисковиков. Довольно быстро Googleстал лидировать в различных опросах по такому показателю, как удовлетворенность пользователей результатами поиска. Кроме поиска по HTML документам Googleв настоящее время осуществляет поиск еще по 12 типам документов:

· Adobe Portable Document Format (pdf)

· Adobe PostScript (ps)

· Lotus 1-2-3 (wk1, wk2, wk3, wk4, wk5, wki, wks, wku)

· Lotus WordPro (lwp)

· MacWrite (mw)

· Microsoft Excel (xls)

· Microsoft PowerPoint (ppt)

· Microsoft Word (doc)

· Microsoft Works (wks, wps, wdb)

· Microsoft Write (wri)

· Rich Text Format (rtf)

· Text (ans, txt)

Рис. 22

Google позволяет пользователям просматривать сохраненные копии документов, содержащихся в его поисковой базе.

Наряду с поиском по документам Google имеет сервисы поиска по изображениям (images.google.com), группам UseNet (groups.google.com), новостям (news.google.com - бета-версия), а также каталог сайтов (directory.google.com) на основе каталога Open Directory Project (dmoz.org). Google осуществляет поиск по документам на более чем 35 языках, в том числе русском (русская локализация поисковика находится по адресу www.google.ru). В настоящее время многие порталы и специализированные сайты предоставляют услуги поиска информации в Интернете на базе Google, что делает задачу успешного позиционирования сайтов в Google еще более важной. Крупнейшие из них - каталог Yahoo (www.yahoo.com) и портал AOL (www.aol.com).

Google проводит переиндексацию своей поисковой базы примерно раз в четыре недели. Во время этого апдейта, неофициально называемого Google dance, происходит обновление базы на основе информации, собранной роботами за время, прошедшее с предыдущего апдейта, и перерасчет значений PageRank документов. Также существует определенное количество документов с достаточно большим значением PageRank, информация о которых в поисковой базе обновляется ежедневно, однако значение PageRank пересчитывается только во время Google dance. Нормированное значение PageRank для конкретного документа, загруженного в броузер, можно узнать, скачав и установив Google ToolBar - специальную панель инструментов для работы с этим поисковиком. Несмотря на то, что в поисковике имеется форма для бесплатного добавления страницы в базу, Google предпочитает сам находить новые документы по ссылкам с уже известных и не будет индексировать добавленную через форму страницу, если в его базе не найдется ни одной страницы, ссылающейся на нее.

Alta Vista (http://www.altavista.com) (рис. 23)

Принадлежит к числу популярнейших поисковых средств Интернет. Ее мощнейший аппаратный потенциал позволяет проводить поиск по любому слову из текста Web- страницы или статьи в телеконференции.

Используемый в Alta Vista механизм составления запросов относится к самым обширным и мощным. Он позволяет составить поисковое предписание практически любой степени сложности. Как и многие другие машины, Alta Vistaобладает двумя поисковыми интерфейсами: простого -Simple, Search Assistant, и углубленного - Advanced поиска. Язык простого запроса включает несколько основных элементов. Знак "+" ставится перед термином, который обязательно должен быть в документе; знак "-" - перед термином, который ни в коем случае не должен быть в документе; знак "*", позволяет усекать термин справа, что очень важно для поиска слов в разных падежах, склонениях и числах. Крайне полезны кавычки, в которые можно брать устойчивое словосочетание. Следует иметь в виду, что знаки выставляются непосредственно перед искомым термином или словосочетанием без пробела.

Рис. 23

 

Помимо этого поисковый механизм чувствителен к употреблению заглавных и строчных букв. При использовании заглавных букв будут искаться только термины, начинающиеся или состоящие из заглавных букв, при вводе строчных символов, система выявит все существующие слова. Имеется также возможность ограничивать поиск отдельными фрагментами Web-страницы: заглавием (title), электронным адресом (url), доменом (domain). Так, запрос [title:виртуальн*] выявит Web-страницы, в заглавии которых присутствует слово с указанным корнем, независимо от грамматических форм.

Составление запроса при углубленном поиске принципиально отличается от "простого" и выполняется с использованием булевых операторов: AND (И), OR (ИЛИ), NОТ (НЕ), NЕАР (ВБЛИЗИ) и скобок. Эта форма запроса также позволяет ограничить поиск по дате последнего обновления документов. В данном случае запрос по теме "собрания СD-RОМ в массовых библиотеках" предполагает следующий вариант поискового предписания: [(public near librar*) and (СD-RОМ near collection*)].

Помимо текста в Аltа Vista также реализована функция поиска иллюстративных материалов, видео- и аудиофайлов (фотографий, графических и живописных работ, музыкальных записей и видеоклипов). Для этого необходимо перейти в режим поиска мультимедийных источников, щелкнув мышью по опции Images, Audio & Video. В поисковой строке вводятся ключевые слова, а в нижнем меню "фишкой" отмечается желаемый тип источника. Так, например, для поиска иллюстрации Московского Кремля в поисковую строку достаточно ввести слово Kremlin.

Система ранжирования результатов поиска Аltа Vista является одной из самых лучших. В "простом" поиске эта функция выполняется автоматически, в "углубленном" пользователь в первую строку формы запроса должен ввести термины, которым придается наибольший вес.

Аlta Vista предоставляет пользователям большую степень комфорта. Допускается ввод поискового предписания в виде обычной английской фразы (например "What is the weather in Moscow?"). При выводе результатов предлагается воспользоваться системой компьютерного перевода полученного документа с основных европейских языков (к сожалению, русский пока не в их числе). При переводе содержания страницы сохраняется ее оригинальное форматирование.

Аlta Vista имеет несколько зеркальных сайтов в разных концах света. Одним из достоинств "зеркал", является возможность выбора основного интерфейса на родном языке региона. В том числе можно выбрать и русскоязычный интерфейс на североевропейском "зеркале" (http://www.altavista.telia.com). Там же, при желании, можно вести поиск материалов только на определенном языке, выбрав его из специального меню.


Поделиться:

Дата добавления: 2015-09-13; просмотров: 238; Мы поможем в написании вашей работы!; Нарушение авторских прав





lektsii.com - Лекции.Ком - 2014-2024 год. (0.006 сек.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав
Главная страница Случайная страница Контакты