Студопедия

КАТЕГОРИИ:

АстрономияБиологияГеографияДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРиторикаСоциологияСпортСтроительствоТехнологияФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника


Інформаційний пошук, інформаційно-пошукові системи. Пошукові ресурси WWW.




Інформаційний пошук (ІП) (англ. Information retrieval) — наука про пошук неструктурованої документальної інформації. Особливо це відноситься до пошуку інформації в документах, пошук самих документів, добуття метаданих з документів, пошуку тексту, зображень, відео та звуку у локальних реляційних базах даних, у гіпертекстових базах даних таких, як Інтернет та локальні інтранет. Інформаційний пошук — велика міждисциплінарна область науки, яка стоїть на перетині когнітивної психології, інформатики, інформаційного дизайну, лінгвістики, семіотики, бібліотечної справи, та статистики.

Автоматичні системи інформаційного пошуку використовують для зменшення так званого «інформаційного перевантаження». Багато університетів та публічних бібліотек використовують системи ІП для полегшення доступу до книжок, журналів та інших документів. Найвідомішим прикладом систем ІП можна назвати пошукові системи в Інтернеті.

Об’єктом інформаційного пошуку є текстова інформація, зображення, аудіо, відео інформація.

 

З інформаційним пошуком змикаються проблеми:

· розсилки інформації (information routing);

· сортування інформації (information filtering);

· упорядкування (класифікація) інформації (information categorization);

· відбір інформації (information extraction).

 

Для інформаційного пошуку розробляють:

· алгоритми інформаційного пошуку (retrieval algorithms);

· підходи інформаційного пошуку(retrieval approaches);

· стратегії інформаційного пошуку (retrieval strategies).

 

Для його здійснення створюють:

· методи інформаційного пошуку (retrieval utilities);

· засоби інформаційного пошуку (information retrieval systems);

· комп’ютерні пошукові програми (search engines).

 

До проблем інформаційного пошуку належать питання:

· представлення даних, інформації, знань (data, information, knowledge);

· представлення інформації в сучасних інформаційних сховищах (representation of information);

· багатомовний інформаційний пошук (cross-language information retrieval);

· одночасний інформаційний пошук (parallel information retrieval);

· розподілений інформаційний пошук (distributed information retrieval);

· суспільний інформаційний пошук (social information retrieval)

 

Напрям інформаційний пошук відносять до проблем:

· застосовної (прикладної) лінгвістики (applied linguistics);

· обробки природної мови (natural language processing);

 

Завданням інформаційного пошуку є знаходження відповідних (до пошукового запиту) інформаційних об’єктів, або документів серед доступного для пошуку матеріалу. Завдання для інформаційного пошуку задається у вигляді інформаційного запиту (query), який може містити слова, фрази чи речення або комбінацію їх. Переважна більшість пошукових систем орієнтована на роботу з пошуковими термінами — словами або словосполученнями, які пошукова система розпізнає як одне ціле. Для здійснення інформаційного пошуку потрібно мати збірку інформаційних об’єктів (бібліотека, комп’ютерні файли) і систему (алгоритм або програму) яка здійснює пошук. Для здійснення інформаційного пошуку користувач (людина або інформаційна система) формує інформаційний запит (information query). Результатом пошукової роботи є список документів який укладається згідно з певним принципом. Такий список називають впорядкованим (ranked list, ranked results).

Пошукова система переглядає всі доступні інформаційні одиниці (документи) зі збірки і відбирає документи відповідні до інформаційного запиту. Оскільки реальні пошукові системи знаходять не всі відповідні документи, говорять про точність пошукових систем (system accuracy). Результатом роботи пошукової системи є список відібраних документів (retrieved documents list), серед яких є відповідні до запиту документи (relevant documents). Для ідеальної пошукової системи список відібраних документів та відповідних документів повинні збігатися. В реальних пошукових системах в списках відібраних документів знаходяться і невідповідні до запиту документи. Тому говорять про ефективність пошукових систем. Ефективність пошукових систем оцінюється двома параметрами: пошукова відповідність (precision) та пошукова якість (recall). Пошукова відповідність визначає частку відповідних документів серед відібраних на запит. Пошукова відповідність визначає якість отриманого результату інформаційного пошуку. Пошукова якість визначає частку отриманих системою відповідних до запиту документів серед загального числа відповідних до запиту документів у збірці. Загальне число відповідних до запиту документів завжди є невідомим і може бути встановлене лише при повному перегляді збірки людиною. Крім того роботу пошукових систем оцінюють швидкодією — часом, за який отримують список відповідних до запиту документів.

Інформаційний пошук — велика міждисциплінарна область науки, яка стоїть на перетині когнітивної психології, інформатики, інформаційного дизайну, лінгвістики, семіотики, бібліотечної справи, та статистики.

Автоматичні системи інформаційного пошуку використовують для зменшення так званого "інформаційного перевантаження". Багато університетів та публічних бібліотек використовують системи ІП для полегшення доступу до книжок, журналів та інших документів. Найвідомішим прикладом систем ІП можна назвати пошукові системи в Інтернеті.

 

Інформаційно-пошукові системи Internet

Мережа Internet з’явилась близько двадцяти років тому в США. Нині це вже глобальна міжнародна інформаційна система, яка може бути використана як для інформаційного пошуку, так і у комерційних цілях для інформаційного обміну як корпоративна мережа. Загальну схему інформаційно-пошукової системи Internet зображено на рис.

Типова схема інформаційно-пошукової системи.

Клієнт — це програма перегляду конкретного інформаційного ресурсу. Найбільш популярні сьогодні мультипротокольні програми типу Netscape Navigator. Така програма забезпечує перегляд документів WWW, Gopher, Wais, FTP-архівів, поштових списків розсилки і груп новин Usenet. У свою чергу всі ці інформаційні ресурси є об’єктом пошуку інформаційно-пошукової системи.

Інтерфейс користувача — це не просто програма перегляду, у разі інформаційно-пошукової системи під цим словосполученням розуміють також спосіб спілкування користувача з пошуковим апаратом, системою формування запитів і перегляду результатів пошуку.

Пошукова машина — застосовується для трансляції запиту на інформаційно-пошукову мову (ІПМ), у формальний запит системи, пошуку посилань на інформаційні ресурси мережі і видачі результатів цього пошуку користувачеві.

Бази даних індексів — це основний масив даних ІПС, використовуваних для пошуку адреси інформаційного ресурсу. Архітектура індексу влаштована таким чином, щоб пошук відбувався максимально швидко і при цьому можна було б визначити цінність кожного із знайдених інформаційних ресурсів мережі.

Запити користувача — зберігаються в його (користувача) особистій базі даних. На відлагодження кожного запиту йде досить багато часу, і тому надзвичайно важливо запам’ятовувати запити, на які система дає гарні відповіді.

Робот-індексувальник — застосовується для сканування Internet і підтримки бази даних індексу в актуальному стані. Ця програма є основним джерелом інформації про стан інформаційних ресурсів мережі.

WWW sites — це весь Internet або точніше — інформаційні ресурси, перегляд яких забезпечується програмами перегляду.

Розглянемо тепер призначення і принципи побудови кожної з цих компонентів докладніше і визначимо, в чому відмінність даної системи від традиційної ІПС для локального типу.

 

Подання інформаційних ресурсів у Internet

Інформаційними ресурсами в ІПС Internet документи шести основних типів: WWW-сторінки, Gopher-файли, документи Wais, записи архівів FTP, новини Usenet і статті поштових списків розсилки. Усе це досить різнорідна інформація, подана у вигляді різних, ніяк неузгоджених один з одним форматів даних: тексти, графічна і аудіоінформація тощо.

У традиційних ІПС використовується поняття пошукового образу документа — ПОД. Цим терміном позначають щось, що замінює собою документ і що використовується при пошуку замість реального документа. Найбільш популярною моделлю створення ПОД є векторна модель, в якій кожному документу приписується список термінів, що найбільш адекватно відображають його тематику. Документу приписується вектор розмірності, рівний числу термінів, якими можна скористатися при пошуку. Якщо використовується булєва векторна модель, то елемент вектора

рівний 1 або 0, в залежності від наявності або відсутності терміну в ПОД. У більш складних моделях терміни зважуються — елемент вектора рівний не 1 або 0, а деякому числу (вазі), що відображає відповідність даного терміну документу. Саме остання модель стала найбільш популярною в ІПС Internet. Лінійна модель застосовується в системах Lycos, WebCrawler, AltaVista, OpenText і AliWeb.

Перша задача, яка вирішується в ІПС, — це визначення списку ключових слів, які характеризують документ чи інший інформаційний ресурс. Ця процедура називається індексуванням. Іноді процедуру індексування називають складанням файла інвертованого списку, в якому кожному терміну індексування ставиться у відповідність список документів, в яких він зустрічається. Така процедура є тільки окремим випадком, а точніше, технічним аспектом створення пошукового апарату ІПС.

Під час роботи у World Wide Web індексування виконують спеціальні програми, що називаються роботами-індексувальниками, які виконують сканування мережі. Робот переглядає мережу, знаходить нові ресурси, приписує їм терміни і вміщує в базу даних індексу. Головне питання полягає в тому, які терміни приписувати документам, звідки їх брати, адже ряд ресурсів взагалі не є текстом. Сьогодні роботи звичайно використовують для індексування наступні джерела для поповнення своїх віртуальних словників: гіпертекстові посилання, заголовки, анотації, списки ключових слів, повні тексти документів, а також повідомлення адміністраторів про свої Web-сторінки. Для індексування telnet, gopher, ftp, нетекстовій інформації використовуються головним чином URL, для новин Usenet і поштових списків поля Subject і Keywords. Найбільший простір для побудови ПОД дають HTML документи. Однак не треба думати, що всі терміни з перелічених елементів документів потрапляють до їх пошукових образів. Дуже активно застосовуються списки заборонених слів (stop-words), які не можуть бути вжиті для індексування, загальних слів (прийменники, сполучники і т. п.). Таким чином навіть те, що в OpenText, наприклад, називається повнотекстовим індексуванням, реально є вибором слів з тексту документа і порівнянням з набором різних словників, після якого термін надходить до ПОД, а потім і до індексу системи. Для того щоб не збільшувати словників і індексів (індекс системи Lycos вже сьогодні рівний 4 Тбайт), застосовується таке поняття, як вага терміна. Документ звичайно індексується через 40—100 найбільш вагомих термінів.

 

Механізми пошуку в Internet

Після індексації ресурсів і визначення їх ПОД, починається побудова пошукового апарату. Абсолютно очевидно, що безпосередній перегляд файлів ПОД займе багато часу, що абсолютно не прийнятно для інтерактивної системи www_ Для прискорення пошуку будується індекс, яким в більшості систем є набір пов’язаних між собою файлів, орієнтованих на швидкий пошук даних по запиту. Структура і склад індексів різних систем можуть відрізнятися один від одного і залежать від багатьох чинників: розміру масиву пошукових образів, інформаційно-пошукової мови, розміщення різних компонентів системи і т. п. Одним з варіантів структури індексу є побудова його у вигляді таблиці, що вміщує ідентифікаторів сторінок (page-ID), таблиці ключових слів (Keyword-ID), таблиці модифікації сторінок, таблиці заголовків, таблиці гіпертекстових зв’язків, інвертованого (IL) і прямого списку (FL).

Page-ID відображує ідентифікатори сторінок в їх URL, Keyword-ID — кожне ключове слово в унікальний ідентифікатор цього слова, таблиця заголовків — ідентифікатор сторінки в заголовок сторінки, таблиця гіпертекстових посилань — ідентифікатор сторінок у гіпертекстові посилання на цю сторінку. Інвертований список ставить у відповідність кожному ключовому слову документа список пар — ідентифікатор сторінки, позиція слова в сторінці. Прямий список — це масив пошукових образів сторінок. Всі ці файли так чи інакше використовуються при пошуку, але головним серед них є файл інвертованого списку. Результат пошуку в даному файлі — це об’єднання і/або перетин списків ідентифікаторів сторінок. Результуючий список, який перетворюється в список заголовків, забезпечених гіпертекстовими посиланнями повертається користувачеві в його програму перегляду Web. Для того щоб швидко шукати записи інвертованого списку, над ним надбудовується ще декілька файлів, наприклад, файл буквених пар з вказівкою записів інвертованого списку, що починаються з цих пар. Крім цього, застосовується механізм прямого доступу до даних — хешування.

Ефективність пошуку в кожної конкретної ІПС визначається виключно архітектурою індексу. Як правило, спосіб організації масивів індексів є секретом фірми.


Поделиться:

Дата добавления: 2015-09-15; просмотров: 653; Мы поможем в написании вашей работы!; Нарушение авторских прав





lektsii.com - Лекции.Ком - 2014-2024 год. (0.007 сек.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав
Главная страница Случайная страница Контакты