Студопедия

КАТЕГОРИИ:

АстрономияБиологияГеографияДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРиторикаСоциологияСпортСтроительствоТехнологияФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника


Документальной информации




 

Индексирование документа это процедура отображения текста документа в определенную форму, предназначенную для автомати­ческой обработки (индекс документа).

Различают ручное и автоматическое индексирование. При руч­ном индексировании этот процесс осуществляет информационный работник. На основе анализа содержания документа специалист отображает текст документа в набор ключевых слов или дескрип­торов. Преимущество ручного индексирования состоит в его ка­честве, недостатком является низкая производительность и, сле­довательно, высокая стоимость. Кроме того, при ручном ин­дексировании вполне возможна ситуация, когда один и тот же документ, обработанный различными специалистами, может по­лучить различные индексы.

При автоматическом индексировании (АИ) индексирование осу­ществляется компьютерной системой. Формально текст документа представляет собой множество символов, разделенных пробелами. Эти отрезки текста называют словоформами. Основная задача авто­матического индексирования состоит в распознавании в словофор­ме соответствующего словарного слова. С этой целью используют автоматический морфологический анализ текста.

Морфологический анализ текста — анализ структур словоформ, рассматриваемых изолированно с целью определения принадлежно­сти словоформы слову.

Задачами морфологического анализа текста являются: выделе­ние из текста словоформ; распознавание слов или их сочетаний; нормализация словоформ (приведение слова к словарному виду); распознавание грамматических признаков словоформ (часть речи, падеж и т.п.). Грамматические признаки, приписываемые в результа­те морфологического анализа, могут использоваться на дальнейших этапах обработки исходного текста.

Для анализа текста в системах АИ используются различные ав­томатические словари, которые можно разделит на два типа. Первый тип представлен словарями, используемыми для распознавания сло­воформ и их нормализации. Например, словарь словоформ, словарь основ слов, словарь окончаний, словарь словосочетаний. Словарь словосочетаний содержит устойчивые последовательности слов. Счи­тается, что и развитом языке насчитывается десятки миллионов по­нятий, а слов - около миллиона. Поэтому большая часть понятий выражена комбинациями слов.

Второй тип словарей представляют информационно-поисковые тезаурусы, которые содержат информацию об отношениях условной эквивалентности, отношениях подчинения и ассоциативных отно­шениях между словами.

В некоторых системах АИ вместо словарей для нормализации слов используются алгоритмы, предназначенные для преобразова­ния слов в различные грамматические формы. При этом исчезает необходимость заносить в словарь все возможные формы слов, уменьшается объем словарей, увеличивается эффективность поиска, так как в тексте могут быть найдены все грамматические формы слова, заданного в запросе.

Как уже отмечалось ранее, сложность формальной обработки текста на ЕЯ состоит прежде всего в том, что текст нельзя предста­вить как простую совокупность слов, имеющих тот или иной смысл. Большая доля смысла текста содержится не в самих словах, а в отно­шениях между словами. Поэтому для более полного и точного рас­познавания смысла текста в развитых системах АИ помимо морфо­логического анализа осуществляется и автоматический синтаксиче­ский анализ текста.

Синтаксический анализ текста представляет собой исследование структуры предложения текста с целью установления синтаксичес­ких связей между членами предложения. В ходе синтаксического анализа используются результаты морфологического анализа. Осно­вой для разработки методов синтаксического анализа систем АИ являются исследования в области математической лингвистики и опыт создания систем машинного перевода.

Результаты синтаксического анализа текста обычно представля­ются в виде дерева отношений между словами с указанием их типов. Например, для русского языка различают до 50 типов отношений между словами.

В начале 90-х гг. появились другие, альтернативные техноло­гии автоматического индексирования текста. Например, техноло­гия «адаптивного распознавания образов», при которой каждая словоформа представляется в виде своего двоичного кода, кото­рый является ее «образом». При этом становится возможен так называемый нечеткий поиск, при котором можно игнорировать опечатки и искажения слов. Преимуществом этой технологии яв­ляется значительное увеличение скорости индексирования и по­иска информации, минимизация объема индекса. Недостатком -снижение полноты и точности поиска вследствие отсутствия се­мантического анализа текста, который особенно важен в случае русского языка.

Для выбора из множества слов текста информативных ключевых слов в системах АИ применяются методы статистического анализа текста. Как показывают исследования, в ЕЯ наблюдается тенденция повторять старые слова, а не использовать новые, так что 70% сло­воупотреблений приходится на 20% слов.

В основе статистических методов анализа текста лежит идея о возможности использования числовых параметров для оценки ин­формативности лексических единиц, составляющих текст. Счита­ется, что как очень редкие, так и очень часто встречаемые терми­ны не могут использоваться в качестве информативных слов, а пик информативности приходится на слова со средней частотой встречаемости.

При статистическом анализе текста рассчитывают различные количественные оценки. Например, число вхождений слова в доку­мент; общее число вхождения слова в документы, относительная частота вхождения слова в документ

Статистические методы удобны тем, что позволяют автомати­чески, посредством достаточно простых операций, получить све­дения о данной лексической единице в документе или массиве документов. В тоже время использование только статистических методов при определении' информативности слов не всегда при­водит к адекватным результатам. Например, удаление часто встре­чающихся терминов уменьшает полноту, а удаление редко встре­чающихся терминов снижает точность поиска. Поэтому статисти­ческие методы не могут в полной мере оценить информативность слов текста, а ручное индексирование по качеству всегда будет превосходить автоматическое.

В современных информационно-поисковых системах часто пре­дусмотрено и ручное и автоматическое индексирование.

 


Поделиться:

Дата добавления: 2015-04-04; просмотров: 75; Мы поможем в написании вашей работы!; Нарушение авторских прав





lektsii.com - Лекции.Ком - 2014-2024 год. (0.007 сек.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав
Главная страница Случайная страница Контакты