КАТЕГОРИИ:
АстрономияБиологияГеографияДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРиторикаСоциологияСпортСтроительствоТехнологияФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника
|
Морфологический анализ входных сообщенийПод морфологическим анализом (МА) понимается обработка словоформ вне связи с контекстом. Словоформой будем называть отрезок текста между двумя соседними пробелами (при этом знаки препинания считаются отдельными словоформами) [10]. Функцией морфологического анализа является идентификация словоформы и приписывание словоформе характеризующего ее комплекса морфологической информации (КМИ). КМИ состоит в общем случае из совокупности строк морфологической информации. Существуют два основных метода реализации МА: декларативный и процедурный. В декларативном методе реализации МА в словаре системы хранятся все возможные словоформы каждого слова с приписанной им морфологической информацией. По сути дела, в декларативном МА нет собственно морфологического анализа, а хранится его результат. Поэтому декларативный МА работает быстрее, чем процедурный. Задача декларативного МА состоит только в поиске словоформы в словаре и переписывании из словаря КМИ, соответствующего данной словоформе. В связи с тем что количество различных словоформ у одного слова довольно велико (у существительного – до 12, у прилагательного – до 36, а у глагола, с учетом отглагольных форм, – до 100), декларативный МА имеет, по сравнению с процедурным, следующие недостатки: · значительно возрастает трудоемкость подготовки морфологической зоны словаря, так как человек должен занести в словарь для каждого слова все его словоформы с соответствующими им строками морфологической информации; · увеличиваются затраты памяти, так как для каждого слова (лексемы) хранятся все его словоформы. При процедурном МА в словаре системы хранятся основы слов. Процедурный МА выполняет следующие функции: выделяет в текущей словоформе основу, идентифицирует ее и приписывает данной словоформе соответствующий ей КМИ. Рассмотрим один из возможных методов выполнения МА словоформ русского языка, так называемый “обратный” метод. При работе алгоритм процедурного МА использует информацию из морфологической зоны словаря и из таблиц аффиксов. Удобно разделить словарь на две части: словарь основ (СО) и словарь готовых словоформ (СГФ). Общая схема алгоритма состоит из следующих шагов [10]: · поиск словоформы в словаре СГФ; · выделение основы; · поиск в словаре основ; · обработка словосочетаний; · предсинтаксис. В словаре готовых форм (СГФ) целесообразно хранить неизменяемые слова и слова с нерегулярными формами изменения. Примерами таких слов являются предлоги, наречия, неизменяемые существительные (например, пальто), знаки препинания, цифры, некоторые формы глагола (идти – шел) и т.п. Для этих слов МА не требуется вообще. Задача первого блока МА состоит в том, чтобы определить, не относится ли очередная словоформа входного сообщения к числу тех, которые хранятся в СГФ. Если словоформа найдена, то из СГФ переписывается вся соответствующая ей морфологическая информация и морфологический анализ данной словоформы заканчивается. В противном случае выполняется второй блок МА. Его работа сводится к последовательным проверкам возможностей вложения в анализируемую словоформу справа налево окончаний и суффиксов. При этом для ускорения проверок вкладываются (отсекаются) аффиксы с большим числом букв, а информация о вкладывающихся в них меньших аффиксах получается не поиском, а за счет отсылок. В результате вложения всех возможных аффиксов словоформе сопоставляется одна или несколько гипотетических основ (ГО) и для каждой основы – КМИ. Гипотетические основы ищутся в словаре основ во время работы третьего блока МА. В случае нахождения ГО в словаре основ и совпадения части речи ГО с частью речи словарной основы данная ГО и ее КМИ признаются правильными. В противном случае ГО признается ошибочной и отбрасывается. При нахождении в словаре ГО вместе с морфологической зоной считываются и ее синтактико-семантические зоны. Задача четвертого блока алгоритма состоит в выполнении операции “склеивания”, т.е. в преобразовании некоторых словоформ, отделенных друг от друга пробелами или другими словоформами, к одной основе. Данная операция выполняется для упрощения синтаксического и семантического анализов. Завершает работу МА пятый блок алгоритма, называемый “предсинтаксис”. В задачу данного блока входит подготовка данных, упрощающая работу синтаксического анализа: · формируются номера уровней словоформ входного сообщения; · помечаются слова, возможно обусловленные предыдущими словами; · используются предварительные синтаксические фильтры, устраняющие избыточную морфологическую информацию. Первая из перечисленных подзадач состоит в выделении уровня каждой словоформы. При этом словоформы основного предложения образуют нулевой уровень, а словоформы придаточных предложений и вложенных друг в друга оборотов (причастных, деепричастных) имеют более высокие уровни по числу вложенности. Выделение уровней позволяет на этапе синтаксического анализа ускорить обработку за счет устранения взаимосвязи слов между разными уровнями.
|