КАТЕГОРИИ:
АстрономияБиологияГеографияДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРиторикаСоциологияСпортСтроительствоТехнологияФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника
|
Морфологический анализТекст запроса разбивается на словоформы – отрезки текста между пробелами, исключая знаки препинания. Затем каждой словоформе приписывается так называемая морфологическая информация - грамматическое значение словоформы, например, часть речи, число, падеж и т.д. Выявление этой информации возможно за счет выделения основ и аффиксов словоформ. Аффиксы – это части слова за исключением корня (основы). Могут быть: префиксы (перед корнем, например, приставки), постфиксы,, или флексии (после корня, например, суффиксы и окончания), интерфиксы (между корнями в сложных словах). Аффиксы делятся на словообразующие (суффиксы), например, студен – ческий, и словоизменительные (окончания), например, студент– а, студент – ом. Основа – это слово с отсеченными словообразующими и словоизменительными аффиксами. Морфологическая информация приписывается по значению словоизменительных аффиксов.
Этапы морфологического анализа: 1) поиск словоформы в словаре основ. Если словоформа найдена, ей приписывается соответствующая морфологическая информация, и морфологический анализ для нее заканчивается. Иначе – второй этап; 2) определение морфологического типа и части речи. Используется таблица словоизменительных аффиксов (таблица аффиксов на рисунке 5.9) для отсечения от словоформы предполагаемых аффиксов; 3) получение списка гипотетических основ и значений грамматических категорий. Здесь уточняется часть речи и морфологический тип с помощью вспомогательной таблицы суффиксов и квазисуффиксов - исходов основ (на рисунке 5.9 – таблица аффиксов).
Например, выполним морфологический анализ предложения
СТУДЕНТОМ РАССМОТРЕНЫ ВОПРОСЫ МЕЖДУНАРОДНЫХ ОТНОШЕНИЙ?
при условии, что данные словоформы отсутствуют в словаре основ, т.е. для них выполняются оставшиеся два этапа морфологического анализа. Для выполнения первого шага используем фрагмент таблицы словоизменительных аффиксов (таблица 5.1). Таблица словоизменительных аффиксов Таблица 5.1
Каждая из словоформ исходной фразы сопоставляется с графой аффиксы с целью определения подходящего аффикса и «отрезания» его от словоформы. В результате образуется основа, которой приписывается некоторая морфологическая информация. Например, словоформе ВОПРОСЫ соответствует аффикс Ы. Его удаление из словоформы дает основу ВОПРОС и два набора морфологической информации. Первый набор связан с частью речи существительное, второй – с частью речи прилагательное. Результирующее множество морфологических типов образуется путем объединения множеств морфологических типов для соответствующих частей речи. Результат определения морфологического типа и выделения основы для нашего примера показан в таблице 5.2.
Результат первого этапа морфологического анализа из примера Таблица 5.2
Серьезный недостаток полученного результата – двойственное описание основы ВОПРОС и неоднозначность выделения основ для исходных словоформ РАССМОТРЕНЫ и ОТНОШЕНИЙ. Полученная неоднозначность устраняется на втором шаге. Пусть таблица суффиксов и квазисуффиксов имеет вид таблицы 5.3.
Таблица суффиксов и квазисуффиксов Таблица 5.3
Для основы РАССМОТРЕН выбирается суффикс ЕН. Однако части речи не совпадают, поэтому данная основа рассматривается как неверно выделенная. Оставшейся основе РАССМОТР соответствуют суффикс ЕН и квазисуффикс Н. Поскольку суффикс имеет больший приоритет, чем квазисуффикс, принимается суффикс ЕН и соответствующая ему морфологическая информация. Для основы ВОПРОС выбирается квазисуффикс С. Пересечение этих двух таблиц показывает, что общий морфологический тип – 1, значит, у основы ВОПРОС морфологический тип – 1, а часть речи - существительное. В этом случае с данной основой связывается вся морфологическая информация, соответствующая морфологическому типу 1. Аналогично и для остальных основ. Тогда результат второго шага выделения основы имеет вид таблицы 5.4:
Результат второго этапа морфологического анализа из примера Таблица 5.4
|