Лексический (словарный) анализа текста.

⇐ ПредыдущаяСтр 29 из 30Следующая ⇒

Довольно часто для пользователя решается задача лексического (словарного) анализа текста. По частоте слов, можно судить о принадлежности текста к определенной ПО или теме.. В связи с этим полезно иметь словарь ключевых слов или дескрипторов, а еще лучше — тезаурус, который "описывает" нужную ПО. Такие словари обычно получают путем автоматической обработки большого объема текстов из ПО. При этом вопрос о включении некоторого термина в словарь может решаться в соответствии с частотной моделью, учитывающей различительную силу термина, или моделью, в основе которой лежит динамическая оценка информативности.

В первом случае идея состоит в том, чтобы отдавать предпочтение тем терминам, которые встречаются с высокой частотой в отдельных текстах, в то время как их суммарная частота может быть довольно небольшой (общеупотребительные термины не учитываются). Если к тому же включаемые в словарь термины "взвесить", например, их относительной частотой, то на основе такого словаря можно достаточно точно решать задачу поиска текстов или их классификации по заданной теме. Например, первая задача решалась бы в соответствии со следующим алгоритмом:

· выделить в анализируемом тексте термины, принадлежащие словарю пользователя;

· для каждого выделенного термина вычислить ею относительную частоту,

· сравнивая вычисленные частоты с частотами заданными в словаре, решить в соответствии с заранее сформулированным критерием вопрос о включении текста в архив пользователя.

При решении второй задачи термином подлежащим включению в словарь пользователя, мог бы считаться тот, из-за которого один, текст не похож на другой в пределах данной ПО. Естественно, что в этом случае соответственно сформулированный запрос дает быстрое и точное решение, например, задачи поиска текста по данной теме. Во втором случае каждому термину, первоначально включаемому в словарь присваивается специальный параметр, называемый информативностью. Вначале дня всех терминов значения информативности являются равными одной и той же величине, например, По ходу работы с таким словарем при решении конкретных задач в течение определенного времени производится переоценка начальных значений информативности в соответствии с некоторой функцией. Так, если использование термина дает быстрое решение задачи, то значение параметра информативности постепенно повышается до некоторого порогового значения скажем, до двух в противном случае — понижается, скажем, до нуля. Полезными для компьютерной поддержки работы с текстовыми документами являются словари-конкордансы. Они создаются по следующей схеме сначала формируется некоторая полнотекстовая база данных (для нее, собственно, и строится словарь-конкорданс), затем из нее получают словарь ключевых слов и. наконец, просматривал БД. для каждого встретившегося в ней ключевого слова выбирают его левый и правый контексты заранее заданной длины. При этом фиксируются координаты ключевого слова в БД. в т ч номер (наименование) текста, номер строки в тексте и т.п. Таким образом, отдельная запись словаря-конкорданса имеет следующую структуру

Координаты

Левый контекст (может быть пустой)

Ключевое слово

Правый контекст (может быть пустой)

Например:

(018) темпы роста *экономики*, производительности труда…

(018) неотложность перевода *экономики* на интенсивные …

(047) в развитии *экономики* придать ей …

(061) условиях рыночной *экономики* дальнейшее формирование

(061) касаются не только *экономики*, но и …

(061) характерными для *экономики* и для…

Подобные словари позволяют исследовать каждое конкретное употребление ключевого слова выбрать из БД тексты, включающие определенные цитаты, исследовать, какие авторы наиболее (наименее) интенсивно разрабатывают определенный круг вопросов и т.п..

Дата добавления: 2015-04-18; просмотров: 297; Мы поможем в написании вашей работы!; Нарушение авторских прав

⇐ Предыдущая 21 22 23 24 25 26 27 282930 Следующая ⇒

lektsii.com - Лекции.Ком - 2014-2026 год. (1.179 сек.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав
Главная страница Случайная страница Контакты