КАТЕГОРИИ:
АстрономияБиологияГеографияДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРиторикаСоциологияСпортСтроительствоТехнологияФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника
|
Лексический (словарный) анализа текста.Довольно часто для пользователя решается задача лексического (словарного) анализа текста. По частоте слов, можно судить о принадлежности текста к определенной ПО или теме.. В связи с этим полезно иметь словарь ключевых слов или дескрипторов, а еще лучше — тезаурус, который "описывает" нужную ПО. Такие словари обычно получают путем автоматической обработки большого объема текстов из ПО. При этом вопрос о включении некоторого термина в словарь может решаться в соответствии с частотной моделью, учитывающей различительную силу термина, или моделью, в основе которой лежит динамическая оценка информативности. В первом случае идея состоит в том, чтобы отдавать предпочтение тем терминам, которые встречаются с высокой частотой в отдельных текстах, в то время как их суммарная частота может быть довольно небольшой (общеупотребительные термины не учитываются). Если к тому же включаемые в словарь термины "взвесить", например, их относительной частотой, то на основе такого словаря можно достаточно точно решать задачу поиска текстов или их классификации по заданной теме. Например, первая задача решалась бы в соответствии со следующим алгоритмом: · выделить в анализируемом тексте термины, принадлежащие словарю пользователя; · для каждого выделенного термина вычислить ею относительную частоту, · сравнивая вычисленные частоты с частотами заданными в словаре, решить в соответствии с заранее сформулированным критерием вопрос о включении текста в архив пользователя. При решении второй задачи термином подлежащим включению в словарь пользователя, мог бы считаться тот, из-за которого один, текст не похож на другой в пределах данной ПО. Естественно, что в этом случае соответственно сформулированный запрос дает быстрое и точное решение, например, задачи поиска текста по данной теме. Во втором случае каждому термину, первоначально включаемому в словарь присваивается специальный параметр, называемый информативностью. Вначале дня всех терминов значения информативности являются равными одной и той же величине, например, По ходу работы с таким словарем при решении конкретных задач в течение определенного времени производится переоценка начальных значений информативности в соответствии с некоторой функцией. Так, если использование термина дает быстрое решение задачи, то значение параметра информативности постепенно повышается до некоторого порогового значения скажем, до двух в противном случае — понижается, скажем, до нуля. Полезными для компьютерной поддержки работы с текстовыми документами являются словари-конкордансы. Они создаются по следующей схеме сначала формируется некоторая полнотекстовая база данных (для нее, собственно, и строится словарь-конкорданс), затем из нее получают словарь ключевых слов и. наконец, просматривал БД. для каждого встретившегося в ней ключевого слова выбирают его левый и правый контексты заранее заданной длины. При этом фиксируются координаты ключевого слова в БД. в т ч номер (наименование) текста, номер строки в тексте и т.п. Таким образом, отдельная запись словаря-конкорданса имеет следующую структуру
Например: (018) темпы роста *экономики*, производительности труда… (018) неотложность перевода *экономики* на интенсивные … (047) в развитии *экономики* придать ей … (061) условиях рыночной *экономики* дальнейшее формирование (061) касаются не только *экономики*, но и … (061) характерными для *экономики* и для… Подобные словари позволяют исследовать каждое конкретное употребление ключевого слова выбрать из БД тексты, включающие определенные цитаты, исследовать, какие авторы наиболее (наименее) интенсивно разрабатывают определенный круг вопросов и т.п..
|