КАТЕГОРИИ:
АстрономияБиологияГеографияДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРиторикаСоциологияСпортСтроительствоТехнологияФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника
|
Текстологические методы извлечения знанийГруппа текстологических методовобъединяет методы извлечения знаний, основанные на изучении специальных текстов из учебников, монографий, статей, методик и других носителей профессиональных знаний. Задачу извлечения знаний из текстов можно сформулировать как задачу понимания и выделения смысла текста. При извлечении знаний аналитику, интерпретирующему текст, приходится решать задачу декомпозиции этого текста на компоненты для выделения истинно значимых для реализации базы знаний фрагментов. К компонентам можно отнести: наблюдения; научные понятия; субъективные взгляды; общие места; заимствования. Сложность интерпретации научных и специальных текстов заключается еще и в том, что любой текст приобретает смысл только в контексте, где под контекстом понимается окружение, в которое “погружен” текст. Различают микроконтекст и макроконтекст. Микроконтекст – это ближайшее окружение текста. Так, предложение получает смысл в контексте абзаца, абзац – в контексте главы и т.д. Макроконтекст – это вся система знаний, связанная с предметной областью (т.е. знания об особенностях и свойствах, явно не указанных в тексте). На языке современного языкознания понимание – это формирование второго текста, т.е. семантической структуры. Основными моментами процесса понимания текста являются: · выдвижение предварительной гипотезы о смысле всего текста; · определение значений непонятных слов (т.е. специальной терминологии); · возникновение общей гипотезы о содержании текста; · уточнение значения терминов и интерпретация отдельных фрагментов текста под влиянием общей гипотезы (от целого к частям); · формирование смысловой структуры текста за счет установления внутренних связей между отдельными ключевыми словами и фрагментами, а также за счет образования абстрактных понятий, обобщающих конкретные фрагменты знаний; · корректировка общей гипотезы относительно содержащихся в тексте фрагментов знаний (от частей к целому); · принятие основной гипотезы. При этом существенным является наличие как дедуктивной (от целого к частям), так и индуктивной (от частей к целому) составляющей процесса понимания. Благодаря этому удается при понимании текста учесть основные признаки текста: связность, цельность и законченность. Центральным моментом процесса понимания является выделение “опорных”, ключевых слов или “смысловых вех” в тексте, и дальнейшее их связывание в единую семантическую структуру [1]. При анализе текста выделяют два вида связей – эксплицитные (явные связи) и имплицитные (скрытые связи). Эксплицитные связи выражаются во внешнем дроблении текста, они делят текст на параграфы с помощью перечисления компонентов, вводных слов типа “во-первых…, во-вторых…, однако и т. д.”. Имплицитные связи между “смысловыми вехами” вызывают основное затруднение при понимании. Семантическая структура текста образуется в сознании познающего субъекта с помощью знаний о языке, о мире, общих знаний о предметной области, которой посвящен текст. Таким образом, для адекватного понимания текста необходима предварительная подготовка. Подготовкой к прочтению специальных текстов является выбор совместно с экспертами базового списка литературы, который постепенно введет аналитика в предметную область. В этом списке, как правило, содержатся учебники, фрагменты из монографий, популярные издания. После ознакомления с указанным списком целесообразно приступать к чтению специальных текстов. Следует подчеркнуть, что процедура разбивки текста на части (“смысловые группы”), а затем сгущение, сжатие содержимого каждого смыслового блока в “смысловую веху” является основой для любого процесса понимания. Представление текста в виде набора ключевых слов, передающих основное содержание текста, является методологической основой для проведения текстологических процедур извлечения знаний. В качестве ключевого слова может служить любая часть речи (существительное, глагол, прилагательное и т. д.) или их сочетание. Набор ключевых слов – это набор опорных точек, по которым развертывается текст при кодировании в память и осознается при декодировании. Алгоритм извлечения знаний из текста можно представить в следующем виде: 1. Составление базового списка литературы для ознакомления с предметной областью и чтение по списку. 2. Выбор текста для извлечения знаний. 3. Первое знакомство с текстом (беглое прочтение); для определения значения незнакомых слов – консультации со специалистами или привлечение справочной литературы. 4. Формирование первой гипотезы о макроструктуре текста. 5. Внимательное прочтение текста с выписыванием ключевых слов и выражений, т.е. выделение “смысловых вех” (компрессия текста). 6. Определение связей между ключевыми словами, разработка макроструктуры текста в форме графа или сжатого текста (реферата). 7. Формирование поля знаний на основании макроструктуры текста.
Глава 2
|