КАТЕГОРИИ:
АстрономияБиологияГеографияДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРиторикаСоциологияСпортСтроительствоТехнологияФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника
|
ТЕКСТОЛОГИЧЕСКИЕ МЕТОДЫ
Группа текстологических методов объединяет методы извлечения знаний, основанные на изучении специальных текстов из учебников, монографий, статей, методик и других носителей профессиональных знаний. Задачу извлечения знаний из текстов можно сформулировать как задачу понимания и выделения смысла текста. Сам текст на естественном языке является лишь проводником смысла, а замысел и знания автора лежат во вторичной структуре (смысловой структуре или макроструктуре текста), настраиваемой над естественным текстом [3]. При этом можно выделить две такие смысловые структуры: М1 смысл, который пытался заложить автор, это его модель мира, и М2 смысл, который постигает читатель, в данном случае инженер по знаниям (рис. 17.13) в процессе интерпретации I. При этом Т – это словесное одеяние М1, т.е. результат вербализации V. Сложность процесса заключается в принципиальной невозможности совпадения знаний, образующих М1 и М2, из-за того, что M1 образуется за счет совокупности представлений, потребностей, интересов и опыта автора, лишь малая часть которых находит отражение в тексте Т. Соответственно и М2 образуется в процессе интерпретации текста Т за счет привлечения всей совокупности научного и человеческого багажа читателя.
Рис. 17.13.Извлечение знаний из текстов
Встает задача выяснить, за счет чего можно достичь максимальной адекватности М1 и М2, помня о том, что понимание всегда относительно. Рассмотрим подробнее, какие источники питают модель М1 и создают текст Т. В [17] указаны два компонента любого научного текста. Это первичный материал наблюдений и система научных понятий в момент создания текста. В дополнение к этому, на наш взгляд, помимо объективных данных экспериментов и наблюдений, в тексте обязательно присутствуют субъективные взгляды автора, результат его личного опыта, а также некоторые "общие места", или "вода". Кроме того, любой научный текст содержит заимствования из других источников (статей, монографий) и т.д. При извлечении знаний аналитику, интерпретирующему текст, приходится решать задачу декомпозиции этого текста на перечисленные выше компоненты для выделения истинно значимых для реализации базы знаний фрагментов. Сложность интерпретации научных и специальных текстов заключается еще и в том, что любой текст приобретает смысл только в контексте, где под контекстом понимается окружение, в которое "погружен" текст. Основными моментами понимания текста являются (частично из [ 17]): выдвижение предварительной гипотезы о смысле всего текста (предугадывание); определение значения непонятных слов (т.е. специальной терминологии); возникновение общей гипотезы о содержании текста (о знаниях); уточнение значения терминов и интерпретация отдельных фрагментов текста под влиянием общей гипотезы (от целого к частям); формирование некоторой смысловой структуры текста за счет установления внутренних связей между отдельными важными (ключевыми) словами и фрагментами, а также за счет образования абстрактных понятий, обобщающих конкретные фрагменты знаний; корректировка общей гипотезы относительно содержащихся в тексте фрагментов знаний (от частей к целому); принятие основной гипотезы, т.е. формирование М2 Следует отметить наличие как дедуктивной (от целого к частям), так и индуктивной (от частей к целому) составляющей процесса понимания. Центральными моментами процесса I являются шаги формирования смысловой структуры или выделения "опорных", или ключевых, слов, а также заключительное схватывание "смысловых вех" в единую семантическую структуру. В качестве ключевого слова может служить любая часть речи (существительное, прилагательное, глагол и т.д.) или их сочетание. Существует гипотеза лингвостатистики о том, что наиболее употребляемые слова являются наиболее важными с точки зрения содержания текста, т.е. отражают его тематическую структуру. Подготовкой к прочтению специальных текстов является выбор совместно с экспертами некоторого "базового" списка литературы, который постепенно введет аналитика в предметную область. В этом списке могут быть учебники для начинающих, главы и фрагменты из монографий, популярные издания. Только после ознакомления с "базовым" списком целесообразно приступать к чтению специальных текстов. Наиболее простым методом является анализ учебников, в которых логика изложения обычно соответствует логике предмета, и поэтому макроструктура такого текста будет, наверное, более значима, чем структура текста какой-нибудь специальной статьи. Анализ методик затруднен как раз сжатостью изложения и практическим отсутствием комментариев, т.е. фоновых знаний, облегчающих понимание для неспециалистов. Поэтому можно рекомендовать для практической работы комбинацию перечисленных методов. В заключение предложим одну из возможных практических методик анализа текстов с целью извлечения и структурирования знаний. Составление "базового" списка литературы для ознакомления с предметной областью и чтения по списку. Выбор текста для извлечения знаний. Первое знакомство с текстом (беглое прочтение). Для определения значения незнакомых слов – консультации со специалистами или привлечение справочной литературы. Формирование первой гипотезы о структуре текста. Внимательное прочтение текста с выписыванием ключевых слов и выражений, т.е. выделение "смысловых вех" (компрессия текста). Определение связей между ключевыми словами, разработка макроструктуры текста в форме графа или "сжатого" текста (реферата). Формирование поля знаний на основании структуры текста.
|