Студопедия

КАТЕГОРИИ:

АстрономияБиологияГеографияДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРиторикаСоциологияСпортСтроительствоТехнологияФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника


Текстологические методы извлечения знаний




Группа текстологических методовобъединяет методы извлечения знаний, основанные на изучении специальных текстов из учебников, монографий, статей, методик и других носителей профессиональных знаний. Задачу извлечения знаний из текстов можно сформулировать как задачу понимания и выделения смысла текста.

При извлечении знаний аналитику, интерпретирующему текст, приходится решать задачу декомпозиции этого текста на компоненты для выделения истинно значимых для реализации базы знаний фрагментов. К компонентам можно отнести: наблюдения; научные понятия; субъективные взгляды; общие места; заимствования.

Сложность интерпретации научных и специальных текстов заключается еще и в том, что любой текст приобретает смысл только в контексте, где под контекстом понимается окружение, в которое “погружен” текст. Различают микроконтекст и макроконтекст. Микроконтекст – это ближайшее окружение текста. Так, предложение получает смысл в контексте абзаца, абзац – в контексте главы и т.д. Макроконтекст – это вся система знаний, связанная с предметной областью (т.е. знания об особенностях и свойствах, явно не указанных в тексте).

На языке современного языкознания понимание – это формирование второго текста, т.е. семантической структуры.

Основными моментами процесса понимания текста являются:

· выдвижение предварительной гипотезы о смысле всего текста;

· определение значений непонятных слов (т.е. специальной терминологии);

· возникновение общей гипотезы о содержании текста;

· уточнение значения терминов и интерпретация отдельных фрагментов текста под влиянием общей гипотезы (от целого к частям);

· формирование смысловой структуры текста за счет установления внутренних связей между отдельными ключевыми словами и фрагментами, а также за счет образования абстрактных понятий, обобщающих конкретные фрагменты знаний;

· корректировка общей гипотезы относительно содержащихся в тексте фрагментов знаний (от частей к целому);

· принятие основной гипотезы.

При этом существенным является наличие как дедуктивной (от целого к частям), так и индуктивной (от частей к целому) составляющей процесса понимания. Благодаря этому удается при понимании текста учесть основные признаки текста: связность, цельность и законченность.

Центральным моментом процесса понимания является выделение “опорных”, ключевых слов или “смысловых вех” в тексте, и дальнейшее их связывание в единую семантическую структуру [1].

При анализе текста выделяют два вида связей – эксплицитные (явные связи) и имплицитные (скрытые связи). Эксплицитные связи выражаются во внешнем дроблении текста, они делят текст на параграфы с помощью перечисления компонентов, вводных слов типа “во-первых…, во-вторых…, однако и т. д.”. Имплицитные связи между “смысловыми вехами” вызывают основное затруднение при понимании.

Семантическая структура текста образуется в сознании познающего субъекта с помощью знаний о языке, о мире, общих знаний о предметной области, которой посвящен текст. Таким образом, для адекватного понимания текста необходима предварительная подготовка.

Подготовкой к прочтению специальных текстов является выбор совместно с экспертами базового списка литературы, который постепенно введет аналитика в предметную область. В этом списке, как правило, содержатся учебники, фрагменты из монографий, популярные издания. После ознакомления с указанным списком целесообразно приступать к чтению специальных текстов.

Следует подчеркнуть, что процедура разбивки текста на части (“смысловые группы”), а затем сгущение, сжатие содержимого каждого смыслового блока в “смысловую веху” является основой для любого процесса понимания. Представление текста в виде набора ключевых слов, передающих основное содержание текста, является методологической основой для проведения текстологических процедур извлечения знаний.

В качестве ключевого слова может служить любая часть речи (существительное, глагол, прилагательное и т. д.) или их сочетание. Набор ключевых слов – это набор опорных точек, по которым развертывается текст при кодировании в память и осознается при декодировании.

Алгоритм извлечения знаний из текста можно представить в следующем виде:

1. Составление базового списка литературы для ознакомления с предметной областью и чтение по списку.

2. Выбор текста для извлечения знаний.

3. Первое знакомство с текстом (беглое прочтение); для определения значения незнакомых слов – консультации со специалистами или привлечение справочной литературы.

4. Формирование первой гипотезы о макроструктуре текста.

5. Внимательное прочтение текста с выписыванием ключевых слов и выражений, т.е. выделение “смысловых вех” (компрессия текста).

6. Определение связей между ключевыми словами, разработка макроструктуры текста в форме графа или сжатого текста (реферата).

7. Формирование поля знаний на основании макроструктуры текста.

 

Глава 2
МОДЕЛИ ПРЕДСТАВЛЕНИЯ ЗНАНИЙ


Поделиться:

Дата добавления: 2014-12-23; просмотров: 228; Мы поможем в написании вашей работы!; Нарушение авторских прав





lektsii.com - Лекции.Ком - 2014-2024 год. (0.006 сек.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав
Главная страница Случайная страница Контакты