КАТЕГОРИИ:
АстрономияБиологияГеографияДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРиторикаСоциологияСпортСтроительствоТехнологияФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника
|
Компьютерная обработка текста: описание моделей и направлений разработокЗадача обработки литературных текстов возникла достаточно давно, однако современные информационные технологии открывают для этого направления новые пути развития. Обработка литературных текстов в последнее время приобретает особую значимость в связи с появлением возможности обрабатывать большие объемы текстовой информации за приемлемое время. Под обработкой в данном случае понимаются такие действия как разбиение исходного текста на структурные единицы (абзац, предложение, слово), выделение морфологических и синтаксических признаков единиц текста, количественная обработка результатов. На современном этапе задачи автоматизированной или автоматической обработки текстов встают в таких прикладных задачах как автоматическое индексирование и реферирование текстов, статистическая обработка специальных текстов, машинный перевод и многоязыковая генерация текстов, системы извлечения текстовой информации, извлечение знаний из больших массивов информации, задачи интеллектуального поиска, задачи установления авторства и др. Как и ранее, важную роль в методиках автоматической и автоматизированной обработки текстов играют сегодня параметры, которые выделяются для текстов. Однако, сама проблема разбора литературных текстов по различным параметрам (морфологическим, синтаксическим, лексическим) является достаточно трудоемкой. Как правило, для решения различных прикладных задач, связанных с разбором текстов по определенным параметрам, до недавнего времени исследователи редко когда подвергали ручной обработке литературное произведение полностью, ограничиваясь лишь выборками, которые в совокупности покрывали не более 10% текста. Естественно, что результаты таких исследований могли содержать невольно допущенные искажения и ошибки и могли подвергаться критике. Еще одним немаловажным фактором является то, что материал, накопленный в результате обработки одной группой исследователей, зачастую не мог быть использован другими, тогда как подобная возможность могла бы привести к пересмотру некоторых ранее полученных результатов и, вероятно, появлению новых интересных для научного сообщества фактов. Эти и ряд других сложностей в ручной обработке текстов привели к возникновению идеи о необходимости создания единой информационной системы автоматизированного сбора, обработки и хранения информации о литературных текстах. Были сформулированы основные требования к информационной системе: 1. ИС должна включать в себя базу данных содержащую литературные тексты вместе с их морфологическими и синтаксическими параметрами, с тем, чтобы материал, накопленный многими исследователями, был унифицирован по единому стандарту и централизованно хранился и обрабатывался. 2. ИС должна содержать модули автоматического морфологического и синтаксического анализа с возможностью последующей корректировки произведенной разметки специалистами филологами. ИС должна предоставить возможность специалистам, желающим проводить текстологические исследования определенных произведений, получать доступ, в том числе и через сеть Интернет, к необходимым им данным, а также разработать эффективный инструментарий для работы с этими данными
|