Студопедия

КАТЕГОРИИ:

АстрономияБиологияГеографияДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРиторикаСоциологияСпортСтроительствоТехнологияФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника


Обработка искаженного текста




Вероятностные алгоритмы анализа текста дают хорошие результаты при решении еще одной важной задачи АПТ – обработки искаженного текста. Для таких случаев существуют системы АПТ, достаточно сложными вероятностными алгоритмами анализа текста.

На выходе они дают они дают одни или несколько наиболее вероятных вариантов для каждой фразы документа.

Например:

входная фраза:

--ти-ика--я при-а-- дог-..-о-у., ю-ид- -еск- -ид-.

выходная фраза:

Ратификакация придает договору юридическую силу.

Что касается проблемы машинного перевода текстов с одного ЕЯ на другой, то существует целый ряд систем, работающих с различными языками и дающих достаточно качественный перевод.

Эти системы, как правило, могут работать в двух режимах:

· Пословного перевода или консультации, когда система функционирует подобно автоматическому словарю (используется в тех случаях, когда пользователь хорошо владеет языком оригинала, но испытывает трудности в отношении отдельных слов переводимого текста);

· Полного перевода, когда весь процесс перевода осуществляется самой системой (выходной текст, как правило, хорошо понятен, но может возникнуть потребность в его редактировании).

Например:

входная фраза (английский язык):

ТНЕ MAIN OFFICE OF THE JOINT VENTURE WILL BE QUARTERED AT THE LEGAL ADDRESS OF THE JOINT VENTURE.

выходная фраза (русский язык)

ГЛАВНЫЙ ОФИС СОВМЕСТНОГО ПРЕДПРИЯТИЯ БУДЕТ QUARTERED ПРИ ЮРИДИЧЕСКОМ АДРЕСЕ СОВМЕСТНОГО ПРЕДПРИЯТИЯ.

В данном случае входная фраза осталась частично непереведенной из-за отсутствия слова QUARTERED во входном словаре системы.

 

  1. Распознание образов (свойств, событий, событий, явлений, процессов и т.п.) Основные типы задач распознавания.

3адачи распознавания и классификации свойств событий явлений процессов и т.п. постоянно встают перед нами. В повседневной жизнедеятельности человек довольно легко справляется с ними. Так, например, у каждого есть свое разбиение (классификация) всего множества людей на два подмножества (класса). Одно из них характеризуется свойством "быть знакомым", а другое — отрицанием данного свойства. Встречаясь с определенным человеком, мы чаще всего без труда приписываем ему одно из указанных свойств, т.е. узнаем (распознаем) его и в зависимости от этого по-разному ведем себя. Легко продолжить список подобных примеров и, немного подумав над ними, согласиться, что без распознавания и классификации жизнь скорее всего была бы весьма затруднительной если вообще возможной

Под образом понимается структурировано приближенное (частичное) описание (эскиз) изучаемого объекта или явления, причем частичная определенность описания является принципиальным свойством образа. Образ допускает рекурсивное определение и символ является образом, и их список является образом. Списочная запись позволяет использовать одно и то же представление для описания образа произвольного типа независимо от его "содержания", а также один и тот же алгоритм для работы с образами различного содержания. Естественно допустить, что образ состоит из двух групп символов представляющих постоянные и переменные характеристики объекта описания.

Описания служат для становления соответствия образов, т.е. доказательства их идентичности, аналогичности, подобия сходства и т.п., осуществляемого сопоставлением. Сопоставление образов представляет собой основною задачу распознавания.

В различных задачах искусственного интеллекта понятию "образ" придается различный смысл. Так в классических моделях распознавания образ описывается вектором признаков каждый элемент которого представляет числовое значение одного из признаков характеризующих соответствующий объект. В структурных моделях распознавания в качестве образа выступает высказывание, порождаемое грамматикой характеризующее класс, к которому данный объект принадлежит.

Термин "распознавание" относится в равной мере как к процессам восприятия и познания свойственным живым организмам, так и к "механическим" аналогам (по функции и результату) этих процессов исследование и синтез которых составляют предмет распознавания как раздела информатики. Целью создания автоматизированных вычислительных систем распознавания является автоматизация группы процессов восприятия и познания связанных с поиском выделением идентификацией классификацией и описанием образов на основе анализа реальных данных.

Обычно поиск и выделение образов осуществляются тяготея на начальном этапе анализа в процессе обработки исходных данных. Это делается для того, чтобы получить промежуточные результаты т.е. преобразовать исходные данные в другую форму, “лучше” представляющие образы с точки зрения решения соответствующей задачи.

Следующим этапом является разработка "классификатора" который включает анализ выборочных (преобразованных) данных синтез модели, учитывающей изменчивость образов принадлежащих к некоторому классу выбор из заданного набора характеристик некоторого подмножества адекватно характеризующего отдельные классы объектов, определение методов выделения указанного подмножества и разработку алгоритма распознавания (классификации).

Распознавание обычно связывают с двумя функциями отнесением объекта к неизвестному классу объектов и идентификацией объекта в качестве элемента известного класса. Первая функция представляет собой процесс выделения новых классов — кластеризацию, а вторая — собственно распознавание.

Основной целью распознавания является построение на основе систематических теоретических и экспериментальных исследований эффективных вычислительных средств для отнесения формализованных описаний различных ситуаций и объектов к соответствующим классам. В основе такого отнесения (распознавания классификации) лежит по течение некоторой агрегированной оценки ситуации из ее описания. При условии установления соответствия между классами эквивалентности заданными на множестве решений и объектов распознавания (ситуации), автоматизация процедур распознавания становится элементом автоматизации процессов принятия решений

Известны следующие типы задачи распознавания:

1. Распознавание как отнесение предъявленного объекта (ситуации) по его формализованному описанию к одному из заданных классов (обучение с учителем),

2. Автоматическая классификация — разбивка множества ситуаций (объектов) по их формализованным описаниям на непересекающиеся подмножества или классы (таксономия, кластер-анализ, обучение без учителя),

3. Выбор информативного набора признаков, т.е. определение признаков для построения формализованного описания объекта распознавания или оценка информативности отдельных признаков и их сочетаний,

4. Приведение исходных данных к виду, удобному для распознавания и та построение формализованного описания объекта распознавания,

5. Задача 1 с учетом динамичности объекта (ситуации),

6. Задача 2 с учетом динамичности объектов (ситуации),

7. Прогнозирование задачи 5 6 в которых решение должно относиться к некоторому моменту времени в будущем.

Примером может служить хорошо известная и понятная специалистам из нашей ПО задача атрибуции (определения авторства) древних текстов. Во всех случаях решению этой задачи должно предшествовать некоторое разбиение (классификация) имеющихся древних текстов авторство которых достоверно установлено, на подмножества. В одно подмножество (класс) могут быть включены только тексты конкретною автора. Требуется установить авторство некоего исследуемого текста.

Непосредственное решение сформулированной задачи может быть получено по-разному. Допустим, что для исследуемого текста в результате его анализа установлено имя автора (скажем, оно содержится в выходных данных, комментариях и т.п.) либо сам текст идентичен одному из имеющихся. В этом случае решение очевидно. Если имеются сомнения в достоверности решения полученного таким образом то оно может быть выполнено одним из следующих способов:

· Известно что для каждого текста характерны свои особенности г е язык написания тематика стать жанр какие-то структурные признаки время написания и т.д.. Конкретные значения всех признаков можно получить на основе имеющихся текстов. Если при этом каждый объект соотнести с именем только одного автора (в логическом смысле это соответствие имеет вид импликации "объект => автор"), то решение также очевидно только необходимо в исследуемом тексте вычислить значение каждого из признаков и логически сравнить полученный объект с имеющимися.

· Нетрудно заметить, что соответствие "объект => автор" при выбранной системе признаков может быть установлено. Тогда остается на основе очевидного обратного соответствия "автор => объект" попытаться определить первую импликацию. Сделать это можно, например, на основе следующей гипотезы: "Близость в пространстве объектов влечет близость в пространстве авторов".

Использование методов решения задач распознавания образов и классификации требует серьезной математической подготовки и опытной проверки. Это один из путей развития исторической науки.

Перспективной областью использования методов искусственного интеллекта считается обучение историческим дисциплинам. Об этом написана целая книга известного английского специалиста по обучающим системам Р. Энналса. В ней рассмотрены возможности программного обеспечения, созданного с помощью языков PROLOG и LOGO для моделирования исторических процессов и явлений (например, развития революционной ситуации), для контроля и поддержки знаний обучаемых, для построения "объясняющих" схем, репрезентации знания и "интеллектуального" информационного поиска при обучении истории

Методы искусственного интеллекта, с одной стороны, стимулируют создание новых, более "интеллектуальных" информационных технологий в исторических исследованиях, с другой — акцентируют внимание на формализации и актуализации высокопрофессионального историко-гуманитарного знания. Возможно, приходит время для преодоления противостояния, выраженного в афористической форме еще "отцом" кибернетики Норбертом Винером: "Человеку человеческое, а вычислительной машине — машинное".


[1] Храмов Ю. В. ГИДРОНИМИКОН экспертная система по гидронимии Восточно-Европейской равнины // Информационный бюллетень Комиссии по применению математических методов и ЭВМ в исторических исследованиях при отделении истории РАН 1992 №5

 

[2] Carvalho 1 Expert Systems and Community Reconstruction Studies History and Computing II / P. Denley S. Fodelvik, and Ch Harvey (eds.)., Manchester University Press 1989

 

[3] Record linkage — широко используемый термин перевод которого ( связывание записей ) отражает смысл поисковых процедур направленных на идентификацию объекта (например индивидуума), зафиксированного (возможно, с ' помехами ) в различных источниках или файлах если речь идет о машиночитаемых данных.

 

[4] См Бородкин Л И Многомерный статистический анализ в исторических исследованиях. — М.: МГУ, 1986.

 

[5] См Ковальченко ИД Бородкин Л И Два пути буржуазной аграрной эволюции в европейской России / Аграрная эволюция России и США в ХIХ — начале XX вв — М Наука, 1990.

 

[6] См.: Белова Е.Б., Бородкин Л.И.. Гарскова И.М., Изместьева Т.Ф., Лазарев В.В. Историческая информатика. Учебное пособие / Под редакцией Л.И.Бородкина и И.М.Гарсковой. — . М.: Мосгорархив. 1996, с. 275—279.

 

[7] См.: Совпель И.В. Инженерно-лингвинистические принципы, методы и алгоритмы автоматической переработки текста. — Мн.: Высш. школа. 1991.

 


Поделиться:

Дата добавления: 2015-04-18; просмотров: 126; Мы поможем в написании вашей работы!; Нарушение авторских прав





lektsii.com - Лекции.Ком - 2014-2024 год. (0.006 сек.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав
Главная страница Случайная страница Контакты