Студопедия

КАТЕГОРИИ:

АстрономияБиологияГеографияДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРиторикаСоциологияСпортСтроительствоТехнологияФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника


Тема 5. Ознакомление с программой распознавания текста; онлайновый перевод




Цель: назначение и практическое использование пакета для оптического распознавания символов (OpticalCharacterRecognition – OCR) на примере пакета RineReader (FR) и приобретение опыта использования машинного перевода.

В настоящее время часто встречаются документы, представленные в формате, неудобном для модификации, цитирования или перевода. Такой формат имеют, например, документы, напечатанные на бумаге. Понятно, что пока их немало. Довольно много документов публикуются в сети интернет или рассылаются по электронной форме в формате так называемых pdf-или djvu-файлов. В отличие от файлов, подготовленных при помощи текстового процессора Word, которые имеют вид файлов с расширениями doc или docx, pdf-и djvu-файлы лучше защищены от нежелательных изменений и всегда одинаково отображаются на экранах мониторов. Однако это может быть препятствием тогда, когда требуется pdf-или djvu-документ перевести или изменить.

В обоих вышеописанных случаях мы имеем дело с представлением документа в виде изображения, составленного из точек, называемых пикселями. Вообще любое экранное изображение, в том числе изображение текстов word-документов состоит из пикселей, однако в одном случае это изображение и в памяти компьютера хранится в виде набора точек (растровое изображение) и затем эти пиксели лишь выводятся на экран, а в другом символы текста хранятся в виде кодов и при необходимости вывода на экран при помощи специальной программы – знакогенератора – преобразуются в наборы точек (пикселей), которые и выводятся на экран.

Хранение символов в виде кодов имеет решающее значение в процессах обработки и преобразования текстов. При кодовом представлении текстов можно осуществлять поиск и замену фрагментов текста, менять шрифт, размер, цвет и оформление (курсив, жирный, подчеркивание) символов, проверять текст на наличие ошибок, переводить текст на другой язык и т.д.

В результате встает задача преобразования текстов в документах из пиксельного или растрового формата в формат кодового представления символов текста. Как оказалось, это сложная задача, с которой легко справляется человек, но компьютер - с трудом.

Для такого преобразования разработаны программы, выполняющие оптическое распознавание символов (OCR). OCR-программы по наборам точек, образующих изображение символа, находят код этого символа. Фактически эти программы выполняют функцию, обратную функции знакогенератора. Напоминаем, что все компьютеры оснащены программами-знакогенераторами, которые наоборот по коду символа генерируют наборы точек, рисующих изображения символов на экране дисплея.

Работа OCR-программы осложняется тем, что один и тот же символ может быть изображен по-разному. Он может иметь разный размер, принадлежать разным шрифтам, иметь разный цвет, модифицирован (жирный, курсив, подчеркнутый). Символ может быть искажен из-за ручных пометок на листу бумаги, на котором он напечатан, он может быть повернут на какой-то угол и т.д.

Кроме того, часть изображения распознаваемого документа может быть занята фотографиями, графиками, схемами, которые вообще не нужно распознавать и следует оставить в первоначальном виде.

Особый подход при распознавании нужно применять по отношению к таблицам.

В результате, не смотря на старания программистов, OCR-программы все же не способны на 100% безошибочно распознавать символы исходного текста и результат их работы требуют ручной правки.

Студентам предлагается ознакомиться с технологией OCR на примере наиболее популярной в России программы FineReader (FR), разработанной российской фирмой ABBYY.

FR – коммерческая программа, однако для ознакомления с ней ABBYY свободно и бесплатно представляет пробный вариант, который, естественно, не свободен от ограничений. К эти ограничениям относится 15-дневный срок действия программы с момента ее установки, возможность распознавания не более 50 страниц исходного текста за один рабочий сеанс и возможность одновременного сохранения лишь одной страницы из 50-ти распознанных. Последнее означает, что можно сохранять по одной странице несколько раз, что, конечно, неудобно. Но таковы ограничения пробной версии программы, цель которых, по мысли авторов, - побудить тех, кому она понравится, приобрести полную версию.

Для изучения технологии OCR студенты могут воспользоваться учебными компьютерами, установленными в аудиториях университета или установить эту программу на личных компьютерах, используя бесплатную пробную версию или приобретя полную версию На настоящее время (начало 2013) доступна 11 версия программы, для целей обучения подойдут и более ранние версии. Не подходит домашняя (home) версия, т.к. она не приспособлена для распознавания pdf-документов, используемых в данной теме в качестве индивидуальных заданий.

В процессе изучения OCR можно использовать руководство по использованию программы, прилагаемое к программе фирмой ABBY, а также видеоуроки, созданные фирмойTeachVideo, которые можно скопировать в лаборатории университета.

Каждый студент получает индивидуальное задание в виде pdf-файла, текст из которого нужно распознать, вручную удалить ошибки распознавания, сохранить в виде документа Word, перевести на русский язык.

Учебные материалы по изучению FR можно скопировать из локальной сети в корпусе университета, расположенном на ул. Пластунской или у преподавателя. Там же можно скопировать и пробную версию программы FR.

Для перевода иностранного текста можно использовать любой on- или off-лайновый машинный переводчик.

Список адресов некоторыхon-лайновых переводчиков:

http://translate.google.ru

http://www.translate.ru

http://www.online-translator.com

http://translation2.paralink.com/

и т.д.

Off-лайновые переводчики удобнее, однако их нужно покупать и устанавливать. В России широко известна программа Promt, однако существует и множество других.

Кроме машинных переводчиков, которые предназначены для перевода текстов, состоящих из множества слов, полезно использовать словари.

Проблема переводчиков (и вы это сразу же заметите как только попытаетесь их использовать) заключается в низком качестве перевода. Поэтому результат машинного перевода всегдатребует ручной правки. И здесь вам потребуется словарь. Дело в том, что практически любое иностранное слово имеет множество значений. Конкретное значение из этого множества выбирается исходя из смысла, заложенного в переводимый текст. Машинный переводчик, не понимая смысла, часто неверно выбирает вариант перевода слова. Здесь и должен вмешаться человек-редактор перевода, используя словарь, где указываются все возможные варианты перевода. Кроме того, для правильного перевода часто требуется изменить порядок слов в предложении, на что машинные переводчики малоспособны.

В России широко известны словари Lingvo компании ABBYY. Lingvo существует в on- и off-лайновом исполнении.

Адрес Lingvo в сети интернет:http://lingvopro.abbyyonline.com/ru

Конечно есть и другие словари.

Студентам предлагается перевести часть текста, из которой было бы понятно основное его содержание. Это обычно название, автор, аннотация и несколько абзацев основного текста. Цель, как и при изучении всех остальных тем, не собственно результат, а информационные технологии, при помощи которых получается в данном случае приличный перевод.

Вариант индивидуального задания в виде графического файла высылается преподавателем по электронной почте. Файл содержит публикацию, состоящую из текста, написанного на иностранном языке, рисунков и таблиц. Задача студента – выполнить распознавание и последующий перевод этого текста или его фрагмента.


Поделиться:

Дата добавления: 2014-11-13; просмотров: 130; Мы поможем в написании вашей работы!; Нарушение авторских прав





lektsii.com - Лекции.Ком - 2014-2024 год. (0.005 сек.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав
Главная страница Случайная страница Контакты