МЕТОДИ РЕАЛІЗАЦІЇ

⇐ ПредыдущаяСтр 2 из 3Следующая ⇒

Для автоматичного розпізнавання мови можна використовувати бібліотеку Google Speech. Першочерговим завданням є запис звуку у форматі FLAC з частотою 8 кГц. Є можливість почати автоматичну запис при перевищенні рівня на якийсь поріг. Такий алгоритм позбавляє від необхідності натискати кнопки початку запису і зупинки. При відповідних настройках рівнів і кількості спрацьовувань програма відловлює факт наявності корисної складової з мікрофона, далі відбувається відправка в Google для розпізнавання і прийом відповіді. Записаний файл за допомогою бібліотеки Synapse відправляється в Google на розпізнавання.

Наступний етап роботи системи - це здійснення перекладу тексту на потрібну мову. Існує кілька методів перекладу тексту: послівний переклад (слова вихідного тексту перетворюються в слова переказного тексту ); інтерлінгвістіческом машинний переклад ( вихідний текст трансформується в абстрактне уявлення, яке не залежить від мови ); системи машинного перекладу, засновані на прикладах; статистичний машинний переклад (порівняння великих обсягів мовних пар). Враховуючи всі переваги і недоліки існуючих систем в роботі була використана система статистичного машинного перекладу , яка адекватно справляється з усіма видами лексики.

Перевагами статистичного машинного перекладу є:

• Швидка настройка;

• Легкість додавання нових напрямів перекладу;

• Гладкість перекладу.

Наступним завданням є синтез мови. Для того, щоб синтезоване мовлення звучала натурально, необхідно вирішити цілий комплекс завдань, пов'язаних як із забезпеченням природності голосу на рівні тембру, плавності звучання і інтонації, так і з правильною розстановкою наголосів, розшифровкою скорочень, чисел , абревіатур і спеціальних знаків .

Синтезатор мови складається з двох частин - аналізатор мови і синтезатор звуків мови. Синтезатор на основі параметрів, отриманих від аналізатора, синтезує звуки мови. Таким чином, стає можливим імітувати голоси. Аналізатор може бути автоматичним, або ж дані можуть бути підготовлені для введення в синтезатор вручну. Голосовим джерелом вважаються коливання повітря, вироблені голосовими зв'язками. Самим джерелом звуку є перша похідна за часом від об'ємної швидкості потоку. Деякі автори говорять, що додатково потрібно враховувати і другу і третю похідну. Коливання зв'язок відбуваються в обсязі, тому додатково розглядається поршневий джерело, який виходить в результаті вертикального зсуву зв'язок.

Структура ідеалізованої системи автоматичного синтезу мови складається з декількох блоків.

1) Визначення мови тексту (відбувається за допомогою особливого програмного комплексу, що надається зазвичай розробниками систем машинного перекладу. Все, що потрібно для визначення мови тексту - це ввести його в спеціальну форму, і натиснути кнопку « Визначити мову »).

2) Нормалізація тексту (здійснюється поділ введеного тексту на слова і решта послідовності символів. До символів належать, зокрема, знаки пунктуації та символи початку абзацу).

3) Лінгвістичний аналіз: синтаксичний, морфемний аналіз і т.д. (кожному слову тексту (кожної словоформи) необхідно приписати інформацію про його вимові, тобто перетворити на ланцюжок фонем або, інакше кажучи, створити його фонемную транскрипцію).

4) Формування просоідіческіх характеристик (здійснюється трьома основними блоками, а саме: блоком розстановки синтагматических кордонів (паузи), блоком приписування ритмічних і акцентних характеристик (тривалості та енергія), блоком приписування тональних характеристик (частота основного тону)).

• Фонемний транскриптор.

• Формування керуючої інформації.

• Отримання звукового сигналу.

Вона не описує ні одну з існуючих реально систем , але містить компоненти, які можна виявити в багатьох системах. Автори конкретних систем, незалежно від того, чи є ці системи вже комерційним продуктом або ще перебувають у стадії дослідної розробки, приділяють різне увагу окремим блокам і реалізують їх дуже по- різному, відповідно до практичних вимог .

Алгоритм методу аналізу і синтезу мови:

1. мовний сигнал надходить на вхід звукової карти комп'ютера , яка перетворює його в цифрову форму;

2. здійснюється сегментація мовного потоку з метою виділення елементарних мовних фрагментів і визначення їх параметрів: вокалізованності, розмітки на періоди основного тону вокалізованих фрагментів, параметрів спектра. Розмір і структура фрагментів залежить від завдань розв'язуваних синтезом;

3. елементарні мовні фрагменти об'єднують в звукову базу;

4. відповідно до структури синтезируемой мовної послідовності здійснюється вибір фрагментів з бази і модифікація їх просодических характеристик, в результаті чого формується звуковий сигнал;

5. сформований цифровий мовний сигнал відтворюється звуковою картою комп'ютера або зберігається у файл для подальшого зберігання та / або обробки.

Дата добавления: 2015-09-13; просмотров: 63; Мы поможем в написании вашей работы!; Нарушение авторских прав

⇐ Предыдущая 123 Следующая ⇒

lektsii.com - Лекции.Ком - 2014-2024 год. (0.006 сек.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав
Главная страница Случайная страница Контакты