Студопедия

КАТЕГОРИИ:

АстрономияБиологияГеографияДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРиторикаСоциологияСпортСтроительствоТехнологияФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника


Глава 4.2. Компьютерная компаративистика




I. Использование компьютера в сравнительно-историческом языкознании.— II. Система STARLING.— III. Установление регулярных фонетических соответствий.— IV. Поиск слов по приблизительному звучанию и значению.

I. В наше время никакая научная работа уже не может осуществляться без помощи компьютерной техники. Практически все публикации, включая и публикации работ по сравнительному языкознанию, осуществляются при помощи компьютерного набора.

Однако компьютерная верстка — отнюдь не единственная помощь, которую вычислительная техника может предоставить компаративисту. Существует три класса задач, при которых компьютер может быть чрезвычайно полезен в сравнительном языкознании:

1) составление и обработка компьютерных лексикографических баз данных, в нашем случае — этимологических словарей;

2) разного рода статистические задачи, связанные с лексикостатистикой и этимостатистикой, а также автоматическое построение генеалогических классификаций;

3) размещение этимологической и сравнительно-исторической информации в Интернете.

Эти задачи призвана решать автоматическая система STARLING, созданная одним из авторов данного курса — С. А. Старостиным.

II. STARLING — это прежде всего так называемая СУБД, то есть система управления базами данных (хотя STARLING включает в себя и довольно многофункциональный текстовый редактор). Элементарная база данных — это "электронная таблица", состоящая из полей (столбцов) и записей (строк). Содержимое полей может индексироваться, сортироваться, по нему могут вестись различные типы поиска.

Система STARLING позволяет осуществлять разнообразные запросы к базам данных. Отдельные базы данных можно связывать друг с другом, формируя так называемую реляционную СУБД. Этимологическая справочная система по любой семье языков может быть организована в виде реляционной иерархической системы, состоящей из отдельных баз данных, связанных между собой. Система STARLING позволяет связывать между собой неограниченное количество баз данных.

Помимо хранения и облегчения пользования информацией, система STARLING реализует некоторые специфические сравнительно-исторические задачи.

III. Процесс установления фонетических соответствий между языками моделируется при помощи следующего алгоритма:

a) вычисляется частота каждой фонемы в списке каждого из сравниваемых языков;

b) в языке A берется подмножество слов N, содержащих фонему x;

c) в языке B берется подмножество слов N', являющихся переводом слов подмножества N языка A.

d) вычисляется частота каждой фонемы языка B в подмножестве N', и сравнивается со стандартной частотой данной фонемы во всем списке слов языка B.

e) фонема x', частота которой в подмножестве N' существенным образом (вычисляемым, например, по правилу "трех сигм") превышает стандартную частоту данной фонемы, считается соответствующей фонеме x языка A.

Заметим, что при такой процедуре одной фонеме x может в принципе соответствовать несколько фонем в языке B, что не противоречит реальной компаративистической практике.

Эта процедура позволяет устанавливать около 80% правильных фонетических соответствий, и почти не дает ложных соответствий. Точность соответствий естественно возрастает при увеличении исходного массива данных.

Ценность этого компьютерного алгоритма состоит не столько в компьютеризации работы компаративиста (этот алгоритм не может определить дополнительных распределений, не срабатывает в случае выпадения фонем, то есть соответствия некоторой фонемы в одном языке нулю в другом, не позволяет установить многих редких, но существенных, соответствий), сколько в доказательстве объективности факта фонетических соответствий вообще и подтверждения выводов, эмпирически полученных исследователем.

IV. STARLING позволяет осуществлять любые лексикостатистические и этимостатистические подсчеты, в том числе между семьями, материал которых содержится в разных файлах. Если исходные данные сравниваемых языков относятся к разному времени, программа делает соответствующую поправку. Кроме того, на основании произведенных подсчетов автоматически строится генеалогическое древо.

Моделируются фонетические изменения (с заданием контекстов и правил), а также собственно работа этимолога: реализован поиск слов по их приблизительному звучанию и значению. Под приблизительным звучанием понимается сходство первых двух согласных в сравниваемых словах. Согласные считаются похожими, если они входят в один класс — например, в класс "зубных смычных" (t, d, {t.}, {th}, {d^}, {t'}, {d'} и т. п.) или в класс "аффрикат" (c, {z3}, {c^}, {z3^}, {c.}, {c^.} и т. п.). Программа позволяет пользователю создавать свои классы похожих звуков — в соответствии с тем, какие звуковые изменения характерны для исследуемых им языков.

Значения считаются похожими, если существует такой праязыковой корень, рефлексы которого в языках-потомках имеют эти значения. Список похожих значений, так же, как и список похожих звуков, хранится в отдельном файле и доступен изменениям.

Такое широкое понимание сходства необходимо для того, чтобы при автоматическом поиске этимологий пропустить как можно меньше правдоподобных сближений. Окончательное решение о том, являются ли найденные компьютером слова родственными, в любом случае принадлежит исследователю-человеку.

В подавляющем большинстве случаев компаративистский компонент программы STARLING полагается на экспертные этимологические оценки. Однако из сказанного выше ясно, что в принципе программа способна на основании введенных контрольных списков самостоятельно установить соответствия между языками, на основании этих соответствий установить этимологические тождества (этому посвящена специальная процедура), посчитать проценты совпадений, датировку дивергенции и построить классификационное дерево. Такая "экспертная деятельность" компьютера оказывается полезной при предварительном анализе малоизученных языковых семей.


Поделиться:

Дата добавления: 2015-09-13; просмотров: 102; Мы поможем в написании вашей работы!; Нарушение авторских прав





lektsii.com - Лекции.Ком - 2014-2024 год. (0.007 сек.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав
Главная страница Случайная страница Контакты