КАТЕГОРИИ:

Астрономия Биология География Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Механика Образование Охрана труда Педагогика Политика Право Психология Риторика Социология Спорт Строительство Технология Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Квантитативное изучения словообразования и морфология

⇐ ПредыдущаяСтр 2 из 2

План:

1. Основные проблемы квантитативного изучения словообразования и морфологии

2. Классификация лексики по словообразовательной структуре

3. Количественная оценка словообразовательных классов слов

4. Квантитативное исследование словообразовательных гнезд

5. Типологическая классификация языков на основе морфологических признаков. Количественные критерии типологии

6. Типы морфемного устройства слова и их количественная оценка

При квантитативном изучение словообразования и морфологии решаются следующие проблемы:

- возможность классификации лексики на основе грамматических признаков;

- выявление закономерности и распределения полученных классов (лексических групп) в словаре и в тексте;

- выделение лексико-формационных групп по признаку морфемного строения слова;

- типологическая классификация языков мира на основе способов выражения грамматических значений.

Типы классификации. Наиболее общий способ классификации слов по словообразовательной структуре – это их распределение по основным структурным типам: корневые (корень, корень + окончание), производные простые слова (корень + словообразовательный аффикс), производные сложные слова (два и более корней).

Количественное распределение лексики разных языков на основе словаря (парадигматическом уровне).

Табл. «Распределение слов по словообразовательной структуре в словаре различных языках»

	Русский	Английский	Немецкий	Эстонский
Корневые	13%	18%	5%	5%
Простые производные	79%	69%	9%	35%
Сложные производные	8%	15%	83%	60%

Табл. «Распределение слов по словообразовательной структуре в текстах»

	Русский	Английский	Немецкий	Эстонский
Корневые	81%	75%	70%	67%
Простые производные	16%	23%	18%	13%
Сложные производные	3%	2%	12%	20%

Джозеф Гринберг предложил использовать индексы, выражающие отношения количества определенного типа морфем к количеству слов текста. Данный индекс получил название индекс словосложения. Он показывает отношение числа корневых морфем к числу слов текста – Y=R/W.

Получены следующие индексы для разных языков:

В русском – 1,03. На 100 слов встречается 3 сложных слова.

В английский – 1,02.

В немецком – 1,12.

В швецком – 1,13.

В венгерском – 1,21,

Словообразовательный класс определяется списком суффиксов при сочетании суффиксов, совместимых со словообразовательной основой слова. В русском обнаружено около 1250 словообразовательных классов. 10 наиболее частотных охватывает около 60% всех слов русского языка.

Здесь применяется принцип концентрации языковых единиц, который приводит к образованию ядра и периферии распределения языковых объектов.

Пример (самые частые 3 класса):

- нулевой суффикс – суффикс «н».

- нулевой суффикс – «о» – «ост»: слабый – слабо – слабость.

- нулевой суффикс – «ов»: порт – портов.

Один из самых редких: нулевой суффикс – «б» (ходить – ходьба, стрелять – стрельба).

Распределение производных слов по их словообразовательным формантам позволяет выявить наиболее продуктивные и употребительные типы слов.

Количество словоформ на 100 000 слов:

- ный/ной – 9800 слов;

- ость – 3500;

- ние/ие – 3200;

- ка/очка – 3000;

- ский/ской – 2700.

Наиболее частотные форманты в английском языке (на 100 000 слов)

	Частота в словаре (Fc)	Частота в тексте (Fт)	Fc/Fт
- y (adverb)			19.6
- ment (noun)			16.9
- ion (noun)			16.1
- ent (adjective)
- ic (adjective)			15.9

Отношение частотности в тексте к частотности в соответствующем словаре выражает функциональную значимость (нагрузку) рассматриваемого типа производных слов. Чем больше это отношение, тем больше повторяются слова с данным формантов в тексте, но тем меньше их относительное разнообразие.

Квантитативное исследование гнезд подразумевает выделение словообразовательного потенциала отдельных корней, т.е. способности слова быть производящей основой. Для английского языка самый распространенный корень –time (более 100 производных слов). Для русского – -бить (446 слов), -брать (393), -делать (318); -вода (316), -свет (306), -земля (216); -белый (246), -черный (236), -старый (192).

На основе оценки словообразовательного потенциала можно судить о квантитативной структуре словообразовательных гнезд, также можно классифицировать лексику какого-либо языка. Существует статистическая зависимость между оценкой словообразовательного потенциала и частотностью производящих слов, а именно наиболее частотные слова обладают, в среднем, наивысшей оценкой словообразовательного потенциала.

На основе способов выражения грамматических значений в первой половине 20 века была разработана морфологическая типологическая классификация языков.

Основным в данной классификации является индекс синтетичности языка, который вычисляется по формуле Y=M (количество морфоф)/W (количество слов).

Традиционной считается следующая классификация языков:

1. Изолирующие = аморфные языки. Величина индекса в таких языках – 1-1,5. Грамматические значения определяются служебными словами, порядком слов в предложении или интонацией. Соответственно, в таких языках одно и то же слово может обозначать как предмет, так свойства или действия, в зависимости от контекста. Вьетнамский – 1,06; китайский – 1,21. Пример: Nqua (человек) lám (делать) ruong (земля) tot (хороший). В зависимости от интонации можно различить 4 разных смысла.

2. Аналитические языки. Величина индекса – 1,5-2. В таких языках аналитические способы выражения грамматических значений преобладают. Пример: It’s getting dark – is (время), it (безличность), dark (прилагательное). Персидский (фарси) – 1,52; в английском – 1,68; голландский (фламандский) – 1,81; датский – 1,98.

3. Синтетические языки. Величина индекса – 2-3. В таких языках синтетические способы преобладают при выражении грамматических значений. Пример: Кошка (3) запрыгнула на бабушкино кресло – 13 синтетических, 1 аналитический способ. Немецкий язык – 2,02; швецкий – 2,13; эстонский – 2,35; русский – 2,45; санскрит – 2,59.

4. Полисинтетические = инкорпорирующие языки. Индекс синтетичности – выше 3-х. В таких языках отношения между действием, объектом, субъектом, обстоятельствами выражается не через члены предложения, а через морфы. Таким образом, в этих языках предложения чаще всего равняется к слову, а грамматические значения выражаются единожды в рамках такого предложения слова.

Пример: unikw (огонь) – ihl (дом) – minih (мн.ч.) – is (уменьшаться) – it (пр. вр.) – a (изъявит. наклонение).

К полисинтетическим языкам относятся индейцев Америки и чукотско-камчатские языки. В эскимосском языке индекс синтетичности равен 3,72.

Синтетические и полисинтетические языки делятся на типы по признаку преимущественного использования различных типов аффиксальных морфем. В рамках аффиксации различают две противоположные тенденции: фузионная и агглютинативная.

Фузия – тип морфемного устройства слова, при котором границы между морфемами слова не отчетливы, иногда они проходят внутри слова, иногда некоторые части морфем не просматриваются. Пример: стричь – стр + и + чь (стриг + ть – исторически); принять и взять (исторический общий корень –ять). При этом одна морфема может выражать несколько грамматических значений. Пример: собака (окончание «а» – ж. р., ед. ч., Им. п.)

Агглютинация – тип морфемного устройства слова, при котором границы между морфемами отчетливы, определяется однозначно, а также одна морфема выражает одно значение и наоборот. Пример: китоб-лар-им-да (узбекский язык); китоб – книга, лар – мн. ч., им – притяжательность, да – предлог «в»: «в моих книгах».

Мера агглютинативности языков определяется на основе индекса агглютинации: J = A/S (А – количество агглютинативных конструкций в отрезке текста, т.е. морфом, обладающих единственным значением, только аффиксы; S – количество морфемных швов, т.е. границ между морфемами).

В русском языке фузионный. Пример: «Пойдем-ка поговорим с братом». Индекс – 1/6, агглютинативная конструкция «ка», 6 границ между всеми морфемами.

Индексы: английский – 0,3; англосаксонский – 0,11; санскрит – 0,09; эскимосский – 0,036.

Квантитативное изучение лексики

1. Классификация лексики на основе дифференциальных семантических признаков

2. Частотное распределение лексики по семантическим классам

3. Количественное изучение полисемии

Лексико-семантическая группа (ЛСГ) – группа слов, образованных на основе семантической связи слов. Подразделяется на группы с парадигматическими и синтагматическими связями.

Благодаря парадигматическим отношениям слов обеспечивается возможность выбора единиц при порождении речи, и этим определяется важность исследований парадигматических лексико-семантических групп, как в качественном, так и количественном плане.

Существует два подхода к образованию лексико-семантических групп:

- синтетический

- аналитический – членение лексико-семантической системы языка происходит на основе системы дифференциальный семантических признаков (ДСП), которые отличаются друг от друга разной степенью обобщённости. При организации ДСП в систему может быть использован дихотомический принцип, при котором каждый признак представляется в виде бинарной оппозиции, в которой один член характеризуется наличием, а другой отсутствием признака. В следствие того, что выделенные признаки являются неравнозначными, вполне естественно устанавливается иерархия в системе признаков, следовательно и в системе ЛСГ.

Нарицательные

Конкретные абстрактные

Одушевленные неодушевленные активные неактивные

Лицо не-лицо природные не природные действие свойство

Одна и та же совокупность ДСП может быть присуща определенному множеству слов, который на этом основании объединяется в ЛСГ разных уровней и объемов. Как отдельные слова, так и группы могут быть представлены в виде цепочек ДСП (или с помощью двоичного кода).

В художественных текстах русского языка наблюдается следующее распределение лексики:

	Авторская речь	Речь персонажей	Всего	Научный текст
Конкретные	55,2	65,6	60,9
Абстрактные	44,8	34,4	39,1

Таблица распределения количественных существительных по лексико-семантическим группам

	Словарь	Текст
Люди	23%	23%
Животные	4%	3%
Природа	25%	33%
Артефакты	48%	41%

Таблица распределения абстрактных существительных по лексико-семантическим группам

	Словарь	Текст
Активное действие	37%	22%
Результат действия	10%	9%
Свойства	5%	5%
Прочие	48%	64%

Исследуя полисемию, как систему, целесообразно не отрывать многозначность от однозначности, и следует рассматривать их вместе, как проявление одного и того же свойства слова, иметь одно или несколько значений. Таким образом, однозначность можно считать нулевой степенью полисемии.

Реализацией свойства слова иметь несколько значений является семантический объем слова (СОС), который подлежит количественному измерению.

Частотные словари

1. Понятие частотного словаря

2. Проблемы составления частотного словаря

3. Частотные словари и обучение языку

4. Частотные словари и лексикография

5. Частотные словари и лингвистическая типология

6. Использование частотных словарей в компьютерной лингвистике

Частотный словарь – включает в себя те слова или другие лингвистические единицы (словоформы, словосочетания, лексемы), которые зарегистрированы в обследованном наборе текстов. При каждом слове указывается частота употребления данного слова в текстах.

«Частотный словарь русского языка», – под ред. Засориной, Москва – 1977.

Частотные словари также могут составляться на основе одного произведения. Например, «Частотный словарь Нового Завета». (3569 – количество всех слов текста) 1. Союз «и» – 4400, 2. «Он» – 2352, 3. Предлог «в, во» – 1591, 4-9. – служебные части речи, 10. «говорить» – 776, 12. «Иисус» – 649.

Частотный словарь по роману «Айвенго». 1. Артикль «the», 2. Предлог «of», 3. «and», 4. «to», 5. «a».

Частотный словарь по роману «Новая зямля». 1. «Мак» (самое часто употребляющееся название растения).

Существует три способа расположения словарного материала в частотном словаре:

1. Алфавитный

2. По убыванию частот

3. По принципу обратного (составление по алфавитному принципу, учитывая буквы с конца слова). Например: 1. Белка, 2. Азбука, 3. Арбуз

Понятие относительной частоты.

Формула: Fотн = Fабс/N, где Fотн – частота относительная, Fабс – частота абсолютная, N – число словоупотреблений.

Пример («Новый Завет»): Fотн = 4400/59654 – относительная частота употребления союза «и».

Накопленная частота показывает, какое количество текстов покрывает определенная группа слов.

Пример. В «Новом Завете» первые 3 слова покрывают 19% текста, первые 12 слов – 28,6%.

Этот результат показывает возможности, которые предлагают частотные словари в исследовании стилистики текста, в обучении языку и других приложениях, где требуется определить лексические зоны, обладающие определенной текстообразующей способностью.

Частотный словарь помогает также выяснить границы живой лексической системы языка в определенный период времени, таким образом разграничить языки активной и пассивной системы, получить сведения о лексике с учетом жанровой дифференциации источников.

Распределение лексики по частям речи в текстах разных функциональных стилей

	Художественные/ публицистичные тексты (%)	Технические тексты (%)	Эпистолярные тексты (письма) (%)	Разговорные тексты (%)
Существительное	26,5	41,7	18,4	12,9
Прилагательное	8,3	15,4	6,3	2,3
Местоимение	12,1	4,3	17,7	22,3
Глагол	19,5	12,5	19,4	18,5
Наречие	7,8	3,8	10,2	14,3
Междометие	0,3		0,1	0,4

Исследования статической лексикографии показали, что первая 1000 самых употребительных слов покрывает 80% текста, первые 2000 – 90%.

Это явление имеет закономерный характер для многих языков. Таким образом, частотный словарь как модель организации лексики помогает разрешить противостояние неопределенного по размерам словарного запаса языка и его фактической реализации в речи.

Проблемы:

1. Какой текст или тексты подвергнуть анализу?

2. Длина текста или текстов.

3. Учет сложных терминов (железная дорога, диффузная гипертензия имеют одно значение).

4. Проблема единиц частотного словаря (учитываются словоформы или единицей является лексема).

5. Разрешение омонимии.

Применение математических методов в лингвистике – в частности, при составлении частотных словарей –, позволяет ответит на вопрос, что является языковой единицей, а что создается каждый раз в речи (речевая единица). На основе подсчета частот на разных уровнях можно сделать вывод, что фонемы, морфемы, слова, словосочетания-клише и некоторые короткие предложения повторяются в языке с некоторыми регулярными частотами. Таким образом, их можно считать языковыми единицами. А словосочетания, предложения и тексты создаются или воспроизводятся в момент порождения речевого высказывания. Таким образом, они принадлежат только к сфере речевой практики.

Совокупность всех подлежащих изучению фактов называется статистической совокупностью.

Она включает в себя:

1. Генеральную совокупность – множество всех факторов;

2. Выборочную совокупность – некоторую часть генеральной совокупность, извлеченная из нее одним из предусмотренных правилами статистики способов. Подлежит непосредственному наблюдению.

3. Метод случайной выборки.

4. Метод сплошной выборки.

Кроме абсолютной и относительной частоты в частотном словаре может быть указан и коэффициент распространенности слова, т.е. во скольких текстах из выбранной совокупности встречается данное слово.

Могут быть указаны так же частоты для разных стилей речи, а также для разных авторов в рамках одного словаря. При учете различных лексических значений одного слова можно получить частотно-семантический словарь.

Центральной проблемой при обучении языку является проблема отбора учебного материала. Существует один из критериев отбора лексики в учебные словари – это его абсолютная частота в частотном словаре. При овладении иностранным языком человек, прежде всего, должен усвоить наиболее употребительные слова данного языка. Чтобы выявить наиболее употребительные слова можно обнаружить в частотном словаре.

Однако частотные словари далеко не всегда отражают реальную картину распространенности слова в речи. Пример, некоторые слова могут не быть частотными в речи, однако они всегда готовы к употреблению, поскольку обозначают предметы, окружающие человека в окружающей человека повседневной жизни (автобус, вилка, пуговица – по исследованию Засориной). Поэтому было введено понятие резервности, т.е. постоянное наличие лингвистической единицы в сознании человека.

Также проводились исследования по определению объективной и субъективной оценки частоты слов. Выяснилось, что некоторые слова получают значительную разницу в частотах словаря и в оценках испытуемых. Некоторые ученые считают субъективную частоту более реальной/правильной, нежели частота, указанная в частотном словаре, поскольку человек при оценке опирается на весь свой прошлый речевой опыт.

Основные тезисы:

1. Частота слова является критериев внесения или невнесения слова в словарь. Пример, заимствованные слова «бренд», «референт» должны писаться через «е», несмотря на произношение. Однако из-за частых случаев написания слов через «э», оба варианта считаются равно употребимыми.

2. Частотный словарь – исходных материал для построения лексических минимумов.

3. Частотный словарь содержит материал, который может быть использован для преобразовании одноязычного частотного словаря в учебный переводной.

4. Двуязычные частотные словари, в которых входная половина является частотной, а выходная половина – нет.

Основная задача лингвистической типологии – изучение лингвистических систем с целью выявления черт сходства и различия между ними, чтобы в свою очередь эти системы можно было классифицировать на основе типологических признаков и обнаруживать закономерности, управляющие связями элементов внутри этих систем.

К лингвистической типологии можно также отнести сравнительное изучение как языков, так и функциональных стилей и подъязыков.

Сравнивая отрезки фиксированной длины, написанные на разных языках, можно судить о близости или отдаленности строя этих языков на основе количественных отношений между словами в этих текстах и компонентами их морфологической структуры.

Степень аналитизма можно также определить по данным частотного словаря, разделив число разных лексем на число словоформ.

Коэффициент синтетичности языка, определенный на основе частотного словаря (200 000 словоупотреблений). I=L/W

	Лексемы (L)	Словоформы (W)	Коэффициент (I)
Русский			0.32
Испанский			0.56
Французский			0.57
Английский			0.67

В системах машинного перевода на основе частотного словаря при отсутствии других критериев отдается предпочтение одному из вариантов перевода многозначного слова. Пример, «мягкий» = «soft, light, gentle, mild, fresh».

При автоматическом реферировании и аннотировании выделение ключевых слов происходит по статистическому методу, т.е. от зависимости веса слова от его частоты.

Для частотного словаря можно вывести коэффициент лексического разнообразия, который вычисляется по формуле C=L/N, где N – число словоупотреблений.

Дата добавления: 2015-04-16; просмотров: 344; Мы поможем в написании вашей работы!; Нарушение авторских прав

⇐ Предыдущая 12

lektsii.com - Лекции.Ком - 2014-2026 год. (1.696 сек.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав
Главная страница Случайная страница Контакты