Студопедия

КАТЕГОРИИ:

АстрономияБиологияГеографияДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРиторикаСоциологияСпортСтроительствоТехнологияФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника


Статистика речи и автоматический анализ текста




Название «квантитативная лингвистика» достаточно условно, хотя и довольно широко используется в современной научной литературе. Оно характеризует междисциплинарное направление в прикладных ис­следованиях, в котором в качестве основного инструмента изучения языка и речи используются количественные или статистические методы анализа. Иногда квантитативная (или количественная) лингвистика про­тивопоставляется комбинаторной лингвистике. В последней доминирующую роль занимает «неколичественный» математический аппарат — теория множеств, математическая логика, теория алгоритмов и т.д.

Применение количественных методов при описании функциониро­вания языка мало чем отличается от использования аналогичного инстру­ментария в естественных и гуманитарных науках. Привлечение методов измерения и подсчета языковых реализаций позволяет, однако, суще­ственно модифицировать представление о языковой системе и возмож­ностях ее функционирования. В этом отношении квантитативная лингви­стика оказывается важнейшим фактором, влияющим на лингвистическую теорию. Например, в сфере грамматики теоретическая лингвистика, как правило, ограничивается констатацией существования в русском язы­ке системы падежей. Со структурной точки зрения этого, быть может, и достаточно. Между тем за рамками обсуждения остается весьма суще­ственная информация о том, как часто используются различные падежи, какова динамка использования различных падежей с течением времени. Исследование такого рода позволило бы выявить тенденции развития падежной системы и на основе этого даже сформулировать гипотезы о будущем состоянии грамматической системы русского языка.

С теоретической точки зрения использование статистических ме­тодов в языкознании позволяет дополнить структурную модель языка вероятностным компонентом, то есть создать структурно-вероятностную модель, обладающую значительным объяснительным потенциалом. Эту сторону использования количественных методов следует считать прило­жением статистики в языкознании. К моделям такого рода относится, например, «модель жизненного цикла слова», предложенная А. А. Поли­карповым. Проведенный им квантитативный анализ показал, что в достаточно значительной временной перспективе име­ется явная тенденция к увеличению степени абстрактности значений у многозначного слова — чем позже возникает значение, тем оно более абстрактно. Разработанная количественная модель позволяет делать ин­тересные предположение об относительном «возрасте» различных частей речи, тенденций развития лексической системы языка и т.д.

Лингвистический мониторинг функционирования языка. Задача лингви­стического мониторинга заключается в выявлении общих особенностей функционирования языковой системы в конкретном типе дискурса (на­учном, политическом дискурсе, текстах средств массовой информации и т.д.). В качестве предмета лингвистического мониторинга могут высту­пать такие феномены естественного языка, как типы языковых ошибок, сфера иностранных заимствований, новые слова и значения, новые (креативные, творческие — не конвенциональные) метафоры, темати­ческое распределение лексики (например, лексика временных и про­странственных отношений, лексика выражения чувств и эмоций, спор­тивная лексика и т.д.), особенности использования в текстах тех или иных грамматических форм, синтаксических конструкций. Технология лингвистического мониторинга основывается на двух важнейших пред­посылках: во-первых, на регулярности и периодичности анализируемых данных, и, во-вторых — на достаточно большом объеме привлекаемого материала, на репрезентативности выборки данных. В силу этого лингви­стический мониторинг невозможен без соответствующего компьютерного обеспечения. Использование компьютерной технологии позволяет давать оценку исследуемому феномену, выявляя его распреде­ление по времени, по источникам, авторам и т.д.

Информация о статистических закономерностях функционирования языковой системы лежит в основе некоторых методик анализа данных, разрабатываемых в политической лингвистике. К ним относится, в част­ности, методика контент-анализа, используемая для выявления структуры и состояния общественного сознания.

Авторизация/атрибуция текста. Проблема авторизации текста отно­сится к числу классических проблем филологического исследования. Часто она рассматривается в рамках «количественной стилистики» — стилеметрии. Авторизация включает как литературную, так и лингви­стическую составляющую. В. В. Виноградов в книге «Проблема авторства и теория стилей» сформулировал типологию факторов атрибуции. К субъективным факторам он относит: а) субъективно-коммерческие; б) субъективно-конъюнктурные; в) субъективно-эстети­ческие; г) субъективно-психологические; д) субъективно-идеологические факторы. Есть и объективные факторы: а) документально-рукописные (археологические); б) исторические (биографии, свидетельства совре­менников); в) историко-идеологические и сопоставительно-идеологи­ческие; г) историко-стилистические; д) художественно-стилистические; е) лингвостилистические. Однако чисто филологическое направление авторизации не позволяет построить объективные операциональные кри­терии анализа и атрибуции текста. К сожалению, большинство факторов, на которые обращает внимание В. В. Виноградов, плохо формализуемы. Иными словами, разные эксперты, используя одни и те же факторы, могут сделать совершенно различные выводы.

Перспектива объективизации экспертного знания была обнаруже­на в использовании количественных, статистических методов анализа текста. Пионером в этой области стал Н. А. Морозов, перу которого при­надлежит опубликованная в 1915 г. работа «Лингвистические спектры. Средство для отличия плагиатов от истинных произведений того или другого известного автора. Стилеметрический этюд». Существенно, что в квантитативном анализе Морозов предлагал опираться не на тематичес­ки связанную лексику — слова, определяемые спецификой описываемого материала, его предметной и проблемной ориентацией, — а на служеб­ные слова и слова тематически нейтральные. Дело в том, что именно особенности употребления служебных слов, лексем с общей семантикой, не привязанной к тематике художественного произведения, формируют авторский стиль и практически не поддаются имитации.

Компьютерное моделирования языка и речи. Другая важная область прикладного использования знаний о частоте использования тех или иных языковых структур — компьютерная лингвистика. Многие компью­терные программы, связанные с функционированием языка, используют алгоритмы, основывающиеся на данных о частоте употребления фонем, морфем, лексических единиц и синтаксических конструкций. Например, программы автоматической коррекции орфографии содержат словари, как правило, только наиболее частотных лексем.

Дешифровка кодированного текста. В процессе дешифровки также могут использоваться данные о частоте употребления графем, мор­фем и слов, а также их взаимном расположении. К настоящему вре­мени разработаны продуктивные алгоритмы дешифровки, основанные на частоте и дистрибуции элементов кодированного текста; ср. деши-Фровочные алгоритмы Б. В. Сухотина, статистико-комбинаторный метод Н.Д.Андреева. Близки к задачам дешифровки формальные процеду­ры «открытия» морфемного состава неописанного языка, предложенные 3. Харрисом.


Поделиться:

Дата добавления: 2015-04-16; просмотров: 117; Мы поможем в написании вашей работы!; Нарушение авторских прав





lektsii.com - Лекции.Ком - 2014-2024 год. (0.008 сек.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав
Главная страница Случайная страница Контакты