Автоматический анализ текста

⇐ ПредыдущаяСтр 4 из 16Следующая ⇒

Все созданные человеком тексты построены по единым правилам. Какой бы язык ни использовался, кто бы ни писал - внутренняя структура текста останется неизменной. Она описывается законами Зипфа (G.K. Zipf). Зипф предположил, что природная лень человеческая ведет к тому, что слова с большим количеством букв встречаются в тексте реже коротких слов. Основываясь на этом постулате, Зипф вывел два универсальных закона.

Первый закон Зипфа "ранг - частота". Выбирается любое слово и подсчитывается, сколько раз оно встречается в тексте. Эта величина называется частота вхождения слова. Измеряется частота каждого слова текста. Некоторые слова будут иметь одинаковую частоту, то есть входить в текст равное количество раз. Сгруппируем их, взяв только одно значение из каждой группы. Расположим частоты по мере их убывания и пронумеруем. Порядковый номер частоты называется ранг частоты. Так, наиболее часто встречающиеся слова будут иметь ранг 1, следующие за ними -- 2 и т.д. Вероятность встретить слово путем случайного выбора, будет равна отношению частоты вхождения этого слова к общему числу слов в тексте.

Вероятность = Частота вхождения слова / Число слов.

Зипф обнаружил интересную закономерность. Оказывается, если умножить вероятность обнаружения слова в тексте на ранг частоты, то получившаяся величина (С) приблизительно постоянна!

С = (Частота вхождения слова х Ранг частоты) / Число слов.

Если немного преобразовать формулу, то можно увидеть, что это функция типа y=k/x и ее график - равносторонняя гипербола. Следовательно, по первому закону Зипфа, если самое распространенное слово встречается в тексте, например, 100 раз, то следующее по частоте слово вряд ли встретится 99 раз. Частота вхождения второго по популярности слова, с высокой долей вероятности, окажется на уровне 50.

Значение константы в разных языках различно, но внутри одной языковой группы остается неизменно, какой бы текст мы ни взяли. Так, например, для английских текстов константа Зипфа равна приблизительно 0,1. Русские тексты с точки зрения законов Зипфа не исключение. Для русского языка коэффициент Зипфа получился равным 0,06-0,07.

Второй закон Зипфа "количество - частота". Рассматривая первый закон, факта, что разные слова входят в текст с одинаковой частотой не рассматривался. Зипф установил, что частота и количество слов, входящих в текст с этой частотой, тоже связаны между собой.

Если построить график, отложив по одной оси (оси Х) частоту вхождения слова, а по другой (оси Y) -- количество слов в данной частоте, то получившаяся кривая будет сохранять свои параметры для всех без исключения созданных человеком текстов! Как и в предыдущем случае, это утверждение верно в пределах одного языка. Однако и межъязыковые различия невелики. На каком бы языке текст ни был написан, форма кривой Зипфа останется неизменной. Могут немного отличаться лишь коэффициенты, отвечающие за наклон кривой (в логарифмическом масштабе, за исключением нескольких начальных точек, график - прямая линия).

Законы Зипфа универсальны. В принципе, они применимы не только к текстам. Характеристики популярности узлов в сети Интернет - тоже отвечают законам Зипфа. Не исключено, что в законах отражается "человеческое" происхождение объекта.

Что дают законы Зипфа? Как с их помощью извлечь слова, отражающие смысл текста? Если воспользоваться первым законом Зипфа и построить график зависимости ранга от частоты, то исследования показывают, что наиболее значимые слова лежат в средней части диаграммы. Слова, которые попадаются слишком часто, в основном оказываются предлогами, местоимениями, в английском - артиклями и т.п. Редко встречающиеся слова тоже, в большинстве случаев, не имеют решающего смыслового значения.

От того, как будет выставлен диапазон значимых слов, зависит многое. Поставив широко - нужные термины потонут в море вспомогательных слов; установив узкий диапазон - потеряются смысловые термины. Каждая поисковая система решает проблему по-своему, руководствуясь общим объемом текста, специальными словарями и т.п.

Если проанализировать выделенную область значимых слов, то можно отметить, что не все слова, которые попали в нее, отражают смысл текста. Эти слова являются "шумом", помехой, которая затрудняет правильный выбор. "Шум" можно уменьшить путем предварительного исключения из исследуемого текста некоторых слов. Для этого создается словарь ненужных слов - стоп-слов (словарь называется стоп-лист). Например, для английского текста стоп-словами станут термины: the, a, an, in, to, of, and, that... и так далее. Для русского текста в стоп-лист могли бы быть включены все предлоги, частицы, личные местоимения и т. п. Наверняка попали бы и слова из нашего "шума": на, не, для, это. Есть и другие способы повысить точность оценки значимости терминов .

До сих пор рассматривался отдельно взятый документ, не принимая во внимание, что он входит в базу данных наряду с множеством других документов. Если представить всю базу данных как единый документ, к ней можно будет применить те же законы, что и к единичному документу. Чтобы избавиться от лишних слов и в тоже время поднять рейтинг значимых слов, вводят инверсную частоту термина. Значение этого параметра тем меньше, чем чаще слово встречается в документах базы данных. Вычисляют его по формуле: Инверсная частота терминаi = log (количество документов в базе данных / количество документов с термином i) . Теперь каждому термину можно присвоитьвесовой коэффициент, отражающий его значимость: Вес термина i в документе j = частота термина i в документе j х инверсная частота термина i. Современные способы индексирования не ограничиваются анализом перечисленных параметров текста. Поисковая машина может строить весовые коэффициенты с учетом местоположения термина внутри документа, взаимного расположения терминов, частей речи, морфологических особенностей и т.п. В качестве терминов могут выступать не только отдельные слова, но и словосочетания. Джорж Зипф опубликовал свои законы в 1949 году. Пять лет спустя знаменитый математик Беноит Мандлеброт (Benoit Mandlebrot) внес небольшие изменения в формулы Зипфа, добившись более точного соответствия теории практике. Без этих законов сегодня не обходится ни одна система автоматического поиска информации. Математический анализпозволяет машине с хорошей точностью, без участия человека распознать суть текста.

5. Речевое общение в системах «Человек - ПК»

В узком смысле проблематика компьютерной лингвистики часто связывается с моделированием общения, в частности, с обеспечением общения человека с ЭВМ на естественном или ограниченном естественном языке. Это относится к оптимизации языка как средства общения. Впрочем, компьютерные модели общения часто используются для изучения самого процесса общения. Остановимся подробнее на опыте создания и использования именно таких моделей.

Изучение уже накопившегося опыта эксплуатации компьютерных систем, требовавших обеспечения взаимодействия с ЭВМ на естественном языке, позволило исследователям по-новому взглянуть на функции и структуру естественной коммуникации. В центр внимания попали вопросы, которые ранее были на периферии теории диалога, дискурс-анализа и теории коммуникации. Что обеспечивает естественность общения? Каковы условия связности беседы? Когда общение оказывается успешным? В каких случаях возникают коммуникативные неудачи и можно ли их избежать? Какие стратегии общения используют участники коммуникативного взаимодействия при достижении своих коммуникативных целей? Это далеко не исчерпывающий список теоретических проблем, обнаружившихся в связи с функционированием компьютерных моделей общения.

Одной из наиболее интересных компьютерных моделей диалога, вызвавшей оживленные теоретические дискуссии, была программа Джозефа Вейценбаума «Элиза», первый вариант которой появился в 1966 г. Изначально «Элиза» создавалась как игрушка, как учебный образец программы-имитатора, целью которой является не моделирование мышления в точном смысле, а моделирование речевого поведения. Программа поддерживала разговор с собеседником в реальном масштабе времени, однако при ее разработке были использованы ограниченные программистские ресурсы, лингвистический анализ и синтез также были сведены к минимуму. Тем не менее программа функционировала столь успешно, что фактически опровергла известный тест Тьюринга на создание искусственного интеллекта.

Программа «Элиза» была использована группой исследователей во главе с М. Макгайром для изучения структуры диалога и особенностей естественноязыковой коммуникации. В проводившемся эксперименте с «Элизой» беседовали в течение часа 24 испытуемых. Общение происходило с помощью телетайпа. За время беседы каждый участник ввел от 10 до 65 реплик и получил на них ответы. По окончании 15 участников (62 %) были уверены, что им отвечал человек, 5 испытуемых (21 %) обнаружили определенные колебания и лишь четверо участников (17%) были абсолютно уверены, что общались с ЭВМ. С лингвистической точки зрения алгоритмы программы «Элиза» включают минимум лингвистической информации. Во-первых, это комплекс ключевых слов, которые актуализуют некоторые устойчивые коммуникативные формулы (шаблоны), во-вторых, способность относительно несложно трансформировать предшествующее высказывание. Например, программа в состоянии переделать предшествующее утверждение в общий вопрос. В одном из вариантов программы «Элиза» перевоплощается в доктора-психиатра.

По внешним характеристикам перед нами предстает совершенно нормальная беседа врача с пациентом. Между тем даже поверхностный анализ показывает, что программа «Доктор» не понимает собеседника в точном смысле: она не имеет своей модели мира, не строит в ней отображение представлений/знаний собеседника, не модифицирует модель мира с каждым новым высказыванием, не накапливает информацию, хотя у нее есть некоторые аналоги кратковременной и долговременной памяти. Например, она способна выделить упоминание терма мать и в последующем вставить этот терм в шаблон «Вы говорили об X», который представляет собой косвенно-инициирующую реплику (косвенный вопрос). По приведенному фрагменту видно, что программа содержит также шаблоны «Как давно XI», «Расскажите больше об X», «Пожалуйста, не будьте столь кратки», побуждающие адресата продолжить общение.

Интересно, что существенная тематическая ограниченность коммуникации и значительное количество ошибок и неточностей в ответе (порядка 19% неточных или выпадающих из контекста реплик «Элизы» в упоминавшемся эксперименте М. Макгайра), не помешали испытуемым признать партнера по коммуникации человеком. Дело здесь совсем не в патологической глупости испытуемых. Это проявление важнейшей особенности коммуникации на естественном языке: естественноязыковой дискурс очень терпим по отношению к сбоям и ошибкам — он избыточен и помехоустойчив. Реплики «Элизы», выпадавшие из нормального общения, испытуемые легко объясняли обычными сбоями в понимании своей предшествующей реплики, не вполне нормальными условиями общения, шутливым настроением партнера. Устойчивость естественного дискурса объясняется также способностями человека к интерпретации речевых действий: человек, принимающий роль участника диалога, ведет себя соответствующим образом. Имея установку на общение, он стремится включать в коммуникацию все то, что по форме напоминает речевой акт, реплику. Иными словами, он склонен наделять смыслом то, что часто смысла не имеет. В этом случае испытуемые сами порождают смысл диалога, сами обеспечивают его связность, сами приписывают партнеру коммуникативные интенции.

Второй важный вывод эксперимента: испытуемые довольно быстро принимали решение о том, кто перед ними — компьютер или человек. 22 участника из 24 уяснили для себя ситуацию не более, чем за пять обменов репликами, и далее не меняли своего решения. Определение ролей в коммуникации относится к метауровню общения, поскольку это составляет одну из предпосылок успешной коммуникации, предохраняющей общение от многочисленных коммуникативных неудач.

определение ролей участников во многом определяет выбор стратегии коммуникативного поведения. Действительно, лучше сразу определить, с кем мы разговариваем по телефону — с давним другом или чиновником налоговой инспекции. Выяснение того, кем является собеседник — машиной или человеком, также относится к метауровню общения, и испытуемые старались установить ролевые характеристики партнера как можно раньше.

Это свойство естественноязыковой коммуникации можно назвать принципом приоритета метакоммуникативных параметров ситуации общения.

Третье важное следствие из эксперимента М. Макгайра связано с существованием различных типов коммуникативного взаимодействия между людьми. Успешное взаимодействие между человеком и программой типа «Элиза» возможно только в ситуации, когда происходит так называемое «ассоциативное общение», при котором реплики диалога связаны не столько логическими отношениями типа «причина-следствие», «посылка—заключение», а ассоциациями. Ассоциативное общение не имеет конкретной направленности; само поддержание беседы может служить ее оправданием. Собеседники не преследуют цели решить какую-то проблему или выработать единую точку зрения на какой-то вопрос. В классификации Р. Якобсона для коммуникации такого типа предложен термин «фатическое общение». Заметим, что беседа врача-психиатра с пациентом по форме также имеет вид фатического общения, хотя и преследует вполне определенные цели сбора данных о заболевании пациента и последующем вербальном и невербальном воздействии на его психику для достижения лечебного эффекта. «Элиза» не смогла бы успешно имитировать общение в коммуникативной ситуации, названной М. Макгайром «решение задач», поскольку она не способна понять проблемную ситуацию, то есть построить модель мира дискурса, определить альтернативы выхода из проблемы, выбрать одну из альтернатив и т. д. Одна из типичных стратегий «ухода от непонимания», реализованная в программе «Элиза» — смена темы беседы. Очевидно, что такая стратегия ведения беседы вряд ли приведет к успеху при совместном поиске решения проблемы.

Наконец, четвертый вывод можно сформулировать как неуниверсальность правил коммуникативного взаимодействия. Он касается самих закономерностей общения на естественном языке. Каждый тип коммуникации обслуживается своим набором относительно простых правил, обеспечивающих связность дискурса, его осмысленность для участников. Типология видов общения задается соответствующими наборами правил. Из экспериментов М. Макгайра с программой «Элиза» следует, что кроме ассоциативного способа общения, выделяется еще «решение задач», «задавание вопросов» и «уточнение понимания». С лингвистической точки зрения эти типы, скорее всего, неоднородны, пересекаются и даже находятся на разных уровнях дискурса. Так, «уточнение понимания» относится к метауровню коммуникации, «задавание вопросов» может быть частью стратегии «решение задач» и «уточнения понимания» и т. д. Существенно, что компьютерный эксперимент с программой, моделирующей поведение участника коммуникации, позволяет экспериментально подтвердить или опровергнуть многие положения теории диалога, разработанные как в лингвистике, так и в смежных дисциплинах — в дискурс-анализе, теории коммуникации, психологии и социологии общения.

6. Предмет прикладной лингвистки. Связь прикладной лингвистики с теоретической лингвистикой. Российский и западный подходы к термину
«прикладная лингвистика»

Термин «прикладная лингвистика» многозначен. В российской и западной лингвистике он имеет совершенно разные интерпретации. В западной лингвистике (applied linguistics, angewandte Linguistik) он связывается прежде всего с преподаванием иностранных языков, включая методику преподавания, особенности описания грамматики для учебных целей, преподавание языка как родного и иностранного и пр.1) В СССР термин прикладная лингвистика стал широко употребляться в 50-е гг. в связи с разработкой компьютерных технологий и появлением систем автоматической обработки информации (автоматизированных систем управления, систем информационного поиска, автоматизированных систем обработки текста и пр.). Именно поэтому в русскоязычной литературе вместо термина прикладная лингвистика в том же значении часто используются термины «компьютерная лингвистика», «вычислительная лингвистика», «автоматическая лингвистика», «инженерная лингвистика»; между тем отождествление этих дисциплин не вполне удачно, поскольку каждая из них имеет свой предмет и методы работы в рамках прикладной лингвистики как более широкого направления. В. А. Звегинцев, обсуждая соотношение между теоретической и прикладной лингвистикой, писал, что «под прикладной лингвистикой чаще всего понимают все виды автоматической обработки речевой информации (Language-data Processing) — машинное распознавание устной речи, машинный перевод, автоматическую классификацию технических и иных документов, автоматическое аннотирование текстов, автоматическое кодирование и пр. И действительно, автоматическая обработка речевой информации составляет в настоящее время основную исследовательскую проблематику прикладной лингвистики. Но все же было бы неправильно замыкать прикладную лингвистику в пределах данной проблематики».

Широкий взгляд на область, охватываемую прикладной лингвистикой, приобретает все больше сторонников. Широта проблематики объясняет удивительную способность прикладной лингвистики существенно увеличивать и активизировать «контакты лингвистики с самыми различными науками». Междисциплинарные исследования функционирования языка оказывают решающее влияние на лингвистическую теорию, способствуя обновлению концептуального аппарата современного языкознания.

В настоящее время прикладная лингвистика понимается широко — как деятельность по приложению научных знаний об устройстве и функционировании языка в нелингвистических научных дисциплинах и в различных сферах практической деятельности человека, а также теоретическое осмысление такой деятельности.

Перед языкознанием практически с самого начала его существования встала задача оптимизации функций языка — будь то формирование и поддержание традиции чтения и понимания сакральных текстов (экзегетика и герменевтика) или обеспечение контактов между разными народами. В философии и лингвистической теории принято различать коммуникативную, эпистемическую и когнитивную функции языка, которые, конечно, далеко не однородны и, в свою очередь, разделяются на более мелкие функции. Так, коммуникативная функция включает в себя фатическую (контактоустанавливающую) и информационную (в узком смысле) функции, функцию воздействия, социальную функцию (проявляющуюся в языковой политике). С точки зрения эпистемической функции языковая система предстает как способ хранения и передачи знаний (хранение знаний)3), а также как отражение специфически национального взгляда на мир — отражение национального самосознания. Согласно В. А. Звегинцеву, в рассматриваемой функции язык служит для дискретизации знаний и их объективизации. Когнитивная функция относится к той области жизни языка, которая связана с мышлением человека и с познанием действительности. С помощью языка знания интерпретируются, что приводит к порождению новых знаний.

С функциональной точки зрения прикладная лингвистика может быть определена как научная дисциплина, в которой изучаются и разрабатываются способы оптимизации функционирования языка. Функции языка задают точки отсчета для классификации огромной области приложения лингвистических знаний. Оптимизацией коммуникативной функции занимаются такие дисциплины, как теория перевода, машинный перевод, теория и практика преподавания родного и неродного языка, теория и практика информационно-поисковых систем, создание информационных и, шире, искусственных языков, теория кодирования. Социальная функция языка — как часть коммуникативной — находит отражение в социолингвистике, в языковом планировании и языковой политике, в орфографии и орфоэпии, в теории воздействия, в политической лингвистике. Эпистемическая функция так или иначе проявляется в лексикографии (в том числе компьютерной), в терминологии и терминографии, в корпусной и полевой лингвистике. Оптимизация когнитивной функции сосредоточена в компьютерной лингвистике, в «лингвистической криминологии», в психолингвистике и афазиологии, в квантитативной лингвистике.

Основные факторы влияния прикладной лингвистики на теоритическую можно сформулировать в виде четырех тенденций, проявившихся при создании новых лингвистических теорий:

• формализация метаязыка теоретической лингвистики;

• изменение принципов верификации научных результатов, проявившееся в ориентации на реальный, предполагаемый или гипотетический компьютерный эксперимент;

• модификация идеи объяснения в лингвистике;

• переход от классификации, простого описания к построению компьютерных и/или формальных моделей функционирования языка.

Дата добавления: 2015-04-16; просмотров: 357; Мы поможем в написании вашей работы!; Нарушение авторских прав

⇐ Предыдущая 1 2 345 6 7 8 9 10 Следующая ⇒

lektsii.com - Лекции.Ком - 2014-2026 год. (2.253 сек.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав
Главная страница Случайная страница Контакты