Студопедия

КАТЕГОРИИ:

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника



Автоматический анализ текста




Читайте также:
  1. ABC-анализ и XYZ-анализ.
  2. B.6.4.1. Способы выделения текста.
  3. HTML- язык разметки гипертекста
  4. I. Анализ задания
  5. I. Анализ инженерно-геологических условий территории, оценка перспективности её застройки
  6. I. Анализ инженерно-геологических условий территории, оценка перспективности её застройки
  7. I. Ознакомление с условием задачи и его анализ
  8. II Финансовый анализ деятельности предприятия Общая оценка финансового состояния предприятия
  9. II. Анализ чувствительности прибыли к изменению анализируемых факторов
  10. II.4 Анализ прибыли предприятия

Все созданные человеком тексты построены по единым правилам. Какой бы язык ни использовался, кто бы ни писал - внутренняя структура текста останется неизменной. Она описывается законами Зипфа (G.K. Zipf). Зипф предположил, что природная лень человеческая ведет к тому, что слова с большим количеством букв встречаются в тексте реже коротких слов. Основываясь на этом постулате, Зипф вывел два универсальных закона.

Первый закон Зипфа "ранг - частота". Выбирается любое слово и подсчитывается, сколько раз оно встречается в тексте. Эта величина называется частота вхождения слова. Измеряется частота каждого слова текста. Некоторые слова будут иметь одинаковую частоту, то есть входить в текст равное количество раз. Сгруппируем их, взяв только одно значение из каждой группы. Расположим частоты по мере их убывания и пронумеруем. Порядковый номер частоты называется ранг частоты. Так, наиболее часто встречающиеся слова будут иметь ранг 1, следующие за ними -- 2 и т.д. Вероятность встретить слово путем случайного выбора, будет равна отношению частоты вхождения этого слова к общему числу слов в тексте.

Вероятность = Частота вхождения слова / Число слов.

Зипф обнаружил интересную закономерность. Оказывается, если умножить вероятность обнаружения слова в тексте на ранг частоты, то получившаяся величина (С) приблизительно постоянна!

С = (Частота вхождения слова х Ранг частоты) / Число слов.

Если немного преобразовать формулу, то можно увидеть, что это функция типа y=k/x и ее график - равносторонняя гипербола. Следовательно, по первому закону Зипфа, если самое распространенное слово встречается в тексте, например, 100 раз, то следующее по частоте слово вряд ли встретится 99 раз. Частота вхождения второго по популярности слова, с высокой долей вероятности, окажется на уровне 50.

Значение константы в разных языках различно, но внутри одной языковой группы остается неизменно, какой бы текст мы ни взяли. Так, например, для английских текстов константа Зипфа равна приблизительно 0,1. Русские тексты с точки зрения законов Зипфа не исключение. Для русского языка коэффициент Зипфа получился равным 0,06-0,07.

Второй закон Зипфа "количество - частота". Рассматривая первый закон, факта, что разные слова входят в текст с одинаковой частотой не рассматривался. Зипф установил, что частота и количество слов, входящих в текст с этой частотой, тоже связаны между собой.



Если построить график, отложив по одной оси (оси Х) частоту вхождения слова, а по другой (оси Y) -- количество слов в данной частоте, то получившаяся кривая будет сохранять свои параметры для всех без исключения созданных человеком текстов! Как и в предыдущем случае, это утверждение верно в пределах одного языка. Однако и межъязыковые различия невелики. На каком бы языке текст ни был написан, форма кривой Зипфа останется неизменной. Могут немного отличаться лишь коэффициенты, отвечающие за наклон кривой (в логарифмическом масштабе, за исключением нескольких начальных точек, график - прямая линия).

Законы Зипфа универсальны. В принципе, они применимы не только к текстам. Характеристики популярности узлов в сети Интернет - тоже отвечают законам Зипфа. Не исключено, что в законах отражается "человеческое" происхождение объекта.

Что дают законы Зипфа? Как с их помощью извлечь слова, отражающие смысл текста? Если воспользоваться первым законом Зипфа и построить график зависимости ранга от частоты, то исследования показывают, что наиболее значимые слова лежат в средней части диаграммы. Слова, которые попадаются слишком часто, в основном оказываются предлогами, местоимениями, в английском - артиклями и т.п. Редко встречающиеся слова тоже, в большинстве случаев, не имеют решающего смыслового значения.



От того, как будет выставлен диапазон значимых слов, зависит многое. Поставив широко - нужные термины потонут в море вспомогательных слов; установив узкий диапазон - потеряются смысловые термины. Каждая поисковая система решает проблему по-своему, руководствуясь общим объемом текста, специальными словарями и т.п.

Если проанализировать выделенную область значимых слов, то можно отметить, что не все слова, которые попали в нее, отражают смысл текста. Эти слова являются "шумом", помехой, которая затрудняет правильный выбор. "Шум" можно уменьшить путем предварительного исключения из исследуемого текста некоторых слов. Для этого создается словарь ненужных слов - стоп-слов (словарь называется стоп-лист). Например, для английского текста стоп-словами станут термины: the, a, an, in, to, of, and, that... и так далее. Для русского текста в стоп-лист могли бы быть включены все предлоги, частицы, личные местоимения и т. п. Наверняка попали бы и слова из нашего "шума": на, не, для, это. Есть и другие способы повысить точность оценки значимости терминов .

До сих пор рассматривался отдельно взятый документ, не принимая во внимание, что он входит в базу данных наряду с множеством других документов. Если представить всю базу данных как единый документ, к ней можно будет применить те же законы, что и к единичному документу. Чтобы избавиться от лишних слов и в тоже время поднять рейтинг значимых слов, вводят инверсную частоту термина. Значение этого параметра тем меньше, чем чаще слово встречается в документах базы данных. Вычисляют его по формуле: Инверсная частота терминаi = log (количество документов в базе данных / количество документов с термином i) . Теперь каждому термину можно присвоитьвесовой коэффициент, отражающий его значимость: Вес термина i в документе j = частота термина i в документе j х инверсная частота термина i. Современные способы индексирования не ограничиваются анализом перечисленных параметров текста. Поисковая машина может строить весовые коэффициенты с учетом местоположения термина внутри документа, взаимного расположения терминов, частей речи, морфологических особенностей и т.п. В качестве терминов могут выступать не только отдельные слова, но и словосочетания. Джорж Зипф опубликовал свои законы в 1949 году. Пять лет спустя знаменитый математик Беноит Мандлеброт (Benoit Mandlebrot) внес небольшие изменения в формулы Зипфа, добившись более точного соответствия теории практике. Без этих законов сегодня не обходится ни одна система автоматического поиска информации. Математический анализпозволяет машине с хорошей точностью, без участия человека распознать суть текста.

5. Речевое общение в системах «Человек - ПК»



В узком смысле проблематика ком­пьютерной лингвистики часто связывается с моделированием общения, в частности, с обеспечением общения человека с ЭВМ на естественном или ограниченном естественном языке. Это относится к оптимизации языка как средства общения. Впрочем, компьютерные моде­ли общения часто используются для изучения самого процесса общения. Остановимся подробнее на опыте создания и использования именно таких моделей.

Изучение уже накопившегося опыта эксплуатации компьютерных систем, требовавших обеспечения взаимодействия с ЭВМ на естествен­ном языке, позволило исследователям по-новому взглянуть на функции и структуру естественной коммуникации. В центр внимания попали во­просы, которые ранее были на периферии теории диалога, дискурс-ана­лиза и теории коммуникации. Что обеспечивает естественность общения? Каковы условия связности беседы? Когда общение оказывается успеш­ным? В каких случаях возникают коммуникативные неудачи и можно ли их избежать? Какие стратегии общения используют участники комму­никативного взаимодействия при достижении своих коммуникативных целей? Это далеко не исчерпывающий список теоретических проблем, обнаружившихся в связи с функционированием компьютерных моделей общения.

Одной из наиболее интересных компьютерных моделей диалога, вызвавшей оживленные теоретические дискуссии, была программа Джо­зефа Вейценбаума «Элиза», первый вариант которой появился в 1966 г. Изначально «Элиза» создавалась как игрушка, как учебный образец программы-имитатора, целью которой является не моделирование мыш­ления в точном смысле, а моделирование речевого поведения. Программа поддерживала разговор с собеседником в реальном масштабе времени, однако при ее разработке были использованы ограниченные програм­мистские ресурсы, лингвистический анализ и синтез также были сведены к минимуму. Тем не менее программа функционировала столь успешно, что фактически опровергла известный тест Тьюринга на создание искус­ственного интеллекта.

Программа «Элиза» была использована группой исследователей во главе с М. Макгайром для изучения структуры диалога и особенностей естественноязыковой коммуникации. В проводившемся эксперименте с «Элизой» беседовали в течение часа 24 испытуемых. Общение происходило с помощью телетайпа. За время беседы каждый участник ввел от 10 до 65 реплик и получил на них ответы. По окон­чании 15 участников (62 %) были уверены, что им отвечал человек, 5 испытуемых (21 %) обнаружили определенные колебания и лишь че­тверо участников (17%) были абсолютно уверены, что общались с ЭВМ. С лингвистической точки зрения алгоритмы программы «Элиза» включа­ют минимум лингвистической информации. Во-первых, это комплекс ключевых слов, которые актуализуют некоторые устойчивые коммуни­кативные формулы (шаблоны), во-вторых, способность относительно несложно трансформировать предшествующее высказывание. Например, программа в состоянии переделать предшествующее утверждение в об­щий вопрос. В одном из вариантов программы «Элиза» перевоплощается в доктора-психиатра.

По внешним характеристикам перед нами предстает совершенно нормальная беседа врача с пациентом. Между тем даже поверхностный анализ показывает, что программа «Доктор» не понимает собеседника в точном смысле: она не имеет своей модели мира, не строит в ней ото­бражение представлений/знаний собеседника, не модифицирует модель мира с каждым новым высказыванием, не накапливает информацию, хотя у нее есть некоторые аналоги кратковременной и долговремен­ной памяти. Например, она способна выделить упоминание терма мать и в последующем вставить этот терм в шаблон «Вы говорили об X», кото­рый представляет собой косвенно-инициирующую реплику (косвенный вопрос). По приведенному фрагменту видно, что программа содержит также шаблоны «Как давно XI», «Расскажите больше об X», «Пожалуйста, не будьте столь кратки», побуждающие адресата продолжить общение.

Интересно, что существенная тематическая ограниченность комму­никации и значительное количество ошибок и неточностей в ответе (порядка 19% неточных или выпадающих из контекста реплик «Элизы» в упоминавшемся эксперименте М. Макгайра), не помешали испытуе­мым признать партнера по коммуникации человеком. Дело здесь совсем не в патологической глупости испытуемых. Это проявление важнейшей особенности коммуникации на естественном языке: естественноязыковой дискурс очень терпим по отношению к сбоям и ошибкам — он избыточен и помехоустойчив. Реплики «Элизы», выпадавшие из нормального обще­ния, испытуемые легко объясняли обычными сбоями в понимании своей предшествующей реплики, не вполне нормальными условиями общения, шутливым настроением партнера. Устойчивость естественного дискурса объясняется также способностями человека к интерпретации речевых действий: человек, принимающий роль участника диалога, ведет себя соответствующим образом. Имея установку на общение, он стремится включать в коммуникацию все то, что по форме напоминает речевой акт, реплику. Иными словами, он склонен наделять смыслом то, что часто смысла не имеет. В этом случае испытуемые сами порождают смысл диалога, сами обеспечивают его связность, сами приписывают партнеру коммуникативные интенции.

Второй важный вывод эксперимента: испытуемые довольно быстро принимали решение о том, кто перед ними — компьютер или человек. 22 участника из 24 уяснили для себя ситуацию не более, чем за пять обменов репликами, и далее не меняли своего решения. Определение ролей в коммуникации относится к метауровню общения, поскольку это составляет одну из предпосылок успешной коммуникации, предохраняю­щей общение от многочисленных коммуникативных неудач.

определение ролей участников во многом определяет выбор стратегии коммуникативного поведения. Действительно, лучше сразу определить, с кем мы разговариваем по телефону — с давним другом или чиновником налоговой инспекции. Выяснение того, кем является собеседник — машиной или человеком, также относится к метауровню общения, и испытуемые старались установить ролевые характеристики партнера как можно раньше.

Это свойство естественноязыковой коммуникации можно назвать принципом приоритета метакоммуникативных параметров ситуации об­щения.

Третье важное следствие из эксперимента М. Макгайра связано с су­ществованием различных типов коммуникативного взаимодействия меж­ду людьми. Успешное взаимодействие между человеком и програм­мой типа «Элиза» возможно только в ситуации, когда происходит так называемое «ассоциативное общение», при котором реплики диа­лога связаны не столько логическими отношениями типа «причина-следствие», «посылка—заключение», а ассоциациями. Ассоциативное об­щение не имеет конкретной направленности; само поддержание беседы может служить ее оправданием. Собеседники не преследуют цели решить какую-то проблему или выработать единую точку зрения на какой-то вопрос. В классификации Р. Якобсона для коммуникации такого типа предложен термин «фатическое общение». Заметим, что беседа врача-психиатра с пациентом по форме также имеет вид фатического общения, хотя и преследует вполне определенные цели сбора данных о заболевании пациента и последующем вербальном и невер­бальном воздействии на его психику для достижения лечебного эффекта. «Элиза» не смогла бы успешно имитировать общение в коммуникатив­ной ситуации, названной М. Макгайром «решение задач», поскольку она не способна понять проблемную ситуацию, то есть построить модель мира дискурса, определить альтернативы выхода из проблемы, выбрать одну из альтернатив и т. д. Одна из типичных стратегий «ухода от не­понимания», реализованная в программе «Элиза» — смена темы беседы. Очевидно, что такая стратегия ведения беседы вряд ли приведет к успеху при совместном поиске решения проблемы.

Наконец, четвертый вывод можно сформулировать как неуниверсаль­ность правил коммуникативного взаимодействия. Он касается самих законо­мерностей общения на естественном языке. Каждый тип коммуникации обслуживается своим набором относительно простых правил, обеспечива­ющих связность дискурса, его осмысленность для участников. Типология видов общения задается соответствующими наборами правил. Из экспе­риментов М. Макгайра с программой «Элиза» следует, что кроме ассоциа­тивного способа общения, выделяется еще «решение за­дач», «задавание вопросов» и «уточнение понимания». С лингвистической точки зрения эти типы, скорее всего, неоднородны, пересекаются и да­же находятся на разных уровнях дискурса. Так, «уточнение понимания» относится к метауровню коммуникации, «задавание вопросов» может быть частью стратегии «решение задач» и «уточнения понимания» и т. д. Существенно, что компьютерный эксперимент с программой, моделиру­ющей поведение участника коммуникации, позволяет экспериментально подтвердить или опровергнуть многие положения теории диалога, разра­ботанные как в лингвистике, так и в смежных дисциплинах — в дискурс-анализе, теории коммуникации, психологии и социологии общения.

 

6. Предмет прикладной лингвистки. Связь прикладной лингвистики с тео­ретической лингвистикой. Российский и западный подходы к термину
«прикладная лингвистика»

Термин «прикладная лингвистика» многозначен. В российской и за­падной лингвистике он имеет совершенно разные интерпретации. В за­падной лингвистике (applied linguistics, angewandte Linguistik) он связыва­ется прежде всего с преподаванием иностранных языков, включая методи­ку преподавания, особенности описания грамматики для учебных целей, преподавание языка как родного и иностранного и пр.1) В СССР термин прикладная лингвистика стал широко употребляться в 50-е гг. в связи с разработкой компьютерных технологий и появлением систем автомати­ческой обработки информации (автоматизированных систем управления, систем информационного поиска, автоматизированных систем обработ­ки текста и пр.). Именно поэтому в русскоязычной литературе вместо термина прикладная лингвистика в том же значении часто используются термины «компьютерная лингвистика», «вычислительная лингвистика», «автоматическая лингвистика», «инженерная лингвистика»; между тем отождествление этих дисциплин не вполне удачно, поскольку каждая из них имеет свой предмет и методы работы в рамках прикладной лин­гвистики как более широкого направления. В. А. Звегинцев, обсуждая соотношение между теоретической и прикладной лингвистикой, писал, что «под прикладной лингвистикой чаще всего понимают все виды авто­матической обработки речевой информации (Language-data Processing) — машинное распознавание устной речи, машинный перевод, автоматиче­скую классификацию технических и иных документов, автоматическое аннотирование текстов, автоматическое кодирование и пр. И действи­тельно, автоматическая обработка речевой информации составляет в на­стоящее время основную исследовательскую проблематику прикладной лингвистики. Но все же было бы неправильно замыкать прикладную лингвистику в пределах данной проблематики».

Широкий взгляд на область, охватываемую прикладной лингви­стикой, приобретает все больше сторонников. Широта проблематики объясняет удивительную способность прикладной лингвистики суще­ственно увеличивать и активизировать «контакты лингвистики с самыми различными науками». Междисциплинарные исследования функционирования языка оказывают решающее влияние на лингвистическую теорию, способствуя обновлению концептуального аппарата современного языкознания.

В настоящее время прикладная лингвистика понимается широко — как деятельность по приложению научных знаний об устройстве и функци­онировании языка в нелингвистических научных дисциплинах и в различных сферах практической деятельности человека, а также теоретическое осмы­сление такой деятельности.

Пе­ред языкознанием практически с самого начала его существования встала задача оптимизации функций языка — будь то формирование и поддер­жание традиции чтения и понимания сакральных текстов (экзегетика и герменевтика) или обеспечение контактов между разными народами. В философии и лингвистической теории принято различать коммуни­кативную, эпистемическую и когнитивную функции языка, которые, конечно, далеко не однородны и, в свою очередь, разделяются на бо­лее мелкие функции. Так, коммуникативная функция включает в себя фатическую (контактоустанавливающую) и информационную (в узком смысле) функции, функцию воздействия, социальную функцию (про­являющуюся в языковой политике). С точки зрения эпистемической функции языковая система предстает как способ хранения и переда­чи знаний (хранение знаний)3), а также как отражение специфически национального взгляда на мир — отражение национального самосозна­ния. Согласно В. А. Звегинцеву, в рассматриваемой функции язык служит для дискретизации знаний и их объективизации. Когнитивная функция относится к той области жизни языка, которая связана с мышлением человека и с познанием действительности. С помощью языка знания интерпретируются, что приводит к порождению новых знаний.

С функциональной точки зрения прикладная лингвистика может быть определена как научная дисциплина, в которой изучаются и разраба­тываются способы оптимизации функционирования языка. Функции языка задают точки отсчета для классификации огромной области приложения лингвистических знаний. Оптимизацией коммуникативной функции за­нимаются такие дисциплины, как теория перевода, машинный перевод, теория и практика преподавания родного и неродного языка, теория и практика информационно-поисковых систем, создание информацион­ных и, шире, искусственных языков, теория кодирования. Социальная функция языка — как часть коммуникативной — находит отражение в со­циолингвистике, в языковом планировании и языковой политике, в орфо­графии и орфоэпии, в теории воздействия, в политической лингвистике. Эпистемическая функция так или иначе проявляется в лексикографии (в том числе компьютерной), в терминологии и терминографии, в корпус­ной и полевой лингвистике. Оптимизация когнитивной функции сосре­доточена в компьютерной лингвистике, в «лингвистической криминоло­гии», в психолингвистике и афазиологии, в квантитативной лингвистике.

Основные факторы влияния прикладной лингвистики на теоритическую можно сформулировать в виде четырех тенденций, проявившихся при создании новых лингвистических теорий:

• формализация метаязыка теоретической лингвистики;

• изменение принципов верификации научных результатов, проявившееся в ориентации на реальный, предполагаемый или гипотетический компьютерный эксперимент;

• модификация идеи объяснения в лингвистике;

• переход от классификации, простого описания к построению компьютерных и/или формальных моделей функционирования языка.


Дата добавления: 2015-04-16; просмотров: 25; Нарушение авторских прав







lektsii.com - Лекции.Ком - 2014-2021 год. (0.015 сек.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав
Главная страница Случайная страница Контакты