Студопедия

КАТЕГОРИИ:

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника



Первый закон Зипфа




Читайте также:
  1. Ex lege XII tabularum aes alienum hereditarium... pro portionibus... ipso iure divisum (C. 2. 3.26). - По законам XII таблиц наследственные долги делятся автоматически на доли.
  2. I закон термодинамики
  3. I.4.2) Законы.
  4. II закон Ньютона.
  5. II закон термодинамики. Теорема Карно-Клаузиуса
  6. II. Организм как целостная система. Возрастная периодизация развития. Общие закономерности роста и развития организма. Физическое развитие……………………………………………………………………………….с. 2
  7. II.3. Закон как категория публичного права
  8. II.3.2) Классификация законов.
  9. II.3.3) Сила и пространство действия законов.
  10. III закон Ньютона.

Выбрав любое слово можно подсчитать, сколько раз оно встречается в тексте. Эта величина называется частотой вхождения слова. Далее, можно измерить частоту каждого слова текста. Некоторые слова будут иметь одинаковую частоту. Их нетрудно сгруппировать, пронумеровать и расположить группы по мере убывания их частоты. Порядковый номер частоты назовѐм рангом частоты. Наиболее часто встречающиеся слова будут иметь ранг 1, следующие за ними - 2 и т.д. Вероятность встретить в тексте наугад выбранное слово будет равна отношению частоты вхождения этого слова к общему числу слов в тексте: Вероятность: = Частота вхождения слова / Число слов Зипф обнаружил интересную закономерность. Оказывается, если умножить вероятность обнаружения слова в тексте на ранг частоты, то получившаяся величина (С) приблизительно постоянна! С: = (Частота вхождения слова * Ранг частоты) / Число слов Таким образом, ранг (х) и частота (у) связаны формулой вида y = k/x. Еѐ график, как известно, равносторонняя гипербола.

Следовательно, по 1-му закону Зипфа, если самое распространенное слово встречается в тексте, например, 100 раз, то следующее по частоте слово вряд ли встретится 99 раз. Частота вхождения второго по популярности слова, с высокой долей вероятности, окажется на уровне 50. Значение константы в разных языках различно, но внутри одной языковой группы остается неизменно, какой бы текст мы ни взяли. Так, например, для английских текстов константа Зипфа равна приблизительно 0,1. Русские тексты, с точки зрения закона Зипфа, не выглядят исключением закон безупречен, и тут коэффициент Зипфа равен 0,06-0,07. Американский биолог В. Ли попытался опровергнуть закон Зипфа, строго доказав, что случайная последовательность символов подчиняется закону Зипфа. Он сделал вывод, что закон Зипфа является чисто статистическим феноменом, не имеющим отношения к семантике текста. Хотя вывод В. Ли представляется недостаточно обоснованным, но сам по себе он интересен и проливает свет на природу открытой Зипфом закономерности.


Дата добавления: 2015-01-19; просмотров: 7; Нарушение авторских прав





lektsii.com - Лекции.Ком - 2014-2020 год. (0.009 сек.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав
Главная страница Случайная страница Контакты