Второй закон Зипфа

⇐ ПредыдущаяСтр 7 из 7

Разные слова входят в текст с одинаковой частотой. Зипф установил, что частота и количество слов, входящих в текст с этой частотой, тоже связаны между собой. Если построить график, отложив по одной оси (оси Х) частоту вхождения слова, а по другой (оси Y) -- количество слов в данной частоте, то получившаяся кривая будет сохранять свои параметры для всех без исключения созданных человеком текстов! Причем межъязыковые различия невелики. На каком бы языке текст ни был написан, форма кривой Зипфа останется неизменной. Могут немного отличаться лишь коэффициенты, отвечающие за наклон кривой.

Как с помощью законов Зипфа извлечь слова, отражающие смысл текста? Воспользуемся 1-м законом (см. рис. 49). Наиболее значимые слова лежат в средней части гиперболы. Это понятно, потому что это часто встречающиеся предлоги, местоимения, артикли и т.п. Редко встречающиеся слова тоже зачастую не имеют решающего смыслового значения. От того, как будет выставлен диапазон значимых слов, во многом зависит результат поиска (широкий диапазон - нужные термины потонут в море вспомогательных слов; узкий диапазон - смысловые термины могут быть потеряны). Каждая поисковая система решает вопрос о выборе диапазона по-своему, руководствуясь общим объемом текста, словарями и т.п. Проведем эксперимент. Подвергнем абзац текста математическому анализу и попытаемся определить список значимых слов. В качестве примера возьмем следующий абзац: Законы Зипфа универсальны. В принципе, они применимы не только к текстам. Аналогична, например, зависимость количества городов от числа проживающих в них жителей. Характеристики популярности узлов в сети Интернет - тоже отвечают законам Зипфа. Не исключено, что в законах отражается "человеческое" происхождение объекта. Учѐные давно бьются над расшифровкой манускриптов Войнича. Никто не знает, на каком языке написаны тексты и тексты ли это вообще. Однако исследование манускриптов на соответствие законам Зипфа доказало: это созданные человеком тексты. Графики для манускриптов Войнича точно повторили графики для текстов на известных языках. Предположим, что областью значимых слов являются слова из диапазона частот от 2 до 3 (рис. 51). Анализ показывает, что не все слова, которые попали в диапазон значимых, отражают смысл текста. Смысл абзаца очень точно выражают слова: Зипфа, манускриптов, Войнича, законам. Интернетзапрос типа: «закон&Зипфа+манускрипт&Войнича» непременно найдет этот документ. Однако в область значимых слов попали и слова: на, не, для, например, это. Эти слова являются «шумом», который затрудняет правильный выбор. «Шум» можно уменьшить путем предварительного исключения из исследуемого текста некоторых слов. Для этого создается словарь ненужных слов (стоплист).

Например, для английского текста стоп-словами станут термины: the, a, an, in, to, of, and, that и т.д. Для русского текста в стоплист могли бы быть включены все предлоги, частицы, личные местоимения и т.п. Есть и другие способы повысить точность оценки значимости терминов. Современные способы индексирования не ограничиваются анализом перечисленных параметров текста. Поисковая машина может строить весовые коэффициенты с учетом местоположения термина внутри документа, взаимного расположения терминов, частей речи, морфологических особенностей и т.п. В качестве терминов могут выступать не только отдельные слова, но и словосочетания.

Дата добавления: 2015-01-19; просмотров: 363; Мы поможем в написании вашей работы!; Нарушение авторских прав

⇐ Предыдущая 1 2 3 4 5 67

lektsii.com - Лекции.Ком - 2014-2026 год. (5.039 сек.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав
Главная страница Случайная страница Контакты