Студопедия

КАТЕГОРИИ:

АстрономияБиологияГеографияДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРиторикаСоциологияСпортСтроительствоТехнологияФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника


Алфавитный подход к измерению информации




Если информация представлена в виде дискретного сообщения, то логично считать количеством информации его длину, то есть общее число знаков в сообщении. Но длина сообщения зависит не только от содержащейся в нем информации. На нее влияет мощность алфавита используемого языка. Чем меньше знаков в используемом алфавите, тем длиннее сообщение. Так, например, в алфавите азбуки Морзе всего три знака (точка, тире, пауза), поэтому для кодирования каждой русской или латинской буквы нужно использовать несколько знаков, и текст, закодированный по Морзе, будет намного длиннее, чем при обычной записи.

Пример: Сигнал SOS: 3 знака в латинском алфавите;

11 знаков в алфавите Морзе: ••• пауза – – – пауза •••.

Для упорядочивания измерений информационный объем сообщений принято измерять в битах. Один бит соответствует одному знаку двоичного алфавита. Итак, чтобы измерить длину сообщения, его нужно представить в двоичном виде и подсчитать количество двоичных знаков – битов. При этом совсем не обязательно уметь интерпретировать сообщения.

Пример.Пусть сообщение в двоичном алфавите выглядит следующим образом: 000100010001. Мы не знаем, какая информация была заложена в этом сообщении, но можем легко подсчитать его длину – 12 двоичных знаков, следовательно, его информационный объем равен 12-ти битам.

Такой способ измерения количества информации называется алфавитным подходом. При этом измеряется не содержание информации с точки зрения его новизны и полезности, а размер несущего информацию сообщения. При алфавитном подходе к определению количества информации одни и те же сведения, закодированные по-разному, будут иметь различный информационный объем. Сообщения одинаковой длины могут нести совершенно как совершенно бесполезные сведения, так и нужную информацию. Пример: Применяя алфавитный подход, получаем, что информационный объем слов “фыырпбьощ” и “компьютер” совершенно одинаков, а слов “ученик” и “учащийся” – различен.

Если алфавит содержит 2i знаков, то каждый из его знаков можно закодировать с помощью i знаков двоичного алфавита. Таким образом, объем информации I, содержащейся в сообщении длиной k при использовании алфавита мощностью 2i, равен

I=k*i бит.

Пример.Найдем информационный объем слова SOS, записанного в компьютерной кодировке. При кодировании букв в компьютере используется либо алфавит ASCII (American Standard Code for Information Interchange — американский стандартный код обмена информацией), состоящий из 28=256 знаков, либо алфавит Unicode, мощность которого 216 = 65536. В слове SOS три буквы, следовательно, его информационный объем 3•8=24 или 3•16=48 бит, в зависимости от используемой кодировки.

При алфавитном подходе к измерению информации количество информации зависит не от содержания, а от размера текста и мощности алфавита. При использовании двоичной системы (алфавит состоит из двух знаков: 0 и 1) каждый двоичный знак несет 1 бит информации. Сама единица измерения информации «бит» получила свое название от английского сочетания «binary digit» - «двоичная цифра».

Если допустить, что все символы алфавита встречаются в тексте с одинаковой частотой (равновероятно), то количество информации, которое несет каждый символ, вычисляется по формуле: i=log2N, где - N мощность алфавита.

Применение алфавитного подхода удобно прежде всего при использовании технических средств работы с информацией. В этом случае теряют смысл понятия «новые — старые», «понятные — непонятные» сведения. Алфавитный подход является объективным способом измерения информации в отличие от субъективного содержательного подхода.

Ограничения на максимальный размер алфавита теоретически не существует. Однако есть алфавит, который можно назвать достаточным. Это алфавит мощностью 256 символов. В алфавит такого размера можно поместить все практически необходимые символы: латинские и русские буквы, цифры, знаки арифметических операций, всевозможные скобки, знаки препинания....

Поскольку 256 = 28, то один символ этого алфавита «весит» 8 бит.

Компьютерные редакторы, в основном, работают с алфавитом размером 256 символов. В этом случае легко подсчитать объем информации в тексте. Если 1 символ алфавита несет 1 байт информации, то надо просто сосчитать количество символов; полученное число даст информационный объем текста в байтах.

Пусть небольшая книжка, сделанная с помощью компьютера, содержит 150 страниц; на каждой странице — 40 строк, в каждой строке — 60 символов. Значит, страница содержит 40x60=2400 байт информации. Объем всей информации в книге: 2400 х 150 = 360 000 байт.

 


Поделиться:

Дата добавления: 2015-09-15; просмотров: 85; Мы поможем в написании вашей работы!; Нарушение авторских прав





lektsii.com - Лекции.Ком - 2014-2024 год. (0.006 сек.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав
Главная страница Случайная страница Контакты