Меню

Алфавит мощность алфавита примеры двоичных алфавитов



Мощность алфавита в информатике

Понятие алфавита в информатике немного отличается от того, что изучают дети в первом классе. Здесь так называют знаковую систему, при помощи которой может быть передано информационное сообщение. Оно состоит из символов — минимально значимых составляющих, которые являются неделимыми. Одним из важнейших терминов в этой области является мощность алфавита.

Мощность алфавита в информатике

Описание термина

Понятие мощности алфавита находится в основании изучения информатики. Алфавитом принято называть набор многочисленных символов. Сумма всех их в определённом языке и есть алфавитная мощность. Иными словами, это количество всех символов, входящих в конкретно взятый язык. Сюда входят не только буквы, но и прочие обозначения, в частности:

Мощность алфавита в информатике

  • числа;
  • спецсимволы;
  • двоеточия;
  • пробел;
  • скобки;
  • запятые;
  • точки;
  • многоточия и прочее.

Это определение считается обобщённым и не принимает во внимание вычисления информационной составляющей сообщения. Она может содержать в себе числа, знаки препинания и прочее. В этом случае прибегают к использованию другого способа. Его суть основывается на том, что любая буква, цифра или знак обладают собственным информационным объемом данных. Компьютер работает с этим информационным кодом и распознает то, что было написано.

Основным постулатом в информатике является тот факт, что устройство разбирает введённую информацию исключительно в двоичном коде в форме нуля и единицы. В итоге получается, что абсолютно любой символ алфавита может быть успешно закодирован при помощи соответствующего подбора этих двух цифровых символов. Самая маленькая последовательность, применяемая при обозначении какой-либо цифры, буквы или другого знака, состоит из двух элементов.

Информационная масса отдельно взятого символа обычно изображается в форме информационной стандартной измерительной единицы, которая называется «бит». Восемь битов становятся равны одному байту.

Отображение символов в двоичном коде

Алфавитная мощность может быть использована на практике только при наличии двоичного кода. В качестве примера можно использовать упрощённый алфавит, состоящий всего из четырёх символов. В этом случае разрядность их и информационное представление описываются следующим образом:

  • 1 — 00;
  • 2 — 01;
  • 3 — 10;
  • 4 — 11.

Мощность алфавита в информатике

Из этого списка можно сделать вывод о том, что если алфавитная мощность равняется 4, то масса отдельного единичного символа будет составлять 2 бита. Если же есть алфавит, состоящий из 8 символов, то при подборе двоичного трёхзначного кода для него комбинационное количество будет следующим:

  • 1 — 000;
  • 2 — 001;
  • 3 — 010;
  • 4 — 011;
  • 5 — 100;
  • 6 — 101;
  • 7 — 110;
  • 8 — 111.

Иными словами, если алфавитная мощность равна 8, то вес отдельно взятого символа для двоичного трёхзначного кода составит 3 бита.

Вычисление мощности алфавита

Численность знаков в коде и мощность алфавита всегда выражают определённую зависимость. Для того чтобы определить информационный объём, который заключается в сообщении, прибегают к специальному способу измерения, которое выражается в формуле мощности алфавита: N = 2 в n -ной степени.

Мощность алфавита в информатике

Эта формула была изобретена американским инженером Ральфом Хартли более сотни лет тому назад. Она применяется для работы с равновероятными событиями и используется для определения мощности конкретного буквенного набора, которая обозначается буквой N (информационная масса или объём). n означает численность бит в словесной единице, иными словами, количество знаков внутри двоичного кода. Так, если n равен 1, то N тоже равен 1, при n = 2 N = 4, при n = 3 N = 8, при n = 4 N = 16.

Чтобы сформулировать теорию о численности информации в набранном словосочетании, пользуются формулой I=K*i. В этом случае К обозначает численность всех символов в предложении, а i — это информационная масса символа.

При ответе на вопрос, как найти мощность алфавита, нужно сказать, что в русском языке 33 буквы, поэтому это можно выразить как N = 33. Для сравнения, аналогичный показатель в английском, немецком и французском языках равняется 26, в испанском — 27. Венгерский язык, например, является 40-символьным.

Существует также и клавиатурный язык, куда входят не только буквы, но и дополнительные знаки. Так, в русском языке есть ещё 10 цифр и 11 символов, а также пробел и пара скобок. Их мощность прибавляется к аналогичному буквенному показателю, и на выходе получается N = 33+10+11+1+2=57. В некоторых случаях букву «ё» не выделяют в качестве отдельного самостоятельного символа, и в таком случае полная мощность русского алфавита становится равна 56.

Читайте также:  Упала мощность пылесоса томас

Определение информационного объёма в тексте

Почти всегда при наборе текста на компьютерах и других электронных устройствах приходится сталкиваться с написанием различных символов. К ним следует отнести:

  • заглавные и жирные буквы;
  • курсив;
  • скобки;
  • знаки препинания;
  • вычислительные операции и прочее.

По всем расчётам получается, что мощность компьютерного алфавита составляет 256 различных символов и вариантов. В соответствии с формулой Хартли, N = 256, а i — масса любого из значков в клавиатурном алфавите соответствует одному байту, или восьми битам.

Мощность алфавита в информатике

Размер любой напечатанной фразы может быть вычислен по формуле V=K ⋅ log2N. В этом случае N обозначает количество всех символов в алфавите, а K — это численность знаков непосредственно в напечатанной фразе. Так, например, имеется произвольный текст объёмом в 25 листов. На каждом из них расположено по 45 строчек текста, содержащих по 58 символов.

Исходя из этого, на любой отдельной странице будет 45*58 = 2610 байт информации. В целом же по всему тексту этот объём будет равен 2610*25 = 65250 байт. Для обозначения мощности алфавита в информатике общепринятым вариантом является буква N из формулы Хартли. Именно ее чаще всего указывают в большинстве учебников и профессиональной литературе.

В кодовой таблице ASCII используют восьмибитную кодировку текстовых сообщений. Она позволяет полностью вместить основной набор символов кириллического и латинского алфавитов как в строчном, так и в прописном вариантах. Также с её помощью можно отобразить знаки препинания, цифры и прочие базовые знаки. Часто пользователям приходится иметь дело с более крупными объёмами, состоящими из триллионов байтов.

Для удобства их всегда переводят в увеличенные величины — кило-, мега-, гигабайты и прочее. Для их упрощённого обозначения используются специальные сокращения: Кб, Мб, Гб и так далее. 1 Кб равняется 1024 байтам (2 байта в десятой степени), 1 Мб составляет 1024 Кб (2 Кб в десятой степени) и так далее. Исходя из этого, 65250 байт будут составлять 63,72 килобайта.

Поскольку один отдельный символ состоит из 8 битов, то устанавливать их кодировку целиком не представляется возможным. Вместо этого предпочтительнее образовать кодировку трёхбитовых комбинаций. Расчёт этого действия проводится по формуле Хартли, где n-ная степень будет равняться трём. В результате получается N, равная 8.

При определении мощности чаще всего используют алфавитный подход. Он говорит о том, что объём информации, заложенной в тексте, зависит исключительно от мощности самого алфавита и размера сообщения (то есть количества символов, содержащихся в нём). Этот показатель не имеет никакой связи со смысловым наполнением для человека.

Примеры расчёта мощности

Мощность алфавита в информатике

От пользователей или обучающихся в задачах часто требуют научиться определять информационный объём какого-либо сообщения, приняв информационный вес символа за один байт. Так, в отрывке из поэмы Н. Н. Некрасова «Крестьянские дети»:

«Однажды, в студеную зимнюю пору,

Я из лесу вышел; был сильный мороз»

будет 67 символов вместе с пробелами, то есть, в соответствии с условиями задания, 67 байт. Их количество умножают на 8 (количество битов в байте), и на выходе получается 536 битов.

Таким образом, зная в теории суть мощности, можно без проблем определять информационный объем различных сообщений.

Источник

§ 1.3. Двоичное кодирование

Ключевые слова:

  • дискретизация
  • алфавит
  • мощность алфавита
  • двоичный алфавит
  • двоичное кодирование
  • разрядность двоичного кода

1.3.1. Преобразование информации из непрерывной формы в дискретную

Для решения своих задач человеку часто приходится преобразовывать имеющуюся информацию из одной формы представления в другую. Например, при чтении вслух происходит преобразование информации из дискретной (текстовой) формы в непрерывную (звук). Во время диктанта на уроке русского языка, наоборот, происходит преобразование информации из непрерывной формы (голос учителя) в дискретную (записи учеников).

Читайте также:  Расчет мощности дизельной электростанции

Информация, представленная в дискретной форме, значительно проще для передачи, хранения или автоматической обработки. Поэтому в компьютерной технике большое внимание уделяется методам преобразования информации из непрерывной формы в дискретную.

Дискретизация информации — процесс преобразования информации из непрерывной формы представления в дискретную.

Рассмотрим суть процесса дискретизации информации на примере.

На метеорологических станциях имеются самопишущие приборы для непрерывной записи атмосферного давления. Результатом их работы являются кривые, показывающие, как изменялось давление в течение длительных промежутков времени (барограммы). Одна из таких кривых, вычерченная прибором в течение семи часов проведения наблюдений, показана на рис. 1.4.

Рис. 1.4.
Барограмма

На основании полученной информации можно построить таблицу, в которую будут занесены показания прибора в начале измерений и на конец каждого часа наблюдений (рис. 1.5).

Рис. 1.5.
Таблица, построенная по барограмме

Полученная таблица даёт не совсем полную картину того, как изменялось давление за время наблюдений: например, не указано самое большое значение давления, имевшее место в течение четвёртого часа наблюдений. Но если занести в таблицу значения давления, наблюдаемые каждые полчаса или 15 минут, то новая таблица будет давать более полное представление о том, как изменялось давление.

Таким образом, информацию, представленную в непрерывной форме (барограмму, кривую), мы с некоторой потерей точности преобразовали в дискретную форму (таблицу).

В дальнейшем вы познакомитесь со способами дискретного представления звуковой и графической информации.

1.3.2. Двоичное кодирование

В общем случае, чтобы представить информацию в дискретной форме, её следует выразить с помощью символов какого-нибудь естественного или формального языка. Таких языков тысячи. Каждый язык имеет свой алфавит.

Алфавит — набор отличных друг от друга символов (знаков), используемых для представления информации. Мощность алфавита — это количество входящих в него символов (знаков).

Алфавит, содержащий два символа, называется двоичным алфавитом (рис. 1.6). Представление информации с помощью двоичного алфавита называют двоичным кодированием. Закодировав таким способом информацию, мы получим её двоичный код.

Рис. 1.6.
Примеры символов двоичного алфавита

Рассмотрим в качестве символов двоичного алфавита цифры 0 и 1.

Покажем, что любой алфавит можно заменить двоичным алфавитом. Прежде всего, присвоим каждому символу рассматриваемого алфавита порядковый номер. Номер представим с помощью двоичного алфавита. Полученный двоичный код будем считать кодом исходного символа (рис. 1.7).

Рис. 1.7.
Схема перевода символа произвольного алфавита в двоичный код

Если мощность исходного алфавита больше двух, то для кодирования символа этого алфавита потребуется не один, а несколько двоичных символов. Другими словами, порядковому номеру каждого символа исходного алфавита будет поставлена в соответствие цепочка (последовательность) из нескольких двоичных символов.

Правило двоичного кодирования символов алфавита мощности больше двух представим схемой на рис. 1.8.

Рис. 1.8.
Схематическое представление получения двоичных кодов

Двоичные символы (0, 1) здесь берутся в заданном алфавитном порядке и размещаются слева направо. Двоичные коды (цепочки символов) читаются сверху вниз. Все цепочки из двух двоичных символов (кодовые комбинации) позволяют представить четыре различных символа произвольного алфавита:

Цепочки из трёх двоичных символов получаются дополнением двузначных двоичных кодов справа символом 0 или 1. В итоге трёхзначных двоичных кодовых комбинаций получается 8 — вдвое больше, чем двузначных:

Соответственно, четырёхзначный двоичный код позволяет получить 16 кодовых комбинаций, пятизначный — 32, шестизначный — 64 и т. д.

Длину двоичной цепочки — количество символов в двоичном коде — называют разрядностью двоичного кода.

Обратите внимание, что 2 = 2 1 , 4 = 2 2 , 8 = 2 3 , 16 = 2 4 , 32 = 2 5 и т. д.

Если количество кодовых комбинаций обозначить буквой N, а разрядность двоичного кода — буквой i, то выявленная закономерность в общем виде будет записана так:

Читайте также:  Управление потоками активной мощности

Задача. Вождь племени Мульти поручил своему министру разработать двоичный код и перевести в него всю важную информацию. Какой разрядности потребуется двоичный код, если алфавит, используемый племенем Мульти, содержит 16 символов? Выпишите все кодовые комбинации.

Решение. Так как алфавит племени Мульти состоит из 16 символов, то и кодовых комбинаций им нужно 16. В этом случае длина (разрядность) двоичного кода определяется из соотношения: 16 = 2 i . Отсюда i=4.

Чтобы выписать все кодовые комбинации из четырёх 0 и 1, воспользуемся схемой на рис. 1.8: 0000, 0001, 0010, ООН, 0100, 0101, 0110, 0111, 1000, 1001, 1010, 1011, 1100, 1101, 1110, 1111.

На сайте http://school-collection.edu.ru/ размещена виртуальная лаборатория «Цифровые весы». С её помощью вы можете самостоятельно открыть метод разностей — один из способов получения двоичного кода целых десятичных чисел.

1.3.3. Универсальность двоичного кодирования

В начале этого параграфа вы узнали, что информация, представленная в непрерывной форме, может быть выражена с помощью символов некоторого естественного или формального языка. В свою очередь, символы произвольного алфавита могут быть преобразованы в двоичный код. Таким образом, с помощью двоичного кода может быть представлена любая информация на естественных и формальных языках, а также изображения и звуки (рис. 1.9). Это и означает универсальность двоичного кодирования.

Рис. 1.9.
Преобразование различных форм представления информации в двоичный код

Двоичные коды широко используются в компьютерной технике, требуя только двух состояний электронной схемы — «включено» (это соответствует цифре 1) и «выключено» (это соответствует цифре 0).

Простота технической реализации — главное достоинство двоичного кодирования. Недостаток двоичного кодирования — большая длина получаемого кода.

1.3.4. Равномерные и неравномерные коды

Различают равномерные и неравномерные коды. Равномерные коды в кодовых комбинациях содержат одинаковое число символов, неравномерные — разное.

Выше мы рассмотрели равномерные двоичные коды.

Примером неравномерного кода может служить азбука Морзе, в которой для каждой буквы и цифры определена последовательность коротких и длинных сигналов. Так, букве Е соответствует короткий сигнал («точка»), а букве Ш — четыре длинных сигнала (четыре «тире»). Неравномерное кодирование позволяет повысить скорость передачи сообщений за счёт того, что наиболее часто встречающиеся в передаваемой информации символы имеют самые короткие кодовые комбинации.

Самое главное

Дискретизация информации — процесс преобразования информации из непрерывной формы представления в дискретную. Чтобы представить информацию в дискретной форме, её следует выразить с помощью символов какого-нибудь естественного или формального языка.

Алфавит языка — набор отличных друг от друга символов, используемых для представления информации. Мощность алфавита — это количество входящих в него символов.

Алфавит, содержащий два символа, называется двоичным алфавитом. Представление информации с помощью двоичного алфавита называют двоичным кодированием. Двоичное кодирование универсально, так как с его помощью может быть представлена любая информация.

Вопросы и задания

  1. С какой целью человек осуществляет преобразование информации из одной формы представления в другую? Приведите примеры таких преобразований.
  2. В чём суть процесса дискретизации информации?
  3. Что такое алфавит языка?
  4. Что такое мощность алфавита? Может ли алфавит состоять из одного символа?
  5. Какие символы могут входить в двоичный алфавит?
  6. Сколько существует различных последовательностей из символов «плюс» и «минус» длиной ровно пять символов?
  7. Почему двоичное кодирование является универсальным?
  8. Как связаны мощность алфавита и разрядность двоичного кода, достаточного для кодирования всех символов этого алфавита?
  9. Вождь племени Мульти поручил своему министру разработать двоичный код и перевести в него всю важную информацию. Достаточно ли пятиразрядного двоичного кода, если алфавит, используемый племенем Мульти, содержит 26 символов?
  10. От разведчика была получена следующая шифрованная радиограмма, переданная с использованием азбуки Морзе:

При передаче радиограммы было потеряно разбиение на буквы, но известно, что в радиограмме использовались только следующие буквы:

Источник