Энтропия и релятивизм 2

Инвариант
С тех пор как в 1948 году Клод Шеннон ввел слово "информация" в технический обиход, оно стало Граалем всех графоманов. Больше бреда написано, разве что, в попытках опровержения Теории Относительности Эйнштейна. Особо, разумеется, отличились философы. У. Гильберт заметил когда-то по сходному поводу: "Сами философы по большей части ничего не ищут, не сильны в познании вещей опытом, праздны и ленивы; поэтому они своими трудами ничего не достигают и не видят того, что может внести свет в их рассуждения".

Рассматривая задачу транспорта сообщений, Шеннон сформулировал несколько важных положений. Два из них - это Энтропия и "энтропийный предел".

Оставляя в стороне понятие "Информация", рассмотрим сообщение как некоторый геометрический объект, а его представление в различных системах кодов - как обратимую трансформацию, сохраняющую нечто существенное, понимаемое как "содержание" сообщения.

Оговоримся, что "содержание" никоим образом не связано с "информацией". Сообщение может содержать информацию, не содержать информации, содержать дезинформацию. Для наших целей существенно только, что некоторая характеристика сообщения сохраняется (или, по крайней мере, может быть восстановлена) в результате любых допустимых преобразований исходного сообщения.

Под сообщением будем понимать последовательное (в цепочку) расположение символов заданного алфавита. Размер сообщения неважен, но конечен.

Такое сообщение обладает набором характеристик, две из которых относятся непосредственно к кодированию символа - его индекс в алфавите и его битовая ширина, а все другие (кратность символа в сообщении, например) являются характеристиками уже собственно сообщения.

Естественно выделить из всех возможных сообщений обладающие минимальным набором характеристик - т.е. одиночные символы, которые будем называть примитивными сообщениями или примитивами.

Введем операцию композиции, создающую из примитивов новое композитное сообщение.

Вероятно, впервые в инженерную практику, этот подход был введен в статьях Габриэля Крона в 1935 г. и суммирован в его книгах "Тензорный анализ сетей" и "Диакоптика". Геометрически, Крон рассматривал дискретные разрывные преобразования, сохраняющие площадь фигуры.

Неизвестно, знал ли Клод Шеннон о его работах. Во всяком случае, в попавшихся мне книгах по Теории Информации и по Теории Систем, ссылок на работы Г. Крона не встретилось.

Если, вслед за Хартли, рассматривать каждый алфавитный символ как элементарный выбор, а сообщение в целом - как последовательность таких выборов, то каждому сообщению можно поставить в соответствие Координатное пространство, точки которого будут соответствовать всем возможным сообщениям данного размера. Очевидно, что при композиции сообщений размеры этих пространств перемножаются.

Представляется удобным ввести характеристику, аддитивную относительно операции композиции сообщений, так, чтобы характеристика суммы сообщений была равна сумме исходных характеристик.

Важно, что вводимая таким образом - коммутативная в силу симметрии - характеристика, по определению, безразлична к структуре композитной системы.

Один очевидный вариант, предложенный Хартли, это использование логарифма от размера Координатного пространства. При этом Хартли, естественно, исходил из предположения об однородности (изотропности) Координатного пространства.

Хартли пишет:

"Оценивая способность физической системы к передаче информации, мы, следовательно, должны игнорировать фактор интерпретации, считать каждый выбор совершенно произвольным и основывать наши результаты только на возможности получателя различать выбор одного из символов от выбора любого другого символа."

Если принять, что все символы алфавита имеют ту же самую битовую ширину, то размер Координатного пространства пропорционален степени линейного размера сообщения. Возвести число в степень и взять от него логарифм, вместо того, чтобы использовать напрямую, выглядит довольно экзотическим предложением и, вероятно, поэтому метрика Хартли еще двадцать лет не привлекала к себе внимания.

Возможно, более существенно, что всюду в статье Хартли оперирует "энергетическим инвариантом" - произведением длительности сигнала на его полосу частот. Геометрически, это площадь сигнала в координатах "время-частота", растяжение-сжатие по любой из координат - гиперболический поворот, а разложение в ряд Фурье - преобразование инверсии в этом координатном пространстве.

Применительно к геометрии сообщений, кратности символов и их битовые размеры должны играть роль сопряженных координат. К несчастью, для системы равномерных кодов это наблюдение тривиально, а для системы неравномерных кодов не соблюдается инвариантность, так что "энергетический" подход к сообщениям на двадцать лет выпал из внимания исследователей.

Его реинкарнация (под названием "количество информации") случилась в 1948 году, когда Клод Шеннон ввел понятие информационной энтропии.

Нетрудно видеть, что для дискретного сигнала, его битовая ширина является аналогом длительности непрерывного, а энтропия - аналогом ширины спектра. (В термодинамической аналогии, битовый размер - аналог абсолютной температуры, а информационная энтропия - аналог термодинамической). Таким образом, произведение битового размера на энтропию ("количество информации по Шеннону") и есть очевидный ("энергетический") инвариант сжатия-растяжения.

И если сжатие-растяжение непрерывного сигнала достигается изменением скорости его "проигрывания" (аналогично "замедленной" киносъемке), то для дискретного сигнала это достигается алгоритмами компрессии данных (Huffman, LZ etc.)

При сжатии аналогового сигнала его длительность уменьшается, а спектр уширяется. При сжатии дискретного сигнала, его битовый размер уменьшается, а энтропия возрастает. Растяжение приводит к симметричному обратному результату.

В силу инвариантности энергии сигнала (при отсутствии потерь), длительность и спектр (или размер и энтропия) связаны взаимно обратным преобразованием и, геометрически, являются гиперболическим поворотом ("лоренц-сжатие").

Известные алгоритмы компрессии данных (Huffman, LZ etc.) при этом являются преобразованиями инверсии в координатах "размер-энтропия".

Среди прочего, это означает неаддитивность энтропий: они должны складываться по формулам гиперболической геометрии (по формуле преобразований Лоренца), а существование (недостижимого) энтропийного предела в точности аналогично существованию предела скорости в СТО.