Взаимная информация. Условная и безусловная взаимная информация

Пусть будет выборочным пространством X, а будет выборочным пространством У в совместном ансамбле с распределением вероятностей Например, х можно интерпретировать как вход дискретного канала с шумом, а у как его выход. Мы хотим количественно измерить, как много говорит нам о возможности появления некоторого возможного исхода, скажем из ансамбля X, появление некоторого возможного исхода, скажем из ансамбля У. На вероятностном языке, появление изменяет вероятность от априорной вероятности до апостериорной вероятности Количественной мерой этого изменения (которая оказывается полезной) является логарифм отношения апостериорной вероятности к априорной. Это приводит нас к следующему фундаментальному определению: информация о событии содержащаяся в событии равна

Основание логарифма в этом определении определяет шкалу, по которой измеряется информация. Наиболее часто употребляются основания При основании логарифмов 2 значение выражения (2.2.1) называется числом бит (двоичных единиц) информации, а при натуральных логарифмах значение выражения (2.2.1) называется числом (натуральных единиц) информации. Таким образом, число нат равно числу бит, умноженному на . Так как большинство положений теории и результатов остаются справедливыми при любом основании логарифмов, то основание будет указываться только в случае необходимости.

Если в равенстве (2.2.1) поменять местами х и у, то получаей, что информация о событии содержащаяся в событии равна

Покажем теперь, используя определение условных вероятностей, что правые части равенств (2.2.1) и (2.2.2) совпадают. Из-за этой

симметрии называется взаимной информацией между событиями

Если не будет возникать недоразумений, мы будем пользоваться сокращенным обозначением для информации о событии х, содержащейся в некотором событии у:

Полное оправдание определения информации равенством станет ясным только в ходе развития теории. Однако следующий пример может дать некоторое интуитивное понимание этого определения.

Пример 2.1. Канал, изображенный на рис. 2.2.1, называется двоичным симметричным каналом. С вероятностью выходная буква совпадает с входной, и с вероятностью она отлична от входной буквы.

В предположении, что входы являются равновероятными совместные вероятности задаются равенствами

Замечая из этих равенств, что выходные буквы равновероятны, получаем

Взаимная информация тогда равна

При канал на рис. 2.2.1 является бесшумным; его выход полностью определяет вход. При канал полностью зашумлен; его вход и выход являются статистически независимыми. Предположим теперь, что достаточно мало, много меньше чем и предположим, что На выходе канала приембуквы делает вероятность того, что была послана много большей соответствующей вероятности для и из соотношений (2.2.6) видно, что информация, содержащаяся в относительно является в этом случае положительной. Для эта информация равна 1 бит в соответствии с тем, что однозначно определяет на приемнике, какая из двоичных букв была послана. Когда увеличивается, эта взаимная информация уменьшается, соответствуя увеличению на приемнике недостатка определенности в том, что был передан

Рассмотрим далее случай, в котором передается и принимается Информгция, определяемая равенствами (2.2.6), в этом случае отрицательна что соответствует тому, что прием приводит к заблуждению, давая приемнику некоторую степень уверенности в том, что был послан а не В одном из последующих примеров будет видно, как некоторая последующая положительная информация может исправить неправильное впечатление на приемном конце, вызванное первоначальной отрицательной информацией. Интересно заметить, что при стремящемся к 0, эта отрицательная информация стремится к соответствуя тому, что приемник не только будет находиться в заблуждении, но будет заблуждаться с абсолютной определенностью. К счастью, если то это событие не может произойти.

Как можно заметить из определения (2.2.1), взаимная информация является случайной величиной, т. е. числовой функцией элементов выборочного пространства. Взаимная информация является довольно необычной случайной величиной, так как ее значение зависит от вероятностной меры, однако с ней можно обращаться так же, как с любой другой случайной величиной. В частности, взаимная информация имеет среднее значение, дисперсию, моменты всех порядков и производящую функцию моментов. Среднее значение, которое называется средней взаимной информацией и обозначается задается равенством

В сокращенной записи это равенство имеет вид

Отсюда видно, что средняя взаимная информация является функцией только -ансамбля, в то время как взаимная информация, которая является случайной величиной, - функцией частных исходов х и у. В примере 2.1 взаимная информация принимает значение с вероятностью 1-е и значение с вероятностью Средняя взаимная информация при этом равна .

Интересным частным случаем взаимной информации является тот, в котором появление данного исхода у, скажем однозначно определяет, что исходом х будет данный элемент В этом случае

Так как это выражение представляет собой взаимную информацию, требуемую для определения то оно определяет собственную

информацию, содержащуюся в событии которая обозначается

В сокращенной записи это равенство имеет вид:

Собственная информация, содержащаяся в событии является, очевидно, функцией только ансамбля Собственная информация, содержащаяся в всегда неотрицательна и увеличивается с уменьшением Она может быть интерпретирована либо как априорная неопределенность события либо как информация, требуемая для разрешения этой неопределенности. Собственная информация сперва казалась более простым понятием, чем взаимная информация, так как она определяется с помощью отдельного, а не совместного ансамбля. Мы определили вначале взаимную информацию отчасти потому, что она естественно обобщается на случай недискретных выборочных пространств, в то время как собственная информация не обобщается, а частично потому, что интуитивное понимание собственной информации фактически невозможно, в терминах отдельного ансамбля. Многие попытки, предпринятые в литературе для эвристической интерпретации собственной информации с помощью индивидуального ансамбля, привели к большой путанице. В частности, исходя из отдельного ансамбля, трудно понять, почему информация и неопределенность не должны быть связаны обратной зависимостью, а должны быть двумя различными взглядами на одну и ту же вещь.

Пример 2.2. Рассмотрим ансамбль X, для которого выборочное пространство является множеством всех двоичных последовательностей заданной длины Предположим, что все последовательности равновероятны так, что имеются элементов в выборочном пространстве, каждый с вероятностью Собственная информация любого заданного исхода равна при этом

Как и должно быть, согласно интуитивному представлению, требуется бит собственной информации для определения последовательности двоичных цифр; этот пример делает ясной причину появления логарифма в мерах информации.

На совместном -ансамбле определим условную собственную информацию, содержащуюся в событии при условии появления следующим образом:

Или просто

Это является собственной информацией, содержащейся в событии ансамбля при условии, что Ее можно интерпретировать как информацию, которую нужно сообщить наблюдателю для определения после того как наблюдатель установил, что

произошло событие Объединяя определения (2.2.1), (2.2.10) и (2.2.12), получаем

т. е. информация об исходе х, содержащаяся в исходе у, равна собственной информации, требуемой для определения исходах, уменьшенной на неопределенность этого исхода х при заданном у.

Точно так же, как и взаимная информация, собственная информация тоже является случайной величиной. Энтропия ансамбля определяется как среднее значение собственной информации и задается равенством

Имеется некоторое дополнительное основание для использования здесь символа кроме того, что в теории информации это обозначение используется почти всегда. Энтропия ансамбля тесно связана с энтропией, используемой в статистической термодинамике, и фактически является таковой (с точностью до аддитивной постоянной) при интерпретации множества как множества элементов фазового пространства, имеющих бесконечно малые равные объемы. К счастью, энтропия в теории информации является понятием значительно более простым, чем в термодинамике.

Условная собственная информация также является случайной величиной на совместном ансамбле и имеет среднее значение, задаваемое равенством

Ее можно интерпретировать как среднюю информацию (по х которая требуется для того, чтобы определить х, если известно у.

Если равенство (2.2.13) усреднить по ансамблю то можно найти, что средняя взаимная информация между х и у равна разности между энтропией X и условной энтропией X при заданном

Это равенство показывает, что можно интерпретировать как среднюю неопределенность X, которая снимается после наблюдения исхода ансамбля представляет собой среднюю оставшуюся неопределенность X после наблюдения.

Можно получить еще некоторое соотношение между собственной и взаимной информацией, если рассмотреть совместный ансамбль как единый ансамбль, элементами которого являются пары х, у

совместного выборочного пространства. Собственная информация, содержащаяся в паре х, у, равна

Так как то получаем

Взаимная информация может быть также выражена через следующим образом.

ВЗАИМНАЯ ИНФОРМАЦИЯ.

ЦЕЛЬ ЛЕКЦИИ: На основе понятия условной энтропии дать определение взаимной информации, рассмотреть свойства и представить вывод формулы для вычисления среднего количества взаимной информации.

Измеряй все, доступное измерению, и делай недоступное измерению доступным. Галилео Галилей

В предыдущей лекции приведено определение условной энтропии как величины, показывающей, какова в среднем неопределенность выбора значения некоторой величины у , когда известно значение х .

или H(x,y) = H(x) + H x (y)

Условная энтропия удовлетворяет следующим условиям.:

0 ≤ H x ( y ) ≤ H ( y ),

H x ( y ) = 0 , когда по реализации ансамбля X можно точно установить реализацию ансамбля Y ;

H x ( y ) = H ( y ), когда ансамбли Х и У независимы и знание реализации X не прибавляет информации об Y ;

H ( y ) > H x ( y ) – общий случай, когда знание реализацииX снижает первоначальную неопределенность Y .

Взаимная информация .

В технике передачи сообщений интерес представляет возможность получения информации о передаваемых сообщениях по символам, наблюдаемым на выходе канала. Представим математически операции, выполняемые передатчиком и приемником. Передатчик и приемник назовем дискретными преобразователями. На вход преобразователя поступает последовательность входных символов некоторого ансамбля Х , а на выходе получается последовательность выходных символов, представленная ансамблем У . Преобразователь может обладать внутренней памятью. Выходной символ в этом случае будет зависеть не только от данного входного символа, но и от всех предыдущих. Задача заключается в том, чтобы количественно определить информацию о символах х входного ансамбля Х , содержащуюся в выходных символах у ансамбля У на выходе канала, в том числе с учетом указанной статистической зависимости.

Введем обозначение взаимной информации I ( x , y ). В соответствии со свойством 5 энтропии, можем записать соотношение

I ( x,y )= H ( x ) – H ( x,y ),

которое будет определять меру взаимной информации для любых пар ( x , y ) ансамблей Х и У.

В выражении Н(х) – априорная энтропия, Н( x , y ) – остаточная энтропия после получения сведений об ансамбле Х . Тогда I ( x , y ) будет характеризовать полную информацию, содержащуюся в ансамбле У об ансамбле Х .

Проиллюстрируем графически энтропию системы и информацию

Рис. 1 Графическое отображение взаимной информации.

Верхние раздельные овалы - при отсутствии связи между ансамблями переменных Х и У ;

Нижние совмещенные овалы - при наличии статистической связи между ансамблями Х и У .

Рассмотрим ансамбли Х и У , характеризующие систему. Энтропию ансамбля Х изобразим овалом с площадью Н(Х) : чем больше энтропия, тем больше площадь. Энтропия ансамбля У - второй овал с площадью Н(У ). Если ансамбли статистически независимы, т.е. связь между ними отсутствует, овалы не пересекаются. Полная энтропия системы равна сумме энтропий, т. е. сумме площадей.

Если же между ансамблями возникает статистическая связь (корреляция), то овалы на схеме пересекаются. Возникшая взаимная информация I(Х,У) и есть количественная мера этого пересечения. Энтропия уменьшается на величину этой информации:

Н(Х,У) = Н(Х) + Н(У) - I(Х, Y )

Чем больше взаимная информация, тем теснее связь, тем меньше энтропия Н(Х,У).

Из свойства 5 энтропии следует

H(X,Y) = H(X) + H X (Y)

H(X,Y) = H(Y) + H Y (X )

H(X) + H X (Y) = H(Y) + H Y (X)

H(X) –H X (Y) = H(Y) – H Y (X)

Сравнив и , отметим, что выражение характеризует взаимное равенство информации об ансамбле Х , если известен ансамбль У , и обратно, знание об ансамбле У , если известен ансамбль Х .

I ( X , Y ) – называется средней взаимной информацией, содержащейся в ансамблях Х и У .

Свойства взаимной информации .

    I ( X,Y ) = I ( Y,X ). Взаимная информация симметрична.

    I ( X , Y ) ≥ 0 . Взаимная информация всегда положительна.

3. I ( X , Y ) = 0 тогда и только тогда, когда ансамбли Х и У независимы.

    I ( X , Y ) = H ( X ) – H X ( Y ) = H ( Y ) – H Y ( X ) = H ( X ) + H ( Y ) – H ( X , Y ), т. е. в случае наступления совместного события H ( X ) + H ( Y ) = H ( X , Y ) взаимная информация отсутствует.

    I(X,Y) ≤ min{H(X),H(Y)}. Взаимная информация не может быть больше информации о каждом ансамбле в отдельности.

    I(X,Y) ≤ min {log‌‌ ‌‌|X|, log|Y|}. Логарифмическая мера каждого из ансамблей в отдельности больше или равна взаимной информации.

7. Взаимная информация I ( X , Y ) имеет максимум (является выпуклой функцией распределения вероятностей).

В общем случае свойство 4 определяет взаимную информацию через энтропию объединенной системы H ( X , Y ) и энтропию отдельных ее частей H ( X ) и H ( Y ) рис.1.

I(X,Y) = H(X) + H(Y) – H(X,Y)

Выразим полную взаимную информацию через вероятности состояний системы. Для этого запишем значения энтропии отдельных систем через математическое ожидание:

H(X)=M[ - log P(X)], H(Y)=M[ - log P(Y)], H(X,Y)=M[ - log P(X,Y)]

Тогда выражение примет вид

I(X,Y) =M[ - logP(X) – logP(Y) + log(X,Y)].

Преобразовав, получим

Выражение преобразуем с использованием свойства математического

ожидания, заключающегося в следующем. Для ансамбля случайных величин Х можно определить функцию φ(х ) по всем значениям х . Тем самым устанавливается отображение Х на множество вещественных значений х . Ансамбль

У= [у=φ(х)]

представляет собой набор множества значений случайных величин. Для вычисления математического ожидания величины у необязательно знать распределение вероятностей p y ( y ) для у . Если распределение p x ( x ) по ансамблю Х известно, то

Тогда, если p ( x i ) m элементов ансамбля Х , а p ( y j ) вероятность реализации любого из n элементов ансамбля У , то выражение количества взаимной информации будет иметь вид

Данная формула позволяет определить полное количество взаимной информации об ансамбле Х по принятому на выходе канала ансамблю У . Количество взаимной информации измеряется в битах.

Марковская модель источника.

Рассмотрим случайные последовательности из произвольного числа событий. Если элементы случайной последовательностивещественные числа, то такие последовательности называются случайными процессами . Номер элемента в последовательности трактуется как момент времени, в который появилось данное значение. В общем случае множество значений времени может быть непрерывным или дискретным, множество значений случайной последовательности может быть также непрерывным или дискретным

Случайный процесс х 1, x 2, со значениями x i , алфавита Х, ( i = 1, 2, …) задан, если для любых n указан способ вычисления совместных распределений вероятностей p ( x 1 ,… x n ). Проще всего задать случайный процесс, предположив, что его значения в различные моменты времени независимы и одинаково распределены.

где p ( x i ) – вероятность появленияx i в момент i . Для описания такого процесса достаточно указать вероятности p ( x ) для всех x (всего I Х I – 1 вероятностей). Для описания более сложных моделей процессов следует опираться на свойство стационарности, позволяющее упростить математические выкладки. Процесс называется стационарным, если для любых n и t имеет место равенство

p(x 1 , …, x n ) = p( x 1+ t x n+ t ),

причем x i = x 1+ t , i = 1, … n . Случайный процесс стационарен, если вероятность любой последовательности не изменится при ее сдвиге во времени. Числовые характеристики, в частности математическое ожидание, стационарных процессов не зависят от времени. Рассматривая стационарные процессы, мы можем вычислять независящие от времени информационные характеристики случайных процессов. Пример стационарного процесса – процесс, значения которого независимы и одинаково распределены.

К. Шеннон так определяет дискретный источник сообщений: “ Можно считать, что дискретный источник создает сообщение символ за символом. Он будет выбирать последовательные символы с некоторыми вероятностями, зависящими, вообще говоря, как от предыдущих выборов, так и от конкретного рассматриваемого символа. Физическая система или математическая модель системы, которая создает такую последовательность символов, определяемую некоторой заданной совокупностью вероятностей, называется вероятностным процессом. Поэтому можно считать, что дискретный источник представляется некоторым вероятностным процессом. Обратно, любой вероятностный процесс, который создает дискретную последовательность символов, выбираемых из некоторого конечного множества, может рассматриваться как дискретный источник”.

Статистическая структура такого процесса и статистические свойства источника вполне определяются одномерными p ( i ), двумерными p ( i , j ) вероятностями появления элементов сообщений на выходе источника. Как указывалось, если между последовательными элементами сообщения отсутствует статистическая связь, то статистическая структура сообщения полностью определяется совокупностью одномерных вероятностей. Появление того или иного элемента сообщения на выходе источника можно рассматривать как определенное событие, характеризующееся своей вероятностью появления. Для совокупности событий вместе с их априорными вероятностями появления существует понятие ансамбля .

Примерами дискретного источника могут служить:

    Печатные тексты на различных языках.

    Непрерывные источники сообщений, которые превращены в дискретные с помощью некоторого процесса квантования (квантованная речь, телевизионный сигнал.

3. Математические случаи, когда просто определяется абстрактно некоторый вероятностный процесс, который порождает последовательность символов.

Подобные источники создают представляют собой вероятностные процессы, известные как дискретные Марковские процессы. В общем случае результат может быть описан следующим образом. Существует конечное число возможных “состояний” системы : S 1 , S 2 ,. . . , S n . Кроме того, имеется совокупность переходных вероятностей pi (j ), т. е. вероятностей того, что система, находящаяся в cостоянии S i , перейдет затем в состояние S j . Чтобы использовать этот Марковский процесс в качестве источника сообщений, нужно только предположить, что при каждом переходе из одного состояния в другое создается одна буква. Состояния будут соответствовать “остатку влияния” предшествовавших букв. В графическом примере “состоянием” является узловая точка схемы, а переходные вероятности и создаваемые при этом буквы указаны около соответствующих линий.

Такой источник из четырех букв A , B , C , В , имеющих, соответственно, переходные вероятности 0,1; 0,4; 0,3; 0,2, возвращаясь в узловую точку после

создания очередной буквы, может формировать как конечные, так и бесконечную последовательности.

На дискретный источник можно распространить такие характеристики случайного сигнала, как эргодичность и стационарность. Полагая источник эргодическим, можно “… отождествлять средние значения вдоль некоторой последовательности со средним значением по ансамблю возможных последовательностей (причем вероятность расхождения равна нулю)”. Например, относительная частота буквы А в частной бесконечной последовательности будет с вероятностью единица равняться ее относительной частоте по ансамблю последовательностей.

Простейшей моделью источника, порождающего зависимые сообщения, является Марковский источник. Случайный процесс называют цепью Маркова связности s , если для любых n и для любых x = ( x 1 , …, x n ) алфавита X справедливы соотношения

p(x) = p(x 1 , …, x s )p(x s+ 1 / x 1 , … , x s )p(x s+2 /x 2 , …,x s+1 )…p(x n /x n-s ,…,x n-1 ).

Марковским процессом связности s называется такой процесс, для которого при n > s p ( x n ,…, x n -1 ) = p ( x n / x n - s ,…, x n -1 ), т. е. условная вероятность текущего значения при известных s предшествующих не зависит от всех других предшествующих значений.

Описание Марковского процесса задается начальным распределением вероятностей на последовательностях из первых s значений и условными вероятностями p ( x n / x n - s ,…, x n -1 ) для всевозможных последовательностей. Если указанные условные вероятности не изменяются при сдвиге последовательностей во времени, Марковская цепь называется однородной . Однородная Марковская цепь связности s = 1 называется простой цепью Маркова. Для ее описания достаточно указать распределение вероятностей p ( x 1 ) величины х, принадлежащей множеству Х и условные вероятности

π ij = P(x t = j / x t-1 = i), i,j = 0,1,…,M-1 ,

называемые переходными вероятностями цепи Маркова.

Переходные вероятности удобно записывать в виде квадратной матрицы размерности М х М

называемой матрицей переходных вероятностей. Эта матрица – стохастическая (неотрицательная, сумма элементов каждой строки равна 1).

Если p t - стохастический вектор, компоненты которого – вероятности состояний цепи Маркова в момент времени t , т.е. p t =[ p t (0),…, p t (M -1)], где p t (i ) есть вероятность состояния i в момент времени t (I = 0,1,…, M -1 ), то из формулы полной вероятности следует

или в матричной форме

p t +1 = p t Π . [ 10 ]

Для произвольного числа шагов n получим

,

т. е. вероятности перехода за n шагов могут быть вычислены как элементы матрицы. Предположим, что существует стохастический вектор удовлетворяющий уравнению

p = p Π . [ 2 ]

Предположим, р 1 = р . Тогда, воспользовавшись выражением , получим р 2 = р и, наконец, p t = p при всех t . Таким образом, Марковская цепь стационарна, если в качестве начального распределения выбрано решение уравнения [ 2 ].

Стохастический вектор р , удовлетворяющий уравнению [ 2 ], называется стационарным распределением для цепи Маркова, задаваемой матрицей переходных вероятностей Π. Финальным распределением вероятностей называют вектор

[ 3 ]

Величина p не зависит от начального распределения и от времени, т. е. является стационарным распределением. Цепи, определяемые выражением [ 3 ], называют эргодическими. Если все элементы матрицы Π положительны и не равны нулю, соответствующая Марковская цепь эргодична. Чтобы сформулировать необходимое и достаточное условие эргодичности, введем несколько определений.

Состояние цепи i достижимо из состояния j , если для некоторого n вероятность перехода из состояния j в состояние i за n шагов положительна. Множество состояний называется замкнутым , если никакое состояние вне С не может быть достигнуто из состояния, входящего в С .

Цепь называетсянеприводимой , если в ней нет никаких замкнутых множеств кроме множества всех состояний. Цепь Маркова неприводима тогда и только тогда, когда состояния достижимы друг из друга. Состояние i называется периодическим, если существует такое t > 1 , что вероятность перехода из i в i за n шагов равна нулю при всех n не кратных t . Цепь, не содержащая периодических состояний, называется непериодической. Непериодическая неприводимая цепь Маркова эргодична.

ЛИТЕРАТУРА .

1. Шеннон К. Работы по теории информации и кибернетике. М.: изд. “ИЛ”, 1963 г., стр. 249 – 259 .

Попробуем проверить гипотезу о том, являются ли приращения значений индекса DJI статистически независимыми. При этом в качестве референсного источника данных, с которым будем проводить сравнение, возьмем искусственный временной ряд, сгенерированный из собственно приращений исходного ряда, но при этом случайно перемешанных. В качестве меры статистической независимости воспользуемся статистикой взаимной информации.

Значения индекса Dow Jones Industrial Average (DJI)

Ряд процентных приращений котировок, расчитанный по формуле X[t] / X - 1

Для приведения исследуемой непрерывной, по ее сути, переменной к дискретному типу перейдем к ряду процентных приращений, округленных до 0,01 (1%). Подсчет взаимной информации для непрерывных переменных, хотя и возможен технически, но не информативен, в силу очень большого значения n - конечного набора значений признака, принимаемого случайной переменной.

Базовые концепции информационно-теоретических идей, использованных в статье

(Все формулы а также теория заимствованы в: ru.wikipedia.org а также из ряда монографий, которые можно поискать по ключевым словам.)

Теория информация развивалась неразрывно с теорией связи, я не буду отходить от этой традиции.

Что такое информация?

Представим, что есть некий передатчик и приемник данных. Передатчик передает дискретную переменную X, которая принимает ограниченное количество возможных вариантов значений x (это также называется алфавит). Вероятность реализации каждого конкретного значения отличается от нуля, иначе такое значение просто исключается из анализа. Вид функции плотности вероятности на пространстве значений, принимаемых переменной, может быть произвольным. Сумма всех вероятностей по каждому возможному значению равна 1 (если сумма равна 0, то дальнейший ход мыслей не имеет смысла).

Приемник воспринимает передаваемые значения X, или можно сказать, что в точке приема значений осуществляется событие - переменная X приняла значение x. И чем меньше мы, то есть, наблюдатели, знаем о том, какое именно событие произойдет (сиречь, какое именно значение примет приемник), тем большей энтропией обладает данная система, и, тем больше информации принесет с собой осуществление этого события.

Значит, информационная энтропия (понятия, заимствованное из энтропии в теоретической физики) это количественная мера неопределенности в абстрактной системе состоящей из возможности реализации события и его непосредственной реализации. Мда, звучит, действительно, абстрактно. Но в этом и сила этой теории: она может применяться к широчайшему классу явлений.

А все же, что такое информация? Это также количественная мера, характеризующая количество энтропии, или неопределенности, которое ушло из системы при реализации конкретного события. Информация, следовательно, количественно равна энтропии.

Если говорят про весь спектр значений, которые реализуются в системе, то говорят про среднюю информацию или информационную энтропию. Эта величина считается по формуле:

Если говорят про информацию отдельно взятой реализации случайной величины, говорят про собственную информацию:

Например, опыт с многократным подкидыванием честной монетки - это система со средней информацией равной 1 Бит (при подстановке в формулу логарифма по основанию 2). При этом, перед каждым подбрасыванием мы ожидаем выпадение решки или орла с равной вероятностью (эти события! независимы! друг от друга) и неопределенность всегда равна 1. А какова будет информационная энтропия этой системы при неравной вероятности выпадения сторон монетки? Скажем, орел выпадает с вероятностью 0,6, а решка - с вероятностью 0,4. Посчитаем и получим: 0,971 Бита. Энтропия системы уменьшилась, так как неопределенность реализации эксперимента уже меньше: мы ожидаем орел чаще, чем решку.

Возвращаясь к примеру с передатчиком и приемником, если связь между ними идеально хорошая, то информация (в широком смысле) будет всегда передаваться на 100% правильно. Иначе говоря, взаимная информация между передатчиком и приемником будет равна средней информации самого приемника (символизирующего реализацию события), а если данные из передатчика будут никак не связаны с данными, получаемым приемником, то взаимная информация между ними будет равна 0. Иначе говоря, то что передает передатчик ничего не говорит о том, что принимает приемник. Если есть некоторые потери информации, то взаимная информация будет величиной от 0 до средней информации приемника.

В контексте задачи, о которой я писал в этой статье, взаимная информация выступает инструментом нахождения произвольного вида зависимости между приемником (зависимой переменной) и передатчиком (независимой переменной). Максимизация взаимной информации между парой переменных указывает на наличие некоторой детерминированности реализации случайного значения по отношению к его прошлым реализациям. Можно, конечно, в качестве независимых переменных взять что угодно, от состава поющих птиц по утрам, до частоты определенных слов в интернет-публикациях на тему биржевой торговли. «Истина где-то рядом.»

Итак, посчитаем энтропию источника данных (http://ru.wikipedia.org/):

Средняя информация (или просто энтропия) данного источника данных (посчитанная по логарифму с основанием 2) составляет 2.098 Бит.

Взаимная информация между случайными переменными посчитана через понятие информационной энтропии (http://ru.wikipedia.org/):

Гистограмма значений взаимной информации между зависимой переменной - процентным приращением индекса, посчитанным по ценам закрытия, - и ее значениями со сдвигом от 1 до 250 шагов назад во времени.

В частности можно видеть, что максимальная взаимная информация считается с переменной с лагом 5, то есть со значением имеющим место одну торговую неделю назад. Также, очевидно, что количество взаимной информации убывает при погружении в лаговое пространство.

Вид функции распределения плотности вероятности для полученного набора значений количества взаимной информации:

Сгенерируем искусственный временной ряд для референсных целей. Источником ряда целых чисел, задающих последовательность значений признака был выбран сайт www.random.org . По информации на сайте, они предоставляют действительно случайные числа (в отличие от ГПСЧ, генератора псевдослучайных чисел).

Полученный ряд приращений, со случайно перемешанных хронологическим порядком

На глаз можно отметить насколько более стационарными стали данные.

Этот же ряд с округленными значениями

Гистограмма значений взаимной информации между зависимой переменной и ее значениями со сдвигом от 1 до 250 шагов назад во времени по искусственному временному ряду приращений (с сохранением того же вида функции плотности вероятности на пространстве значений признака)

Вид функции распределения плотности вероятности для данной выборки:

Сравнение 2 рассмотренных случаев расчета взаимной информации

На глаз видно, насколько сильно отличаются полученные выборки значений количества взаимной информации.

Проверим гипотезу о значимости различия (различия вида функции плотности распределения вероятности) двух выборок посчитанных значений взаимной информации - для исходного и искусственного временных рядов. Прибегнув к непараметрическим тестам, посчитаем статистику по методу Колмогорова-Смирнова (тест Колмогорова-Смирнова применяется для сравнения двух независимых выборок значений с целью определить статистическую значимость различий между значениями выборок. Для этой же цели используется U-тест Манна и Уитни).

Результат: p = 0.00 при принятом пороговом уровне значимости 0,05.

Результат U-теста по методу Манна и Уитни: p = 0.00.

Видим, что в обоих случаях гипотеза о различии между выборками значений признака принимается (p меньше 0,05).

Можно сделать вывод о том, что в естественных финансовых данных (по крайней мере, у индекса DJI) есть статистически значимые зависимости произвольного вида между приращениями котировок. То есть, такой ряд данных нельзя считать случайным. Теоретически, существует пространство возможностей прогнозирования будущих значений такого ряда, например, с помощью нейронных сетей.

P.S.: Буду рад комментариям, критике.


ЛЕКЦИЯ 2

ВЗАИМНАЯ ИНФОРМАЦИЯ.

ЦЕЛЬ ЛЕКЦИИ: На базе понятия условной энтропии дать определение взаимной информации, рассмотреть свойства и представить вывод формулы для вычисления среднего количества взаимной информации.

Измеряй все, доступное измерению, и делай недоступное измерению доступным. Галилео Галилей

В предыдущей лекции приведено определение условной энтропии как величины, показывающей, какова в среднем неопределенность выбора значения некоторой величины у , когда известно значение х .

или H(x,y) = H(x) + H x (y)


Условная энтропия удовлетворяет следующим условиям.:

0 ≤ H x (y ) ≤ H (y ),

H x (y ) = 0 , когда по реализации ансамбля X можно точно установить реализацию ансамбля Y ;

H x (y ) = H (y ), когда ансамбли Х и У независимы и знание реализации X не прибавляет информации об Y ;

H (y ) > H x (y ) – общий случай, когда знание реализации X снижает первоначальную неопределенность Y .

Взаимная информация .

В технике передачи сообщений интерес представляет возможность получения информации о передаваемых сообщениях по символам, наблюдаемым на выходе канала. Представим математически операции, выполняемые передатчиком и приемником. Передатчик и приемник назовем дискретными преобразователями. На вход преобразователя поступает последовательность входных символов некоторого ансамбля Х , а на выходе получается последовательность выходных символов, представленная ансамблем У . Преобразователь может обладать внутренней памятью. Выходной символ в данной ситуации будет зависеть не только от данного входного символа, но и от всех предыдущих. Задача заключается в том, чтобы количественно определить информацию о символах х входного ансамбля Х , содержащуюся в выходных символах у ансамбля У на выходе канала, в том числе с учетом указанной статистической зависимости.

Введем обозначение взаимной информации I (x , y ). В соответствии со свойством 5 энтропии, можем записать соотношение

I (x,y )= H (x ) – H (x,y ),

которое будет определять меру взаимной информации для любых пар (x , y ) ансамблей Х и У.

В выражении Н(х) – априорная энтропия, Н(x , y ) – остаточная энтропия после получения сведений об ансамбле Х . Тогда I (x , y ) будет характеризовать полную информацию, содержащуюся в ансамбле У об ансамбле Х .

Проиллюстрируем графически энтропию системы и информацию

Рис. 1 Графическое отображение взаимной информации.

Верхние раздельные овалы - при отсутствии связи между ансамблями переменных Х и У ;

Нижние совмещенные овалы - при наличии статистической связи между ансамблями Х и У .

Изучим ансамбли Х и У , характеризующие систему. Энтропию ансамбля Х изобразим овалом с площадью Н(Х) : чем больше энтропия, тем больше площадь. Энтропия ансамбля У - второй овал с площадью Н(У ). Если ансамбли статистически независимы, т.е. связь между ними отсутствует, овалы не пересекаются. Полная энтропия системы равна сумме энтропий, т. е. сумме площадей.

Если же между ансамблями возникает статистическая связь (корреляция), то овалы на схеме пересекаются. Возникшая взаимная информация I(Х,У) и есть количественная мера этого пересечения. Энтропия уменьшается на величину этой информации:

Н(Х,У) = Н(Х) + Н(У) - I(Х, Y )

Чем больше взаимная информация, тем теснее связь, тем меньше энтропия Н(Х,У).

Из свойства 5 энтропии следует

H(X,Y) = H(X) + H X (Y)

H(X,Y) = H(Y) + H Y (X )

а также

H(X) + H X (Y) = H(Y) + H Y (X)

H(X) –H X (Y) = H(Y) – H Y (X)

Сравнив и , отметим, что выражение характеризует взаимное равенство информации об ансамбле Х , если известен ансамбль У , и обратно, знание об ансамбле У , если известен ансамбль Х .

I (X , Y ) – называется средней взаимной информацией, содержащейся в ансамблях Х и У .

Свойства взаимной информации .

  1. I (X,Y ) = I (Y,X ). Взаимная информация симметрична.
  2. I (X , Y ) ≥ 0 . Взаимная информация всегда положительна.

3 . I (X , Y ) = 0 тогда и только тогда, когда ансамбли Х и У независимы.

  1. I (X , Y ) = H (X ) – H X (Y ) = H (Y ) – H Y (X ) = H (X ) + H (Y ) – H (X , Y ), т. е. в случае наступления совместного события H (X ) + H (Y ) = H (X , Y ) взаимная информация отсутствует.
  2. I(X,Y) ≤ min{H(X),H(Y)}. Взаимная информация не может быть больше информации о каждом ансамбле в отдельности.
  3. I(X,Y) ≤ min {log‌‌ ‌‌|X|, log|Y|}. Логарифмическая мера каждого из ансамблей в отдельности больше или равна взаимной информации.

7. Взаимная информация I (X , Y ) имеет максимум (является выпуклой функцией распределения вероятностей).

В общем случае свойство 4 определяет взаимную информацию через энтропию объединенной системы H (X , Y ) и энтропию отдельных её частей H (X ) и H (Y ) рис.1.

I(X,Y) = H(X) + H(Y) – H(X,Y)

Выразим полную взаимную информацию через вероятности состояний системы. Важно понимать - для этого запишем значения энтропии отдельных систем через математическое ожидание:

H(X)=M[ - log P(X)], H(Y)=M[ - log P(Y)], H(X,Y)=M[ - log P(X,Y)]

Тогда выражение примет вид

I(X,Y) =M[ - logP(X) – logP(Y) + log(X,Y)].

Преобразовав, получим

Выражение преобразуем с использованием свойства математического

ожидания, заключающегося в следующем. Важно понимать - для ансамбля случайных величин Х можно определить функцию φ(х ) по всем значениям х . Тем самым устанавливается отображение Х на множество вещественных значений х . Ансамбль

У= [у=φ(х)]

представляет собой набор множества значений случайных величин Важно понимать - для вычисления математического ожидания величины у необязательно знать распределение вероятностей p y (y ) для у . Если распределение p x (x ) по ансамблю Х известно , то

Тогда, если p (x i ) m элеменᴛᴏʙ ансамбля Х , а p (y j ) вероятность реализации любого из n элеменᴛᴏʙ ансамбля У , то выражение количества взаимной информации будет иметь вид

Данная формула предоставляет возможность определить полное количество взаимной информации об ансамбле Х по принятому на выходе канала ансамблю У . Количество взаимной информации измеряется в битах.

Марковская модель источника.

Изучим случайные последовательности из произвольного числа событий. Если элементы случайной последовательности – вещественные числа, то такие последовательности называются случайными процессами . Номер элемента в последовательности трактуется как момент времени, в который появилось данное значение

В общем случае множество значений времени может быть непрерывным или дискретным, множество значений случайной последовательности может быть также непрерывным или дискретным

Случайный процесс х 1, x 2, … со значениями x i , алфавита Х, (i = 1, 2, …) задан, если для любых n указан способ вычисления совместных распределений вероятностей p (x 1 ,… x n ). Проще всего задать случайный процесс, предположив, что его значения в различные моменты времени независимы и одинаково распределены.

где p (x i ) – вероятность появления x i в момент i . Важно понимать - для описания такого процесса достаточно указать вероятности p (x ) для всех x (всего I Х I – 1 вероятностей). Важно понимать - для описания более ᴄᴫᴏжных моделей процессов следует опираться на свойство стационарности, позволяющее упростить математические выкладки. Процесс называется стационарным, если для любых n и t имеет место равенство

p(x 1 , …, x n ) = p(x 1+ t x n+ t ),

причем x i = x 1+ t , i = 1, … n . Случайный процесс стационарен, если вероятность любой последовательности не изменится при её сдвиге во времени. Числовые характеристики, в частности математическое ожидание, стационарных процессов не зависят от времени. Рассматривая стационарные процессы, мы можем вычислять независящие от времени информационные характеристики случайных процессов. Пример стационарного процесса – процесс, значения которого независимы и одинаково распределены.

К. Шеннон так определяет дискретный источник сообщений: “ Можно считать, что дискретный источник создает сообщение символ за символом. Он будет выбирать последовательные символы с некоторыми вероятностями, зависящими, вообще говоря, как от предыдущих выборов, так и от конкретного рассматриваемого символа. Физическая система или математическая модель системы, которая создает такую последовательность символов, определяемую некоторой заданной совокупностью вероятностей, называется вероятностным процессом. По этой причине можно считать, что дискретный источник представляется некоторым вероятностным процессом. Обратно, любой вероятностный процесс, который создает дискретную последовательность символов, выбираемых из некоторого конечного множества, может рассматриваться как дискретный источник”.

Статистическая структура такого процесса и статистические свойства источника вполне определяются одномерными p (i ), двумерными p (i , j ) вероятностями появления элеменᴛᴏʙ сообщений на выходе источника. Как указывалось, если между последовательными элементами сообщения отсутствует статистическая связь, то статистическая структура сообщения полностью определяется совокупностью одномерных вероятностей. Появление того или иного элемента сообщения на выходе источника можно рассматривать как определенное событие, характеризующееся своей вероятностью появления. Важно понимать - для совокупности событий вместе с их априорными вероятностями появления существует понятие ансамбля .

Примерами дискретного источника могут служить:

  1. Печатные тексты на различных языках.
  2. Непрерывные источники сообщений, которые превращены в дискретные с помощью некоторого процесса кванᴛᴏʙания (кванᴛᴏʙанная речь, телевизионный сигнал.

3. Математические случаи, когда просто определяется абстрактно некоторый вероятностный процесс, который порождает последовательность символов.

Подобные источники создают представляют собой вероятностные процессы, известные как дискретные Марковские процессы

В общем случае результат может быть описан следующим образом. Существует конечное число возможных “состояний” системы : S 1 , S 2 ,. . . , S n . Кроме того, имеется совокупность переходных вероятностей pi (j ), т. е. вероятностей того, что система, находящаяся в c остоянии S i , перейдет затем в состояние S j . Для того чтобы использовать ϶ᴛόᴛМарковский процесс в качестве источника сообщений, нужно только предположить, что при каждом переходе из одного состояния в другое создается одна буква. Состояния будут соответствовать “остатку влияния” предшествовавших букв

В графическом примере “состоянием” является узловая точка схемы, а переходные вероятности и создаваемые при этом буквы указаны около соответствующих линий.

Такой источник из четырех букв A , B , C , В , имеющих, соответственно, переходные вероятности 0,1; 0,4; 0,3; 0,2, возвращаясь в узловую точку после

создания очередной буквы, может формировать как конечные, так и бесконечную последовательности.

На дискретный источник можно распространить такие характеристики случайного сигнала, как эргодичность и стационарность. Полагая источник эргодическим, можно “… отождествлять средние значения вдоль некоторой последовательности со средним значением по ансамблю возможных последовательностей (причем вероятность расхождения равна нулю)”. Например, относительная частота буквы А в частной бесконечной последовательности будет с вероятностью единица равняться её относительной частоте по ансамблю последовательностей.

Простейшей моделью источника, порождающего зависимые сообщения, является Марковский источник. Случайный процесс называют цепью Маркова связности s , если для любых n и для любых x = (x 1 , …, x n ) алфавита X справедливы соотношения

p(x) = p(x 1 , …, x s )p(x s+ 1 / x 1 , … , x s )p(x s+2 /x 2 , …,x s+1 )…p(x n /x n-s ,…,x n-1 ).

Марковским процессом связности s называется такой процесс, для которого при n > s p (x n ,…, x n -1 ) = p (x n / x n - s ,…, x n -1 ), т. е. условная вероятность текущего значения при известных s предшествующих не зависит от всех других предшествующих значений.

Описание Марковского процесса задается начальным распределением вероятностей на последовательностях из первых s значений и условными вероятностями p (x n / x n - s ,…, x n -1 ) для всевозможных последовательностей. Если указанные условные вероятности не изменяются при сдвиге последовательностей во времени, Марковская цепь называется однородной . Однородная Марковская цепь связности s = 1 называется простой цепью Маркова. Важно понимать - для её описания достаточно указать распределение вероятностей p (x 1 ) величины х, принадлежащей множеству Х и условные вероятности

π ij = P(x t = j / x t-1 = i), i,j = 0,1,…,M-1 ,

называемые переходными вероятностями цепи Маркова.

Переходные вероятности удобно записывать в виде квадратной матрицы размерности М х М

называемой матрицей переходных вероятностей. Эта матрица – стохастическая (неотрицательная, сумма элеменᴛᴏʙ каждой строки равна 1).

Если p t - стохастический вектор, компоненты которого – вероятности состояний цепи Маркова в момент времени t , т.е. p t =[ p t (0),…, p t (M -1)], где p t (i ) есть вероятность состояния i в момент времени t (I = 0,1,…,

ЛЕКЦИЯ 29. Архитектурная акустикаЦель архитектурной акустики — обеспечение строительными средствами хорошей слышимости естественной речи и музыки, а также звуков, воспроизводимых электроакустической аппаратурой. При проектировании залов к таким средствам относятся их размеры и форма, членение поверхностей стен и потолков различными объемными элементами, обработка их материалами, отражающими или поглощающими звук. В залах могут размещаться специальные звукопоглощающие конструкции, устанавливаться мебель с определенными звукопоглощающими характеристиками....



Последние материалы раздела:

Изменение вида звездного неба в течение суток
Изменение вида звездного неба в течение суток

Тема урока «Изменение вида звездного неба в течение года». Цель урока: Изучить видимое годичное движение Солнца. Звёздное небо – великая книга...

Развитие критического мышления: технологии и методики
Развитие критического мышления: технологии и методики

Критическое мышление – это система суждений, способствующая анализу информации, ее собственной интерпретации, а также обоснованности...

Онлайн обучение профессии Программист 1С
Онлайн обучение профессии Программист 1С

В современном мире цифровых технологий профессия программиста остается одной из самых востребованных и перспективных. Особенно высок спрос на...