Какво е файлова ентропия

Какво е файлова ентропия
Какво е файлова ентропия

Видео: Какво е файлова ентропия

Видео: Какво е файлова ентропия
Видео: Что такое Энтропия? 2024, Април
Anonim

Всеки компютърен файл се състои от байтове. Байтът може да приема стойности от 0 до 255. Информационната ентропия е статистически параметър, който показва вероятността от поява на определени байтове във файл.

Какво е файлова ентропия
Какво е файлова ентропия

Можете визуално да оцените степента на ентропия, като използвате хистограма - разпределението на вероятността от повторение на едни и същи байтове във файл. От ентропията на файла можем да познаем какъв тип файл е пред нас, виждайки само неговата хистограма.

За демонстрация, нека вземем три файла от различен тип и да сравним техните хистограми. Нека първият бъде текстов файл (*. TXT). Неговата хистограма е показана на фигурата:

гистограмма=
гистограмма=

Текстовият файл съдържа само текст. Всеки знак от текста е кодиран с определени байтове в съответствие с таблицата за кодиране. Въпреки че има голям брой типове кодиране, очевидно е, че има ограничен брой буквено-цифрови символи, което обикновено е по-малко от 255. Следователно само някои области са заети на първата хистограма, а някои байтове изобщо не са.

Следният файл ще бъде във формат PDF:

гистограмма=
гистограмма=

Този файл съдържа всички възможни байтове, тъй като PDF е кодиран по различен начин от текстовите файлове. Съхранява много служебна информация: форматиране, шрифтове, изображения и т.н. Но неговата хистограма показва, че някои от байтовете се срещат с приблизително еднаква вероятност, докато други - много по-често от други. Оттук и многобройните остри изблици на хистограмата и като цяло тя има доста „дрипав“вид, въпреки че заема цялата налична ширина.

И последният файл е компресиран във формат 7Z:

гистограмма=
гистограмма=

Тази хистограма има две основни характеристики: първо, всички байтове се намират във файла с цип с повече или по-малка еднаква вероятност (доста плосък горен ръб), и второ, практически няма свободно пространство над хистограмата, което показва почти пълно отсъствие на излишък такъв файл. Следователно можем да заключим, че алгоритъмът на архиватора по някакъв специален начин „смесва“байтовете на файла, за да постигне максимално равномерното им разпределение.

По този начин ентропията в компютърните науки, както и във физиката, е мярка за разстройството в системата, в този случай разстройството при разпределението на байтовете във файла. Ентропията ви позволява да прецените степента на компресия на файла и - косвено - за неговия тип.

Препоръчано: