La compression de données (Généralités)
Prologue
Claude Shanon, le fondateur de la théorie de linformation avait lhabitude de faire jouer à un petit jeu de société quand il était invité quelque part. Il prenait un livre au hasard, louvrait au hasard, commençait à lire un paragraphe et sarrêtait. Il demandait ensuite à lassistance de deviner une à une les lettres suivantes. Lassistance se débrouillait bien et trouvait la lettre dans environ 75 % des cas. Shannon en déduisait que la langue anglaise possède un taux de redondance de 75 %.
Quand nous manipulons du texte, les caractères que nous utilisons nont pas la même probalité dapparition. De plus il a une structure interne forte (la grammaire). Quand le mot arbre est au pluriel on peut aisément prédire la lettre qui suit le « e » final.
Quand nous travaillons avec de la musique, la distribution des probabilités dapparition des sons nest pas uniforme non plus.
Quand nous manipulons des images, elles possèdent également des régularités, elles ne sont pas « aléatoires ».
Bref, la majorité des données que nous traitons ont un ordre interne, même sil nest pas apparent, cest à dire une distribution non uniforme de certains symboles ou séquences de symboles.
Cest cette caractéristiques qui incite à compresser les données et cest elle qui permet, souvent, de réussir.
|
|