Einleitung
kap1: wahrnehmung
kap2: das digitale bild
kap3: die digitale aufnahme
kap4: das jpeg-verfahren
kap5: farbraumveränderung
kap6: dct
kap7: quantisierung
kap8: codierung
kap9: de-codierung
kap10: dateitypen
kap11: jpeg2000
resümee
quellen
autoren


< Kapitel 1     Kapitel 3 >

2   Grundlagen II: Das digitale Bild


Um Bilder mit Computern darstellen und speichern (sprich: verarbeiten) zu können, müssen diese in einem digitalen Format vorliegen, d.h. so beschaffen sein, dass sie rechnerisch zu erfassen und alle wichtigen Informationen (Farbe, Größe, Helligkeit - eben alles, was ein Bild ausmacht und definiert) aus ihnen anhand von Daten zu entnehmen sind. Wissenschaftlich und ganz allgemein lässt sich sagen: Ein Bildformat ist eine Ansammlung von Daten, die ein Bild beschreiben. Dabei spielen die Organisation und die Struktur dieser Daten eine entscheidende Rolle (entsprechend gibt es, wie noch dargestellt wird, große Unterschiede zwischen verschiedenen Bildformaten, die Daten auf unterschiedliche Weise organisieren). Eine Übersicht über verschiedene Bildformate und ihre Eigenschaften gibt das Kapitel 10.

Die Digitalisierung, also der Prozess, bei dem aus einem Bild für einen Computer lesbare Daten gemacht werden, erfolgt bei der Bildaufnahme durch einen Scanner oder eine Digitalkamera, wobei natürlich die Art und Technik der Bildaufnahme für die Qualität der Daten, die am Ende herauskommen, entscheidend ist. Eine technisch detaillierte Beschreibung, wie Bilder in Digitaldaten umgewandelt werden, können Sie im nächsten Kapitel lesen.


2.1    Das Pixelformat (Bildmatrizen)

Prinzipiell unterscheidet man bei digitalen Bilddaten zwischen zwei Arten.

Zum einen gibt es Vektorbilder. Bei diesen werden Linien, Flächen und Polygonzüge gespeichert, die mathematisch recht einfach durch Vektoren beschrieben werden können. Die Vor- und Nachteile liegen auf der Hand: Vektorformate sind beliebig skalierbar (vor allem sind sie ohne Qualitätsverlust vergrößerbar), da das Bild, egal in welcher Größe, stets auf der Grundlage der vektoriellen Daten berechnet wird. Bilder, die in einem solchen Format vorliegen, zeigen in der Regel mathematisch konstruierbare Objekte, Comics und Illustrationen, da diese durch Linien beschrieben werden können. Für komplexe Bilder (wie Fotos oder vielfarbige Darstellungen) eignet sich diese Speichermethode hingegen nicht, da sich derartige Bildinhalte nicht mathematisch konstruieren lassen, ergo auch nicht sinnvoll als Vektorbild gespeichert werden können.




Die Microsoft-Cliparts sind typische Vektorbilder. Sie sind definiert durch Linien sowie die durch diese eingeschlossenen Flächen und können ohne Qualitätsverlust skaliert werden (Bild: Microsoft Office).




Für Fotos und ähnlich komplexe Bilder eignet sich die Digitalisierung in ein Vektorformat nicht, da die Speicherung (das Beschreiben des Motivs über Linien) aufwendig ist und keine befriedigenden Resultate liefert (Bild: Kai's Power Goo).


Wir befassen uns in dieser Arbeit mit der anderen Art, Bilder digital zu speichern, den Pixelbildern. Bei dieser Methode der Datenspeicherung wird das kontinuierliche Bild räumlich diskretiert, d.h. es wird in kleine Punkte zerteilt, deren Farbe jeweils einzeln angegeben wird. Diese Punkte sind die kleinsten Einheiten eines Bildes. Sie sind (aus technischen Gründen, die mit den Aufnahmesystemen zusammenhängen, vgl. Kapitel 3) quadratisch und werden Pixel (picture elements) genannt. Man stellt sich ein digitales Bild  also als eine Matrix vor, die   Zeilen und   Zeilen, also   Pixel, d.h. Bildpunkte hat:

 mit      und   .

Die Elemente     des Bildes     sind die Pixel, die den Grauwert oder die Farbe des Bildpunktes an der Stelle     angeben. Man beachte bei der Bezeichnung, dass       und       gilt, da die erste Zeile einer Matrix die Zeile       sowie die letzte Zeile die Zeile       ist.

Wie solche Bildmatrizen formatintern organisiert werden, d.h. wie die Zahlenwerte       in unterschiedlichen Bildformaten gespeichert werden, wird später im Kapitel 2.4 erläutert.




Bei starker Vergrößerung sind die einzelnen Bildpunkte gut erkennbar (Bild: Kai's Power Goo).

Betrachten wir an dieser Stelle einmal den Zusammenhang zwischen Pixelanzahl und Erscheinungsform des Bildes, um die Beschaffenheit des Pixelsystems deutlich zu machen.

Wie eben erwähnt, wird das vorliegende Bild beim Digitalisieren räumlich diskretiert, das heißt, es wird in Bildpunkte zerlegt. Diesen Vorgang nennt man Rasterung. Hierbei ist wichtig, wie groß der Bildbereich ist, dem ein Pixel zugeordnet wird. Denn 1 Pixel ist lediglich definiert als 1 Bildpunkt, und beim Digitalisieren kann man selbst bestimmen, wie groß so ein Pixel denn nun sein soll (wie bereits angedeutet, ist die Größe, die ein Pixel hat, auch durch das Aufnahmeverfahren technisch bedingt, siehe Kapitel 3). Je mehr solche Punkte ein Bild nun hat (d.h.: je kleiner der Bereich ist, den wir als Pixel definieren), desto höher ist die Auflösung, wie folgendes Beispiel veranschaulicht:




Die unterschiedliche Auflösung bei der Bildaufnahme verursacht die Qualitätsunterschiede (Bild: Mustang Multimedia Spezial).

Eine hohe Auflösung benötigt also eine große Anzahl von Pixeln. Entsprechend beansprucht ein hochauflösendes Bild mehr Speicherplatz und Kapazität bei der Verarbeitung als eine Aufnahme mit niedriger Auflösung, d.h. mit wenigen Bildpunkten. Schon hier wird das Ziel der Bild-Kompression deutlich: Eine Verringerung der zu speichernden Daten bei möglichst gleichbleibender Qualität (denn einfach nur die Auflösung zu verkleinern, ist nicht zweckmäßig, da das Bild sich so qualitativ verschlechtert).

Jedoch kann ein Bild bei der Digitalisierung nicht nur räumlich, sondern muss auch "farblich" diskretiert werden, um später alle Informationen der ursprünglichen Abbildung enthalten zu können: Das Ausgangsbild wird 1. zerlegt in Pixel, von denen 2. jeder einzelne eine Farbinformation enthält. Wird der Farbwert (oder Grauwert, wenn es sich nicht um eine Farbaufnahme handelt) diskretiert, spricht man von der Quantisierung. Mit diesem einfachen Modell - Rasterung und Quantisierung - ist ein Bild hinreichend beschrieben.

Wird nun ein Bild quantisiert (wir gehen hier der Einfachheit halber von einem Bild in Graustufen aus), so misst das Aufnahmesystem (z.B. ein Scanner) die mittlere Helligkeit über einem Pixel, dessen Größe vorher definiert wurde. Dazu bildet es den gemessenen Grauwert auf eine Skala ab, die (in der Regel) 256 Abstufungen zwischen schwarz und weiß bietet (es sind auch mehr Abstufungen möglich), und ordnet jedem Helligkeitswert einen Zahlenwert auf der Skala zu. Handelt es sich um ein Bild in reinem schwarz/weiß (man spricht dann von einem Binärbild, weil nur zwei Farbabstufungen vorkommen, von gr. bi = zwei), hat diese Skala nur zwei Werte.




Zum Vergleich: Verschiedene (Tonwert-)Skalen, auf die das Ausgangsbild abgebildet wird (Bild: Mustang Multimedia Spezial).

Wie man sich vorstellen kann, bestimmen die Anzahl der Grautöne (also die Größe der Skala) und die Anzahl der Pixel (die Größe eines Bildpunktes) die Datengröße des Bildes. Eine Aufnahme, die nur über die 2 Farben schwarz und weiß verfügt und in einer Auflösung von z.B. 16x16 Pixel gespeichert ist, benötigt weniger Speicherkapazität als eine Aufnahme, die über 256 Grautöne verfügt und in einer Rasterung von 64x64 pixel vorliegt.

Ein konkretes Beispiel zeigt den Zusammenhang zwischen Rasterung und Quantisierung; bei konstanter Speicherkapazität von 1 Kilobyte können zwei Bilder mit folgenden Eigenschaften gespeichert werden:

a)       64x64 Pixel mit 4 Graustufen = 4096x2 Bit = 1 kByte 

b)       32x32 Pixel mit 256 Graustufen = 1024x8 Bit = 1 kByte

Hier verwenden wir bereits die Größen Bit und Byte, die im Zusammenhang mit Speicherbedarf und Datengröße Verwendung finden und in der Regel bekannt sind. Genaue Definitionen und Erklärungen zu diesen Größen gibt es im Kapitel 2.2 sowie im Kapitel 3.

Da Rasterung und Quantisierung gleichermaßen die Datenmenge eines Bildes bestimmen, kann zum Beispiel eine grobe Rasterung, die zu einem erheblichen Qualitätsverlust führen würde, durch eine feinere Quantisierung ausgeglichen werden. Ein Bild, das also schlecht aufgelöst ist, bleibt dadurch erkennbar, dass es über viele Farbinformationen verfügt. Das Zusammenspiel von Auflösung und Anzahl der Graustufen, also über Rasterung und Quantisierung, veranschaulichen folgende Grafiken:




Wie Rasterung und Quantisierung die Bildqualität beeinflussen: a) Originalzeichen, b) grob binär digitalisiert (=2 Farben, geringe Auflösung 10dpi), c) fein binär digitalisiert (=2 Farben, mittlere Auflösung 30dpi), d) grobe Rasterung, feine Quantisierung (=8 Farben, niedrige Auflösung 10 dpi)

Es wird deutlich: Rasterung und Quantisierung haben Auswirkungen auf die Bildqualität: Durch zu geringe Quantisierung oder Rasterung gehen Bildinformationen verloren. Mehr noch: Es kommen gegebenenfalls sogar noch Störungen hinzu. Dies ist unter anderem bei der digitalen Aufnahme mit grober Abtastung von Rasterbildern der Fall, wenn Bilder gescannt werden, die aus feinen Mustern, wie eben dem Punktraster eines Fotos oder einer schraffierten Fläche, bestehen. Die auftretenden periodischen Störungen nennt man Aliasing, bei Störungen in einem Punktraster spricht man vom Moiree-Effekt.



Eine schraffierte Fläche wurde beim Digitalisieren zu grob abgetastet. Folge: Es entstehen periodische Störungen, sogenannte Aliasing-Effekte.





Wird ein Punktraster zu grob abgetastet, entstehen auf dem Bild ebenfalls periodische Störungen, sogenannte Moiree-Effekte.


2.2    Grundlagen der Datenspeicherung

Nun da wir wissen, dass digitalisierte Bilder als zweidimensionale Funktionen verstanden werden können, die räumlich und farblich diskretiert sind, also jeder Pixel der Bildmatrix durch einen Wert beschrieben wird, betrachten wir, welche Eigenschaften dieser Wert (lassen wir den Begriff vorerst ganz allgemein) annehmen kann, was er aussagt und wie sich verschiedene Werte auf die Speicherung des Bildes auswirken.

Wie bereits gesagt, gibt der Wert, den ein Bildpunkt annehmen kann, die Farbe oder den Grauwert an. Dies wollen wir nun präzisieren: Liegt ein Bild in Graustufen vor (normalerweise verfügen "normale" Bilder über 256 verschiedene Grautöne), ist der Pixelwert eine skalare Größe und gibt die Helligkeit an (0=schwarz, 255=weiß). Mathematisch ist ein herkömmliches Graustufenbild also folgendermaßen definiert:

   mit      und      und   .

Bei Farbbildern verhält es sich ähnlich. Wie eingangs erwähnt (Kapitel 1.3), können alle für den Menschen sichtbaren Farben additiv mit den Grundfarben Rot, Grün und Blau gemischt werden. Dieses System hat sich auch in der digitalen Welt durchgesetzt: Beim RGB-Format beinhaltet ein Pixel die exakte Farbinformation, also 3 verschiedene Werte; der Pixelwert kann hier als dreidimensionaler Vektor aufgefasst werden, der über seine Komponenten die Rot-, die Grün- und die Blauintensität des Pixels angibt.

Werden digitale Daten (ganz allgemein, nicht nur Bilder) gespeichert, so liegt dem Speicherprozess ein binäres System zu Grunde, das zwischen 0 und 1 unterscheidet. Die kleinste Speichereinheit, die entweder 0 oder 1 sein kann, nennt man "Bit". Eine Gruppierung von 8 Bit wird "Byte" genannt. Hintergrund-Information zu Bits und Bytes...

Wird nun ein digitales Graubild gespeichert, so nimmt jeder der Pixel einen Wert zwischen 0 und 255 an. Diese Werte werden binär gespeichert, das heißt, dass 0 dem binären Wert 0 entspricht, 92 zum Beispiel dem Wert 1011100 und 255 dem Wert 11111111. Maximal werden also 8 Zeichen (0 oder 1) benötigt, um jeden beliebigen Wert zwischen 0 und 255 darzustellen, man spricht dann von einem Bild mit 8-Bit-Farbtiefe (da das Binärsystem ein System von 2er-Potenzen ist, kann man allgemein sagen: Mit einer Maximalanzahl, d.h. einer Farbtiefe von  Bit kann man bis zu  verschiedene Farbwerte speichern, wobei  ).



Verschiedene Grauwerte und ihre binären Entsprechungen


2.3    Globale Eigenschaften von digitalisierten Pixelbildern

In den folgenden Abschnitten wollen wir untersuchen, wie sich optische Unterschiede zwischen Bildern mathematisch ausdrücken, wie sich zum Beispiel hohe Helligkeit oder niedriger Kontrast in der Pixelmatrix des Bildes äußern. Wir gehen dabei (der Einfachheit halber, es geht ja schließlich um die Darstellung des Prinzips) von Graustufenbildern aus, die eine Farbtiefe von 8 Bit haben, also über 256 verschiedene Graustufen verfügen (dieses ist auch das gängige Format für Graustufenbilder in der Praxis).

Das augenfälligste Merkmal eines Bildes ist sicherlich seine Helligkeit. Dem Betrachter fällt beim ersten Ansehen eines Bildes sofort auf, ob es insgesamt zu hell oder zu dunkel ist. Hier ist es zweckmäßig, zur Beurteilung der Helligkeit, den mittleren Grauwert zu bestimmen, also den durchschnittlichen Grauwert, den alle Pixel des Bildes haben. Wie schon aus der Statistik der Mittelstufe bekannt, summiert man dazu alle Grauwerte und teilt sie durch die Anzahl der Summanden.

Bzw. kurz geschrieben:

Dieser mittlere Grauwert ist in vielen Fällen nützlich, da er eine brauchbare Charakterisierung der Helligkeit des Bildes liefert, jedoch führt er (wie jeder Durchschnitt, da er extreme Ausreißer nicht berücksichtigt) in manchen Fällen auch auf eine falsche Spur, wie folgende Beispiele zeigen:

-          für ein gleichmäßig gefärbtes Bild  mit exakt mittlerer Helligkeit ist

-          für ein stark unterbelichtetes Bild  ist

-          für ein stark überbelichtetes Bild  ist analog

-          für ein Bild  mit schwarz-weißem Schachbrettmuster ist  

-          der mittlere Grauwert des Sonnenuntergang-Bildes beträgt

-          der mittlere Grauwert des Bildes mit den Löwen beträgt




Das Bild mit den Löwen ist vergleichsweise hell, daher ist der mittlere Grauwert auch größer als beim Sonnenuntergangsbild, das insgesamt eher dunkel ist (Bilder: Kai's Power Goo).

Beim Betrachten der Beispiele wird deutlich, dass der mittlere Grauwert mit Vorsicht zu genießen ist: So ist zum Beispiel der Wert eines homogen gefärbten Bildes mittlerer Helligkeit mit dem eines Schachbrettmusters identisch, weil der Durchschnitt der Grauwerte gleich ist, nur werden diese Bilder sicherlich verschieden wahrgenommen. Im Folgenden definieren wir daher ein weiteres wichtiges Charakteristikum, das uns Informationen über die Beschaffenheit eines Bildes gibt.

Aus der Statistik ist bekannt, dass man zur Beurteilung einer Verteilung (wir betrachten das digitalisierte Bild ja als Verteilung verschiedener Grauwerte, daher die Analogie) untersucht, wie sehr die einzelnen Werte gestreut sind, das heißt, wie sehr sie vom Mittelmaß abweichen. Zweckmäßig ist hier, die mittlere quadratische Abweichung (oder auch: Varianz) zu bestimmen, da bei diesem Streuungsmaß keine negativen Ergebnisse auftreten können (diese werden durch das Quadrieren eliminiert) und auch Daten, die besonders stark vom Mittelwert abweichen und somit das Aussehen des Bildes stark beeinflussen (vgl. Schachbrettmuster und eintönig mittelgrau eingefärbtes Bild), durch die Quadrierung stärker ins Gewicht fallen als diejenigen in der Nähe des Mittelmaßes. Die Varianz, die angibt, wie sehr die einzelnen Grauwerte  vom Mittelwert  abweichen, ist definiert durch:

Da stärkere Abweichungen vom Mittelwert mehr ins Gewicht fallen als Grauwerte nahe des Mittelwertes, ist  ein Maß für den Kontrast. Während die beiden Fälle "Schachbrett" und "homogenes Mittelgrau" die gleiche mittlere Helligkeit aufweisen, zeigen sich nun in der Varianz große Unterschiede:

-          das homogene Graubild besitzt nur einen Farbton, die mittlere quadratische Abweichung ist also

-          bei einem Schachbrettmuster (die Größe spielt keine Rolle, da schwarz und weiß zu gleichen Anteilen über das Bild verteilt sind, daher in der folgenden Rechnung auch Division durch 2) beträgt die Varianz

Das Schachbrett-Bild hat also einen hohen Kontrast (wie trivial zu erkennen: den höchstmöglichen), das homogene Bild mit mittlerem Grau gar keinen.

Mit den beiden Maßen Mittelwert und Varianz haben wir nun zwar zwei Kriterien definiert, mit denen wir globale, statistische Aussagen über ein Bild machen können, jedoch ist es weiterhin sinnvoll zu erfahren, wie groß der Anteil der einzelnen Grauwerte am Gesamtbild ist. Wir führen also Histogramme ein, an denen solche quantitativen Aussagen abzulesen sind:

Das Histogramm gibt für jeden Grauwert  aus der Menge aller Grauwerte  eines Bildes  seine absolute oder relative Häufigkeit  im Bild  an. Wie für alle relativen Häufigkeiten bei Verteilungen gilt also:

   sowie   ,

da die relative Häufigkeit eines Grauwerts nicht negativ oder > 1 sein kann und da die Summe aller Häufigkeiten zusammen immer 1 ergeben muss (mehr als 100% Anteil an einem Bild können Grautöne ja nicht haben). An einigen Beispielen wollen wir die Eigenschaften von Histogrammen zeigen:

-          bei einem gleichmäßig mit dem Grauton eingefärbten Bild erhalten wir für den Grauton  und alle anderen (im Bild nicht vorhandenen Grautöne)  die Häufigkeiten:    und  

-          bei einem ausgewogenen Bild (ausgewogene Helligkeit, ausgewogener Kontrast) kommen alle 256 Grauwerte  etwa in gleichem Umfang vor; im optimalen Fall erhalten wie also  für alle

-          bei einem dunklen Bild mit wenig Kontrast erhalten wir für die niedrigen Grauwerte , die die dunklen Bildpartien ausmachen, hohe Werte für

-          Ein Schachbrett sowie alle anderen Bilder, die ebenfalls die 2 Farben schwarz (0) und weiß (255)  gleich häufig enthalten, hat folgende Verteilung:

   und       sowie      für alle anderen Grautöne

-          untenstehende Histogramme zeigen die Grauwertverteilungen für die Beispielbilder "Sonnenuntergang" und "Löwen" sowie für einen (nahezu) homogenen Verlauf von schwarz nach weiß




Das Löwen-Bild ist recht ausgewogen, es verfügt über einige dunkle und einige helle Partien, die meisten Bildanteile liegen jedoch im mittleren Skalen-Bereich (Bilder: Kai's Power Goo).





Das Sonnenuntergang-Bild ist insgesamt dunkel, so zeigt das Histogramm eine große Häufigkeit von schwarz-ähnlichen Grauwerten; der mittelgraue Himmel sorgt ebenfalls für einen starken Ausschlag des Histogramms, helle Bildbereiche fehlen fast vollständig (Bilder: Kai's Power Goo).





Beim fast homogenen Farbverlauf von schwarz nach weiß treten alle 256 Grautöne in gleicher Häufigkeit auf, daher ist das Histogramm auch annähernd gleichmäßig (kleinere Unterschiede sind durch die Messungenauigkeit und Bildschirmdarstellung bedingt).


Histogramme geben, wie hier deutlich wird, keine Auskunft darüber, wo sich die einzelnen Grauwerte räumlich befinden, sondern zeigen lediglich ihre Häufigkeit im Bild an (benötigt man örtliche Aussagen, kann man Histogramme an Linien ausrichten, die durch das Bild gehen, und so zu jedem Punkt auf der Linie den dort gemessenen Grauwert erhalten; solche Histogramme nennt man Grauwertprofile, auf die jedoch hier nicht näher eingegangen wird).

Kurze Erwähnung sollten hingegen die relativen Summenhäufigkeiten finden. Während die Grauwerthäufigkeit  die Häufigkeit eines einzelnen Grauwertes  im Bild angibt, gibt die relative Summenhäufigkeit  Auskunft darüber, wie hoch der Anteil aller Grauwerte  unterhalb von  ist:

Natürlich muss gelten: , da - wie bereits gezeigt - schon  gilt und da in extremen Fällen entweder gar kein Grauwert oder alle Grauwerte des Bildes unterhalb von  liegen. Die Funktion  ist somit monoton steigend.



Die relative Summenhäufigkeit für den Grauwert 120 beträgt 0,3986, das heißt: Die Grauwerte zwischen 0 und 120 sind im Bild mit etwa 40% vertreten.

Zuletzt in diesem Kapitel führen wir den Begriff der Entropie ein. Da es sich dabei um ein Maß des durchschnittlichen Informationsgehaltes eines Bildes handelt, passt es ganz gut zum Oberbegriff "Globale Eigenschaften", auch wenn wir die Entropie später noch einmal ausführlich aufgreifen werden (Kapitel 8).

Die Entropie  gibt die minimale Anzahl von Bits an, die man benötigt, um ein Pixel im Bild  zu speichern, und ist somit auch eine Anzeige, ob man mit Kompressionstechniken überhaupt den Speicherplatzbedarf verringern kann. Sie ist definiert durch:

Betrachten wir zum besseren Verständnis, was die Entropie angeht, ein paar Beispiele:

-          bei einem gleichmäßig mit dem Grauton  eingefärbten Bild erhalten wir für die Entropie

-          bei einem Bild mit ausgewogener Helligkeit und ausgewogenem Kontrast kommen alle 256 Grauwerte  etwa in gleichem Umfang vor, es gilt also für jeden Grauwert ; die Entropie ist in diesem Falle (jeder Grauwert ist gleichhäufig, daher kann man statt der Summierung den Term unter der Summe mit der Anzahl der Graustufen, mit 256, multiplizieren): . Jeder einzelne Pixel benötigt also 8 Bit, sprich 1 Byte, wenn man ihn ohne Verluste speichern möchte.

-          Ein Schachbrett sowie alle anderen Muster, die nur 2 Grautöne  und  enthalten, die in gleicher Häufigkeit vorkommen, hat die Entropie 1, da:  und somit
Gehen wir davon aus, dass uns keine weiteren Informationen über das Bild vorliegen, wird 1 Bit pro Pixel benötigt, um das Bild zu speichern.

-          Liegt ein Binärbild vor, dessen Farben schwarz und weiß unterschiedlich oft auftreten, zum Beispiel  und , so beträgt die Entropie:

Für ein solches Bild würde also weniger als 1 Bit zur verlustfreien Speicherung eines Pixels benötigt. Dieses kann durch geeignete Kompressionsmethoden erreicht werden.

Eine Herleitung der angegebenen Entropie-Fomel sowie Erklärungen zum besseren Verständnis liefern wir in Kapitel 8, wenn uns die Entropie thematisch wieder begegnet. An dieser Stelle reicht erst einmal die reine Kenntnis der Formel.


2.4    Datenstruktur

Nachdem wir nun wissen, was digitale Bilder genau sind, welche Charakteristika sie aufweisen und wie sich diese mathematisch ausdrücken lassen, betrachten wir im Folgenden, wie die Bilddaten strukturiert sind, das heißt, wie die einzelnen Zahlen, die die Pixel-Position, die Farbwerte, die Bildgröße etc. angeben, in einer Bilddatei organisiert werden. Ausführlich behandeln wir zwei spezielle Arten der Datenorganisation in Kapitel 8, hier jedoch soll ein erster Eindruck über verschiedene Datenstrukturen vermittelt werden; der Einfachheit halber betrachten wir Binärbilder.

Die unkomplizierteste Art der Organisation ist die Lauflängen-Codierung, die in der Praxis recht häufig vorkommt (siehe Kapitel 10). Diese Methode nutzt die Gegebenheit aus, dass, wenn gleiche Pixelwerte hintereinander auftreten, man diese, statt sie einzeln zu schreiben, zusammenfassen kann. Wie man sich vorstellen kann, ist diese Methode besonders bei schwarz-weißen, also Binärbildern, nützlich, wohingegen sie bei einem Bild mit 24 Millionen Farben eher unpraktisch ist, da viel zu viele Farbwerte existieren, als dass mehrere identische häufig aufeinander folgen würden. Man kann die Lauflängenkodierung als Multiplikation auffassen: Statt alle "Summanden" einzeln hinzuschreiben, gibt man nur den Wert und seinen Faktor an. Nehmen wir als Beispiel die Pixelzeile:

000111100000111111000000011111111

Diese kann auf verschiedene Arten zusammengefasst werden, zum Beispiel, in dem man die Zeile in 0- und 1-Blöcke zerlegt und zu jedem Block den Wert (0 oder 1) und seine Länge angibt:

(3,0), (4,1), (5,0), (6,1), (7,0), (8,1).

Wenn wir nun noch festlegen, dass sich Schwarz und Weiß (also 0 und 1) immer abwechseln, dass die Grauwerte also alternieren, erhalten wir folgende Schreibweise, die gegenüber der ursprünglichen Pixelzeile um 81,8% verkleinert ist (wir betrachten beispielshalber nur die Zeichenanzahl, in Binärcodes muss die Kompression entsprechend ausgerechnet werden):

3 4 5 6 7 8.

Meist ist der Längenangabe eine obere Grenze gesetzt, z.B. 1 Byte. Sollte ein Wert nun z.B. 190 mal vorkommen, so muss man den Block aufspalten - und, da wir ja ein Abwechseln der Blöcke festgelegt haben, einen Block der Länge Null der anderen Farbe einschieben:

255 0 35.

Wir können die Pixelzeile 000111100000111111000000011111111 auch darstellen, indem wir die Länge und die Position der 1-Blöcke angeben, alles andere muss dann ja ein 0-Block sein. Bei dieser Art ergibt sich für unsere Beispielpixelzeile die Darstellung:

(3,4), (12,6), (25,8).

In Kapitel 8 werden wir eine Variante dieser Lauflängencodierung kennen lernen, die bei der Verschlüsselung und der Komprimierung von Bilddaten im JPEG-Format angewandt wird. Es gibt noch zahlreiche andere Möglichkeiten, Bilddaten zusammenzufassen, jedoch beziehen sich diese im Großen und Ganzen auf Binärbilder, da, wie bereits gesagt, bei einer Farbraum-Wertemenge von 2 Farben (Schwarz und Weiß) öfter Pixel des gleichen Wertes nebeneinander liegen und daher zusammengefasst werden können als bei einer Farbraum-Menge von 255 Abstufungen (die wir im RGB-Format in den Kanälen Rot, Grün und Blau haben).

Für die Codierung von Binärbildern gibt es zum Beispiel Richtungscodes. Die einzelnen Pixel  eines Bildes sind dabei nicht durch ihre Koordinaten m und n in der  Bildmatrix beschrieben, sondern über eine einheitliche Benennung der umliegenden Bildpunkte eines bestimmten Pixels, der "Nachbarn":



Man kann die Position von Pixeln auch angeben indem man sie in Bezug auf einen bestimmten Ausgangspixel durchnummeriert. Bei diesem Pixelnachbarn-System bekommen alle Nachbarn vom Pixel p eine Nummer zugeordnet, mit der sie relativ zu p eindeutig beschrieben sind.

Der 4-Nachbar eines Pixels  ist demnach der Pixel , der 1-Nachbar der Pixel . Diejenigen Nachbarn, die eine gemeinsame Kante mit dem Pixel  haben, also die 0-, 2-, 4-, und 6-Nachbarn, heißen direkte Nachbarn. Die anderen, die nur eine Ecke mit dem Pixel  gemeinsam haben, werden indirekte Nachbarn genannt.

Mit dieser Art der Codierung lassen sich viele Operationen schnell und einfach durchführen, wie zum Beispiel das Drehen eines Bildes um Vielfache von 45°, da hierbei die Richtungscodes nur um eine ganzzahlige Konstante erhöht werden müssen, wobei man mit modulo 8 rechnen muss, um aus dem System der einheitlichen Bezeichnung (siehe obige Grafik) nicht herauszufallen. Auch lassen sich mit Richtungscodes die Höhe und Breite einer Fläche sowie deren Umfang oder auch der Abstand zwischen zwei Punkten ziemlich schnell und einfach berechnen. Das sei hier jedoch nur am Rande angemerkt, da wir uns mit vollfarbigen Grafiken und deren Kompression nach dem JPEG-Verfahren befassen.


2.5    Begrifflichkeit

Zum Abschluss des Kapitels über die Grundlagen der digitalen Bilder sei noch etwas zur Terminologie angemerkt: Umgangssprachlich hat es sich etabliert, von "der Pixel" zu sprechen. Ursprünglich heißt es jedoch "das Pixel", da Pixel ja die Abkürzung für "picture element" und somit im Deutschen das Neutrum durchaus angebracht ist (DAS Bildelement, ergo auch DAS Pixel). Jedoch verhält es sich bei diesem Phänomen wohl wie mit "das Virus" und "der Virus" in der Biologie...


< Kapitel 1     Kapitel 3 >

Die JPG-Kompression, Kapitel 2 Sebastian Wickenburg, Aeneas Rooch, Johannes Groß 2002