Unsere Welt zu verstehen:



 Beitrag 0-121
 
 

 
Über das Problem der

Decodierung von Nachrichten

 
 
Träger aller Information sind Nachrichten. Wie aber sind sie codiert?
 
Die Informatik sieht jede Nachricht als eine Folge von Bits, der es gilt, Semantik zuzuordnen.
 
Aber schon OCR-Programme müssen jede Nachricht sehen als eine Folge von Bildern (einzelner Buchstaben), die es erst mal zu unterscheiden und dann in Äquivalenzklassen einzuordnen gilt. Wie schwierig das sein kann, erkennt, wer sich handschriftlich erzeugte Texte — Briefe aus verschiedenen Jahrhunderten etwa oder Briefe geschrieben von verschiedenen Personen — ansieht.
 
 
Die kompliziertesten Nachrichten, die jeder von uns kennt, sind solche, die sich uns darstellen als eine 3-dimensionale Plastik geschaffen durch einen Bildhauer oder durch die Natur selbst.
 
 
Jedes im Körper eines biologischen Wesens vorkommende Protein etwa ist eine solch plastische Nachricht.
Machen wir uns das zunächst mal klar:

     
    Jedes DNA-Molekül hat die Form einer wendeltreppenartig gewundenen Leiter, deren Sprossen aus nur vier verschiedenen Arten von Bausteinen bestehen. Man nennt sie die Basen Adenin, Thymin, Cytosin und Guanin (abgekürzt: A, T, C, G). Zwei immens lange Kettenmoleküle bilden die seitliche Berandung der Leiter und winden sich umeinander zu einer Helix.
     
    Die die Basen darstellenden Moleküle sind in sie hineingesteckt, zeigen paarweise zueinander und sind in der Mitte über über eine schwache chemische Bindung miteinander verhakt (so dass jedes solche Paar eine Sprosse der Leiter darstellt).
     
    Die gesamte Leiter besteht aus 24 getrennten, ungleich langen Teilstücken, die zu den verschiedenen Chromosomen gehören. Sie enthält etwa 3 Milliarden Stufen
     
     
    Liest man die Basen entlang einer Seite der Leiter ab, so ergeben sich Folgen wie z.B. TTT CAT TAG TTG GAG ... usw.
     
    Jeweils 3 der Basen bilden ein Wort, das man als Codone bezeichnet und das einer von 20 Aminosäuren entspricht (d.h. einem der 20 elementaren Bausteine biologischer Körper).
     
    Dennoch: die 3 Basen eines Codones sind selbst noch nicht die Aminosäure. Sie sind lediglich der Code für eine.
    So ist etwa TCA (aber auch TCT, TCC, TCG, AGT und AGC) ein Code für Serin.
     
     
    Im nächsten Schritt werden — streng nach Vorgabe der DNA — die Aminosäuren zu Proteinen verknüpft, den Molekülen der lebenden Materie, deren jedes in folgendem Sinne eine 3-dimensionale Plastik darstellt, deren  F o r m  Semantik zukommt und daher eine Nachricht darstellt:

 
Die in  d i e s e n  Nachrichten enthaltene Information zu entschlüsseln wird eben zur eigentlichen Aufgabe der Bioinformatik und gestaltet sich aus folgendem Grund extrem schwierig:
 
Verantwortlich für das Wachstum, das Gedeihen und die richtige Funktion der Zellen unseres Körpers sind die Proteine, deren jedes zwar ein Kettenmolekül ist, zusammengebaut nach dem Plan der DNA, welches aber als Kette zusammengeknüllt ist zu einem Knäuel vergleichbar mit dem, das zustande kommt, wenn wir einen Faden zwischen den Findern zu einem etwa kugelförmigen Etwas zusammenknüllen.
 
Erstaunlich ist nun, dass die  F o r m  in der sich das kettenartige Molekül durch die Wirkung schwacher chemischer Bindungskräfte zusammengeknüllt hat, für unsere Gesundheit wichtige Information trägt.
 
Diese wundersame Transformation von etwas 1-Dimensionalem in etwas 3-Dimensionales nennt man den Vorgang der Proteinfaltung. Ihn zu verstehen ist für Chemiker und Biologen eine ebenso schwierige Aufgabe wie für Neurologen das Verstehen der Gehirnfunktionen und wie es zu Bewusstein kommt.
 
Wie also windet und faltet sich ein kettenartiges Molekül, dessen Zusammensetzung aus elementaren Bausteinen heute als vollkommen bekannt vorausgesetzt werden kann, über einen Zeitraum von Sekunden oder gar Stunden in eine stets gleiche Form (einer 3-dimensionalen Plastik), welche stets dieselbe Information darstellt?
 
Entstehen hierbeit durch Mutation "Druckfehler" — die dann i.A. sogar vererbt werden —, verursachen sie Krankheiten. Die erste, deren Ursache, man auf einen solchen Defekt zurückführen konnte, war eine meist tödlich endende Blutkrankheit: die sog. Sichelzellenanemie. Schon heute aber kennt man zahlreiche andere Krankheiten, die ebenso entstehen (z.B. Alzheimer und die Bluterkrankheit).
 
Herauszufinden, welche Mechanismen genau ein Kettenmolekül veranlassen sich zu falten, und weshalb es dies immer gleich, unter bestimmten Umständen aber doch anders tut, ist demnach wichtig für die Entwicklung von Verfahren, die solche, die Krankheit verursachenden  P r o z e s s f e h l e r  verhindern oder gar korrigieren können.
 
 
 
Vom Standpunkt der Informatik her muss man aber zunächst besser verstehen, wie es kommt, dass nicht nur Folgen von Zeichen (Folgen von Bits etwa), sondern auch  A n o r d n u n g  von Teilen der Nachricht Information darstellt.
 
Wichtiger Ausgangspunkt solcher Überlegungen ist die fast triviale Erkenntnis, dass beide Verfahren sich mischen.
 
Machen wir uns das klar anhand eines durch einen Drucker erzeugten einfarbigen Bildes, welches ja einfach nur aus schwarzen und weißen Punkten besteht, welche matrixartig gruppieren.
 
Zum Drucker kommt die Folge dieser Punkte als eine Folge von Bits vermehrt um Bits, die Zeilenvorschub darstellen. Wären letztere nicht vorhanden, würde man der gedruckten Folge schwarzer und weißer Punkte nicht mehr ansehen, welches Bild sie darstellt, d.h. welche Information sie trägt.
 
Wir sehen also:
 
 
Es gibt den Punkten (den Bits) zugeordnete Information,
 
aber auch Information, die erst durch die  A n o r d n u n g  der Punkte (der Bits) zustandekommt.

 
Man drückt das für gewöhnlich aus, indem man feststellt:
 
 
Das Ganze ist mehr als die Summe seiner Teile

 
Im Fall der Plastik ist jene Matrix eine 3-dimensionale. Heute schon existierende 3-D-Drucker berücksichtigen das.
 
Auch Bitmatrizen noch höherer Dimension kann man sich vorstellen, ob — und ggfs. wie — solche in der Natur auftreten ist heute noch unerforscht.

 


aus Notizen zu:

Nachrichten sind kodierte Information


Impressum