TCP/IP oder der Zement...: 2003-11-26

Mittwoch, 26. November 2003

Collaborative Computing

Marconi’s Traum ging in Erfüllung („Eines Tages werden alle Menschen ihr persönliches Funkgerät besitzen und frei miteinander kommunizieren können...“, 1905), und auch der Schneider von Ulm hätte Tränen in den Augen, könnte er sehen und miterleben, wie ein Jumbojet abhebt. Röntgen würde in seiner Bescheidenheit einen Kernspintomographen wahrscheinlich für ein „Ding aus einer anderen Welt“ halten und nächtelang darüber nachgrübeln, warum man gerade ihn als Vater dieser Entwicklung bezeichnet...

Was hätten wohl die Herren Leibnitz, Zuse, Aiken, Eckert & Mauchley oder Shannon zu unseren heutigen „binären Umtrieben“ beizutragen? Es würde ihnen im ersten Moment beim Anblick eines Personal Computers wahrscheinlich schlicht die Sprache verschlagen, nach (äußerst) kurzer Reflexion aber würde sich bestimmt ein jeder sein Spezialgebiet greifen und mit Feuereifer zu entwickeln beginnen. Selbstverständlich hielte man sich mit Hilfe von Emails, Weblogs, Foren, Messenger-Diensten und klassischen Publikationen gegenseitig auf dem Laufenden. Und mit an Sicherheit grenzender Wahrscheinlichkeit würden unsere großen Vordenker der „Artificial Intelligence“ auch regelmäßig Videokonferenzen einberufen...

Wagt man sich als Dompteur der Bits und Bytes an Videokonferenzen, so verhält es sich ähnlich wie mit einem Bergsteiger, der plant, die Eiger Nordwand zu bezwingen, oder wie mit einem Motorradfahrer, der eine 170-PS-Maschine zu pilotieren gedenkt. Allen drei Aspiranten sollte klar sein, dass sie sich auf ein sehr, sehr hohes Niveau ihrer Tätigkeit begeben und dass langjährige Erfahrung und gründliche Vorbereitung eine Grundvoraussetzung für ihr Tun darstellt. Und die Möglichkeit, Schiffbruch zu erleiden und wieder von vorne beginnen zu müssen, ist natürlich auch immer im Hinterkopf zu behalten...

Definitionen von „Medium“ finden wir in der Literatur ohne Zahl, wesentlich dünner dagegen wird die Luft beim Versuch, den Begriff „Multimedia“ festzunageln. Nach Dozent Brody spricht man von „Multimedia“ im Zusammenhang mit Medienverknüpfungen, die noch nicht „richtig“ charakterisiert sind – so ich seine Worte als nicht gerade leidenschaftlich stenographierender Zeitgenosse mnemotechnisch korrekt speichern konnte. Ich habe mich in die Tiefen der ebenfalls relativ dünn gesäten technisch-multimedialen Fachliteratur begeben und bei Ralf Steinmetz („Multimedia Technology“, 3. Auflage, Springer-Verlag) folgende Definition gefunden, die mir ebenfalls sehr sympathisch erscheint: „Ein Multimediasystem ist durch die rechnergesteuerte, integrierte Erzeugung, Manipulation, Darstellung, Speicherung und Kommunikation von unabhängigen Informationen gekennzeichnet, die in mindestens einem kontinuierlichen (zeitabhängigen) und einem diskreten (zeitunabhängigen) Medium kodiert sind“ – wobei die Betonung m.E. ganz klar auf „kontinuierlichem Medium“ liegen muss. Und nach dieser Standortbestimmung wären etwa Videokonferenzen zwischen unterschiedlichen Lehrsälen, geleitet von realen und „kodierten“ Vortragenden, multimediale Veranstaltungen reinsten Wassers. (Brody: „Falls der Professor nur einen PC und einen Videobeamer einsetzt, dann sprechen wir nicht von Multimedia, sondern von einer computerunterstützten Vorlesung...“)

Dringen wir nun einen Schritt tiefer in die Materie ein, so wird es langsam Zeit, das Gurtzeug und den Helm anzulegen – wir steuern in direkter Konsequenz hart auf den Überbegriff des „Collaborative Computing“ zu... Steinmetz: „Eine breit verfügbare Infrastruktur von vernetzten Rechnern mit der Fähigkeit der Verarbeitung von Audio- und Videoströmen eröffnet den Anwendern die Möglichkeit, kooperativ zusammenzuarbeiten und dabei sowohl räumliche als auch zeitliche Entfernungen zu überbrücken. Die Einbindung in Netze und die Integration von Multimedia-Komponenten in die Endsysteme schafft damit für die Benützer eine Arbeitsumgebung für die gemeinschaftliche und kooperative Arbeit mit Computern. Diese Form der Kooperation wird allgemein unter dem Begriff „Computer-Supported Collaborative Work (CSCW) beschrieben und zusammengefasst.“

Die Dimensionen der Zusammenarbeit lassen sich nach Zeit und Ort in ein Viererschema einfügen:
Ort & Zeit gleich: „Face-to-face-work, shared applications, LAN-Parties
Ort & Zeit verschieden: Email, Newsgroups, Weblogs, Dynamic Developments
Ort gleich, Zeit verschieden: Kommunikations-, Kooperations-, Planungs- und Entscheidungswerkzeuge in Wissenschaft und Wirtschaft
Ort verschieden, Zeit gleich: Videokonferenzen, Software-Entwicklung, Messenger –Dienste, Chatrooms, Online-Gaming
Ausgehend vom Parameter „Zeit“ können also synchrone, zeitgleiche, und asynchrone, zeitunabhängige Modi unterschieden werden. Wird der Aspekt der Zusammenarbeit betont, so dreht es sich um „Computer-augmented Collaborative Systems“, liegt der Schwerpunkt auf der Verarbeitung durch die Rechner, so spricht man von „Collaboration-augmented Computing Systems“. Für beide gilt immer, dass die rechnerunterstützte Zusammenarbeit zumindest eine soziale Aktivität oder Komponente beinhaltet.

Ein weiteres, wesentliches Unterscheidungsmerkmal liegt besonders in der Anzahl der Teilnehmer: Gibt es genau deren zwei, so kann eine direkte Adressierung erfolgen – eine oft auch bei Amateuren eingesetzte „Spielerei unter Freunden“. Findet man Teilnehmergruppen vor, so sind Gruppenmanagement und eine Metainstitution zwingend erforderlich. Ohne solche Hierarchien wäre nicht definierbar, wer wann zu welcher Gruppe gehört und wie eine Gruppe zu adressieren ist. Als dritte Möglichkeit und Sonderform der Gruppe, die sich mehr und mehr zu einem weiteren Standard entwickelt, muss man auch den Broadcast, das „Senden an alle“, ins Kalkül ziehen. Ein nicht zu unterschätzendes Problem resultiert nun – übergeordnet - aus dem Blickpunkt der Datensicherheit: Soll man Kiebitze tolerieren, ja, sind sie sogar erwünscht, oder will man strikt unter sich bleiben?

Es wäre nun freilich kein Artikel aus meinem Keyboard, wenn ich nicht auch direkt auf die technische Seite einer Videokonferenz eingehen würde... Und um verstehen zu können, was sich bei einer solchen eigentlich abspielt, sollte man zuerst über die besondere Struktur von Audio- und Videodateien etwas Bescheid wissen.

Steinmetz: “Audio spielt für die Beschreibung und Erklärung der visuell dargestellten Informationen in einer Videokonferenz eine sehr wichtige Rolle. Oft ist Audio selbst viel wichtiger als Video. Daher ist eine qualitativ hochwertige Audioübertragung mit einer Voll-Duplex-Kommunikation und Echounterdrückung wünschenswert.“ Beim Duplexmodus können alle Teilnehmer gleichzeitig sowohl senden als auch empfangen, im Unterschied zur Simplex-Kommunikation, welche nur Senden oder Empfangen gestattet – vergleichbar etwa einem Telefon (duplex) und einem Funkgerät (simplex).

Sprache, Musik oder hörbare Geräusche welcher Art auch immer, beruhen auf periodischer Kompression und Dekompression von Luft. Ein Mikrophon setzt dieselben in Wechselspannungen genau jener Frequenzen um, mit welcher auch die Luft schwingt. Diese Wechselspannungen werden über Verstärkerschaltungen zu Wechselströmen umgesetzt, die auf einem analogen Steinzeit-Tonbandgerät direkt magnetisch aufgezeichnet werden können. Grundlegend anders verhält sich die Sache, wenn man die Akustik in den Computer bringen möchte – man muss die Signale PCM-kodieren („Pulse Code Modulation“): Ein Analog-Digitalwander tastet das Signal, stark vereinfacht gesprochen, mit einer bestimmten Abtastrate oder Sampling-Frequenz ab und setzt es dieserart in Bits und Bytes um. Claude Elwood Shannon beschrieb diese Technik, bei der die Abtastfrequenz mindestens doppelt so hoch sein muss wie das frequenzmäßig höchste im Umkehrvorgang später dann zu reproduzierende Signal, theoretisch bereits in den Vierzigerjahren des vorigen Jahrhunderts. Und typischerweise arbeiten CD-Player ja mit einer Basic-Sampling-Frequency von 44,1 kHz, also dem doppelten des obersten hörbaren Bereichs von etwa 20 kHz beim Erwachsenen mittleren (meines) Alters, plus einer kleinen Reserve. Bei der hochqualitativen Audio-CD ergibt sich für eine „Datentiefe“ von 64 Bit pro Abtastwert die furchteinflößende Datenrate von 176,4 Kilobyte pro Sekunde. Telefonqualität ohne klangbestimmende, speichergierige Formanten – eine Stradivari klingt dann eben wie eine Zigarrenkiste mit Hals und Drähten - begnügte sich dagegen mit vergleichsweise lächerlichen 8 Kilobyte pro Sekunde aufgrund der Datenreduktion. Um die digitalen Spuren wieder analog hörbar zu machen bedarf es eines Digital-Analogwandlers, der softwaregestützt die Aufgabe des Dekodierens der „Lands“ und „Pits“ einer CD übernimmt.

Es leuchtet nun jedermann ein, dass diese Datenmengen viel zu mächtig sind, um bei unseren (derzeit noch relativ) beschränkten Bandbreiten in Echtzeit übertragen werden zu können – und die Videodateien kommen in unserem Fall ja auch noch dazu! Man bedient sich daher unterschiedlicher Datenreduktions- und Kompressionsverfahren, bevor man die Daten auf die Reise schickt. Zum Vergleich: Eine Minute im unkomprimierten, unreduzierten CD-Audioformat (ISO oder Joliet) frisst satte 10,584 Megabyte auf, einer Minute im jedermann bestens bekannten mp3-Format dagegen dürstet nach nur etwa einem Zehntel dieser Einheit, der „komprimierte Telefonhörer“ benötigte ein einziges, bescheidenes Kilobyte pro Sekunde... Des Pudels Kern liegt bei diesen Technologien darin, einen vernünftigen Kompromiss aus hörbarer Qualität und speicherplatzhungriger Quantität zu finden. Und zu allem Überdruss sollte der Dekodierungsprozess nicht nur High-End-Rechnern der allerletzten Generation mühelos möglich sein.

Auch in der digitalen Videotechnik muss man - wie beim analogen Film - von einem Einzelbild ausgehen. Ein digitales Bild wird durch zwei Parameter spezifiziert, und zwar einerseits durch die räumliche Auflösung in „Pixel mal Pixel“, jenem dimensionslosen Wert, auf den Hersteller von Digitalkameras in der Werbung so furchtbar gerne und marktschreierisch ihr Hauptaugenmerk legen, und andererseits durch die Farbkodierung, gemessen in Bits pro Pixel (Ein „Pixel“ ist nicht mehr und nicht weniger als ein beinahe dimensionsloser Punkt in einer mathematisch ziemlich aufwendig definierten „Matrix“, einer folglich ebenso dimensionslosen Fläche...). Je höher dieser Bitwert liegt, umso mehr Farben können kodiert werden – man spricht gerne von „Farbtiefe in Bits“. Und auch in der „abbildenden Kunst“ sind wir mit genau demselben Problem konfrontiert wie die Redner und Komponisten: Die Datenmengen werden ohne Kompression in Windeseile unerträglich umfangreich. Unkomprimierte Grafikformate wie etwa die bekannte Urmutter „Bitmap“ oder das im professionellen Grafikbereich gerne verwendete Tagged Image File Format („TIFF“) benötigen bis zum Hundertfachen – und wesentlich mehr - des Speicherbedarfs einer Joint Photographic Experts Group („JPEG“) Datei. Über besonders schlaue Algorithmen schreibt dieser Standard nämlich keine definierte Genauigkeit vor, was zu dramatischer Datenreduktion führt.

Zur Erzeugung der für eine Videokonferenz benötigten Bilder bedient man sich meist sehr preiswerter Webcams mit einlinsigem Objektiv von minimaler Lichtstärke und CCD’s („Charge Couple Device“, ladungsgekoppelter Hauptchip einer Digitalkamera, bestehend aus einer Reihe lichtempfindlicher Speicherelemte) geringster Auflösung. Hohe Qualität ist ja nicht von Nöten, da dieselbe nur die Datenmengen steil nach oben katapultieren würde... Selbstverständlich ließe sich auch jede hochwertige, technisch anspruchsvolle Digicam zu diesem Zweck einsetzen – es ist ja auch nicht verboten, bei einem Ferrari einige Zündkerzen zu entfernen...

Sind die Probleme mit Audio- und Video-Komprimierung endlich gelöst, so folgt die nächste Herausforderung auf dem Fuße – Goethe würde sagen: „Ein jeder Wunsch, der dir erfüllt, kriegt augenblicklich Junge.“ Man benötigt ein Datenformat, welches den Bildern das laufen beibringen kann und noch dazu im Stande ist, Audio- und Videodateien – selbstredend komprimiert – zu vereinen und zu synchronisieren... Und ein solches wäre beispielsweise das jedermann bekannte MPEG (Moving Picture Experts Group). Es existieren noch einige andere, da natürlich bis Dato die einzelnen Konzerne und Entwickler brav ihre jeweils eigenen Süppchen kochen. Das Prinzip ist aber allen gleich, man bedient sich der wohlfeilen Schichtentechnik - wie sich doch die Kreise immer wieder schließen...

Ein komprimierter Audiostrom setzt sich in MPEG aus drei Ebenen zusammen, i.e. die Frames, die in die Audio Access Units (Zugriffseinheiten) gegliedert werden, und diese wiederum werden von den Slots als unterster Ebene aufgebaut. Die kleinstmögliche, vollständig dekodierbare Einheit komprimierter Daten stellt eine AAU dar. Alle in einem Frame enthaltenen AAU’s ergeben bei einer Abtastrate von 44,1kHz eine Spieldauer von 8,7 Millisekunden.

Ein Videostrom besteht aus sechs Schichten: In der obersten, dem Sequence Layer, wird die Zwischenspeicherung der Daten mit Hilfe des sogenannten „Video-Buffer-Verifiers“ gesteuert. Darüber hinaus finden sich Einträge über die Bitrate (Qualität) und den für die Dekodierung notwendigen Speicherbedarf.

Nicht immer entspricht die Reihenfolge der Bilder im Datenstrom der Reihenfolge der Bilder in der Anzeige. Im „Group of Pictures Layer“ wird ein Referenzbild zum Decoder geschickt, zwischen Datenstrom und Anzeige wird unterschieden. Der „Picture Layer“ beinhaltet ein komplettes Einzelbild. Die zeitliche Abfolge der Bilder wird über die Bildnummer festgelegt, und Reservedatenfelder für zukünftige Anwendungen sind hier implementiert.

„Slice Layer“, „Macroblock Layer” und “Blocklayer” seien an dieser Stelle nur der Vollständigkeit halber erwähnt – in diesen Schichten finden sich Skalierungen, Quantisierungen und allerhand sonstige, hochkomplexe Algorithmen, die wir getrost den Kollegen von den Computerwissenschaften oder den Mathematikern überlassen können.

Bis zu diesem Moment war, wohlgemerkt, die Rede von digitalen Tonfilmdateien, die man sich via DFÜ in aller Ruhe, Schritt für Schritt, bei Bedarf von einem Server downloaden, speichern, aufrufen und dekodieren, oder, entsprechende Hard- und Softwareausstattung vorausgesetzt, auch selber herstellen kann. Der Zeitfaktor war quasi sekundär. Unser Bergsteiger hätte nun etwa ein Drittel seines Wegs zurückgelegt, der Motorradfahrer würde mit vergleichsweise gemütlichen 100 km/h die Landstrassen unsicher machen. Von „Echtzeit-Streaming“ war noch nicht die Rede. Und um bei diesem Paradigma zu bleiben, hätte der Bergfex den Gipfelsieg vor Augen, die Tachonadel der imaginären Hoyasuka würde sich der 300 km/h-Marke nähern, so man die Dimension der möglichst geringen Zeitverzögerung bei nahezu unvorstellbar komplexen binären Vorgängen mit ins Kalkül zieht: Die analogen Signale von Mikrophon und Kamera müssen zuerst AD-gewandelt werden, es folgen Datenreduktion und Kodierung/Kompression über komplexeste Algorithmen (mathematische Beziehungen), Protokolle müssen beachtet und befolgt werden, Hardware-Netzwerke haben unter Kompensation menschlicher und technischer Unzulänglichkeiten überwunden zu werden, softwaretypische „Wanzen“ soll man auszumerzen. Auf der Empfängerseite läuft der Hase in exakt umgekehrter Richtung. So, und diesen ganzen Wust darf man nun noch mit der Anzahl der Teilnehmer respektive teilnehmenden Gruppen multiplizieren, da ja alle Beteiligten im Duplexmodus sowohl Sender als auch Empfänger sein können... Als Tüpfelchen auf dem i – ich habe es bereits erwähnt – könnte man noch die Möglichkeit einer Echtzeitverschlüsselung der Daten betreiben, so man Kompressionsalgorithmen für die Datensicherheit als unzureichend erachtet. Man gestatte mir, ein beliebtes, joviales geflügeltes Wort der EDV-Branche abzuwandeln: Es gilt nicht nur eine einzelne Kuh vom fragilen Eis zu holen, sondern gleich eine komplette argentinische Hazienda...

In aller Kürze und möglichst „untechnokratisch“ erklärt, verlangen Realzeit-Prozesse grundsätzlich nach einem Server und schnellen, breitbandigen Netzen, einfache Client-Client-Verbindungen genügen diesen Ansprüchen nicht mehr. Dieser Server hat nun die rechnerisch äußerst anspruchsvolle Aufgabe, die „Zwischenaufbereitung“ der fließenden Daten zu übernehmen. Und abermals schließt sich ein Kreis, der interessierte Leser ahnt es bereits: Wir benötigen entsprechende Protokolle, damit unsere Videokonferenz nach vorgegebenen Regeln möglichst klaglos über die Bühne gehen kann. CCCP, das „Conference Control Channel Protocol, wäre etwa ein solcher Ansatz, (State-) Agreement-Protokolle schreiben spezielle Regeln, die sogenannten „Policies“ für den Zustand einer Sitzung vor (Initiator-of-Policies, Voting-Policies, Consistency Policies). Bill Gates als oberster Herrscher einer der größten Organisationen des Universums bezeichnet sich selbst gerne als „Softwarearchitekt“. Und wir sprechen in unserem Fall einer Videokonferenz mit Fug’ und Recht nicht länger von „Strukturen“, sondern analog zu Gates von einer höchst umfangreichen „Architektur zur Sitzungssteuerung“.

Zum Abschluss erlaube ich mir abermals, Steinmetz zu zitieren, da unsere Meinungen einen ziemlich engen Parallelslalom fahren: „Multimedia-Anwendungen werden in Zukunft immer stärker auf verteilte Umgebungen ausgerichtet und mehrbenutzerfähig sein.“ Dieser Punkt sollte in der Zwischenzeit, wenn auch nicht fehlerfrei, erreicht sein – ein Musterbeispiel dafür, dass Computerliteratur ebenso schnell „partiell altert“ wie die Rechner selbst. „Multimedia-Anwendungen sind bisher stark plattformspezifisch und systemabhängig. Der Trend geht hin zu offenen Lösungen, so dass Anwendungen über verschiedene Plattformen hinweg portierbar sind.“ An dieser Forderung wird mit Hochdruck gearbeitet, die benötigten Protokolle werden bereits (aus)entwickelt, das Ziel steckt seit etwa einem Jahr nicht mehr in den Kinderschuhen und scheint bereits in greifbarer Nähe. „Die Mediennutzung wird im Gegensatz zu der bisherigen eher passiven Nutzung immer aktiver, d.h. der Benutzer kann und muss mehr bestimmen, welche Medien er wo, wie und wann konsumieren will. Die Medienkommunikation wird sich vom unidirektionalen zum bidirektionalen Informationsfluss orientieren.“ Und Collaborative Computing, das sei mir als Schlusswort gestattet, wird das wichtigste Werkzeug auf dem rasanten Weg dorthin sein!

„Wir brauchen nicht so fortzuleben, wie wir gestern gelebt haben. Macht euch nur von dieser Anschauung los, und tausend Möglichkeiten laden uns zu neuem Leben ein.“ Christian Morgenstern

... link (1 comment) ... comment

... older stories

Online for 7919 days
Last update: 2003.12.07, 11:21

status

You're not logged in ... login

... home
... topics
... galleries

... ::collabor:: home

calendar

recent updates

angenehm zu lesen...
... wie eigentlich alle Deine Texte. Anfangs noch von...

by wolfgang_bauer_salzburg (2003.12.07, 11:21)

Collaborative Computing
Marconi’s Traum ging in Erfüllung („Eines...

by johannes_pechatschek_salzburg (2003.11.26, 15:51)

gut, weiter so
aber ergänzen möchte ich die Anmerkung, dass...

by Hans.Mittendorfer.Uni-Linz (2003.11.12, 18:14)

User & Windows
Wo stünden wir heute ohne Wilhelm Röntgen,...

by johannes_pechatschek_salzburg (2003.11.11, 20:22)

Ein Genuss...
...dich zu lesen, wenn ich auch kurzerhand die Musik...

by kristian_savic_salzburg (2003.10.29, 21:37)