Using naked numbers to tell stories might just be the first great art form of the 21st Century. (aus: londonist.com)
Was ist Visual Data Mining?
Visual Data Mining ist Data Mining mit Hilfe von Bildern. Es sind Bilder, die komplexe Daten darstellen und von einem Menschen gelesen werden können. Sie enstehen unter Verwendung von Methoden der Informationsvisualisierung.
Visual Data Mining kombiniert die visuellen Fähigkeiten des Menschen mit den analytischen der Technik.

Verschiedene Visualisierungsmethoden aus "Mapping the Archive"
Die Ergebnisse eines Data Mining Prozesses werden von klassischen Data Mining Tools visuell dargestellt. Insofern ist Visual Data Mining vielleicht grundsätzlich nichts Neues, jedoch werden hier Potentiale nicht ausgeschöpft.
Oft ist anfangs nur sehr wenig über die Daten bekannt. Wie viele Datensätze gibt es? Wie viele unterschiedliche Informationsobjekte, wie hängen sie zusammen? Welche Attribute gibt es? Sind die Daten vollständig und konsistent? Die Ziele der Datenexploration können daher eventuell nicht genau spezifiziert werden.
Durch Visualisierung der Ausgangsdaten kann ein erster Überblick geschaffen werden. Daraus ergeben sich erste Fragestellungen, und ein passendes Data Mining Modell kann abgeleitet und auf die Daten angewendet werden. Auch die Visualisierung der Zwischenschritte hilft dem Benutzer zu erkennen, ob er sich auf dem richtigen Weg befindet.
Exploration, Erkundung, Erforschung von Datensätzen ist meist ergebnisoffen und erfordert eine interaktive Vorgehensweise. Der Analyst braucht Vorkenntnisse in Datenanalyse, und muss lernen die komplexe Software zu bedienen und die Visualisierung richtig zu deuten. Verwandte Begriffe sind: Exploratory data analysis, Visual Exploration.
Das Gegenteil ist representational visualization, auch illustrative visualization oder Infografiken, da geht es darum eine These zu veranschaulichen, oft verwendet in Präsentationen oder in Zeitschriften und Artikeln.
Bei den meisten Informationsvisualisierungen auf visualcomplexity handelt es sich eher um explorative Visualisierungen bzw. Interfaces, wobei es hier eher um eine Tendenz als um eine kategorische Trennung geht.
Todo: Beispiele von Methoden & Tools.

Aus einem Tutorial auf talend.com
Extract, Transform, Load (ETL) bezeichnet in der Informatik einen Prozess, um Daten aus mehreren Datenquellen mit ggf. unterschiedlichen Strukturen in einer Zieldatenbank zu vereinigen. Dieser Vorgang wird in drei Schritten vollzogen, aus denen sich die Bezeichnung ETL ableitet:
- Extraktion (Extract) der relevanten Daten aus verschiedenen Quellen
- Transformation (Transform) der Daten in das Schema und Format der Zieldatenbank
- Laden (Load) der Daten in die Zieldatenbank
[Quelle: Wikipedia]
Und bevor du nun anfängst, selbst ein ETL-Skript zu schreiben: es gibt da ein Open Source Tool. Talend bietet ein Klick-mich Wysiwyg-Interface und Unterstützung für so ziemlich alle Datenbanksysteme.

Satzbasierte Konfiguration (engl. sentence-based configuration) lässt sich gut anpassen und skalieren, denn die Parameter bekommen eine Bedeutung durch den sie umgebenden Text. Dieser kann selbst wieder andere Parameter enthalten.
Eine konventionelle Konfigurationsdialogbox hingegen versucht jeden Parameter isoliert anzuzeigen, was zu einem einschüchternden und verwirrenden Parameterchaos führen kann.
(sinngemäß ins Deutsche übersetzt aus: MagicInk)
Ich mag satzbasierte Konfiguration und kenne sie von dem Regelassistenten von Outlook. Manchmal eignen sich vollständige Sätze eben viel besser als lange Listen (oder ambitionierte Visualisierungen) dazu, komplexe Sachverhalte auszudrücken.

AL von murderdeathkitty.net
Das Grundprinzip kennt wahrscheinlich jeder: ein Künstler nimmt als Input Ton oder Bild oder sonst etwas, das sich in Zahlen ausdrücken lässt. Diese Zahlen werden durch einen geheimnisvollen Algorithmus gejagt, und der Output ist wieder Bild oder Ton oder ähnliches. Das nennt sich Generative Art. Wobei ich mich hier nur auf diejenigen Werke beziehe, die konkrete Daten, also z.B. Netzwerkströme oder den Puls des Besuchers als Input verwenden. Heraus kommen oft sehr ästhetisch faszinierende Werke, jedoch es ist nie nachvollziehbar, wie sie entstehen. Ich meine: man kann da vermutlich Jahre drauf starren, und wird nie etwas über die Inputdaten herausbekommen. Mehr…
Daten wie sie zum Visual Data Mining verwendet werden besitzen meist sehr viele Datensätze. Jeder Datensatz ist ein Informationsobjekt (z.B. ein Kunde) und besitzt verschiedene Attribute (z.B. Name, Adresse, Kundennummer). Je nach Anzahl der Attribute unterscheidet man zwischen Ein-, Zwei- oder Mehrdimensionalen Datensätzen. Anstatt mehrdimensional wird auch oft der Begriff multivariat verwendet. Typische Vertreter dieser Gruppe sind Tabellen in relationalen Datenbanken.

Beispiel von mehrdimensionalen Daten in einer Mysql-Tabelle
Mehrdimensionale Daten können nicht mehr mit den Standard 2D und 3D Techniken visualisiert werden. Doch es gibt verschiedene Methoden, um diese vielen Dimensionen in einer Ebene abbilden zu können.
Wenn es um Softwarevisualisierung geht, ist meist der Quellcode und seine Metriken gemeint. Es wird nicht begründet, warum nicht das Verhalten der Anwendung zur Laufzeit visualisiert wird. Klar, das ist um einiges komplexer noch, aber doch auch spannender? Bisher kümmert sich um das Laufzeitverhalten das Profiling, und da geht es eigentlich immer nur ums Performace Tuning. Mehr…

Arc von labs.digg.com
Beim Stöbern in bekannten und beliebten Beispielen für gelungene Visualisierungen (z.B. Digg Labs) fällt mir immer wieder auf: es ist anscheinend nicht üblich, die Visualisierung mit einer Legende zu versehen. Auch wenn es noch so hübsch und informativ aussieht: ich möchte ganz genau verstehen, was diese Punkte und Striche und Kurven alles zu bedeuten haben – ich will Information!