Der Traum eines Datavis-Experten

16. Juni 2011 Keine Kommentare

KategorienVisualisierung Tags:

Tableau – mächtiges Desktop-Tool

20. September 2010 Keine Kommentare
Tableau Screenshot

Tableau Screenshot

Nachdem ich bisher nur mit Tableau Public ein wenig gespielt habe, wollte ich mit möglichst wenig Aufwand einen Dashboard-Prototypen für Reportingdaten erstellen. Die Entscheidung fiel auf Tableau, und hier sind meine Erfahrungen nach einer recht intensiven zweiwöchigen Evaluierung von Tableau Desktop in Kombination mit dem Tableau Server. Mein Fazit:

  • Pro: Sehr mächtig und vor allem eine sehr intuitive Benutzeroberfläche
  • Con: Grenzen bei der Automatisierung bzw. Integration

Was kann Tableau?

Tableau Desktop kann aus verschiedenen Datenquellen lesen, diese nach Bedarf transformieren, also z.B. aggregieren, und die ausgewählte Datensicht in dafür geeigneten Charttypen darstellen. Folgende Charttypen werden unterstützt:
Mehr…

IV10 in London & mein Paper

16. September 2010 Keine Kommentare



[portfolio_slideshow timeout=4000]
Ende Juli war ich auf der IV10, der großen Infovis Konferenz, die dieses Jahr in London stattfand.
Dort habe ich mit einer Präsentation mein Paper vorgestellt: A Theme Landscape for Tagged Data. Damit ist dieses wissenschaftliche Werk aus meiner Zeit am Boltzmann Institut für Medien.Kunst.Forschung jetzt endlich offiziell publiziert!

Auf Anfrage schicke ich das Paper gerne per Mail zu.

In den 3 Tagen der Konferenz gab es natürlich eine Menge interessanter Präsentationen von Infovis Wissenschaftlern aus der ganzen Welt. Besonders gefallen hat mir die Keynote von Mikael Jern, in der er den eXplorer for advanced Statistical Visualization vorstellte. Dieses Tools bietet ein Dashboard für geografisch-statistische Daten und beeindruckt durch seinen ausgereiften Funktionsumfang und die benutzerfreundliche Oberfläche. Auch gibt es verschiedene Versionen online, z.B. der OECD Factbook eXplorer mit 256 bereits vorgeladenen zeitbasierten Indikatoren für OECD Länder. Das muss ich mir noch mal genauer anschauen!

KategorienNews, Tools Tags:

Visual Data Mining

6. Juli 2010 Keine Kommentare

Using naked numbers to tell stories might just be the first great art form of the 21st Century. (aus: londonist.com)

Was ist Visual Data Mining?

Visual Data Mining ist Data Mining mit Hilfe von Bildern. Es sind Bilder, die komplexe Daten darstellen und von einem Menschen gelesen werden können. Sie enstehen unter Verwendung von Methoden der Informationsvisualisierung.
Visual Data Mining kombiniert die visuellen Fähigkeiten des Menschen mit den analytischen der Technik.

visual_data_mining

Verschiedene Visualisierungsmethoden aus "Mapping the Archive"

Die Ergebnisse eines Data Mining Prozesses werden von klassischen Data Mining Tools visuell dargestellt. Insofern ist Visual Data Mining vielleicht grundsätzlich nichts Neues, jedoch werden hier Potentiale nicht ausgeschöpft.

Oft ist anfangs nur sehr wenig über die Daten bekannt. Wie viele Datensätze gibt es? Wie viele unterschiedliche Informationsobjekte, wie hängen sie zusammen? Welche Attribute gibt es? Sind die Daten vollständig und konsistent? Die Ziele der Datenexploration können daher eventuell nicht genau spezifiziert werden.

Durch Visualisierung der Ausgangsdaten kann ein erster Überblick geschaffen werden. Daraus ergeben sich erste Fragestellungen, und ein passendes Data Mining Modell kann abgeleitet und auf die Daten angewendet werden. Auch die Visualisierung der Zwischenschritte hilft dem Benutzer zu erkennen, ob er sich auf dem richtigen Weg befindet.

KategorienLexikon Tags:

Kategorisierung von Datenstrukturen

8. Juni 2009 Keine Kommentare

Zu beurteilen, ob eine Visualisierungsmethode auf die vorliegenden Daten sinnvoll anwendbar ist, ist oft nicht einfach. Man muss wissen, für welche Datenstrukturen die Methode geeignet ist, und dann die eigenen Daten daraufhin prüfen oder evaluieren. Bisher habe ich aber keinerlei umfassende Kategorisierung von Datenstrukturen gefunden. Und auch die Autoren von Vis-Methoden gehen kaum auf die Voraussetzungen ein, um die Methode anzuwenden. Und schließlich fehlen Tools, die Daten (typischerweise in Datenbanken) auf ihre Struktur untersuchen. Mehr…

Kohonen Map

4. Mai 2009 Keine Kommentare

Kohonen Map, auch SOM (Self Organizing Map). Neben MDS eine weitere Möglichkeit, multivariate (multidimensionale) Daten auf zwei Dimensionen abzubilden. Also prima geeignet für die Visualisierung von quantitativen als auch von qualitativen Daten. Dabei wird ein neuronales Netzwerk in der Lernphase in vielen Durchgängen trainiert, die neuen Datensätze bestehenden Koordinaten (genauer: Vektoren) in einem Raster zuzuordnen. Dabei wird die Ähnlichkeit der Gewichtungen zwischen Datensatz und Vektor verglichen, und die Vektoren auch noch angepasst.

Interessant ist, dass mit der Kohonen Map auch Cluster gebildet werden können. Mir ist nur nicht klar, ob das Cluster über alle Dimensionen sind, oder man dafür eine Dimension auswählen muss.

Kritik: Der Kohonen Algorithmus basiert stark auf der Anpassung der Parameter in unmittelbarer Umgebung und verliert schnell das große Ganze aus dem Blick.

Beispiele: generation5 JDK, netzspannung.org – Semantic Map, Allographic fraglet codebooks for writer identification

Quellen: On global self-organizing maps

Exploration vs. Representation

29. April 2009 Keine Kommentare

Exploration, Erkundung, Erforschung von Datensätzen ist meist ergebnisoffen und erfordert eine interaktive Vorgehensweise. Der Analyst braucht Vorkenntnisse in Datenanalyse, und muss lernen die komplexe Software zu bedienen und die Visualisierung richtig zu deuten. Verwandte Begriffe sind: Exploratory data analysis, Visual Exploration.

Das Gegenteil ist representational visualization, auch illustrative visualization oder Infografiken, da geht es darum eine These zu veranschaulichen, oft verwendet in Präsentationen oder in Zeitschriften und Artikeln.

Bei den meisten Informationsvisualisierungen auf visualcomplexity handelt es sich eher um explorative Visualisierungen bzw. Interfaces, wobei es hier eher um eine Tendenz als um eine kategorische Trennung geht.

Todo: Beispiele von Methoden & Tools.

KategorienLexikon Tags:

Extract, Transform, Load (ETL)

27. April 2009 Keine Kommentare

Aus einem Tutorial auf talend.com

Extract, Transform, Load (ETL) bezeichnet in der Informatik einen Prozess, um Daten aus mehreren Datenquellen mit ggf. unterschiedlichen Strukturen in einer Zieldatenbank zu vereinigen. Dieser Vorgang wird in drei Schritten vollzogen, aus denen sich die Bezeichnung ETL ableitet:

  1. Extraktion (Extract) der relevanten Daten aus verschiedenen Quellen
  2. Transformation (Transform) der Daten in das Schema und Format der Zieldatenbank
  3. Laden (Load) der Daten in die Zieldatenbank

[Quelle: Wikipedia]

Und bevor du nun anfängst, selbst ein ETL-Skript zu schreiben: es gibt da ein Open Source Tool. Talend bietet ein Klick-mich Wysiwyg-Interface und Unterstützung für so ziemlich alle Datenbanksysteme.

KategorienDaten, Lexikon Tags:

Mosaic Plot

10. April 2009 Keine Kommentare

Ein Mosaic Plot zeigt das gesamte Datenset, in Quadrate aufgeteilt je nach Zugehörigkeit zu den Kategoriewerten. Das besondere ist, dass x- und y-Achse mehrfach verwendet werden, indem die Balken von Kategorie 1 nochmals längs geteilt werden. Somit sind maximal 4 Kategorien sinnvoll unterzubringen.

Eine gute Einführung gibt es bei childrensmercy.org.

Geeignet für: Nominale Daten. Keine Mehrfachzuweisung innerhalb einer Kategorie . Maximal 4 Kategorien, mit maximal 5-10 Werten.

KategorienMethoden, Visualisierung Tags:

Sentence-based configuration

13. Januar 2009 Keine Kommentare

Satzbasierte Konfiguration (engl. sentence-based configuration) lässt sich gut anpassen und skalieren, denn die Parameter bekommen eine Bedeutung durch den sie umgebenden Text. Dieser kann selbst wieder andere Parameter enthalten.
Eine konventionelle Konfigurationsdialogbox hingegen versucht jeden Parameter isoliert anzuzeigen, was zu einem einschüchternden und verwirrenden Parameterchaos führen kann.
(sinngemäß ins Deutsche übersetzt aus: MagicInk)

Ich mag satzbasierte Konfiguration und kenne sie von dem Regelassistenten von Outlook. Manchmal eignen sich vollständige Sätze eben viel besser als lange Listen (oder ambitionierte Visualisierungen) dazu, komplexe Sachverhalte auszudrücken.

KategorienLexikon, Visualisierung Tags: