[un producto de Bestiario]

Quadrigram es el primer lenguaje de programación visual desarrollado específicamente para crear y compartir visualizaciones de datos interactivas en su navegador. Hemos construido una biblioteca con cientos de módulos orientados a tal fin. Estos módulos van desde los recursos que recogen datos (ya sea localmente o importación para trabajar con APIs), a los operadores y los controles (que permiten un filtrado de datos), pasando por los módulos específicos para la visualización de datos (gráficos básicos de barras o redes de imágenes en 3D).

Una de las características de Quadrigram es la posibilidad de procesar texto, aprovechando R para realizar análisis semántico y sintáctico o generar modelos de predicción. Nuestros visualizadores avanzados también permiten a los usuarios crear sus propios enfoques para la visualización de datos, al trabajar con puntos, formas, líneas y otros primitivos, de modo que no sólo se limita a un conjunto convencional de gráficos. Una biblioteca rica en módulos reduce la barrera de entrada para los no programadores interesados en hacer visualizaciones de datos, mientras que al mismo tiempo permite soluciones no lineales a los procesos de datos. Además, Quadrigram proporciona una forma para que los programadores puedan crear prototipos de soluciones con mayor rapidez.

The Guardian has obtained a database of more than 2.5m twitter messages related to the riots.

These messages - unique records of what happened during the August riots, as they happened - have been used in a range of analyses, including how rumours spread and were eventually debunked…

[notas del curso]

EL ARTE DEL ANÁLISIS DE DATOS: DE LAS HOJAS DE CÁLCULO A R


Título fallido: Las (malas)artes del análisis de datos …

Juan Freire

Universidade da Coruña

http://juanfreire.net/

Instituto de Humanidades, Artes & Ciências Professor Milton Santos (IHAC)

Universidade Federal da Bahía (UFBA)

Abril 2010

1. INTRODUCCIÓN. ¿Para qué el análisis de datos?

Análisis cuantitativo … a veces de información cualitativa

a) Hipótesis

b) Exploración de patrones (relaciones desconocidas entre variables)

http://en.wikipedia.org/wiki/Data_analysis

Analysis of data is a process of inspecting, cleaning, transforming, and modeling data with the goal of highlighting useful information, suggesting conclusions, and supporting decision making. Data analysis has multiple facets and approaches, encompassing diverse techniques under a variety of names, in different business, science, and social science domains.

Caso: storylines in TV series

http://ubergrid.tumblr.com/post/528551058

Caso: Cultural Analytics ( Lev Manovich, Sofware Studies)

http://lab.softwarestudies.com/

http://www.flickr.com/photos/culturevis/

Manga research:

http://www.flickr.com/photos/culturevis/sets/72157623691111589/

http://lab.softwarestudies.com/2010/02/1000000-manga-pages-visualization.html

"The end of science" (the data deluge makes the scientific method obsolete)

http://www.wired.com/wired/issue/16-07

2. Antes de iniciar el diseño del análisis de datos

a) Fuentes de información disponibles

b) Hipótesis a priori

c) Posibles patrones en datos

3. Fuentes de información:

- Unidades de información (casos)

- Contenido (variables)

- Tipos de contenido (codificación): cuantitativo, semi-cuantitativo (ordenado), categórico, 1/0

4. Fases del análisis de datos:

a) Diseño de bases de datos: variables (codificación), casos. Ejemplos de bases de datos

b) Exploración de datos

c) Depuración de datos: errores, outliers, redefinición de variables

d) Análisis estadísticos - Visualización de datos

5. Análisis exploratorio de datos

http://en.wikipedia.org/wiki/Exploratory_data_analysis

Exploratory data analysis (EDA) is an approach to analysing data for the purpose of formulating hypotheses worth testing, complementing the tools of conventional statistics for testing hypotheses…. It was so named by John Tukey to contrast with Confirmatory Data Analysis

… Tukey held that too much emphasis in statistics was placed on statistical hypothesis testing (confirmatory data analysis); more emphasis needed to be placed on using data to suggest hypotheses to test.

Más en: http://www.itl.nist.gov/div898/handbook/eda/section3/eda3.htm

EDA emphasizes graphical techniques while classical techniques emphasize quantitative techniques. In practice, an analyst typically uses a mixture of graphical and quantitative techniques.

- Depuración de datos

- Visualización de patrones: sugerir hipótesis

- Planificar la obtención de nueva información

6. Gráficos estadísticos

http://en.wikipedia.org/wiki/Graphical_technique

Statistical graphics, also known as graphical techniques, are information graphics in the field of statistics used to visualize quantitative data.

- Box plots (o box-and-whisker diagram): http://en.wikipedia.org/wiki/Box_plot

- Histogramas: http://en.wikipedia.org/wiki/Histogram

- Pareto chart: http://en.wikipedia.org/wiki/Pareto_chart

- Scatter plot: http://en.wikipedia.org/wiki/Scatter_plot

Usos más sofisticados:

Correlation scatter-plot matrix for ordered-categorical data:

http://www.r-statistics.com/2010/04/correlation-scatter-plot-matrix-for-ordered-categorical-data/

http://www.wired.com/science/discoveries/magazine/16-07/pb_visualizing

A visualization of thousands of Wikipedia edits that were made by a single software bot. Each color corresponds to a different page.
Image: Fernanda B. Viégas, Martin Wattenberg, and Kate Hollenbach 

7. Ejemplos de análisis exploratorio: Detección de outliers

http://www.itl.nist.gov/div898/handbook/prc/section1/prc16.htm (Engeneering Statistics Handbook):

An outlier is an observation that lies an abnormal distance from other values in a random sample from a population. In a sense, this definition leaves it up to the analyst (or a consensus process) to decide what will be considered abnormal. Before abnormal observations can be singled out, it is necessary to characterize normal observations.

Detección de errores y/o outliers: boxplots, scatter platos:

http://www.itl.nist.gov/div898/handbook/eda/section3/scattera.htm

http://www.itl.nist.gov/div898/handbook/eda/section3/boxplot.htm

8. Algunos ejemplos de análisis de datos y visualización científica en arte

Harun Farocki. Deep Play

http://www.farocki-film.de/deepeg.htm

http://www.flickr.com/photos/architektur/sets/72157600380226624/

Ben Fry. Cartografías genéticas (Processing)

Bases de datos genómicas: http://genome.ucsc.edu/cgi-bin/hgTables

http://benfry.com/aasd/

http://acg.media.mit.edu/people/fry/genocarto.html

http://benfry.com/genomevalence/

Análisis y visualización de redes tróficas

http://biology.plosjournals.org/perlserv/?request=get-document&doi=10.1371/journal.pbio.0060102&ct=1

Pacific Ecoinformatics and Computational Ecology Lab

http://foodwebs.org/index.html

9. Software para análisis de datos y visualización

- bases de datos

- hojas de cálculo

- paquetes de gráficos (+ estadística básica)

- paquetes estadísticos (+visualización + lenguaje de programación)

Elección de software y curvas de aprendizaje: comparación de hojas de cálculo y R

10. Sistemas de gestión de bases de datos

http://en.wikipedia.org/wiki/Database_management_system

- Open Office.org Base

- Microsoft Office Access

- mySQL …

OpenOffice.org Base Project: http://dba.openoffice.org/

http://www.openoffice.org/product/base.html

http://en.wikipedia.org/wiki/OpenOffice.org_Base

11. Hojas de cáculo (Planilha eletrônica)

http://en.wikipedia.org/wiki/Spreadsheet

Animación del funcionamiento de un hoja de cálculo:

http://upload.wikimedia.org/wikipedia/en/2/23/Spreadsheet_animation.gif

- Open Office.org Calc

- Gnumeric

- Microsoft Office Excel

- Google Docs

OpenOffice.org Calc Project: http://sc.openoffice.org/

http://www.openoffice.org/product/calc.html

http://en.wikipedia.org/wiki/OpenOffice.org_Calc

Gnumeric

http://projects.gnome.org/gnumeric/

http://en.wikipedia.org/wiki/Gnumeric

Análisis estadístico con Gnumeric:

http://projects.gnome.org/gnumeric/doc/chapter-stat-analysis.shtml

Correlation Tool:

http://projects.gnome.org/gnumeric/doc/correlation-tool.shtml

The RGnumeric Package: a package that allows R to be used as a plugin for Gnumeric

http://www.omegahat.org/RGnumeric/

12. Algunos usos de las hojas de cálculo:

* Gestión e importación de datos

* Tablas de dinámicas (“piloto de datos”)

* Correlación y regresión

13. Paquetes estadísticos

- SAS: Business Analytics and Business Intelligence Software. Windows. $$$$$$$. GUI

http://www.sas.com/software/sas9/

- IBM SPSS Statistics (antes: Statistical Package for the Social Sciences). Windows, Mac, Linux. $$$. GUI

http://www.spss.com/statistics/

- Statistica. Windows, Mac. $$$. GUI

http://www.statsoft.com/

- R. Software libre. Linux, Mac, Windows. Línea de comandos

14. The R Project for Statistical Computing

http://www.r-project.org/

The Comprehensive R Archive Network: http://cran.es.r-project.org/

http://pt.wikipedia.org/wiki/R_%28linguagem_de_programa%C3%A7%C3%A3o%29

Paquetes en R:

- Colecciones de funciones, datos y código

- compilado

- formato estandarizado

Extensiones de la interfaz:

- Windows, Mac: Tienen una GUI que te deja hacer bastantes cosas con menús

- Edición de Scripts:

* Interno a la GUI

* Externo: Tinn-R, R-WinEdt, o mediante plugins

Editores de scripts: http://www.sciviews.org/_rgui/projects/Editors.html

Editores visuales para R (sólo para Windows):

Tinn-R: : http://www.sciviews.org/Tinn-R/

"Tinn-R is free, simple but efficient replacement for the basic code editor provided by Rgui"

RWinEdit: http://cran.r-project.org/web/packages/RWinEdt/index.html

Visualización y gráficos (ggplot2): http://had.co.nz/ggplot2/

ggplot2 is a plotting system for R, based on the grammar of graphics, which tries to take the good parts of base and lattice graphics and none of the bad parts. It takes care of many of the fiddly details that make plotting a hassle (like drawing legends) as well as providing a powerful model of graphics that makes it easy to produce complex multi-layered graphics.