Resum Jornada estadísTICa (2)

Antoni Meseguer (Universitat Oberta de Catalunya, UOC)

En un post anterior, vaig fer un breu resum de les principals aportacions de la primera part (dedicada a les fonts d’informació i el Big Data) de la Jornada estadísTICa, organitzada per la UOC, amb la col·laboració de la Societat Catalana d’Estadística i l’Idescat, i que va tenir lloc el proppassat 28 de novembre. En aquest nou post, comentaré les principals aportacions que es varen realitzar en la segona part de la jornada.

La segona part de la jornada la vàrem dedicar a parlar de l’anàlisi de les dades i del software estadístic associat. En concret, es tractava d’analitzar si la “revolució de les dades” de què parlàvem en la primera part, amb grans quantitats de dades a analitzar i d’una tipologia molt diversa, havia implicat un canvi en les tècniques d’anàlisi i, en conseqüència, en el software estadístic a emprar.

Per donar resposta a aquestes qüestions, vàrem tenir les presentacions de dos experts en àmbits tant diferents com la bioinformàtica i les xarxes socials. Volíem veure com, des de la seva experiència, treballaven amb grans quantitats de dades, i quines solucions donaven als reptes plantejats.

En primer lloc vàrem tenir la ponència del professor de la UB, investigador de l’Institut de Recerca de la Vall d’Hebron, i també consultor de la UOC, Alex Sánchez Pla. En el seu camp d’expertesa, la bioinformàtica, hi ha molts d’exemples en què s’ha de treballar amb grans quantitats de dades. Vivim en un temps en què la quantitat de dades sovint supera l’habilitat de processar-les adequadament. Aquest fet pot significar, per a les organitzacions, el que s’anomena una “paràlisi per l’anàlisi”. Segons John Naisbitt, aquesta és una situació en què ens estem ofegant en informació mentre estem famolencs de coneixement.

La bioinformàtica és un disciplina amb molta interdisciplinarietat, dedicada a tots aquells aspectes relacionats amb la recollida, l’emmagatzematge, processament, anàlisi, interpretació i integració d’informació biològica. Per tant, tal i com indica Terry Speed, estadístic australià, conegut per les seves contribucions a l’anàlisi de la variància i a la bioinformàtica (en particular a l‘anàlisi de dades de microcadenes d’ADN),  en el centre de la bioinformàtica es situa l’estadística.

Dintre d’aquesta interdisciplinarietat, el professor Sánchez va explicar que hi ha un exemple que sobresurt entre tots els altres. Es tracta de la seqüenciació del genoma humà (per aprofundir més en aquesta qüestió ens va proposar consultar la següent referència: http://exploreable.wordpress.com/2011/05/03/the-story-of-the-human-genome-project-a-short-narration/).

Sobre aquest exemple, que també es pot generalitzar a altres camps, Alex Sánchez va concretar que al llarg de tot el procés havia hagut un decreixement en els costos de seqüenciació, i un increment en les capacitats d’anàlisi. Mentre en el projecte Genoma Humà es va necessitar 13 anys per treballar aquesta seqüenciació, amb un cost aproximat de 27.000 milions de dòlars, en l’actualitat ja és possible seqüenciar el genoma de qualsevol individu en només 2 setmanes i amb un cost inferior als 10.000 dòlars.

Per tant, va continuar el professor Sánchez, en l’anàlisi de grans quantitats de dades, no trobarem grans problemes en el processament de les dades. On sí que podem trobar dificultats és en l’emmagatzemament d’aquestes dades.

En l’anàlisi estadístic de les dades biomètriques, són molts els reptes que s’han hagut de superar pel fet de treballar amb Big Data. Per exemple, quan es realitzen milers de tests T associats a cada gen, s’ha de tenir en compte que la probabilitat d’observar almenys un fals positiu tendeix a 1. Això és degut, va explicar el professor Sánchez, a que els estadístics T poden ser afectats per variàncies petites o inestables. Per tant, en aquests casos amb moltes comparacions, s’ha de regularitzar l’estadístic T per la variància. Hi ha diferents formes que s’han proposat: SAM (Tibshirani, 2001), Regularized-t (Baldi, 2001), o EB-moderated t (Smyth, 2003).

Una altra de les qüestions importants que va plantejar Alex Sánchez, i que s’ha hagut de tractar des de la Biometria, és el fet que tot sovint s’ha de treballar amb pocs casos (individus) però dels quals es disposen moltes variables, i de molts diversos tipus.

Per finalitzar, el professor Sànchez va destacar el programari lliure R com el que s’utilitza habitualment en el seu àmbit de coneixement, i que cobreix totes les tècniques d’anàlisi necessàries. Sobre aquest programari, i sobre d’altres qüestions relatives a l’estadística en Bioinformàtica, va proposar les següents referències bibliogràfiques:

  • Fan, J., Lin, X., and Liu, J.S. (2009). New Developments in Biostatistics and Bioinformatics. Ed. World Scientific Publishing Company.
  • Gentleman, R. (2008). R Programming for Bioinformatics. Ed. CRC Press.
  • Lee, J.K. (2010). Statistical Bioinformatics. Ed. Wiley.
  • Mathur, S.K. (2010). Statistical Bioinformatics with R. Ed. Elsevier.
  • Peró Cebollero, M., Leiva Ureña, D., Guàrdia Olmos, Joan, i Solanas Pérez, A. (2012). Estadística Aplicada a las Ciencias Sociales (mediante R i R-Commander). Ed. Garceta Grupo Editorial.
  • Prajapati, V. (2013).  Big Data Analytics with R and Hadoop. Ed. Packt publishing

Aquesta segona part de la Jornada estadísTICa es va completar amb la presentació de Camilo Cristancho, investigador del grup de recerca en Democràcia, Eleccions i Ciutadania de la UAB. A partir d’una breu reflexió sobre Big Data, i la revolució que implica, en la línia dels anteriors ponents, la seva exposició es va centrar en comentar quins reptes suposa la seva anàlisi en les ciències socials. El principal repte és tractar la complexitat del Big Data en aquest camp, i que està molt relacionada amb el volum d’informació, la velocitat en què canvia i s’actualitza aquesta informació (per exemple en les xarxes socials), i la gran diversitat en la tipologia de les dades. Una possible resposta a les necessitats d’anàlisi de tota aquesta complexitat pot ser, segons Camilo Cristancho, el processament distribuït (http://highlyscalable.wordpress.com/2012/03/01/nosql-data-modeling-techniques/).

L’ús més comú de l’anàlisi de Big Data en Ciències Socials el podem trobar en la realització de recomanacions i prediccions, en l’anàlisi dels sentiment, en l’estudi de models de risc, en la detecció de fraus, en l’anàlisi de campanyes de màrqueting i d’experiències de consum, entre d’altres. Com a exemple, Camilo va destacar diferents anàlisis que s’han realitzat sobre la percepció de la grip i la seva relació amb l’activitat de les xarxes socials sobre aquesta malaltia. Per aprofundir més sobre aquesta qüestió, va facilitar les següents referències:

Un altre exemple de l’ús que se’n fa de l’anàlisi de Big Data en Ciències Socials  i que va destacar el professor Cristancho en la seva presentació, és el relacionat amb les discussions públiques, a través d’Internet, en relació a diferents esdeveniments polítics. La complexitat en aquest camp és també molt elevada (hi ha més de 350 mil grups de discussió a Usenet). Sobre aquesta qüestió, i per finalitzar la seva presentació, també va donar diferents referències:

Galeria | Aquesta entrada s'ha publicat en Estadística i TIC i etiquetada amb , , , . Afegiu a les adreces d'interès l'enllaç permanent.

Deixa un comentari

Fill in your details below or click an icon to log in:

WordPress.com Logo

Esteu comentant fent servir el compte WordPress.com. Log Out / Canvia )

Twitter picture

Esteu comentant fent servir el compte Twitter. Log Out / Canvia )

Facebook photo

Esteu comentant fent servir el compte Facebook. Log Out / Canvia )

Google+ photo

Esteu comentant fent servir el compte Google+. Log Out / Canvia )

Connecting to %s