Una per a totes i totes per a una: de l’estadística a la integròmica

Àlex Sánchez (VHIR Vall d’Hebron Institut de Recerca)

La seqüenciació del genoma humà representa el final d’una etapa en l’estudi de la biologia i, es clar, l’inici d’una nova, que molts anomenen l’era post-genòmica. Els avenços tecnològics que han fet possible, que en només en 10 anys, la informació del genoma d’un individu estigui a l’abast de qualsevol investigador que ho necessiti també s’han donat en camps propers a la genòmica. Això ha propiciat un creixement important en altres disciplines relacionades que, plegades, es coneixen com “les òmiques”. Tot i que una cerca a Wikipèdia ens permet trobar més de 30 “òmiques”, ens limitarem a comentar breument alguns dels mes coneguts: els que apareixen en la “cascada òmica” il·lustrada en la figura 1.

Si ens remetem a la biologia de l’escola recordem que ens parlaven del genotip, el que hi ha als gens, i del fenotip, el que en veiem és a dir, com es manifesta la informació del genotip. Quedant-nos encara en aquella versió simplificada, el genotip és l’ADN -els gens en el genoma- que s’expressen (reaccionen a estímuls) mitjançant l’ARN -els transcrits- que determinen quines proteïnes (enzimàtiques, estructurals, etc.) es sintetitzen o s’activen per fer possible el funcionament de l’organisme a traves del seu metabolisme. La cascada òmica representa el flux d’informació biològica que duu del genotip al fenotip en resposta a diversos estímuls com la genètica, les malalties o les pertorbacions ambientals.

La visió integral i simplificada que acabem de descriure no és pas nova. El que sí que ho és és la possibilitat que ens ofereixen les noves tecnologies de mesurar simultàniament tots els components que intervenen en cada nivell del procés. El Next Generation Sequencing ens permet seqüenciar tots els gens d’un individu o saber quins s’expressen (no tots ho fan en cada moment) o quins estan regulats en una situació determinada. L’espectrometria de masses i altres tècniques permeten quantificar totes les proteïnes o tots els metabòlits (productes del metabolisme) presents en una mostra en un moment donat. En resum, gràcies a les tecnologies d’alt rendiment podem aconseguir informació quantitativa de tots aquests processos que funcionen coordinadament.

Representació de la cascada òmica, per cortesia de Josep Lluis Mosquera

I arribem al moll de l’os (estadístic). Què es pot fer per dur a terme una anàlisi integrativa que permeti modelitzar i analitzar conjuntament totes aquestes dades, de naturalesa diversa i totes elles de molta alta dimensió? Per posar un exemple real, un estudi d’aquesta mena pot haver mesurat l’expressió de 20.000 transcrits, 1000 proteïnes i 4000 lípids en només 10 individus; és a dir, que disposem de 3 matrius de dades de 10×20.000, 10×1000 i 10×4000. Si hi ha sort i els individus són els mateixos, potser podrem combinar-les en una matriu de 10 individus i 25.000 variables.

Segons quins siguin els objectius de l’anàlisi que es pretén fer -per exemple modelitzar les relacions entre les components o trobar biomarcadors predictius d’un estat biològic concret- l’estadística disposa de moltes eines que poden ser directament aplicades o convenientment modificades per tractar dades d’aquesta mena. Per centrar-nos en algun exemple concret podem esmentar el cas dels mètodes d’anàlisi multivariant, amb sòlida tradició a Catalunya gràcies entre d’altres a la feina de Carles Cuadras o Michael Greenacre, i que semblen els candidats naturals per tractar dades d’aquestes característiques ja sigui per representar-les en dimensió reduïda o per detectar-hi  patrons o estructures que revelin associacions importants. D’altra banda el fet de tenir tantes més variables que individus juntament amb dades de múltiples fonts diferents fa que calgui ser prudent abans d’aplicar sense més les aproximacions que, d’entrada, ens poden semblar raonables com l’anàlisi de components principals o l’anàlisi de correlacions canòniques.

Per fer-ho curt, aquesta situació es pot resoldre, bé aplicant mètodes ja existents que permetin tractar conjunts de dades multidimensionals -en l’exemple anterior tenim tres capes de 10×20.000, 10×1000 i 10×4000com l’Anàlisi Factorial Múltiple [1] o l’Anàlisi Multivia de Tucker [2] o bé mirant de desenvolupar extensions dels mètodes tradicionals com les variants “escasses” (sparse) de tècniques com el sPCA o el sPLS [3] que permeten dur a terme la modelització i la selecció de variables en una estratègia d’un sol pas fent servir una penalització basada en la regressió pel mètode Lasso. Seguint la tendència habitual la majoria d’aquestes tècniques han estat implementades en paquets d’R com el mixOmics que faciliten en gran manera la seva aplicació i difusió.

Per acabar, ens podem preguntar quina és la incidència real d’aquests desenvolupaments metodològics, és a dir si estan sent prou aplicats per tal d’obrir noves vies en la comprensió dels fenòmens biològics complexes o si, per dir-ho així, encara no estan prou consolidats. Una cerca a google amb els termes “integrative omics analysis” dona uns 187000 resultats i l’entorn bioinformàtic i (menys) el bioestadístic abunden cada cop més en nous mètodes d’integració. Ara bé, si mirem moltes de les aplicacions que apareixen en revistes biomèdiques la sensació que es té -i això és una visió esbiaixada i personal- és que malgrat l’existència de desenvolupaments sofisticats molts dels mètodes que continuen aplicant-se van més en la línia de les correlacions o anàlisis multivariants “normals” que en l’aplicació d’aquests mètodes tan elaborats. Dit altrament, sembla que “El Mètode” que permeti una anàlisi integrativa clara simple i potent encara estigui per arribar, però mentrestant els conjunts de dades cada cops més grans i complexes aniran posant problemes i oferint oportunitats que, insisteixo un cop més, no podem deixar passar.

[1] Ana Conesa, José M. Prats-Montalbán, Sonia Tarazona, Ma José Nueda, y Alberto Ferrer,(2010). A Multiway Approach to Data Integration in Systems Biology Based on Tucker3 and N-PLS. Chemometrics and Intelligent Laboratory Systems 104(1): 101–111.

[2] Marie de Tayrac, Sébastien Lê, Marc Aubry, Jean Mosser, and François Husson, (2009). Simultaneous Analysis of Distinct Omics Data Sets with Integration of Biological Knowledge: Multiple Factor Analysis Approach. BMC Genomics 10(1): 32.

[3] Kim-Anh Lê Cao, Debra Rossouw, Christèle Robert-Granié, and Philippe Besse, (2008). A Sparse PLS for Variable Selection When Integrating Omics Data. Statistical Applications in Genetics and Molecular Biology 7(1): Article 35.

Galeria | Aquesta entrada s'ha publicat en Ho portem a la sang! i etiquetada amb , , . Afegiu a les adreces d'interès l'enllaç permanent.

Deixa un comentari

Fill in your details below or click an icon to log in:

WordPress.com Logo

Esteu comentant fent servir el compte WordPress.com. Log Out / Canvia )

Twitter picture

Esteu comentant fent servir el compte Twitter. Log Out / Canvia )

Facebook photo

Esteu comentant fent servir el compte Facebook. Log Out / Canvia )

Google+ photo

Esteu comentant fent servir el compte Google+. Log Out / Canvia )

Connecting to %s