Les estadístiques del genoma

Àlex Sánchez (VHIR Vall d’Hebron Institut de Recerca)

Si en una cosa és fàcil estar d’acord és que vivim temps fascinants per a l’estadística, i, es clar, per als estadístics i les estadístiques. En relativament pocs anys hem vist un creixement exponencial de la quantitat d’informació que flueix al nostre entorn, de forma que la perspectiva estadística esdevé, en molts casos, l’única forma raonable d’apropar-se a molts problemes, ja sigui l’anàlisi de les xarxes socials, les comunicacions o -el que aquí ens ocupa- la biologia.

La biologia, la ciència del segle XXI (?), no ha romàs aliena a la generació massiva de dades, i n’ha obtingudes tantes, i tan de pressa, que supera amb escreix la capacitat de revisar-les, valorar-ne la qualitat (!) per no dir d’analitzar-les totes.

Anem però, per parts, perquè aquest post es diu “Les estadístiques del genoma” i voldria aprofitar-lo per parlar de dues, i no d’una, fonts de dades de gran magnitud: d’una banda hi ha la complexitat biològica, d’altra els desenvolupaments tecnològics.

Comencem amb quatre xifres sobre la complexitat biològica. El genoma humà, la seqüència completa de nucleòtids -les “peces” de l’ADN, les famoses “A”, “C”, G”, T”- que conté tota la informació sobre què som i com funcionem, consta d’uns 3.200 milions de lletres. Per llegir aquest “llibre de la vida” cal esbrinar la seqüència completa d’aquests milers de milions de lletres -d’això en diem seqüenciació– i després entendre què hi diu -d’això en diem predicció de gens.

La primera seqüenciació completa del genoma humà va tardar uns 13 anys, del 1990 al 2003, quan es va publicar la primera versió. Va ser una aventura èpica, d’una dimensió fins aleshores desconeguda en un projecte conjunt, on varen participar milers de científics i tècnics de desenes de centres de recerca i universitats d’arreu del món i que no va estar exempta de tensions com la lluita entre els que volien que la informació obtinguda fos de domini públic i els que reclamaven més retorn econòmic i el dret de patentar-ne algunes parts. L’estadística, com no podia ser d’altre forma, va jugar-hi també un paper important: bona part dels càlculs per a la seqüenciació del genoma pel procediment anomenat shotgun, es basen en la teoria de processos de Poisson, i GenScan, el programa que es va fer servir per identificar els gens al llarg de la seqüència del genoma es basa en models de Markov ocults una variant de les conegudes cadenes de Markov.

Desenvolupament i algunes fites del projecte Genoma Humà

De la primera seqüenciació es va fer una primera lectura, de manera que l’any 2003 es creia que aquest genoma contenia uns 25000-30000 gens repartits en un 2-4% del genoma i es pensava -innocentment- que la resta no tenia cap funció, fins i tot se l’anomenava ADN escombraria.

Deu anys després la situació ha canviat radicalment. Un nou projecte internacional l’ENCODE ha permes revelar que més del 80% del que es creia escombraria conté informació reguladora de la resta -moltes petites regions fora dels gens poden actuar activant-los o desactivant-los. També s’ha pogut comprovar que molts gens tenen llurs seqüències superposades -com si una pàgina d’un llibre fos part de dues o més històries simultàniament- i que molts d’ells no s’expressen d’una sinó de moltes formes alternatives. Tot plegat ha dut a adonar-nos que la complexitat del genoma és molt més alta del que es creia inicialment i a plantejar nous reptes en l’intent d’interpretar la informació generada.

Per acabar-ho d’amanir, i abans que ningú no afegeixi, “ens calen dades per estudiar tot això” en els 10 anys des de que es va completar la primera versió del genoma la tecnologia ha evolucionat molt ràpidament. La capacitat de seqüenciació s’ha multiplicat per milers i el preu s’ha reduït de forma similar: Hem passat de seqüenciar un genoma en anys a un cost de milers de milions d’euros a poder-ho fer en dies (no he gosat posar en hores, com passarà aviat) a un preu de pocs milers d’euros (aviat per menys de mil euros).

Decreixement de costos, augment de capacitat i assoliments en seqüenciació des que es va completar el genoma humà

Això vol dir que aviat milers i, poc després, milions de persones tindran el seu genoma disponible (ja hi ha una aplicació d’ipad per consultar-lo). Això sí, el genoma segueix tenint 3000 milions de lletres, és a dir la mateixa complexitat de que hem parlat abans, només que ara és molt més senzill i més barat llegir-les de forma que, irònicament el problema és que ens haurem d’esforçar en trobar com desar i sobretot com analitzar i interpretar aquesta informació que passarà de “gigues (Gb)” a “teres (Tb)” i a “petes (Pb)” sense adonar-nos-en. Per no parlar, es clar de les complexitats ètiques que representarà el fet que algú pugui saber que té una altíssima probabilitat de tenir una malaltia per a la qual no hi ha tractament.

Òbviament no cal preguntar “i l’estadística aquí què?”. Alguns dels desenvolupaments més intensos d’aquesta ciència en la darrera dècada -el creixement d’R en el projecte Bioconductor, l’anàlisi de dades de microarrays o els mètodes d’inferència a gran escala (desenvolupats en part per l’inventor del bootstrap, Brad Efron, que ha anomenat el segle XXI el “segle dels microarrays”) han vingut de la ma dels avenços en el coneixement del genoma. El creixement explosiu que se’ns ve a sobre, tant en quantitat de dades com en nous tipus d’aquestes (de les òmiques en parlarem un altre dia) no poden sinó oferir una miríada de possibilitats per a l’estadística, que ha d’estar allà per per ajudar a tractar el que serà un dels “big data” més important per a les persones, la ciència i la salut. De nosaltres dependrà que les aprofitem.

3 respostes a Les estadístiques del genoma

Susana ha dit:

15 Març 2013 a les 0:28

Hola Àlex,
moltes gràcies pel teu post. Una petita finestra, a com tu mateix dius, el que se’ns ve a sobre.
Jo que ara vinc del post del Víctor sobre els GWAs, em pregunto…d’aquí “dos dies” tindrem estudis semblants però de full-genome? Potser ja se n’han fet, especialment per aquelles malaties que tenen més recursos per fer-ho, no sé.
D’altra banda, amb tota aquesta gran quantitat de dades que ja tenim actualment i encara més que vindran. Què hi ha dels mètodes estadístics que s’utilitzen? També hi ha hagut una “revolució”?
Merci,
Susana.

Respon
- alexsanchezpla2013wp ha dit:
  
  17 Març 2013 a les 12:46
  
  Hola Susana,
  Gràcies pel comentari.
  Personalment no conec amb prou detall els mètodes estadístics emprats en GWAS com per parlar de les millores que s’hi estan fent. Tot i això, i portant el tema cap al del meu “post” sí que diria que l’aparició del “next generation sequencing” està obrint possibilitats fins ara no explorades. Així per exemple els investigadors en malalties complexes, com les cardiovasculars, estan començant a dur a termes estudis on, a més d’estudiar les variacions estàtiques a nivell de l’ADN, miren d’analitzar-les a d’altres nivells ja que són conscients que qualsevol malaltia no es pot explicar només a un nivell sinó que cal fer-ho tenint en compte tots els aspectes -genètic, fisiològic fins i tot ambiental- que la defineixen En aquest sentit els estudis NGS-GWAS obren les portes a la possibilitat de complementar els mètodes actuals amb noves aproximacions que necessiten també de nous mètodes per a la seva anàlisi. Això ens duu a considerar quins mètodes estadístics podem fer servir per tractar dades de tipus i orígens heterogenis que serà precisament el tema del meu proper “post”.
  Com anècdota voldria comentar que el centre de seqüenciació més gran del món, el Beiging Genome Institute ha engegat varis projectes encaminats a la seqüenciació de milions de genomes, un milió de genomes de plantes o animals, un milió de genomes d’humans o fins i tot un milió de genomes de micro-ecosistemes. La quantitat de dades que s’espera que aquests projectes proporcionin impulsarà sens dubte el desenvolupament de nous mètodes i eines per extraure el màxim profit de la informació que generaran. Potser els caldrà un milió d’estadístics per ajudar a interpretar-la.
  
  Respon
Susana ha dit:

17 Març 2013 a les 20:58

Així doncs, pels estadístics també serà qüestió de començar a aprendre xinès.
Moltes gràcies per la resposta Àlex.

Respon