Estadística i genética, una historia íntima

David Rossell (Institut de Recerca Biomèdica, IRB Barcelona)

Aquest mes parlarem d’estadística i genètica. Comptem amb l’Àlex Sánchez, el Víctor Urrea, un servidor i esperem que molts de vosaltres. Per obrir boca, repassaré la íntima relació entre ambdues disciplines.

El pare de la genètica moderna, Gregor Mendel, va demostrar l’herència genètica experimentant amb pèsols i mostrant que la proporció observada de progènie amb certs trets era consistent amb les seves prediccions. En termes moderns, va dissenyar un experiment i contrastar una hipòtesis. Cal remarcar que en aquells moments ni la experimentació ni els contrasts d’hipòtesis eren pràctiques comuns dins la comunitat científica, que en general preferia generar teories a partir d’observar la natura. En altres paraules, no és que Mendel emprés l’estadística com a eina útil, sino que va ser un dels pioners en emprar raonaments estadístics (i degut a l’impacte del seu treball, a popularitzar-los).

Tots coneixem Ronald Fisher com un dels fundadors de l’estadística moderna: disseny d’experiments, propietats asimptòtiques dels MLE (introduits per Gauss), tests d’hipòtesis… Fisher va treure inspiració del seu treball en genètica, on també era famòs. Per exemple, el seu article “The Correlation Between Relatives on the Supposition of Mendelian Inheritance” (1918) funda la biometria genètica, empra per primer cop el terme “variància” en estadística, introdueix l’ANOVA i demostra que l’herència de trets continus és consistent amb principis Mendelians. Fisher també s’inspirà en Mendel i altres experimentadors del segle XIX pel seu treball en disseny d’experiments. Malgrat lloar Mendel, Fisher critica que alguns dels seus experiments no foren prou curosos, i que alguns resultats quadren excessivament bé amb les seves hipòtesis (The subjectivity of scientists and the Bayesian approach de Press i Tanur resumeix aquesta polèmica).

Exemples més moderns són la definició de False Discovery Rate per Benjamini i Hochberg (1995) per testejar milers d’hipòtesis típic en la genòmica, o el desenvolupament/extensió de mètodes per grans quantitats de dades: versemblança penalitzada i anàlegs Bayesians, classificadors amb milers de variables, integració i visualització de dades multivariants, models de xarxes etc.

Provaré de mesurar l’impacte de la nostra disciplina en genètica de forma mínimament objectiva. Empraré el nombre de hits entre 2000 i 2012 retornats per Google Scholar, popular motor de búsqueda per publicacions científiques, pels termes: Statistical genetics, Statistical genomics i Statistical bioinformatics. El primer augmenta de 69.000 hits el 2000 a 173.000 el 2012 (2,5 vegades més), el segon de 12.700 a 60.900 (4,8 vegades més) i el darrer de 2.880 a 42.300 (14,7 vegades més).

hitratio

Vermell: Statistical genetics / Genetics. Negre: Statistical genomics / Genomics. Blau: Statistical bioinformatics / Bioinformatics

Figura 1. Ratio de hits a Google Scholar entre 2000 i 2012

Una objecció òbvia: l’activitat científica en general, i de la genètica en particular, també ha augmentat entre el 2000 i el 2012. Per tenir-ho en compte, he buscat també els termes Genetics, Genomics i Bioinformatics, és a dir els mateixos termes sense la paraula Statistical. La Figura 1 mostra l’espectacular evolució del ratio de hits per Statistical genetics vs. Genetics a cada any (vermell). El 2000 el ratio era sols 0.16 mentre que el 2012 fou 1.26, és a dir el 2012 el nombre de hits per Statistical genetics és fins i tot superior als 173.000 hits per Genetics. Els ratios per Statistical genomics i Statistical bioinformatics també incrementen de forma substancial.

Malgrat que aquestes dades són inexactes (Google Scholar indica el nombre aproximat de hits) i incompletes (podriem emprar altres termes / motors de búsqueda o considerar el factor d’impacte dels articles, per exemple), reflecteixen una tendència clara. El pes de l’estadística en genètica a universitats, centres de recerca i indústria ha incrementat. Els articles amb metodologia estadística per genètica proliferen a les revistes d’estadística més prestigioses, noves revistes especializades i fins i tot en publicacions del nivell de Nature Genetics o Nature Methods.

En realitat aquestes batalletes les he explicat per justificar el meu missatge principal. És cert que l’estadística ha contribuït a una ampla varietat de disciplines, però no és menys cert que aquestes aplicacions han estat fonamentals en el desenvolupament de metodologia i teoria estadístiques. Crec que la genètica ha estat i seguirà sent un molt bon exemple d’aquesta relació simbiòtica. Al llarg d’aquest mes veurem alguns exemples, esperem que els disfruteu!

Galeria | Aquesta entrada s'ha publicat en Ho portem a la sang! i etiquetada amb , , , , . Afegiu a les adreces d'interès l'enllaç permanent.

3 respostes a Estadística i genética, una historia íntima

  1. David Gràcia ha dit:

    Article molt interessant, us felicito pel bloc!
    Per cert, en català ‘disfrutar’ no és correcte, és gaudir

  2. AlbertBonillo ha dit:

    És un tema apassionant. Malgrat no és el meu tema, però he col·laborat en uns quants articles en que es feia genòmica. Arran això vaig llegir sobre la Llei (o equilibri) de Hardy-Weinberg i em va semblar elegantíssima.

  3. Malu Calle ha dit:

    Felicito als “bloguers” i als que estan darrera d’aquesta iniciativa!
    La temàtica d’aquest mes em toca de prop. La genòmica (les òmiques, en general) és un mon apassionant tant des del punt de vista de les preguntes biològiques i mèdiques que ens planteja com des del punt de vista dels aspectes metodològics estadístics que hi estan associats. És un repte i una oportunitat que no podem deixar passar.

Deixa un comentari

Fill in your details below or click an icon to log in:

WordPress.com Logo

Esteu comentant fent servir el compte WordPress.com. Log Out / Canvia )

Twitter picture

Esteu comentant fent servir el compte Twitter. Log Out / Canvia )

Facebook photo

Esteu comentant fent servir el compte Facebook. Log Out / Canvia )

Google+ photo

Esteu comentant fent servir el compte Google+. Log Out / Canvia )

Connecting to %s