Epístasi, …alguna idea?

Víctor Urrea (U. de Vic)

Per epístasi s’entén l’efecte de la interacció entre diferents gens en un determinat fenotip, o dit d’una altra manera, com l’efecte d’un gen concret sobre un determinat tret biològic depèn, o queda modificat, per altres gens.

Històricament s’han donat dos definicions diferents, no equivalents, del terme epístasi; una des de la perspectiva més biològica i, una altra, des del punt de vista estadístic. La definició estadística, atribuïda a Fisher, descriu l’epístasi com una desviació de l’additivitat en un model lineal.

Es considera que l’epístasi pot jugar un paper important en la conformació dels trets i les malalties complexes, però l’anàlisi de l’epístasi en els estudis d’associació de tot el genoma (GWAs) presenta una sèrie de reptes, sobretot per l’anàlisi d’ordres d’interacció superiors a dos.

El primer repte és el desenvolupament de proves estadístiques capaces de detectar la interacció entre SNPs (variables genètiques). El segon, és de tipus computacional, donat per la impossibilitat d’analitzar totes les combinacions possibles d’interacció. La tercera dificultat ve donada pel nombre de falsos positius resultant d’efectuar múltiples proves d’hipòtesi.

Tots aquest reptes han propiciat, i ho continuen fent, el desenvolupament de multitud de mètodes i estratègies per la detecció i anàlisi de l’epístasi.

Des del punt de vista de l’estratègia a seguir, es donen diverses aproximacions possibles. La primera és l’exploració exhaustiva de totes les combinacions possibles d’interacció. Aquesta estratègia, pel seu cost computacional, només és factible en estudis amb un nombre petit d’SNPs i ordres d’interacció també petits, limitats normalment a interaccions de dos SNPs.

Una segona opció són els mètodes de reducció de la dimensió, que consisteixen en realitzar transformacions de les dades que permetin reduir la dimensió de l’espai de possibilitats a considerar, tot mantenint la informació essencial.

Una altra possibilitat és l’aplicació de mètodes capaços d’analitzar directament conjunts de dades en el que el nombre de variables supera el d’observacions. Hi ha dos tipus de mètodes que utilitzen aquesta estratègia, els mètodes clàssics basats en penalització, com per exemple Lasso, i mètodes provinents de la teoria d’aprenentatge automàtic, que implementen algorismes de cerca heurístics, no exhaustius, i per tant menys costosos des del punt de vista computacional, però que no garanteixen detectar totes les interaccions significatives. Aquí tenim una àmplia gama de mètodes, alguns importats d’altres àmbits, com els basats en arbres (classification and regression trees, random forest), algorismes genètics, suport vector machines, etc., i d’altres desenvolupats per la seva aplicació a l’anàlisi amb SNPs.

Una darrera estratègia consisteix a fer un primera selecció d’SNPs, els més rellevants, i reduir l’anàlisi de l’epístasi a aquest subconjunt. Per fer aquesta selecció de variables existeixen mètodes univariants, que analitzen cada variable individualment per establir un rànquing segons un criteri d’associació amb la resposta, i mètodes multivariants, que es basen en determinar el subgrup òptim de variables en base a un algorisme de cerca i un criteri d’avaluació. Alguns dels mètodes referits anteriorment permeten també fer selecció de variables, com ara el random forest, mètode basat en l’agregació de multitud d’arbres de classificació, que permet obtenir un rànquing d’importància de les variables, o que permet també aplicar-ho en processos d’eliminació recursiva de variables.

Finalment, enfront dels mètodes clàssics per controlar el nombre de falsos positius, com l’ajust de Bonferroni, que són massa conservadors i no permeten trobar resultats significatius quan el nombre de proves és extremadament alt, tenim el mètode FDR (false discovery rate), que consisteix en controlar la proporció de falsos positius entre els positius detectats, establint un criteri menys restrictiu.

Molts dels mètodes desenvolupats en l’anàlisi de l’epístasi es basen en l’adaptació de mètodes desenvolupats en altres contextos i que en algun moment a algú se li ha ocorregut que podrien servir per l’anàlisi de interacció entre SNPs. Per aquest motiu, voldria que aquesta entrada servís per poder recollir suggeriments de mètodes que hagueu fet servir o hagueu vist aplicats al vostre camp, potser poc coneguts en general, i que sospiteu que podrien ser útils en l’anàlisi de l’epístasi.

Les característiques més rellevants a tenir en compte en l’anàlisi de la interacció entre SNPs és que (1) són variables amb tres categories sovint codificades com a 0,1 i 2; (2) existeixen diferents graus de correlació entre els SNPs (linkage disequilibrium);  i (3) presenten un problema de gran dimensió, on el nombre de variables a analitzar és molt superior a la grandària mostral de que es disposa (p>>n).

Alguna idea?

Galeria | Aquesta entrada ha esta publicada en Ho portem a la sang!. Afegeix a les adreces d'interès l'enllaç permanent.

Una resposta a Epístasi, …alguna idea?

  1. AlbertBonillo ha dit:

    Per corregir l’error de I espècie, ni idea. Potser emprar tantes cross-validations com sigui possible.

    Per cercar epístasi, amb el descrius, el primer que em ve al cap és emprar o bé arbres de decisió (el CART que ja apuntes), o bé algorismes de regles (de fet, els segons poden ser vistos com un cas particular de la primera http://en.wikipedia.org/wiki/Association_rule_learning). Els arbres/regles modelen interaccions (de fet, el nom del CHAID, un clàssic, és prou clar, http://en.wikipedia.org/wiki/CHAID) i no li veig problema a que p>>n.

    Problema que li veig al CART (i a tot arbre): que si la prevalença del caràcter és baixa, li costarà trobar res. Pels algorismes que fan servir, els arbres són mandrosos per natura. En això, el C5.0 de Quinlan podria treballar millor que el CART. Això no passa tant amb les regles, on la prevalença és menys important (això és una percepció més que una certesa que tingui estudiada).

    Valoraria si fer servir regles aniuades (algun algorisme re regles, pocs, permeten fer-ho) o excloents. Només hi ha una epístasi (suposem) per tenir el caràcter? Si sí, algorisme que permeti aniuar regles, sinó un que no. Entre aquests, el apriori és molt senzill i està a molt softs, crec.

    SVM produeix, al meu parer, solucions poc clares. Abans provaria un KNN, que em sembla més comprensible.

    Interessant entrada🙂

Deixa un comentari

Fill in your details below or click an icon to log in:

WordPress.com Logo

Esteu comentant fent servir el compte WordPress.com. Log Out / Canvia )

Twitter picture

Esteu comentant fent servir el compte Twitter. Log Out / Canvia )

Facebook photo

Esteu comentant fent servir el compte Facebook. Log Out / Canvia )

Google+ photo

Esteu comentant fent servir el compte Google+. Log Out / Canvia )

Connecting to %s