Què faria Nate Silver si fos català?

Frederic Udina (Idescat)

La tardor del 2012 els estadístics vam tenir dues experiències radicalment contradictòries. A casa, les enquestes electorals van fracassar diguem que estrepitosament en l’intent d’endevinar el resultat de les eleccions al parlament del 25 de novembre. A l’altra banda de l’atlàntic, en canvi, va aparèixer el fenòmen Nate Silver.

Nate Silver, pels qui no el coneixeu, és un estadístic jove (nascut al 78) que, després de fer-se molt conegut com a sabermètric (avui he aprés que anomenen així als analistes estadístics del bèisbol, que volen predir la carrera esportiva de les promeses quan comencen) va aplicar les seves tècniques a les prediccions electorals de les eleccions presidencials americanes del 2008 amb un important ressò. Per a les eleccions del 2012 (Obama versus Romney) el New York Times el va fitxar i durant tot el període electoral Silver va mantenir un interessantíssim bloc d’anàlisi anomenat fivethirtyeight (538 és el nombre de vots electorals que es disputen els candidats a la presidència americana). S’ha parlat força del fet que Silver va encertar el guanyador en tots i cadascun dels estats la nit del 5 de novembre i això és cert, però em sembla molt més interessant observar una mica de prop la seva metodologia (fins allà on és possible, ja que no és fàcil trobar-la ben documentada).

538-0

Com diu el propi Silver, es tracta de polling the polls, sondejar els sondejos podriem traduir, però seria més fidel dir remostrejar els mostrejos. Pel que he pogut llegir i deduir dels seus escrits, Silver recull tots els sondejos electorals que es publiquen en un estat concret i els combina d’una manera peculiar. Primer els dona un pes segons el temps que fa de la seva publicació però també segons la fiabilitat del mitjà o de la empresa que l’ha publicat. Després els utilitza per produir nous sondejos virtuals: per triar un votant primer tria un dels sondejos a l’atzar (amb probabilitats proporcionals als pesos assignats) i després decideix el vot del votant utilitzant les dades del sondeig. Aquest darrer pas dependrà de la informació disponible del sondeig en qüestió, potser només se sap el percentatge de vots als candidats, o potser es té informació fina sobre els indecisos i això permet decidir el vot del votant virtual amb millor base. Aquesta mena de remostreig serveix per construir el nou sondeig virtual. L’ús de mitjans computacionals potents permet repetir aquest remostreig uns quants milers de vegades i a partir dels resultats obtinguts calcular probabilitats dels events que interessi: per exemple, en quants d’aquests milers de sondejos ha sortit guanyador Obama ens permetrà calcular la probabilitat que guanyi Obama en l’estat en qüestió.

Però és més, com que això ho pot fer simultàniament en tots els estats de la unió, pot acabar calculant la probabilitat que Obama tregui tants o quants vots electorals, i la probabilitat que en tregui almenys la meitat més un, és a dir que guanyi.

Aquí volem remarcar una de les regles que Nate Silver emfasitza amb més vehemència en el seu llibre del 2012 [1, pàg 61]: Pensa probabilísticament, cal donar sempre probabilitats d’events d’interès. I diu això en contraposició a la tendència a predir resultats. Encara a data d’avui en la columna dreta del bloc esmentat es poden trobar les darreres prediccions que va fer per les eleccions del 5 de novembre on es veu aquesta característica: dona un 90.9% de probabilitat que guanyi Obama les eleccions, però més avall calcula també la probabilitat que guanyi Obama en vot popular, un 86.2%, o que acabessin empatats en vots electorals, un 0.2%. Enlloc trobarem afirmacions del tipus: guanyarà Obama.

538-1

Som conscients que no hem pogut donar, ni de fet trobar, explicacions més detallades sobre el “mètode 538” que el propi autor qualifica de propietari. En diversos llocs diu que seria absurd no utilitzar informació complementària com ara la situació macroeconòmica, o les característiques socio-demogràfiques de l’àrea que estem intentant predir el resultat electoral, però no hem sabut trobar cap detall de com això entra en el model predictor.

Amb aquesta idea una mica imprecisa de la metodologia que utilitza Silver, fem ara un exercici d’imaginació i responem la pregunta de l’inici: Què faria Nate Silver si estigués ara aquí? Jo crec que el primer que faria Nate Silver si fos català seria desesperar-se. Raons per a la desesperança? Una, el problema de la predicció electoral aquí és més difícil. Dos, el recursos econòmics disponibles per als experts són menors i, per tant, els sondejos menys freqüents i les mostres més petites. Tres, la informació que es difon sobre els sondejos publicats és pobríssima i quatre i molt important, cap diari li acceptaria prediccions probabilístiques: Us imagineu un titular a un diari d’aquí que digués La probabilitat que CiU tingui majoria absoluta és del 35%, posem per cas? No he sigut mai capaç de concloure quina és la raó per la qual la cultura probabilística de la nostra societat és tant menor comparada amb la d’altres països. Estic parlant de cultura general, la del lector de diaris. Perquè ells tenen tants termes per parlar-ne (chance of …, odds are …, etc.) i nosaltres tant pocs?

Probablement aquest dèficit cultural explica també la resistència que existeix a respondre als sondejos, a l’alt percentatge d’indecisos, a la presència del vot ocult, etc. La desconfiança en les prediccions podria explicar també que els mitjans de comunicació dediquin pocs recursos als sondejos. Per exemple: perquè els mitjans amb més volum de recursos (televisions, públiques o privades) no solen fer sondejos electorals (llevat dels dits a peu d’urna)?

Però hem dit que la informació que es difon és pobra, i és ben cert que ben poques vegades es publiquen dades com el percentatge d’indecisos o les dades recollides a cada circumscripció o ni tant sols la grandària mostral de cada circumscripció. Amb la llei electoral a la mà, la majoria dels sondejos publicats són directament il·legals, i això que les condicions fixades per la llei no són gaire exigents.

Hem dit que el nostre problema és més difícil que el de Nate Silver, i és ben cert que, si és difícil des-llindar qui guanya entre dos candidats que estan a la vora del 50% cadascun, més difícil és des-llindar qui s’emportarà els escons quan n’hi ha pocs en lluita però diversos partits hi opten. En una entrada anterior en aquest bloc hi hem fet referència. Però, com dèiem allà, la principal dificultat és que la mostra que permeten els recursos disponibles és, de llarg, massa petita per obtenir estimacions prou fines.

Però abandonada la esperança, crec que valdria la pena intentar l’exercici. Si poguéssim obtenir informació completa dels sondejos que es van publicar, especialment sobre els indecisos, seria molt interessant veure si els re-mostrejos tipus Monte Carlo o directes sobre les microdades en cas que estiguin disponibles, ens diuen si els resultats finalment apareguts van ser deguts a canvis de darrera hora o simplement a la definició dels indecisos. A casa nostra, en Xavier Fernández i Marin sembla ser que utilitza mètodes similars que apunten en la primera direcció [2]. Com que no hem trobat descripcions més completes dels seus mètodes, des d’aquí el convidem a participar en la discussió en aquest bloc.

Notes

[1] Nate Silver (2012). The signal and the noise. The Penguin Press, New York.

[2] “Matemàtiques per predir els resultats dels comicis electorals”. Teraflop, 119. Desembre 2012. Trobat a http://www.cesca.cat/sites/default/files/docs/tera119.pdf.

Algunes cites i els gràfics s’han tret del bloc http://fivethirtyeight.blogs.nytimes.com/ tal com s’ha pogut consultar a 17 de febrer d’enguany.

Podeu veure també una entrevista que li fa Hal Varian, l’economista en cap de Google.

Quant a fudina

Statistician at UPF, currently director of www.idescat.cat
Galeria | Aquesta entrada s'ha publicat en Enquestes electorals i d'opinió i etiquetada amb , , , . Afegiu a les adreces d'interès l'enllaç permanent.

4 respostes a Què faria Nate Silver si fos català?

  1. Pere Puig ha dit:

    El cas de Nate Silver és un bon exemple de cóm l’estadística ben feta pot tenir un important ressò mediàtic. És una llàstima que els seus mètodes no siguin del tot públics (entenc molt bé el perquè!).
    Si Nate Silver fos català, el seu cognom seria “Plata”, i em sembla que és un cognom molt menys freqüent a Catalunya que Silver en l’àmbit anglosaxó (corregiu-me si m’equivoco!). Sense anar més lluny, tots recordem al pirata John Silver de l’Illa del Tresor o, per als aficionats al Rock, a Jonathan Silver el bateria de Genesis.
    Per cert, algú ha llegit el llibre que comenteu “The signal and the noise”? Val la pena comprar-ho?

    • fudina ha dit:

      Segons dades de l’Idescat 6 de cada deumil catalans es diuen Plata de primer cognom. Segons la web How Many of Me.com (que no sé si és fiable…) hi ha 25.667 persones als EEUU que es diuen Silver, serien vora un de cada deumil. Ens ha fallat la intuició! A mi també em semblava que tenies raó. Això a banda, el llibre és prou interessant, almenys per una fullejada. Potser s’embranca massa en discussions sobre prediccions fallides (a posteriori, clar) però té detalls interessants. No parla gairebé gens de les prediccions electorals, parla força de bèisbol, això si. I costa poc més de 20 euros…

  2. Albert Bonillo ha dit:

    Excel·lent entrada. És cert que l’algorisme exacte no el sabem (ni el sabrem) mai, però si podem afirmar que fa servir models bayesians. Així és com “acumula” els estudis al llarg del temps. No hi he entrat a fons, però això l’allunya de la perspectiva del metaanàlisi, que seria l’altre alternativa natural. No conec el llibre, Pere, però segur que està bé. Llegeixo el seu bloc i escriu molt friendly.

    A casa tenim un politòleg que fa servir aquesta perspectiva. Es diu Xavier Fernández Marin. Té un article a l’Ara del 12 de novembre o en fa 5 cèntims. I el més similar que hi ha al mètode Silver publicat és aquest paper: http://eppsac.utdallas.edu/files/jackman/CAJP%2040-4%20Jackman.pdf

    Ara entro al fons: la tècnica de Silver no la veig aplicable al cas català. 1er, per que ell prediu un resultat binari per estat, i això és més senzill que no pas predir escons, 2on, per que ni tenim ni tindrem mai l’històric d’enquestes que tenen a USA. Crec que és Gallup que fa la mateixa enquesta electoral des de l’època de Roosevelt. I 3er per que el nostre panorama electoral és molt més canviant que el nord-americà. Aquí neixen i moren partits a cada elecció, i a USA això és inimaginable.

  3. lupe ha dit:

    Coincideixo amb l’Albert, excel.lent post, i entenedora, ràpida i sintètica resposta a la no aplicabilitat de la tècnica de Siver. Quina pena!!

Deixa un comentari

Fill in your details below or click an icon to log in:

WordPress.com Logo

Esteu comentant fent servir el compte WordPress.com. Log Out / Canvia )

Twitter picture

Esteu comentant fent servir el compte Twitter. Log Out / Canvia )

Facebook photo

Esteu comentant fent servir el compte Facebook. Log Out / Canvia )

Google+ photo

Esteu comentant fent servir el compte Google+. Log Out / Canvia )

Connecting to %s