D’espigues, màrfegues i jutges: un divertimento sobre la intenció de vot en un referèndum sobre la independència

Albert Bonillo (U. Autònoma de Barcelona)

Imagen

Seré agosarat, però crec que les campanyes electorals són una bona època pels que estimem l’estadística. Obrir un diari i trobar un munt d’enquestes i d’anàlisi post-electorals és un plaer que segur que molts dels lectors d’aquest bloc comparteixen. Ni ho volem ni ho podem negar: ens agraden les dades per se, in sich.

Bé sigui amb la intenció o transferència de vots entre partits, o bé sigui agrupant-los en les categories sobiranista/unionista, durant aquests darrers mesos hem pogut llegir anàlisi de tot tipus, classe i color. Només citaré un de cada tipus en funció de la seva metodologia: aquí un d’ecològic, un descriptiu graficat sobre el mapa i, aquí un amb dades individuals.  Aquests darrers són els menys freqüents i és lògic, ja que tenen el requisit d’haver-se de fer amb dades d’enquestes i no amb resultats electorals agregats. I encara semblen més infreqüents els que empren tècniques estadístiques multivariants.

És obvi que mai podrem saber res de les característiques del votant a partir de la seva població (malgrat també es podrien fer servir dades agregades per fer una anàlisi ecològica). Però llavors pot sortir un dubte legítim: podem fer servir enquestes electorals que s’han equivocat -i no poc- per fer un model estadístic? Creiem que hi ha més arguments a favor de contestar afirmativament que no a l’inrevés. Si les enquestes han errat per un biaix de selecció –certs votants tenen més propensió a contestar-les que altres– tindrem una mostra no representativa, però això sabem que no afecta als models multivariants. Hi ha res menys representatiu d’una població que els grups d’un assaig clínic o els d’un estudi de cohorts qualsevol? Si –enlloc o a més de- han fallat per les correccions que s’empren a l’hora d’estimar escons –la cèlebre “cuina”-, tampoc un model multivariant està afectat, ja que no fa servir per res aquestes estimacions. Sí estaria afectat el model en cas que els participants mentissin o no contestessin a certes preguntes, però aquest biaix és difícil de quantificar i més d’evitar. En definitiva: creiem que podem extreure models multivariants d’interès d’enquestes errades.

Provem-ho doncs. A partir de les dades del BOP705[i] estimarem un model explicatiu de la intenció de vot a un hipotètic referèndum sobre la independència de Catalunya. Farem una regressió logística[ii] on les variables d’entrada (o independents, en terminologia experimental) seran la procedència dels progenitors, el nivell d’estudis, la llengua amb la qual s’identifica[iii] qui contesta i la que primer va parlar a casa. La variable de resposta (o dependent) serà la intenció de vot afirmatiu o negatiu a aquest referèndum[iv]. Dels 2500 casos inicials, ens queden 1855: hem perdut el 26%.

Sorprenentment –o no- el model final és univariant i conté només la llengua pròpia. Ni les variables procedència familiar ni nivell d’estudis aconsegueixen romandre al model[v]. Ambdós paràmetres són significatius, és a dir, hi ha un escalat entre la llengua considerada com a pròpia i la intenció de vot al referèndum. En aquesta situació, no té sentit ni publicar els paràmetres, i –després de tot- mostrem una simple taula de freqüències, ja que els vots negatius són el % complementari. Hem reduït la confusió estadística[vi] que tot estudi no experimental pateix i hem acabat amb una taula entenedora per tothom.

Taula 1: Intenció favorable a votar a favor de la independència en un hipotètic referèndum en funció de la llengua pròpia

ImagenQuè explica aquesta relació? Això és feina de politòlegs –i aquest no és el nostre negociat ni el propòsit d’aquesta entrada- però potser la llengua considerada com a pròpia és un indicador del marc cultural de qui respon (Framing, per Xavier Fernández-i-Marín i Jaume López) i això s’associa a la seva intenció de vot.Ara bé, trobem a la història algunes curiositats associades a la llengua que no podem deixar de recordar arran aquests resultats, malgrat toquen molt tangencialment el tema d’aquesta entrada. Tots els catalanoparlants s’han embarbussat alguna vegada amb el cèlebre “setze jutges d’un jutjat mengen fetge d’un penjat”, però no tots saben d’on ve. Hi ha diverses versions, però sembla que durant la Batalla de Montjuïc (1641) -que va ser nocturna- els soldats catalans repetien aquesta la frase per distingir-se dels enemics i no patir el que s’anomena “foc amic”. Similar és el cas del mot “màrfega”. Durant la Guerra del Francès, els sospitosos de ser espies francesos havien de dir la paraula “màrfega” ben pronunciada. I pobre del que no ho fes amb l’accent correcte, cosa difícil per un francès parlant. Ara bé, el cas més antic que coneixem de fer servir l’accent com a reconeixement dels membres de la tribu està a l’Antic Testament,  llibre dels Jutges, capítol 12. Galadites i efraïmites tenien accents diferents. Els primers feien dir a  tot sospitós de ser efraimita el mot Shibollet, que vol dir espiga de blat en hebreu, i d’aquí el títol d’aquesta entrada.

Més enllà d’aquestes darreres curiositats sobre els accents i la llengua, voldríem animar a fer servir models multivariants a tothom qui analitzi dades no experimentals, periodistes i empreses que realitzen enquestes inclosos. Sabem que no és tan difícil com el nom ho pot fer pensar a un profà, i poden evitar conclusions espúries[vii]. És útil analitzar amb models multivariants dades d’enquestes fallides? Creiem que sí, ja que no hi ha cap argument teòric de pes que ho negui, però per confirmar-ho s’haurien de fer anàlisi ecològiques post-electorals –també multivariants- que confirmessin que les variables explicatives són les mateixes.

En resum: l’estadística –també- serveix per separar el gra de la palla.


[i] Baròmetre d’Opinió Política del CEO, número 705 (8 de novembre de 2012, 3ª Onada 2012)
[ii] Com és habitual, retindrem només les variables significatives i provarem els mètodes d’estimació automàtica forward i backward.
[iii] Entenem “procedència familiar” com tenir algun progenitor nascut a Catalunya,  “estudis” com el Nivell d’estudis finalitzat (primaris, secundaris o superiors) i llengua amb la qual s’identifica, la sorgida de la pregunta C704, que diu: “Pot indicar-me quina és la seva llengua? Ens referim a quina és la llengua que vostè considera com a pròpia”. Hem eliminat els casos diferents a Català, Castellà i Ambdues.
[iv] Per simplificar, només emprarem vots positius i negatius: hem eliminat abstinents, no sap/no contesta i la resta de categories.
[v] R2 de Nagelkerke=46%; Casos predits encertadament =82.6% fent servir el punt de tall de P=50%.
[vi] Val la pena llegir la vikipèdia en anglès: està realment ben explicat.
[vii] De fet, la procedència familiar es relaciona (univariantment) amb el sentit de vot, però això desapareix al incloure la llengua.

Galeria | Aquesta entrada s'ha publicat en Enquestes electorals i d'opinió i etiquetada amb , , , , . Afegiu a les adreces d'interès l'enllaç permanent.

8 respostes a D’espigues, màrfegues i jutges: un divertimento sobre la intenció de vot en un referèndum sobre la independència

  1. Jordi ha dit:

    No voldria ser perepunyetes, ja entenc que vols mostrar la conveniència de dur a terme anàlisis multivariants, la qual cosa celebro. Però, amb tots els respectes, no sé si l’exemple no mereixia una mica més d’elaboració. Potser m’erro però a simple vista, si el recompte que has inclòs a la taula 1 indica els casos que han entrat a l’anàlisi, s’han exclòs el 80% dels qui consideren llengua pròpia el castellà però només el 20% dels qui consideren el català la seva llengua pròpia. És a dir, es pot pensar que allò que apareix com a significatiu en l’anàlisi és resultat de comparar els qui es consideren catalanoparlants amb una particular minoria de castellanoparlants que no té perquè ser representativa del conjunt.
    Sí, en tota anàlisi perdrem casos però una anàlisi en que gairebé tots els casos que perdem són els d’una banda (i en un dels grups ens n’acaben quedant molt pocs) demana si més no justificar que els casos que ens han quedat són comparables als que hem exclòs. Gairebé apostaria a que els castellanoparlants que han quedat fora de l’anàlisi tenen un comportament intermedi, més favorable al sí.

  2. Albert Bonillo ha dit:

    T’agraeixo que hagis llegit l’entrada i el comentari, Jordi: mercès. Crec que un bloc permet el perepunyeterisme😉

    La taula conté les freqüències dels SIs: les freqüències dels NOs es poden deduir a partir del % de Sis, però la taula és prou petita i hauria d’haver inclòs la dels NOs. Potser així s’entendria que hi ha més persones que consideren el castellà com a única llengua pròpia del que sembla (que no castellanoparlants, que això ho som tots). El marginal d’aquesta fila és de 561: hi ha 366 NOs i els 195 SIs que veus.

    Sobre l’eliminació de casos: és molt menor i no afecta especialment als que consideren el castellà com a única llengua pròpia. Per llengua, s’ha eliminat als que: 1) consideren l’aranès com única llengua pròpia (n=1), altres llengües (suposo que immigrants, n=26), no contesten (n=2). Per vot, abstencions (n=356), altres respostes (n=15), no ho sap (indecisos, n=154) i no contesta (n=38).

    Amb la taula que conté tots els casos, la distribució d’abstinents i indecisos dels que consideren el castellà com a única llengua pròpia és molt similar a la dels que consideren així ambdós llengües: 20% d’abstencions i 10% d’indecisos.

    Sobre la interpretació dels valors: no em sembla baix que un 35% dels que consideren el castellà com a única llengua pròpia manifestin que votarien a favor en un hipotètic referèndum que, diu la pregunta, “es celebraria demà”. A més, els que tenen aquesta consideració cap al català són gairebé el doble (ara parlo de dades sense eliminar: 1407 vs 831) que els que la tenen només cap el castellà.

    Si no he aconseguit aclarir-te quelcom, no dubtis en tornar a comentar.

    • Jordi ha dit:

      Moltíssimes gràcies per l’aclariment, ara sí que (em) queda clar.

      Aprofito que has entrat a parlar de la llengua pròpia en els estudis del CEO per suggerir-vos tema per a un post: el dels possibles biaixos que pot tenir una enquesta i què es fa per evitar-los.

      Ve al cas😉. Perquè se’n va parlar justament a propòsit del BOP que t’ha servit de base per a l’anàlisi:
      http://www.eldiario.es/piedrasdepapel/encuestas-Cataluna_6_75652435.html

      • Albert Bonillo ha dit:

        Gràcies per penjar l’article d’Alberto Penadés: el coneixia, però ve al cas i els lectors podran consultar-lo.

        Sobre aquest article diria que:

        1) Una enquesta electoral a setmanes vista de les eleccions, és una fotografia d’un moment i un espai. Que no coincideixi amb els resultats electorals no em fa pensar que necessàriament estigui esbiaixada.
        2) El tema de la llengua inicial està ben escrit en el comentari 9 (de Jordi Solà Ferrer). Són dades que tenen 10 anys.
        3) No crec que es pugui inferir la llengua de la persona a partir de en quina respon el qüestionari. Això depèn de mil factors i alguns casuals (si ets bilingüe i perceps que l’entrevistador té accent castellà o parla en castellà, és fàcil que també responguis en castellà o a l’inrevés).
        4) En altres moltes variables de control, la mostra del CEO no està esbiaixada, i això és controla. Dubto que estigui estigui només i justament en llengua.

        La pregunta que fet servir en aquest anàlisi, s’ha inclòs recentment. Cap de les preguntes que hi ha al BOP recollia l’ús lingüístic, i crec que no pot fer-ho. Som en una societat bilingüe on fem servir una llengua a casa, l’altra a la feina, en una reunió amb amics parlem en castellà o català segons amb qui parlem en cada moment etcetc. Penso que aquesta complexitat no es pot recollir en una variable. I d’aquí que (suposo) el CEO decidís crear una pregunta subjectiva que recollís el que, objectivament, no es pot mesurar amb una pregunta.

        Una alternativa seria fer una segona enquesta sobre usos lingüístics, però això tampoc recolliria la categoria “castellanohablantes” que Alberto Penadés busca.

      • Jordi Solà ha dit:

        Perdona que abusi i insisteixi Albert sobre això que dius de
        4) En altres moltes variables de control, la mostra del CEO no està esbiaixada, i això és controla. Dubto que estigui estigui només i justament en llengua.
        perquè després d’haver-m’hi mirat una mica darrerament trobo que sí que ho està d’esbiaixada i no només per llengua sinó també segons l’origen de la població.

        És el moll de l’os. L’EULC de 2008 va introduir entre d’altres novetats una complexa ponderació orientada a garantir que la mostra tenia la distribució de l’origen de la població que s’obtenia del padró perquè els hàbits i les pràctiques lingüístiques són molt dependents de l’origen. L’EULC del 2003 no havia estat controlada per aquest criteri i es va haver de reponderar i els resultats després de la reponderació s’assemblaven com un ou a una castanya amb els que s’havien fet públics en el seu moment. Però com que l’origen de la població no només condiciona la llengua sinó també el vot o el suport a la independència, aparentment seria pertinent que les enquestes polítiques (del CEO) es ponderessin les dades amb els mateixos criteris que una enquesta lingüística.

        El cas és que no em diverteix gens pensar que les enquestes del CEO tenen un biaix per origen de l’entrevistat i com que tu trobes que no hi deu haver biaix, t’agrairia enormement que m’ajudessis a veure quin error hi veus en aquesta estimació:

      • Albert Bonillo ha dit:

        T’asseguro, Jordi, que no sabia que et citava a tu en la meva resposta anterior: som un país petit😉
        Fora bo que algun membre del CEO ens aclarís els teus dubtes, ja que jo només en sóc un “simpatitzant.”. Crec que tu saps més que jo sobre biaixos del CEO, així que especularé només per que m’ho demanes🙂.

        Deia que no crec que la mostra estigui esbiaixada per llengua, i em referia a les categories de castellà i català. No m’imagino que un castellano-parlant exclusiu sigui tendent a penjar el telèfon a l’operador del CEO però si obre la porta al CIS. Això no implica que no tingui un biaix per nivell socioeconòmic, com la majoria d’enquestes (especialment les telefòniques, com són les darreres del CEO). Aquest biaix es pot reflectir de manera secundària en la llengua, però no és l’origen del biaix, i el seu efecte sobre els resultats seria (molt) menor que si sí fos un motiu primari de biaix.

        Sobre el teu tuit diria que: 1) el padró tampoc és un gold estàndard, especialment per temes electorals. Conté a immigrants sense papers (o amb papers però sense nacionalitat, nacionalitats tramitades però no acabades, etcetc), dobles empadronaments i demés sorolls, ja que el padró possibilita l’accés a l’atenció sanitària. Això explicaria les grans diferències de la primera taula.

        Respecte a la segona taula: a més del que ja he dit sobre el padró (hi ha catalans empadronats a fora per pagar menys impostos) hi ha un any llarg de lapse temporal entre ambdues mesures. És fàcil que, amb la crisi, alguns dels nascuts a fora que eren immigrants econòmics hagi tornat a la seva CCAA d’origen. Per exemple. Si calculem els IC del CIS i el CEO, obtenim un 2% (aprox) de marge d’error. Això acostaria molt aquest 74.4% al 79.7%.

        Afegeixo una evidència: en altres eleccions el CEO s’ha acostat molt als resultats electorals. Ara estan molt esbiaixats i abans no? Em costa d’entendre el perquè.

        Resumeixo: no nego biaix, però si minimitzo el que estima Penadés.

  3. Boris G ha dit:

    Interesante aportación, Bonillo. ¿Has mirado si algunas variables de tipo socio-económico son influyentes? Lo digo porque me sorprende que la lengua propia sea un factor tan importante de cara a la intención de voto sobre la independencia de Catalunya. Por ejemplo, la independencia de los países de la América Hispana se produjeron por razones más de tipo económico que cultural y lo mismo pasó con la de EEUU. Por cierto, los datos para el análisis los has pedido al CEO, ¿verdad? O hago algo mal, o no consigo encontrarlos directamente del enlace que has puesto.

    • Albert Bonillo ha dit:

      Molts gràcies, Boris:

      Vaig valorar incloure algun indicatiu econòmic, sí. El problema era, quin? Vaig pensar en incloure la renda en €, els ingressos familiars i inclús la classe social percebuda, que hi són a les dades. Ara bé, cap d’aquestes recollia el que m’hagués semblant interessant de mesurar. Crec que una pèrdua de renda respecte al passat, o una expectativa de un augment de renda futura, tindria més pes que no pas tenir ara la renda alta o baixa. I aquesta idea aniria plenament en la línia que apuntes. Així doncs, i no tenint un bon indicador clar, vaig preferir no incloure’n cap.

      Un segon argument per no fer-ho va ser la meva sorpresa, igual que la que tu manifestes, al veure la R2 del model final. Al ser tant alta, una variable econòmica potser seria significativa i afegiria una mica de R2, però no pot ser massa. Així, l’anàlisi empra només variables de mesura indiscutible (malgrat el concepte “llengua pròpia” té altíssim component subjectiu, la seva mesura no la té).

      Efectivament, les dades dels BOP es proporcionen sota petició escrita adreçada al CEO. L’enllaç mostra tot el material, excepte les dades originals.

Deixa un comentari

Fill in your details below or click an icon to log in:

WordPress.com Logo

Esteu comentant fent servir el compte WordPress.com. Log Out / Canvia )

Twitter picture

Esteu comentant fent servir el compte Twitter. Log Out / Canvia )

Facebook photo

Esteu comentant fent servir el compte Facebook. Log Out / Canvia )

Google+ photo

Esteu comentant fent servir el compte Google+. Log Out / Canvia )

Connecting to %s