Posicionament dels partits polítics: una anàlisi de dades textuals

Oliver Valero (SEA-UAB)

Segons la teoria moderna sobre els partits polítics, aquests competeixen electoralment entre ells posicionant-se en diversos eixos (dreta-esquerra, catalanisme-espanyolisme, etc.) que els diferencien ideològicament els uns dels altres (Downs, A. 1957).

Utilitzant aquesta metodologia podem representar en un gràfic de dues dimensions el posicionament els principals partits que es van presentar a les darreres Eleccions al Parlament de Catalunya (2012) segons la seva ideologia:

Figura 1

Posicionament dels partits polítics. Font: HoritzóCatalunya. http://www.horizontecatalunya.com
Posicionament de la CUP: Font pròpia

Així doncs, l’objectiu d’aquest estudi és posicionar els partits a partir del llenguatge que utilitzen en els seus programes electorals. Per dur a terme aquest propòsit, es poden emprar les tècniques estadístiques d’anàlisi de dades textuals. Aquests procediments impliquen realitzar el recompte de les unitats verbals bàsiques (les paraules) i aplicar tècniques multivariants a aquests recomptes com per exemple, l’anàlisi de correspondències (Benzécri, J. P, 1973).

Els diferents programes electorals s’han descarregat de les pàgines web de cadascun dels partits i han estat emmagatzemats en una base de dades (els programes del PP i C’s van ser traduïts al català). A continuació s’indiquen el nombre de paraules totals i el nombre de paraules diferents (freqüència absoluta i relativa) dels programes electorals dels partits:

  • CiU: 57.900 paraules (1.500 paraules diferents, el 2,6%)
  • C’s: 9.700 paraules (900 paraules diferents, el 9,3%)
  • CUP: 3.700 paraules (600 paraules diferents, el 16,2%)
  • ERC: 104.500 paraules (1.600 paraules diferents, el 1,5%)
  • ICV-EUiA: 85.800 paraules (1.500 paraules diferents, el 1,7%)
  • PP: 4.700 paraules (700 paraules diferents, el 14,9%)
  • PSC: 46.000 paraules (1.500 paraules diferents, el 3,3%)
  • PxC: 18.000 paraules (1.100 paraules diferents, el 6,1%)
  • SI: 23.500 paraules (1.400 paraules diferents, el 6,0%)

El primer pas d’una anàlisi de dades textuals consisteix en determinar quina és la unitat mínima dels càlculs estadístics, normalment les paraules o els segments repetits. Les paraules que apareixen en major freqüència en els programes electorals, després d’eliminar articles i preposicions, són les següents:

  • Catalunya (1.862 repeticions)
  • Més (1.450 repeticions)
  • Social (960 repeticions)
  • No (849 repeticions)
  • Persones (754 repeticions)
  • Sistema (688)
  • Seva (631 repeticions)
  • Polítiques (625 repeticions)
  • Serveis (623 repeticions)
  • Catalana (616 repeticions)
  • País (608 repeticions)
  • Política (559 repeticions)
  • Recursos (552 repeticions)
  • Govern (551 repeticions)

A continuació podem observar quines paraules són utilitzades en major freqüència (relativa) per uns partits que per altres:

  • CiU: Catalunya (2,2%), país (0,7%), impulsarem (0,57%), català (0,56%), empreses (0,55%), gestió (0,53%), sector (0,53%), nostre, (0,4%).
  • C’s: ciutadans (0,85%), atenció (0,67%), pública (0,64%), mesures (0,61%), fomentarem (0,52%), sense (0,52%), establirem (0,49%), Espanya (0,43%).
  • CUP: catalans (1,4%), model (1,3%), no (1,3%), països (1,2%), promourem (1,0%), societat (1,0%), defensa (0,94%), treballarem (0,87%).
  • ERC: no (0,99%), estat (0,99%), catalana (0,6%), català (0,51%), república (0,44), àmbit (0,42%), desenvolupament (0,37%), nou (0,35).
  • ICV: persones (0,74%), serveis (0,62%), garantir (0,54%), pública (0,47%), públics (0,45%), impulsar (0,43%), drets (0,41), ocupació (0,38%).
  • PP: empreses (1,3%), llei (1,2%), generalitat (1,1%), catalanes (1%), serveis (1%), català (0,85%), atenció (0,79%), pla (0,79%).
  • PSC: més (1,6%), govern (0,83%), econòmica (0,43%), crisi (0,41%), anys (0,38%), finançament (0,31%), gran (0,29%), molt (0,28%).
  • PxC: no (2,0%), política (0,95%), seva (0,85%), nostra (0,67%), anys (0,5%), immigració (0,38%), infraestructures (0,35%), família (0,3%).
  • SI: no (1,4%), catalana (0,96%), independència (0,84%), català (0,61%), totes (0,46%), llengua (0,42%), nacional (0,42%), promourem (0,39%).

Després d’aquesta anàlisi més aviat descriptiva, es pot procedir a realitzar una anàlisi multivariant de dades textuals utilitzant la tècnica de l’anàlisi de correspondències. Aquest mètode ens permetrà calcular distàncies entre partits a partir de la semblança en les paraules emprades als seus programes electorals i representar-los en un gràfic de dues dimensions:

Fig2

En aquesta primera anàlisi s’han inclòs totes les paraules que apareixien amb una freqüència mínima de 50. Per tal de visualitzar millor els resultats, s’han seleccionat només les paraules característiques dels diferents partits, és a dir, s’han eliminat les paraules que s’utilitzen en la mateixa proporció en tots els partits. D’aquesta manera obtenim un gràfic amb menor densitat de punts (paraules), on poder visualitzar més clarament quines són les paraules que més discriminen entre partits:

Fig3

En aquest gràfic es representen els 2 primers eixos factorials, que  expliquen gairebé el 50% de la variabilitat total. Els partits CiU i PP apareixen molt propers, això és degut a que utilitzen el futur simple d’indicatiu (desenvoluparem, potenciarem, elaborarem, donarem, establirem, impulsarem, etc.) en major freqüència que la resta de partits. Altres paraules que caracteritzen a aquests dos partits són progrés, competitivitat, internacionalització, empresarial, sanitat, família, ciutadans o llibertat.

A la banda esquerra del gràfic queden situats el PSC i ICV, que es caracteritzen per utilitzar algunes formes verbals en infinitiu (reduir, impulsar, crear, promoure, establir, incrementar, etc.), i paraules com ambiental, atur, ocupació, escoles, reforma, estatut o serveis públics.

C’s quedaria entremig d’aquests dos blocs de partits, de manera similar al que s’observa en el primer gràfic si només considerem la ideologia dels partits.

Els partits ERC i SI es caracteritzen per ser els partits que estan més a favor de la independència: fan servir les paraules estat propi, independent, independència, nou estat, república catalana i transició.

PxC i la CUP no quedarien ben representades en aquest gràfic de dues dimensions, al situar-se al centre del gràfic. Si es fa servir un tercer eix, que explica un 15% de la variabilitat total, trobem que el partit PxC queda millor representat:

Fig4

En aquest nou eix PxC s’allunya molt de la resta de partits, i les paraules que més el caracteritzen són immigració, corrupció, família, fills, polítics i Espanya.

A partir d’aquesta anàlisi de correspondències hem identificat tres factors que expliquen més del 65% de la variabilitat total. El primer factor separa els partits segons la seva ideologia política, el segon factor segons el grau d’independentisme i el tercer per la immigració.

Els resultats d’aquesta anàlisi es poden complementar amb una anàlisi de clústers, realitzat a partir dels factors obtinguts en l’anàlisi de correspondències múltiples. Aquí podem fer servir tots els factors, explicant el 100% de la variabilitat total. Aquesta anàlisi revela que els partits es poden agrupar en 4 clústers diferents: CiU, PP i C’s s’agrupen en un mateix grup, PSC i ICV en un segon grup, CUP ERC i SI en un tercer grup, i finalment PxC en el quart grup.

Bibliografia:

Downs, Anthony (1957). An economic theory of democracy. New York. p. 116.

Benzécri, Jean-Paul (1973). L’analyse des données: L’analyse des correspondances. Paris, Dunod.

Valls Marçal, Joan (1999). Anàlisi estadística de dades textuals: disseny de l’entorn del software SPAD.T. Projecte final de carrera.

Galeria | Aquesta entrada ha esta publicada en Enquestes electorals i d'opinió. Afegeix a les adreces d'interès l'enllaç permanent.

Una resposta a Posicionament dels partits polítics: una anàlisi de dades textuals

  1. Boris G ha dit:

    Está bien esta aportación, Valero, pero con los tiempos que corren no debemos pecar de ingenuidad. ¿Realmente tan sólo dos ejes (catalanismo-españolismo, izquierda-derecha) reflejan el panorama electoral actual? Yo añadiría un tercer eje: corrupción-no corrupción. Posiblemente en las próximas elecciones este tercer eje actuará de manera contundente y, si no, tiempo al tiempo. “Cosas veredes amigo Sancho que farán fablar las piedras”.

Deixa un comentari

Fill in your details below or click an icon to log in:

WordPress.com Logo

Esteu comentant fent servir el compte WordPress.com. Log Out / Canvia )

Twitter picture

Esteu comentant fent servir el compte Twitter. Log Out / Canvia )

Facebook photo

Esteu comentant fent servir el compte Facebook. Log Out / Canvia )

Google+ photo

Esteu comentant fent servir el compte Google+. Log Out / Canvia )

Connecting to %s