Examinant els exàmens o de com fer servir l’Anàlisi d’Ítems per fer millors les proves

Albert Bonillo (U. Autònoma de Barcelona)

Aquest mes el bloc està dedicat a Mesurar l’intangible i és un nom especialment ben triat. El gran repte de l’estadística en la Psicologia és aquest: la mesura d’allò inaprehensible, d’allò eteri, del que anomenem constructes. I una de les (moltes) coses difícils de mesurar és el coneixement. Com sabem quant sap algú? Com sabem si en sap prou o no? Per un professor, saber això és fonamental i acostuma a emprar proves o evidències d’aprenentatge. Abans en dèiem exàmens, però ara està mal vist dir-li així: també en dèiem Ministerio de la Guerra al que ara s’anomena de Defensa. Cada època té els seus eufemismes.

Hi ha moltes maneres d’avaluar, però ens centrarem en un clàssic, els exàmens tipus test. Com a professor hem fet un examen, els alumnes l’han contestat i s’han aprovat o no[i]. Hem acabat la feina? No tenim alguna eina estadística que ens permeti avaluar les preguntes que hem fet? Hem aconseguit fer bones preguntes o no? Totes són bones o hi ha algunes millorables? Per contestar totes aquestes preguntes (i d’altres), hi ha una branca dins de la Psicometria que fa el que s’anomena Anàlisi d’Ítems: aquest serà el tema d’aquesta entrada[ii].


El primer que hauríem d’examinar de totes les preguntes és si són fàcils o difícils, ja que un bon examen ha de tenir preguntes de tots els tipus. De fet, la dificultat d’una pregunta ha de dependre del tema que tracta: si aquest és difícil, la pregunta ho hauria de ser, i a l’inrevés. El que no pot ser és que la dificultat depengui de la redacció de la pregunta.

Fer això, mesurar la dificultat d’una pregunta, és tan senzill de fer com calcular el seu índex de dificultat, que no és més una proporció (paradoxalment, d’encerts, però l’índex s’anomena de dificultat).

F1

Aquesta fórmula té un problema evident: no té en compte a aquells alumnes que encerten per atzar. Pensin que vostès contesten un examen de 100 preguntes de 4 alternatives escrit en japonès (estic suposant que no saben japonès, p<0.05). Quantes preguntes encertarien per pur atzar? És obvi que 25. Doncs bé, aquesta esperança matemàtica d’encert per atzar s’ha de restar d’alguna manera de la proporció d’encerts que hem calculat abans. I es fa mitjançant la fórmula següent:

F2

Una vegada sabem la dificultat de totes i cadascuna de les preguntes, podem saber si l’examen, en el seu conjunt,) era difícil o no. Ho podem saber calculant una mitjana de totes les dificultats o també graficant-les. Ja hem vist el concepte de dificultat. Ara bé, per mi, el concepte més atractiu de l’Anàlisi d’Ítems és el de Discriminació, que els hi presentaré ara mateix.

Qui ha de contestar correctament una pregunta? Els bons alumnes. De fet, esperem que els dolents la fallin. I què vol dir “els bons” i “les dolents”? Els que tenen notes altes (i baixes, respectivament) en el conjunt de la prova. Considerem com a “bons” el 25% de persones que obtenen les notes més altes i com a dolents el que obtenen el 25% més baix. Doncs a partir d’aquí, tot és fàcil. La discriminació de la pregunta es calcula restant les proporcions d’encertants d’ambdós grups, i una bona pregunta tindrà una discriminació positiva, i preferentment, alta.

F3

Què vol dir una discriminació “alta”? Ebel (1965) proposa una sèrie de punts de tall, que reproduïm, però que s’haurien de prendre amb molta prudència. Com hem vist a la fórmula, la discriminació depèn de la dificultat, i això fa que en preguntes difícils sigui molt complicat obtenir valor > a 0.40 . Com s’interpreta la discriminació? Suposem que obtenim un valor de 0.3. Direm, doncs, que els bons encerten un 30% més l’ítem que els dolents.

F4Font: Ebel, R.L. (1965). Measuring educational achievement. Englewood: Prentice Hall. Reproduïda a Bonillo, A. (2013). Anàlisi dels ítems. Barcelona: Editorial UOC.
 

Però aquí no acaba la cosa: la mateixa lògica de la discriminació l’hem d’aplicar a les opcions de resposta incorrectes. Aquestes s’anomenen “distractors” i, amb aquest nom, el mínim que podem esperar d’elles es que distreguin, és a dir, que algú les triï; sinó, no serveixen per res. I qui les ha de triar? Tornem-hi: els “dolents”. Per tant, calculem la discriminació de cada distractor i ara ha de ser negativa ja que l’han de triar més freqüentment els dolents que els bons. Sinó és així, ens hem de plantejar si la resposta que considerem com a correcta potser no ho és o si hi ha dos opcions de resposta correctes.

I amb tot això què podem fer, a més de fer millors exàmens? A un article de l’autor[iii] analitzem els ítems de les proves que permeten accedir a la Formació Sanitària Especialitzada. D’aquestes surten els metges (i farmacèutics, i infermers i els psicòlegs!) especialistes que atendran a vostès i als seus fills durant la resta de la seva vida. En ocasions, unes dècimes en aquest examen canvien l’especialitat (o la plaça de destí) que podrà triar un metge. Això és una qüestió important. I què varem trobar en aquests ítems? Que són millorables: que n’hi ha amb discriminació negativa i que, de les cinc opcions de resposta, dos sobren. Què proposem? Que en els exàmens amb efectes socials rellevants (i en els altres també, però en aquests prioritàriament) les dades de les respostes han de ser públiques i publicades per tal d’auditar-les, i així fer-les millor i més justes per a tots, els qui responen i la societat que rep els efectes.

I és que l’Estadística és, no ho oblidin, un al·legat a la transparència.

[i] Per redactar correctament els exàmens tipus test, els hi recomano molt aquest article: Moreno, R., Martínez, R., i Muñiz, J. (2004). Directrices para la construcción de ítems de elección múltiple. Psicothema, 16, 490-497.
[ii] Aquesta entrada és una versió reduïda i divulgativa del capítol Anàlisi dels ítems, publicat a la compilació Psicometria, editorial UOC, febrer de 2013 http://femrecerca.cat/meneses/publications/psicometria. Poden descarregar-lo aquí http://femrecerca.cat/meneses/files/psicometria-cat-2013.pdf (properament apareixerà  en versió paper, només en castellà).
[iii] Bonillo, A. (2012). Pruebas de acceso a la formación sanitaria especializada para médicos y otros profesionales sanitarios en España: examinando el examen y los examinados. Gaceta Sanitaria, 26 (3), 231-235 (http://scielo.isciii.es/scielo.php?pid=S0213-91112012000300008&script=sci_arttext)
Galeria | Aquesta entrada s'ha publicat en Mesurar l'intangible i etiquetada amb , , , . Afegiu a les adreces d'interès l'enllaç permanent.

Una resposta a Examinant els exàmens o de com fer servir l’Anàlisi d’Ítems per fer millors les proves

  1. Retroenllaç: Els ítems dels tests com a finestra terrenal a l’espai latent dels constructes psicològics | e2013

Deixa un comentari

Fill in your details below or click an icon to log in:

WordPress.com Logo

Esteu comentant fent servir el compte WordPress.com. Log Out / Canvia )

Twitter picture

Esteu comentant fent servir el compte Twitter. Log Out / Canvia )

Facebook photo

Esteu comentant fent servir el compte Facebook. Log Out / Canvia )

Google+ photo

Esteu comentant fent servir el compte Google+. Log Out / Canvia )

Connecting to %s