Universiteit Leiden

woensdag 25 juni 13.45 uur

Matthijs Warrens

Similarity coefficients for binary data

Faculteit: Sociale wetenschappen

Promotor: prof.dr. W.J. Heiser

Een binaire reeks is een verzameling van getallen die slechts twee waardes aannemen. Een dergelijke reeks kan verkregen worden door allerlei tweeledigheden te verzamelen: goed/fout, voor/tegen, wel/niet, nieuw/oud, ja/nee, aanwezig/niet aanwezig. Een bioloog die voor twee gebieden heeft gecodeerd welke diersoorten er wel of niet leven, kan zich vervolgens afvragen in hoeverre de twee gebieden (reeksen) op elkaar lijken. Er is een groot aantal overeenstemmingmaten beschikbaar om de gelijkenis van twee binaire reeksen te kwantificeren. Om een goede keus te maken is het belangrijk om de verschillende overeenstemmingmaten en hun eigenschappen te begrijpen. In het proefschrift wordt een groot aantal nieuwe theoretische inzichten in enkele (data-analytische) eigenschappen van individuele overeenstemmingmaten en matrices van overeenstemmingmaten gepresenteerd. De Hubert-Arabie adjusted Rand index uit de clusteranalyse blijkt bijvoorbeeld equivalent aan Cohen's Kappa voor interrater betrouwbaarheid. Als tweede voorbeeld is de Loevinger coefficient, die gebruikt wordt in non-parametrische item response theorie, de enige lineaire transformatie van de geobserveerde proportie van overeenstemming met een waarde 0 als de twee binaire reeksen statistisch onafhankelijk zijn en een maximale waarde van 1 ongeacht de verdeling van de marginalen. Daarnaast wordt voor een aantal overeenstemmingmaten generalisaties gepresenteerd die de gelijkenis van drie of meer binaire reeksen kwantificeren.