Gisteren kwam Maurice de Hond met een stuk waarin hij probeert uit te leggen waar De grote verschillen tussen de peilingen door ontstaan. Hij richt zich daarin vooral op de verschillen tussen de resultaten van Peil.nl en de Politieke Barometer van Ipsos Synovate, omdat de verschillen met andere peilingen kleiner zouden zijn. Maar klopt dat wel en klopt zijn uitleg over de redenen voor de verschillen?
De uitslagen van De Stemming van Een/Vandaag (GfK, gebaseerd op 12.000 ondervraagden per keer) lijken behoorlijk op die van Peil.nl (per week ongeveer 4000 ondervraagden). De uitslagen van TNS-Nipo doorgaans ook (per keer ruim 1000 ondervraagden), maar niet de afgelopen week. En de uitslagen van de Politieke Barometer (per keer ongeveer 1000 ondervraagden) lijken soms afkomstig te zijn van een ander land. Zo staat op dit moment bij de Politiek Barometer de VVD 6 zetels boven de SP, terwijl dat bij Peil.nl vorige week dat andersom was. (Bij De Stemming stond de SP 8 zetels voor op de VVD).
Het klopt inderdaad dat de peilingen van de Politieke Barometer op een aantal punten opvallend afwijken van andere peilingen. Dat speelt het sterkst bij de zetelaantallen voor de VVD en de SP, waarbij de Barometer sinds de val van het kabinet vrijwel continu de VVD groter inschat dan de SP, ook wanneer dat bij andere peilingen juist omgekeerd was. Op dit punt liggen de andere peilingen inderdaad dichter bij die van Maurice de Hond, maar om nu te zeggen dat de peilingen van De Stemming en TNS-NIPO behoorlijk op die van Peil.nl lijken, gaat te ver.
Kijk maar eens naar de vergelijking tussen de peilingen op Peilloos van vorige week, waarin ook van eerdere vergelijkingen de verschillen in zetelaantallen staan. Bij 13 vergelijkingen met TNS NIPO kwam het zetelverschil 2 keer onder de 10 zetels, 4 keer tussen de 12 en 19 zetels en 7 keer boven de 20 zetels uit. Bij de 8 vergelijkingen met De Stemming was het minimumverschil 10 zetels (1 keer), lag het verschil 4 keer tussen de 12 en 18 zetels, 1 keer op 22 en 2 keer zelfs op 32 zetels. Eigenlijk is pas echt opvallend dat de verschillen tussen Peil.nl en de Politieke Barometer in ieder geval consistenter zijn. Bij de 13 vergelijkingen lag het verschil 1 keer op 34 zetels, 2 keer op 20 zetels en 10 keer tussen 22 en 26 zetels, waarbij 22 zelfs 6 keer voorkwam.
N.B. de cijfers die De Hond geeft over de omvang van panels zijn enigszins verwarrend omdat hij het heeft over ondervraagden. Zo nodigt De Stemming weliswaar 12.500 mensen uit om deel te nemen aan onderzoek, daarvan reageert wekelijks ongeveer de helft, ruim 6.000 dus. TNS NIPO streeft naar 1.500 deelnemers en had er bv. deze week 1.384. Ipsos Synovate streeft naar ruim 1.000 deelnemers en had er bv. deze week 1125. Of de 4.000 van Peil.nl 4.000 uitgenodigden zijn of 4.000 ingevulde vragenlijsten, is onduidelijk.
Verschil in panelgrootte Na een toelichting op hoe Peil.nl informatie verzamelt en verwerkt gaat De Hond specifiek in op de verschillen met de Politieke Barometer. Om te beginnen noemt hij het verschil in aantal ondervraagden:
Het aantal ondervraagden is bij de Politieke Barometer keer op keer ongeveer 1000. Dat houdt bij voorbeeld in dat het aantal ondervraagden in het onderzoek dat in 2010 Groen Links heeft gestemd rond de 50 is. Iedere ondervraagde vertegenwoordigt dan ongeveer 2% van de kiezers van Groen Links. Dat houdt o.a. in dat er grote onnauwkeurigheden zijn binnen iedere kolom van de overgangentabel. (Bij Peil.nl is de steekproef per keer dus 4 keer zo groot).
Hoewel het zeker geen kwaad kan om bij het lezen van peilinguitslagen te bedenken dat vooral bij hele kleine percentages en zetelaantallen relatief weinig deelnemers een verandering teweeg kunnen brengen, zegt de grootte van de steekproef weinig over de nauwkeurigheid van de cijfers. Je kunt dan ook niet zeggen dat een steekproef met 4.000 deelnemers beter de werkelijke verhoudingen weergeeft en ‘correctere’ cijfers geeft, dan een steekproef met 1.000 deelnemers. De foutmarges veranderen wel, want die worden kleiner naarmate de steekproef groter is, maar daaruit valt niet op te maken of de cijfers een vertekend beeld geven.
Misschien kan een voorbeeld dit verduidelijken:
In het land Hypothesia gebruikt vijftig procent van de mensen regelmatig internet, de rest vrijwel nooit. Uit een online panel van 50.000 mensen wordt aan 1.000 mensen een vragenlijst voorgelegd, met vragen over YouTube-gebruik.
Dezelfde vraag wordt gesteld aan 1.000 mensen uit een tweede panel, alleen worden zij telefonisch benaderd en zijn ze niet geselecteerd op internetgebruik.
We kunnen verwachten dat het aantal YouTube-gebruikers bij het online panel zeker twee keer zo hoog is als bij het tweede panel. De cijfers van het eerste panel geven dan ook geen goed beeld van het YouTube-gebruik onder alle inwoners van Hypothesia. Maar, daar verandert niets aan wanneer we in plaats van 1.000 5.000 of 10.000 mensen uit het online panel ondervragen. De samenstelling van het panel wijkt immers nog steeds op dezelfde manier af van de totale bevolking.
Geheugenverlies Een ander fenomeen dat volgens De Hond tot “forse fouten” kan leiden is het geheugenverlies van gepeilden over hun stemgedrag in het verleden. Dat stemgedrag in het verleden, in dit geval in 2010, is een van de gegevens die wordt gebruikt om de uitkomsten van steekproeven met elkaar te kunnen vergelijken. De Hond geeft een uitgebreid voorbeeld op pagina twee van zijn stuk, dat in het kort hierop neerkomt:
Bij twee steekproeven wordt vergeleken hoeveel mensen zeggen in 2010 op een bepaalde partij te hebben gestemd. Zegt bij beide steekproeven hetzelfde percentage op partij X gestemd te hebben, dan kunnen de huidige voorkeuren een op een met elkaar vergeleken worden. Zegt bij de tweede steekproef 50% meer op partij X gestemd te hebben, dan moeten de aantallen omgerekend worden voordat ze met de voorkeuren van de eerste steekproef vergeleken kunnen worden.
Nu stelt De Hond dat een deel van de kiezers niet goed onthoudt op welke partij zij eerder hebben gestemd en dat dit invloed heeft op de inschatting van totale zetelaantallen. En omdat hij rekening houdt met die afwijking zou dat ook tot nauwkeuriger cijfers leiden.
Dat kiezers zich vergissen over eerder stemgedrag wordt bevestigd door politicologen; ongeveer tien tot vijftien procent van de kiezers vergist zich na verloop van tijd. Maar zij betwijfelen wel of die invloed zo groot is. Het effect is moeilijk te bepalen omdat het niet constant is. Het is groter naarmate de verkiezingen langer geleden zijn, het vindt vooral plaats onder kiezers die vaker van partij wisselen en mensen zijn vooral geneigd hun eerdere voorkeur aan te passen aan hun huidige voorkeur. Dat allemaal op de goede manier compenseren is lastig en het verschil tussen peilingen zal het hooguit in zeer beperkte mate verklaren.
En verder…
De Hond wijst nog op enkele opvallende resultaten bij de Politieke Barometer van de afgelopen weken en spreekt het vermoeden uit dat daar een onnauwkeurigheid in de meting een rol speelde. Dat is inderdaad niet uitgesloten, maar ook niet uniek voor de Barometer. Het gebeurt bij alle peilingen regelmatig dat wat het begin van een verandering in een trend lijkt te zijn, een week later weer ‘teruggedraaid’ wordt, ook bij Peil.nl. En ook hier geldt dat de omvang van de steekproef niets zegt over of zo’n stijging of daling wel of niet klopt.
Dan zegt hij iets over de omvang van de PvdA, die in de Barometer op 23 zetels staat. Volgens De Hond is dat uitgesloten, omdat zijn cijfers laten zien dat van de PvdA-kiezers uit 2010 (30 zetels) slechts 50% weer op de partij stemt en er weinig overstappers van andere partijen zijn. Wat ook de waarde van die cijfers is, dat gegevens uit een peiling niet passen bij gegevens uit een andere peiling zegt natuurlijk niets over de betrouwbaarheid van welke peiling dan ook.
Ook zijn opmerkingen over de relatie tussen de cijfers en politieke gebeurtenissen kunnen we rustig relativeren. Al te vaak worden minieme stijgingen of dalingen gekoppeld aan gebeurtenissen, ook wanneer helemaal niet zeker is of dat verband wel bestaat. Zo zullen we nooit weten of de ene zetel verlies van de SP in de peiling van Peil.nl deze week veroorzaakt werd door Roemers overmydeadbody-opmerking of ook zo’n meetfoutje was, of gewoon viel binnen de foutmarges.
En voor zijn eerdere bewering dat “…kan vastgesteld worden dat vrijwel alle belangrijke nieuwe trends in politieke voorkeur in Nederland het eerst door Peil.nl zijn gesignaleerd” levert hij al helemaal geen bewijs. In ieder geval is zeker dat zo’n claim nooit hard gemaakt kan worden door alleen maar te kijken naar de uitslagen van Peil.nl zelf, wat hij eigenlijk wel beweert.
Een pluspuntje in het stuk van De Hond is overigens dat hij in ieder geval het bestaan van foutmarges noemt, terwijl hij daar altijd vaag over doet. Het zou mooi zijn wanneer hij eens bekend zou maken hoe groot die foutmarges bij zijn peilingen zijn, want hij is de enige peiler die dat tot dusver nooit gedaan heeft.
Samenvattend: De Honds artikel is interessant voor wie iets meer wil weten over hoe (zijn) peilingen tot stand komen. Maar het antwoord op de vraag waarom de peilingen zo van elkaar verschillen biedt het niet. En het punt dat hij lijkt te willen maken – dat zijn methode beter is en dat daardoor zijn cijfers beter kloppen – is ook niet overtuigend uitgewerkt.
Waar de verschillen dan wel vandaan komen? Dat kan zitten in de samenstelling van de panels, of in de methode waarmee cijfers gewogen of gecorrigeerd worden. In ieder geval zaten alle peilers er in 2006 en 2010 naast en deed de Politieke Barometer het bij de laatste uitslagen niet slechter dan de anderen.
En zo zijn we weer terug bij af: pas van de laatste peilingen voor de verkiezingen zullen we kunnen zien of ze de echte uitslag benaderen. Van alle peilingen tot die tijd kunnen we slechts hopen dat ze iets over trends zeggen en moeten we uitkijken dat we de betekenis van kleine verschuivingen niet overdrijven. In ieder geval is het verstandig om niet slechts naar een enkele peiling te kijken, omdat geen enkele peiling het aantoonbaar beter doet dan de rest.
Met dank aan Tom Louwerse en Tom van der Meer voor enkele verhelderingen.
Dit stuk is overgenomen van de website peilloos.nl , ook te volgen op twitter. Lees meer van Marleen Zachte op haar website.