Sondaggio indipendenza: ecco perché non bastano 53 intervistati in Trentino

Nei giorni scorsi l'Arbeitsgruppe für Selbstbestimmung aveva resi noti i risultati di un sondaggio volto a verificare se i Trentini sarebbero favorevoli o meno ad un referendum sull'autodeterminazione in Sudtirolo.
La metodologia adottata per compiere indagine ha suscitato però forti perplessità, soprattutto per la scelta di considerare un campione di abitanti che mantenesse la stessa proporzione esistente tra gli abitanti del Trentino e quelli del resto del territorio nazionale. Detto in parole povere: 53 intervistati in Trentino rispetto ai 1000 sentiti a livello nazionale.
Ma ecco cosa dice la tecnica statistica in merito.
Con ogni probabilità l'indagine parte da due presupposti.
1) Ci si attende un 50% di probabiità dei sì. È la situazione peggiore nel senso che è quella che determina tecnicamente la 'numerosità campionaria più alta' e che si utilizza nel caso non si abbia a priori un'ipotesi di quale possa essere il risultato finale.
2) Si prevede un 'errore di stima' 3,1% con un 'intervallo di confidenza' del 95%,
Cosa significa? Che, essendo venuto fuori a livello nazionale il valore 71,8% favorevoli, ripetendo 100 volte questa indagine in 95 casi il risultato sarà 78,1 + o - 3,1%. Quindi risultato compreso in un range tra il 75% e l'81,2%.
Ma - attenzione, ed è qui il punto - per avere questa qualità di dati occorre un campione di 999 unità.
L'errore è stato quindi fatto nel ritenere che l'errore di stima rimanga del 3,1% adottando la stessa frazione campinaria utilizzata a livello nazionale (1000) per stimare la dimensione del campione trentino (53).
Per mantenere lo stesso errore di stima si sarebbero dovuti campionare in sostanza sempre 999 unità anche nel Trentino.
Cosa succede per quanto riguarda il margine d'errore campionando 53 unità su una popolazione di circa 550mila abitanti? L'errore di stima schizza al 13,5%. Ovvero il 'vero' valore del risultato trentino è 64,1% + o - 13,5%. Quindi, ripetendo 100 volte l'indagine, in 95 casi il risultato sarebbe compreso tra 50,6% e 77,6%.
In definitiva: essendo il valore minimo dell'intervallo di confidenza superiore al 50% (è 50,6%) in effetti verrebbe da pensare che i trentini siano favorevoli all'autodeterminazione in Alto Adige.
Ma affermare che i favorevoli siano il 64,1% è un azzardo e, tecnicamente, anche un errore.
Vi è però un'altra questione da considerare un ulteriore aspetto che rende il risultato tutt'altro che cristallino, prestandosi facilmente alle speculazioni.
Come sono state 'estratte' le 53 persone sottoposte a sondaggio?
I calcoli sopra riportati valgono in condizioni 'sperimentali', quindi con un campione casuale che si ritiene perfettamente aderente alla popolazione studiata. Cioè i 53 intervistati del Trentino dovrebbero rispecchiare la popolazione (maggiorenne?) del Trentino dal punto di vista della suddivisione per età, genere, certo sociale, preferenze politiche ecc. ecc. altrimenti le distorsioni sarebbero molto forti.
Con campioni importanti (1000 persone per esempio) c'è una tendenza del campione a distribuirsi secondo le caratteristiche della popolazione da cui proviene, con campioni piccoli le distorsioni possono essere molto rilevanti.
Il gruppo di intervistati, poi, com'è stato individuato? Senza l'accesso ai dati anagrafici (che di solito hanno solo le istituzioni) è molto difficile determinare una selezione di individui davvero significativa. E, poi, queste persone come sono state contattate? Via telefono fisso? In un periodo storico in cui il telefono fisso è ormai appannaggio solo delle generazioni più anziane?
Come si vede molti sono i dubbi che si sollevano, rendendo mettendo in discussione il 'risultato' del sondaggio.
La statistica non è un'opinione, hanno ragione i lettori di Salto che avevano espresso le loro perplessità in merito.
quasi tutto corretto
Concordo l'analisi della parte statistica iniziale e quindi del margine di errore del 14%. Questo significa che il risultato potrebbe essere "50-50", ma c'e' la stessa probabilitá che sia anche "80-20". Gia da queste cifre si vede che accettare un risultato con tale forbice di errore é impensabile. Infatti, lo scrivevo anche qui (http://www.salto.bz/de/comment/11879#comment-11879)
---
Dove sbagli, é nel "Come sono state 'estratte' le 53 persone sottoposte a sondaggio?" oppure nel "Il gruppo di intervistati, poi, com'è stato individuato?" oppure nel "E, poi, queste persone come sono state contattate? Via telefono fisso?"
---
In primis, chi fa statistiche demografiche effettivamente puo' accedere agli elenchi anagrafici ufficiali (o meglio: anche agli elenchi elettorali). Il campione da scegliere deve corrispondere alla quota di popolazione presente in un territorio (dunque, per fare un esempio semplice, scegli x persone nel cerchio di un capoluogo di provincia in base alla quota di popolazione presente).
---
La valutazione dello studio (del pannello statistico) viene quindi ponderata. In primo luogo, le differenze dovute al design del pannello (come il numero di numeri telefonici fissi con cui reperire i nuclei familiari, verso il numero di destinatari che trovi in un nucleo famigliare) vengono corretti secondo le loro probabilità di selezione.
---
In una seconda fase devi correggere gli errori che nascono nella non-reperibilitá di parti del campione in base alla vera struttura della popolazione.
---
Ed infine devi ponderare le distribuzioni del target intervistato per sesso, età e istruzione, usando statistiche prese da un censimento e dalle statistiche elettorali.
---
Per tutto, quindi, c'e' un procedimento ben preciso da seguire - a voi la domanda se chi ha fatto uno studio con 53 persone ha seguito questi concetti di statistica demografica.
---
Il problema del telefono fisso é risolvibile con vari sistemi. In un pannello, per esempio, si usa il concetto di doppia randomizzazione: tu contatti un nucleo famigliare. Potenzialmente hai gia il primo "bias", in quanto é piú probabile che ti risponde (scusate il pregiudizio di genere, sto solo facendo un esempio) la casalinga piuttosto che lo studente che é all' universitá. Per risolvere questo problema l'intervistatore: chiede chi, nel nucleo famigliare, ha il compleanno *nel mese* piu basso (dunque chi, in quel nucleo famigliare, é nato in gennaio "vince" rispetto a chi é nato in dicembre).
---
Ora hai individuato il tuo target. A questo punto chiedi di parlare con esattamente questa persona. Se é solamente reperibile al cellulare (studente universitario all' estero) di fai dare anche quello. Il punto importante sta nel restare attaccato a questo target, non puoi (e non devi) accettare di intervistare qualcun'altro dello stesso nucleo famigliare, in quanto rovineresti la randomizzazione del pannello.
---
La statistica e la demografia non sono un opinione. E sono molto perplesso su quale esperto (con una reputazione da perdere) si sia trovato disponibile a fare un sondaggio con una cinquantina di interviste...