Il referendum: un esperimento di proiezione in tempo reale

Gli eventi elettorali recenti (il referendum Brexit; la vittoria di Trump) hanno testimoniato un fenomeno che è sempre più rilevante nelle recenti elezioni: la presenza di un gap informativo nelle prime ore dopo la chiusura dei seggi. Con l’afflusso dei primi risultati da alcune città, emerge una situazione di incertezza: in particolare quando i risultati provengono da zone con una specifica tradizione politica, così che il risultato parziale dello scrutinio nazionale non è rappresentativo di quello che sarà il risultato finale. Questo spesso produce una profonda incertezza, con effetti rilevanti non solo sull’opinione pubblica e sulle reazioni dei politici, ma anche (ben più rilevanti) in termini di turbolenze sui mercati finanziari. Solo con la progressiva stabilizzazione dei risultati ufficiali (di solito, molte ore più tardi) l’incertezza diminuisce.

Con l’avvicinarsi del referendum costituzionale (e con qualche turbolenza sui mercati finanziari già visibile, in reazione alle incertezze sui risultati del referendum) abbiamo ritenuto, al CISE, di fare uno sforzo per cercare di ridurre questo gap informativo nelle poche ore tra l’afflusso dei primi risultati e la stabilizzazione dello scrutinio finale.

Di conseguenza, abbiamo deciso di costruire un esperimento di “nowcasting” (proiezione, previsione in tempo reale), presentando delle proiezioni sui risultati finali – sulla base del progressivo afflusso di risultati locali – i cui risultati saranno immediatamente disponibili (e aggiornati) in tempo reale sul sito del CISE durante la notte del referendum (probabilmente 30-45 minuti dopo la chiusura dei seggi, anche se la facilità del processo di conteggio per il referendum potrebbe permettere un afflusso precedente di primi risultati). Si tratta di una procedura sperimentale che non abbiamo testato finora su risultati elettorali effettivi, e il cui scopo principale è quello di raccogliere dati per le applicazioni future, e di mostrare problemi e difficoltà specifiche.

Il nostro esperimento si basa su assunti relativamente semplici, e la struttura dell’algoritmo lo è altrettanto (anche se il suo sviluppo e implementazione ha presentato un alto livello di complessità).

L’intuizione fondamentale alla base del nostro approccio è che i dati di sondaggio – raccolti prima delle elezioni – consentono di formulare previsioni anche a livello locale. Questo è possibile ricorrendo non tanto ai risultati complessivi del sondaggio in termini di percentuali per il SI e per il NO (che hanno inevitabili problemi di affidabilità – vista la presenza di distorsioni campionarie rilevanti), quanto a un elemento informativo più complesso: la matrice di flusso che collega le precedenti scelte di voto degli intervistati (sia per le politiche 2013 che perle europee 2014) alla loro intenzione di voto al referendum. In altre parole, si usa l’ultimo sondaggio CISE (condotto poche settimane prima delle elezioni) per stimare le scelte referendarie degli elettori che avevano votato per i diversi partiti nelle elezioni passate. Applicando questa matrice di flusso ai risultati elettorali effettivi a livello comunale, siamo in grado di formulare una aspettativa sul risultato del referendum in ciascuno dei circa 8000 comuni italiani.

Quest’operazione si basa su due presupposti: 1) che la scelta passata di voto sia un buon predittore della scelta di voto referendaria; 2) che la stima della matrice di flusso non sia estremamente distorta dai problemi di distorsione campionaria. La prima ipotesi sembra ragionevole per questo particolare referendum, che è stato fortemente politicizzato sulla figura di Matteo Renzi; la prima appare complessivamente tutto sommato applicabile, in quanto le relazioni bivariate (come ad esempio una matrice di flusso) sono meno influenzate dalle distorsioni campionarie rispetto ai semplici risultati sulla scelta di voto referendaria. In aggiunta, un terzo assunto implicito è che non siano avvenuti drammatici riallineamenti delle scelte degli elettorati dei vari partiti nelle ultime settimane di campagna.
Una volta che queste aspettative a livello locale sono formulate prima del giorno del referendum (aspettative che prevedono, ovviamente, a livello nazionale, una vittoria del NO con il 54%, rispecchiando i risultati del sondaggio condotto poche settimane prima delle elezioni), la procedura è pronta per raccogliere i primi risultati quando affluiranno dai comuni. Con l’arrivo dei primi risultati a livello comunale, ciascuno di essi viene confrontato con la previsione preelettorale, producendo così un vettore di correzione che identifica l’errore della previsione preelettorale rispetto al risultato effettivo, e quindi quantifica la correzione necessaria. Con l’arrivo di più comuni, questi vettori di correzione comunali vengono poi combinati in un vettore di correzione nazionale (o anche a livello regionale), che viene applicato a tutte le previsioni pre-elettorali per tutti i comuni ancora mancanti. Il risultato è una stima del risultato nazionale. In un certo senso, la procedura di cui sopra è semplicemente una applicazione sistematica del ragionamento elementare che sia i politici che osservatori fanno quando arrivano i primi risultati: “se hanno perso in uno dei loro collegi elettorali più forti, questo non suona bene per il risultato nazionale”.
Com’è ovvio, questa procedura è inevitabilmente vulnerabile alla specificità dei fenomeni locali. Specialmente quando il numero di comuni è relativamente piccolo, c’è il forte rischio di generalizzare a tutto il paese un errore di previsione che potrebbe essere il risultato di specifiche dinamiche locali. Se, per esempio, il risultato in uno dei primi comuni è stato realizzato con una campagna referendaria molto aggressiva ed efficace, questo potrebbe essere erroneamente proiettato a livello nazionale. Stimare questi errori (e la sensibilità dell’algoritmo a questi problemi) è precisamente uno degli obiettivi di questo esperimento: valutare la misura in cui tali distorsioni locali possono essere trattate, o meglio, se tali distorsioni sono così forti che il modello di previsione è ancora peggiore dello scrutinio vero e proprio. Inoltre, questo esperimento consentirà la raccolta di una grande quantità di dati sulla distribuzione geografica della sequenza di afflusso dei risultati effettivi. Tutte queste informazioni permetteranno di migliorare il modello in vista delle future elezioni.

Le stime in tempo reale, in diretta, prodotte dal modello di previsione saranno disponibili sul sito del CISE a partire da domenica 4 novembre, poco dopo la chiusura dei seggi (23:00 ora italiana).