Italiano English

What people want (to know)
Quello che le persone vogliono (sapere)

Pietro Gravino 1, Giulio Prevedello 1, Annette Werth 1, Vittorio Loreto 1,2,3
1 SONY Computer Science Lab - Paris
2 Sapienza - University of Rome
3 Complexity Science Hub Vienna

Handling a novel emergency in the Digital Age always involves, crucially, the understanding of the information dynamics regarding the crisis. Such aspect has been particularly relevant during the COVID-19 emergency, which has been extensively covered by the media in order to help society to understand the situation it is going through. What are the informational needs of a population confronted with an emergency situation? How are these necessities evolving with time? What is the impact of institutional interventions? How are these queries distributed geographically? These are just some of the initial questions our team is addressing in this –and future– post.

In this preliminary study, we face this challenge introducing the first metric whose evolution we will visualize over time, space, and from a semantic point of view. Such metric is the Searches index, which gives us insights about the popularity of top search queries in Google Search across various regions and languages. This index is obtained from data that can be extracted from Google Trends and represent the proportion of the amount of queries done by Google search engine users.

We chose Italy as a first case study and started by downloading data relative to the searches for the term "Coronavirus" in Italy since January the 1st, 2020. As a reference, we used the nationwide Searches normalized on a scale from 0 to 100 (the maximum peak is reached on February the 23rd, 2020). All the other regional indices are rescaled according to their importance relative to the national result. Furthermore, we also looked at related queries, that are the words people searched together with the term "Coronavirus". We consider this search index as a reasonable proxy for the informational need of the Italian population during the COVID-19 emergency.

Pietro Gravino 1, Giulio Prevedello 1, Annette Werth 1, Vittorio Loreto 1,2,3
1 SONY Computer Science Lab - Paris
2 Sapienza - University of Rome
3 Complexity Science Hub Vienna

Affrontare ogni nuova emergenza nell'era digitale richiede, in modo cruciale, la comprensione della dinamica delle informazioni attinenti alla crisi. Questo aspetto è stato particolarmente rilevante durante l’epidemia da COVID-19, estensivamente trattata dai canali di comunicazione per aiutare la società a comprendere la situazione epocale che sta vivendo. Quali sono i bisogni informativi delle persone di fronte ad una tale situazione di incertezza? Come si evolvono tali esigenze nel tempo? Quali sono gli effetti dagli interventi istituzionali? In che modo queste la domanda di informazione si diffonde geograficamente? Queste sono solo alcune delle domande che il nostro gruppo di ricerca sta affrontando in questo report.

In questo studio preliminare, introduciamo la prima metrica che useremo per affrontare questa sfida e per visualizzarne l'evoluzione nel tempo, nello spazio e da un punto di vista semantico. La metrica principale che introduciamo è l'indice Ricerche che ci fornisce approfondimenti sulla popolarità delle principali ricerche effettuate su Google in varie regioni e lingue. Questo indice è ottenuto da dati che possono essere estratti da Google Trends. Questi dati sono proporzionali alla quantità di ricerche fatte dagli utenti dei motori di ricerca di Google.

Abbiamo scelto l'Italia come primo caso di studio e abbiamo iniziato scaricando i dati relativi alle ricerche per il termine "Coronavirus" in Italia dal 1° Gennaio 2020. Abbiamo usato come riferimento il dato nazionale di Ricerche normalizzate su una scala da 0 a 100 (il picco massimo viene raggiunto il 23 Febbraio 2020). Tutti gli altri indici regionali sono riscalati in base alla loro importanza relativa rispetto al risultato nazionale. Inoltre, abbiamo anche esaminato le interrogazioni associate, ovvero quali parole le persone cercavano insieme al termine "Coronavirus". Consideriamo questo indice di ricerca come un proxy ragionevole per il bisogno informativo della popolazione italiana durante l'emergenza COVID-19.


Searches evolution over time
L'evoluzione delle Ricerche nel tempo

In the following graph, we show the evolution in time of the Searches index, nationwide and by each region. The value has to be interpreted as an average, so it does not depend on the regional population. In other words, it represents how much the average person of a certain region would search for the term "Coronavirus". By clicking on the region’s name in the legend, you can show or hide the index’s evolution for that region. Also, by clicking on the intervention dropdown list, you can overlay the timelines of the various types of interventions taken by the government.

Nel grafico seguente, mostriamo l'evoluzione nel tempo dell'indice Ricerche, a livello nazionale e per ciascuna regione. Il valore deve essere interpretato come una media, quindi non dipende dalla popolazione regionale. In altre parole, rappresenta quanto la persona media di una determinata regione cercherebbe il termine "Coronavirus". Facendo clic sul nome della regione nella legenda, si può mostrare o nascondere l'evoluzione dell'indice per quella regione. Inoltre, facendo clic sul menu degli interventi, è possibile sovrapporre le tempistiche dei vari tipi di interventi adottati dal governo.

There are several interesting features emerging from this simple visualization which will need further investigation to be fully understood. Schematically, these are some possible interpretations:

  • Despite the first interventions date back to the early days of January, the ignition of the interest seems to happen when the first Airport Restriction for travelers from China was introduced on January the 24th;
  • The Searches index kept rising until a first peak on January the 31st, when the italian authorities declared the State of Emergency. Of note, from that moment on, the interest seems to decrease rapidly to stabilize on a relatively low value.
  • The real spike of the interest occurred in the crucial days of the epidemic in Italy, in the period between the 21st and 23rd of February. The Searches index reached its maximum when the government announced the lock down of several cities in northern Italy.
  • The decrease after the maximum peak is almost as fast as the increase, and it is probably due to the news and the informational campaigns (like institutional communication on national TV), but this time the decrease stabilizes at a very high value, compared to the previous history.
  • The trend inversion around the first days of March is probably linked to the national closure of all educational institutions. The index starts to grow again reaching a new maximum on the day of national lockdown (March the 9th). From that moment onward, we observe a slow but steady decrease of the interest for the topic.
Next we look on how these phenomena spread through the country, thus exploring the differences between the Italian regions.

Esistono diverse caratteristiche che emergono da questa semplice visualizzazione e che richiederanno ulteriori approfondimenti per essere pienamente comprese. Schematicamente, queste sono alcune possibili interpretazioni:

  • Nonostante i primi interventi risalgano ai primi giorni di Gennaio, l'accensione dell'interesse sembra avvenire quando è stata introdotta la prima restrizione aeroportuale per i viaggiatori provenienti dalla Cina, il 24 Gennaio;
  • L'indice Ricerche ha continuato a salire fino al primo picco del 31 Gennaio, quando le autorità italiane hanno dichiarato lo stato di emergenza. È interessante notare che, da quel momento in poi, l'interesse sembra diminuire rapidamente per stabilizzarsi su un valore relativamente basso.
  • Il vero picco di interesse si è verificato nei giorni cruciali dell'epidemia in Italia, tra il 21 e il 23 Febbraio. L'indice Ricerche ha raggiunto il massimo quando il governo ha annunciato il blocco di diverse città del nord Italia.
  • Il calo dopo il picco massimo è rapido quasi quanto l'aumento, ed è probabilmente dovuto alle notizie circolate e alle campagne di informazione (come la comunicazione istituzionale sulla TV nazionale); questa volta la diminuzione si stabilizza a un valore molto elevato, se confrontato allo storico precedente.
  • L'inversione di tendenza nei primi giorni di Marzo è probabilmente legata alla chiusura nazionale di tutte le istituzioni educative. L'indice ricomincia a crescere raggiungendo un nuovo massimo il giorno del blocco nazionale (9 Marzo). Da quel momento in poi, osserviamo una lenta ma costante diminuzione dell'interesse per l'argomento.
Successivamente ci siamo chiesti come questi fenomeni si diffondessero attraverso il paese, quindi abbiamo esplorato le differenze tra le regioni italiane.


The geographical evolution of Searches
La geografia delle Ricerche

It is interesting to see how the Google searches for the term “Coronavirus” is distributed throughout the country. The virus first significant spread occurred in Lombardy, which led to earlier and stricter restriction compared to the rest of Italy. Indeed the geographical presence of COVID-19 infection seems to impact on people’s search attitudes. The following animation shows precisely the regional Searches index over time.

Andiamo ora a vedere come le ricerche su Google del termine "Coronavirus" si sono diffuse in tutto il paese. Il virus si è diffuso significativamente per la prima volta in Lombardia, il che ha portato a misure precedenti e più rigorose rispetto al resto d'Italia. Questo si è riflesso sugli atteggiamenti di ricerca delle persone, come mostra l’animazione seguente sulle Ricerche regionali nel tempo.

As expected, we observe that the spikes of interest first appeared in Lombardia, then occurred in the neighbouring regions, before reaching the rest of Italy within days. This seems to indicate the impact of geographic closeness on the search patterns. By the time of the national lockdown, a relatively uniform search level is observed. As already evidenced in the previous graph, we see the correlation of the search interest with the release of government measures, which we speculate having a strict relation with the actual epidemic data.

In the next part we investigate what about COVID-19 people have queried the most, namely, what terms were most searched in association with the word “Coronavirus”.

Come previsto, osserviamo che i picchi di interesse in Lombardia si sono diffusi nelle regioni vicine prima di raggiungere l'intero paese in pochi giorni. Ciò sembra indicare l’impatto che la vicinanza geografica ha sulle ricerche effettuate. Al momento del blocco nazionale, si osserva un livello di interesse relativamente uniforme. Come già nel grafico precedente, vediamo la stretta relazione dell'interesse della ricerca.

La domanda successiva che ci siamo posti è: a quale aspetto dell'emergenza le persono sono più interessate? Ovvero, quali sono i termini più ricercati insieme a "Coronavirus"?


Ranks of related Searches
Le classifiche delle Ricerche specifiche

As the previous panel showed regional differences, we seek to understand whether these may correspond to a difference in information needs associated with the term "Coronavirus". In the following figure, we investigate the searches of coronavirus-related queries, at national and regional level, and how their weekly ranking evolves over time. Note that Google Trends’ data were preprocessed to merge some keywords pointing at a semantically identical query.

Il grafico precedente ha evidenziato delle diversità su base regionale. Cerchiamo ora di capire se queste si riflettono in differenti esigenze informative circa il COVID-19. Nella figura seguente, indaghiamo le ricerche specifiche associate al termine "Coronavirus", a livello nazionale e regionale, e come la loro classifica settimanale evolve nel tempo. Sottolineiamo che i dati di Google Trends sono stati elaborati per unire parole chiave diverse ma riferite allo stesso concetto.

We observe that the top searched queries in a region correspond to the words "News", "Italia" (i.e. Italy), the same region's name, and its main cities, suggesting that people seek information about the epidemic spread near where they live. The same pattern emerges at the national level, with only the most populated cities appearing among the top queries. While sharing the main trend, some searches associated with coronavirus highlight differences between regions. For example, the word "Cina" (i.e. China) was more searched in Veneto and Lazio than Campania, while "Maps" was not queried in Campania or Puglia as much as in Veneto and Lombardia. Interestingly, "Autocertificazione" (i.e. self-certification) was highly searched in regions such as Veneto or Toscana, compared to Lombardia, Lazio and Campania.

Osserviamo che le interrogazioni più ricercate in una regione corrispondono alle parole "News", "Italia", ed ai nomi stessi di una regione e delle sue principali città, suggerendo che, com'era prevedibile, le persone cercano informazioni sulla diffusione dell’epidemia vicino a dove vivono. Lo stesso motivo emerge a livello nazionale, dove solo le città più popolate appaiono tra le prime ricerche specifiche, essendo più rappresentate delle altre. Tuttavia, alcune ricerche associate al termine “Coronavirus” evidenziano alcune differenze tra regioni, che pur condividono un simile andamento nelle ricerche più alte della classifica. Ad esempio, la parola "Cina" è stata più ricercata in Veneto e Lazio che in Campania, e "Mappe" non veniva ricercata in Campania o in Puglia tanto quanto in Veneto e Lombardia. È interessante notare che "Autocertificazione" è stata maggiormente ricercata in regioni come il Veneto o la Toscana, rispetto a Lombardia, Lazio e Campania.


Future work
Futuri sviluppi

These first analyses have led us to preliminary results and paved the way to new questions we will address in future.

  • What is the impact of COVID-19 epidemic and subsequent quarantine period to the Searches index? Considering that the same query does not lead to different results, it is unlikely that such query would be requested from the same user, thus suggesting a inherent drop in its interest, which we would like to characterize.
  • What is the impact of institutional interventions to the Searches index? In fact, some interventions have been implemented just before a peak in interest, suggesting a possible relation between between the two.
  • Moreover, the interest dynamic should be compared with the information form news and national media. How does the stream of news, either local or national, impact the information needs that people query on the Internet?
  • Finally, given common and specific elements in the regional searches, we wonder: can regions be profiled by their information needs? What would result from the application of such profiling technique in the comparison of different countries?

Credits:
Searches data have been gathered from Google Trends throught the pytrends Python library;
Interventions data come from this repository, by Complexity Science Hub Vienna;

Queste prime analisi ci hanno mostrato alcuni risultati preliminari ed hanno aperto alcune questioni che affronteremo in futuro.

  • Qual è l’impatto dell’epidemia da COVID-19 e del successivo periodo di quarantena sull’indice Ricerche? Considerando che una determinata ricerca non generi risultati diversi, è improbabile che la stessa venga ripetuta dallo stesso utente, quindi è prevista una riduzione fisiologica, che resta da caratterizzare.
  • Quali sono le influenze dei diversi tipi di interventi governativi sull’indice Ricerche? Infatti, alcuni interventi sono entrati in vigore prima di un picco di interesse, il che suggerisce un collegamento tra loro.
  • Inoltre, l'evoluzione degli interessi deve essere confrontata con le informazioni offerte dai notiziari nazionali. In che modo la disponibilità di informazioni dai notiziari nazionali o regionali influenza la necessità di informazioni che le persone cercano di ottenere da Internet?
  • Infine, avendo osservato elementi comuni e specifici nelle ricerche regionali, ci chiediamo: è possibile profilare le regioni in base alle loro esigenze di informazione? Quali risultati otterremo estendendo questo metodo di profilazione al confronto tra diverse nazioni?

Credits:
I dati delle ricerche sono stati raccolti da Google Trends attraverso la libreria Python pytrends;
I dati sugli interventi provengono da questo repository, realizzato dal Complexity Science Hub Vienna;