Internet è una fonte inesauribile di informazioni. La stessa cosa vale per i social. Una quantità di dati infinita a disposizione di tutti. Attraverso quei dati si possono ottenere indicazioni dettagliate sulla vita delle persone. Informazioni finanziarie, personali, di acquisti fatti o solo immaginati. Per raccogliere queste informazioni, organizzarle, classificarle, si sono evolute negli anni diverse tecniche. Tutte sotto un unico nome. Un unico cappello: data scraping, raschiatura dei dati. Una raccolta digitale che può avvenire in modi diversi. Più o meno invasivi, più o meno efficaci. Più o meno lesivi della privacy.
Data scraping per imprenditori e professionisti
Si capisce quindi lo scalpore che hanno fatto le parole del viceministro all’Economia, Maurizio Leo: “Stiamo lavorando con l’Agenzia delle entrate e Sogei, quello che si deve fare è il così detto ‘data scraping’, considerando cioè i dati sul tenore di vita che professionisti e imprenditori pubblicano sui social”. Parole non nuove quelle di Leo, che già in passato aveva ipotizzato l’uso dell’Intelligenza artificiale per scovare gli evasori e i loro 80-100 miliardi di tasse che sottraggono all’erario. Che però hanno hanno suscitato polemiche e prese di distanza dagli stessi membri della maggioranza di governo. Non ci sono dettagli su come il viceministro avrebbe intenzione di intervenire. Ma possiamo delineare alcuni principi generali. Cosa è il data scraping? Come funziona?
Cos’è il data scraping e come funziona
In senso più ampio e generale, si parla di data scraping quando avviene un processo attraverso il quale un’applicazione web estrae informazioni da un’altro software. Ma Leo nelle sue dichiarazioni si riferiva al web scraping, una tecnica che prevede l’utilizzo di un software che è in grado di prelevare informazioni da un sito internet (compresi i social) e classificarle in base a caratteristiche richieste: tutte le persone con i capelli biondi, tutti i possessori di auto sportive, tutti i corsi di padel per principianti, per esempio. Una tecnica di classificazione automatica delle informazioni.
Non è sempre un’attività lecita. Anzi, ci sono stati molti casi in cui il data scraping è stato considerato illegale. Il caso più noto, più eclatante, è quello di Cambridge Analytica, la startup che nel 2018 si scoprì avere dati sulla vita di 87 milioni di persone e di averli raccolti al fine di farne target per la propaganda politica. Ma di casi di cronaca analoghi se ne sono contati a decine negli ultimi anni. Meta ha annunciato misure durissime contro chi fa data scraping sulle sue piattaforme. Elon Musk ha bloccato un anno fa la visualizzazione di tweet oltre un certo numero per ostacolare la pratica.
Come avviene la raccolta di informazioni su siti e social
La raccolta di questi dati può avvenire in diversi modi. Di base, c’è l’automazione dei processi di raccolta dei dati che vengono fatti da bot o spider (nomi tecnici che indicano i software progettati per fare solo quello). Automazione che spesso sfocia nel rischio di raccogliere dati in modo illecito e irrispettoso della privacy.
Uno dei modi più diffusi è raccogliere dati con software che simulano la navigazione online fatta da utenti in carne ed ossa, per arrivare anche laddove si sono messe delle limitazioni all’accesso pubblico (foto condivise solo con i propri amici, o informazioni relegate a una stretta cerchia di persone). Le informazioni acquisiste possono essere quindi elaborate, raccolte in un database, classificate per successive indagini. Un po’ come un archivio. Come un registro di dati.
I rischi per la privacy (e la Gdpr)
La legge europea sui dati personali (Gdpr) non vieta il data scarping a prescindere. Nel caso del data scraping applicato da uno stato ai fini di combattere l’evasione fiscale ci sono questioni da risolvere: capire se il trattamento dei dati violi i diritti fondamentali dei cittadini, se non c’è un’eccessiva introduzione nella vita delle persone. Ma c’è un dato di fatto. Sulla rete, sui social, le persone spesso condividono le proprie vite. E lo fanno pubblicamente, anzi, spesso cercando di raggiungere la più vasta audience possibile, raccontando di sé stessi, dei propri acquisti, delle proprie vacanze.
Un patrimonio di informazioni che potrebbe diventare oggetto di studio e di indagine da parte dell’Agenzia delle entrate. Almeno nelle intenzioni del viceministro Leo. Un progetto la cui fattibilità è da capire. Quella tecnica, in primo luogo. Quella che riguarda la tutela della privacy, sicuramente. Ma la cosa più difficile da ottenere al momento sembra essere il via libera politico.
Fonte : Repubblica