So many roads. So many detours. So many choices. So many mistakes. - Sarah Jessica Parker


Introduzione

Quando nelle aziende, che siano di piccole, medie o grandi dimensioni, si curano gli aspetti relativi alla cybersecurity, il Security Information and Event Management (SIEM) rappresenta senza dubbio una componente indispensabile. Per SIEM si intende una serie di prodotti software e servizi che combinano/integrano le funzionalità offerte dai Security Information Management (SIM) a quelle dei Security Event Management (SEM). Molte aziende decidono di implementare un SIEM sia come tentativo di proteggere dati sensibili, sia per dimostrare il rispetto dei requisiti di conformità. I principali motivi per i quali si ha bisogno di un SIEM sono i seguenti:

  • obblighi di conformità;
  • ottenimento e mantenimento di certificazione;
  • gestione e conservazione dei log;
  • monitoraggio continuo e risposta agli incidenti;
  • enforcement delle policy e violazioni di queste ultime.

Spesso si tende ad inglobare un Intrusion Detection System (IDS), un Intrusion Prevention System (IPD) ed un SIEM all’interno di un unico prodotto commerciale, così come accade per i pacchetti “preconfezionati” di antivirus e firewall. È doveroso ricordare che questi tool permettono, oltre a prevenire/loggare eventuali attacchi esterni, di individuare ove possibile gli insider threat (lett. "minaccia interna") che - qui un'introduzione - rappresentano un serio problema per le aziende.

Designed by vectorpouch on Freepik

In questa sezione analizzeremo alcune problematiche relative all'identificazione di tentativi di intrusione in real-time, per quanto concerne gli IDS, e all'analisi dei log, per quanto riguarda i SIEM, volta al medesimo scopo. Abbracceremo, in seguito, un ambito molto hot negli ultimi anni che si presta perfettamente al tentativo di risolvere le problematiche esposte: il Machine Learning (ML).

Problema

Due dei problemi più rilevanti che si possono presentare quando si effettua un'analisi dei dati, in generale, sono rappresentati dai falsi positivi e dai falsi negativi. È bene evidenziare che in questo contesto la statistica matematica viene ampiamente utilizzata, tanto che alcune tecniche di rilevamento utilizzate dai SIEM sono basate su media e deviazione standard, multivariazione, processo di Markov o serie temporale. Brevemente, definiamo falso positivo (o errore di primo tipo) il risultato di un test che porta erroneamente ad accettare l'ipotesi sulla quale esso è stato condotto. Più semplicemente un falso positivo indica che è stato segnalato come vero - inteso come positivo al test effettuato - qualcosa che in realtà non lo è. Il concetto duale viene detto falso negativo (o errore di secondo tipo). Per chiarire meglio le idee, un esempio di falso positivo in cui molti si saranno sicuramente imbattuti, può essere raffigurato da un antivirus che considera erroneamente dannoso un programma innocuo, generando un falso allarme. Nel caso dei SIEM/IDS un falso positivo rappresenta la classificazione di un evento come tentativo di intrusione, sebbene in realtà tale evento sia lecito e non rappresenti in alcun modo una potenziale minaccia. Osserviamo però che un falso positivo ha un livello di gravità "minore" rispetto a quello attribuibile ad un falso negativo: un reale tentativo di intrusione classificato come evento lecito può comportare alcune importanti ripercussioni che talvolta potrebbero rivelarsi disastrose. Infatti, se nel primo caso ci troveremmo in uno scenario in cui "incolpiamo" ingiustamente qualcuno che non ha commesso alcuna azione illecita, nel secondo caso verrebbe tralasciata un'azione non consentita e ci ritroveremo all'oscuro della stessa per chissà quanto tempo - potenzialmente per sempre. Solitamente i falsi negativi non vengono identificati dai tool di sicurezza in quanto essi sono dormienti, altamente sofisticati o, più semplicemente, le infrastrutture mancano dell'adeguato livello di protezione.

Designed by brgfx on Freepik

Riflettendo sulla pericolosità dei falsi negativi, tuttavia, non si deve cadere in tranello nel tralasciare il problema duale. Infatti sebbene i falsi positivi non rappresentino di per sé una reale minaccia, adottare una tecnica che tenda ad ignorarli - come alcune aziende preferiscono - potrebbe rivelarsi disastrosa, in quanto aumenterebbe la concentrazione di risorse anche e soprattutto umane - ricordiamo che solitamente nelle organizzazioni troviamo i Security Operation Center (SOC), composti da security analyst che si occupano di incident response, vulnerability assessment, risk assessment e fanno capo al Chief Information Security Officer (CISO) - rischiando di tralasciare importanti alert relativi a reali minacce.

Esempio

La Target Corp. è l'ottavo più grande rivenditore al dettaglio negli USA. Il 27 novembre 2013 subì un imponente data breach - approfondiremo questo concetto fra qualche sezione - che interessò carte di credito/debito, nomi, indirizzi e-mail ed altri dati di circa 110 milioni di utenti, numero di persone che secondo Target effettuarono acquisti durante l'attacco, per un totale di circa 11 gigabytes di dati. Sebbene i dettagli delle fasi dell'attacco siano rimaste poco chiare, Chris Poulin, stratega di ricerca per IBM, ha scritto un interessante articolo nel quale ha illustrato le fasi del breach subito da Target formulando le ipotesi più plausibili laddove le dinamiche risultassero poco chiare:

It’s possible that attackers abused a vulnerability in the web application, such as SQL injection, XSS, or possibly a zero-day, to gain a point of presence and escalate privileges, then attack internal systems.

Secondo Poulin, un IPS/IDS avrebbe intercettato il tentativo di intrusione analizzando il traffico inappropriato.

Target Logo

Ciò significa che Target non aveva (quasi certamente) un tool di monitoraggio delle intrusioni attivo oppure - stando all'articolo di Bloomberg Business - vi era un sistema di malware detection attivo che avrebbe lanciato l'allarme ma il segnale di avvertimento sarebbe stato ignorato.

Soluzioni

Artificial Intelligence (AI) e Machine Learning (ML) sono vocaboli che negli ultimi tempi ricorrono spesso. Dai filtri anti-spam, al riconoscimento vocale del testo, alla guida automatica di veicoli alle previsioni in campo medico, alla pubblicità mirata, il Machine Learning è senza alcun dubbio largamente impiegato in molteplici sfumature nel mondo dell'Information Technology. Evitando di scendere troppo nel dettaglio, il Machine Learning è una branca dell'AI sviluppata negli ultimi decenni che comprende metodi statistici per migliorare progressivamente la performance di un algoritmo nell'identificare pattern nei dati. Uno dei limiti di un SIEM consta nella necessità di un team di esperti che monitori attivamente i vari eventi catturati dai tool. Per migliorare l'efficienza e tentare di evitare quanto più possibile l'alert di eventi "irrilevanti", è possibile affidarsi all'aiuto del Machine Learning. Prima di procedere però, è doveroso sottolineare che in ogni caso è comunque caldamente consigliato, se non addirittura necessario, l'impiego di una risorsa umana per evitare, soprattutto durante i primi tempi, apprendimenti errati da parte dell'algoritmo adottato. Con le corrette configurazioni dunque, gli algoritmi di ML possono effettuare le proprie considerazioni sui dati ricevuti in modo indipendente, cambiando comportamento a seconda delle circostanze.

Designed by starline on Freepik

È possibile sfruttare la potenza offerta dal ML per rendere i SIEM sempre più "intelligenti", in modo da minimizzare il numero di falsi positivi/negativi, facendo in modo che l'algoritmo impari col tempo a distinguerli dagli eventi realmente pericolosi. Oltre a fornire un'aggiunta al lavoro svolto dai SIEM, il Machine Learning può offrire supporto tramite:

  • la predizione degli eventi: utilizzando l'apprendimento sui dati, l'algoritmo potrà utilizzare i pattern definiti dai precedenti breach in modo da identificare eventuali attività riconducibili ad una potenziale intrusione;
  • il clustering: raggruppando per similitudine in cluster gli eventi classificati come "sconosciuti", permettendo di sottoporli ad un'analisi revisionata dal team;
  • l'incident response learning: fornendo dei suggerimenti basati sui precedenti incident response in modo da facilitare quelli futuri.

Il Machine Learning aiuta inoltre ad eseguire indagini preliminari sui dati riportati dai SIEM, in modo da limitare ove possibile il numero di falsi positivi. Risulta evidente che una conseguenza rilevante è certamente la riduzione di sforzi delle risorse umane, le quali potranno concentrarsi in maniera più mirata e tempestiva sugli eventi realmente pericolosi, grazie all'automatizzazione di workflow ed altri processi resi più efficienti dagli algoritmi di apprendimento.

Conclusioni

Tirando le somme, il Machine Learning aiuta a ridurre, sebbene ne abbiamo evidenziato la non completa eliminazione, la necessità di personale umano che continuamente monitori gli eventi dei SIEM, provvedendo un "paio di mani" digitali che aiutano ad ottimizzare l'efficienza. In ultima analisi, ricordiamo che i SIEM/IDS rappresentano uno strumento molto importante in quanto permettono, specie come abbiamo descritto con l'affiancamento del Machine Learning, di fornire in tempo reale gli alert relativi a tentativi o eventi di intrusione. In tal modo, questi strumenti risultano utili anche ai fini dell'obbligo di notifica imposto dall'articolo 33 del General Data Protection Regulation (GDPR), di cui parleremo nella sezione sulla privacy.


References