A inteligência das ameaças cibernéticas envolvendo a segurança em Machine Learning e a ciência dos dados

Leonardo Reis Vilela

24 agosto 2018 - 09:00 | Atualizado em 12 abril 2023 - 19:09

Homem programando com um tablet e três telas de computador

É cada vez mais natural lermos e encontrarmos situações em que o processo de automação, integração e autossuficiência tecnológica esteja presente nas diferentes situações de nosso dia-a-dia. Seja envolvendo a IoT (Internet of Things), a IA (Inteligência Artificial), técnicas cada vez mais apuradas de blockchain, seja envolvendo principalmente os chatbots e sobretudo a Machine Learning.

Perante, então, todo esse universo e todo um contexto de BigData, a quantidade e qualidade das ameaças à segurança a todo ciberespaço que manipulamos, criamos, organizamos, alteramos, descartamos informação, enfim, em que convivemos nesta “bolha”, está cada vez mais complexo levarmos isso na esfera da segurança das informações. Essa complexidade é diretamente proporcional a toda essa evolução.

Desta maneira, possuir CSIRTs (Computer Security Incident Response Team), SOCs (Security Operations Center) e demais centros e serviços operacionais de combate às ameaças de segurança vem se tornando pré-requisito às empresas de médio porte em diante. À medida que as organizações investem no uso de dados de eventos em tempo real para detecção e resposta aos incidentes e a adoção sofisticada do Machine Learning, entra em ação perante sua inteligência de ameaças que terá o devido potencial de melhorar a visibilidade de riscos desconhecidos e fortalecer a postura destes centros de operações de segurança. Almejar a maturidade desta ciência de dados no contexto da segurança cibernética significa capacitar os recursos certos com a inteligência correta para agir enquanto minimiza falsos positivos.

O gráfico da imagem a seguir, reproduzido no site da ITGI, ilustra alguns segmentos envolvidos com o tema de Ciência de Dados:

Percebe-se então a importância da ciência de dados perante a segurança das informações. Ou seja, antes de prever ou prover a segurança dos dados e informações de negócio, deve-se antes entender, interpretar, decifrar, o que tais dados representam naquele dado instante ou num universo de análise diário, semanal, mensal, ou conforme a sazonalidade que se espera e precisa para tomada de uma decisão.

A visão é bem pragmática no ciclo de vida dos dados, desde os primórdios de Von Neumann, ou seja: input → process → output.

Resumindo: se existe risco quanto a integridade e confidencialidade dos dados já na inserção, a tomada de decisão será também comprometida: o que será fatal ao negócio lá na ponta. O fato é que a maioria dos profissionais de segurança já estão usando ferramentas baseadas em aprendizado de máquina para operações de segurança.

Um estudo da Webroot, de dezembro de 2017, descobriu que 88% dos programas de segurança cibernética têm algumas soluções baseadas em inteligência artificial (mais comumente para detecção de malware), detecção de IP spoofing e pharming. Porém, 69% dos entrevistados acham que essas soluções não são totalmente confiáveis e 91% expressaram intenção de aumentar seus investimentos em soluções de segurança baseadas em IA nos próximos três anos. Em suma, é impossível descartar ou desprezar a força que a ciência dos dados nos revela, cada vez mais, neste contexto de cyber segurança com inteligência, uma vez que ela (Ciência dos dados) é:

Um processo de tomada de decisão;
Um conceito para unificar estatísticas, análise de dados e seus métodos relacionados;
O processamento e o uso de ferramentas para extrair informações a partir dos dados;
Uma prática que apoia a gestão do conhecimento;
Significa entender e analisar fenômenos reais a partir de dados;
Observação, captura, curadoria, estudo, compartilhamento, retenção, transmissão e visualização de grandes volumes de dados.

“Um quarto paradigma da ciência (empírica, teórica, computacional e agora orientada por dados). Tudo sobre a ciência está mudando devido ao impacto da tecnologia da informação e o dilúvio de dados.” – Jim Gray, vencedor do prêmio Turing de 1998.

Enfim: use a ciência de dados e aprendizado de máquina para reduzir a fadiga de alerta de seu centro de operações em segurança ou detecção de ameaças. A adoção de inteligência de ameaças com aprendizado de máquina está em ascensão – e com boa razão – mas não sem levantar algumas preocupações.

Outras aplicações conhecidas neste mundo do Machine Learning incluem:

Fabricação de voz automatizada;
Criação de malware com IA;
Redes neurais para reunir inteligência de código aberto;
Criação automatizada de botnet;
Burlar sistemas de inteligência contra ameaças com falsos positivos;
Corrupção dos modelos de aprendizado de máquina corporativa.

Não menos importante que tudo isso que foi dito acima, levando-se em consideração a nova dinâmica de roubo de informações ou sequestro de dados, o ransomware vai se tornando (se não é cômico, no mínimo é trágico) como um serviço (anote aí a nova sigla: RaaS) em que isso, provavelmente, será apenas uma questão de tempo, até que estas ferramentas de Machine Learning para cibercrime sejam vendidas como um serviço na Darknet. O tal do aprendizado de máquina tem valor dentro do contexto do CTI de empresas maduras, mas também pode ser crucial para a defesa contra invasores altamente eficientes e armados por algoritmos, genéticos ou não.

Levando-se então em consideração que você geralmente é aquilo que você faz, pratica, convive e foi educado, desde sua essência interna, por que não termos empresas que promovam uma cultura que venha lapidar e formar profissionais (desde sua essência, no caso como estagiário, trainne, menor aprendiz), que administrem a Operação (no caso a infraestrutura de redes, banco de dados, hardware e suporte) e o Desenvolvimento (codificação, análise, testes e todo release and deploy) num verdadeiro DevOps Security in Home?

Já se dizia numa certa frase: “O hábito faz o monge”. Não adianta exigir segurança, se a empresa não faz questão de ser modificar ou adaptar na cadeia natural de ser, viver e respirar segurança. É um processo gradativo, mas é necessário pelo menos começar a fazer o embrião da segurança nascer. Bem como de nada adiantará possuir uma enorme base de dados, com insumos de milhares e diferentes situações que ocorrem ou ocorreram, se não transformo essa “ciência de dados” para o mercado.

Quer um exemplo bem direto? Pegue um dos famosos Nagios, Zabbix, Cacti, Mrtg, para não ter que citar tantas outras ferramentas de monitoramento de eventos de redes, e peça para o melhor especialista configurar. Em seguida será realizada uma integração de um deles para com uma API ou mecanismo de interface lógica de Machine Learning, buscando deixar o processo de refinamento de detecção e segurança ser controlado por essa engine, liberando o analista para outras tarefas em vez de ficar concentrado na gestão de eventos que venha ocorrer nas redes.

Contudo, a má configuração, ou pior que isso, ainda antes disso, pois não será um caso apenas de parametrização, mas de customização, pois o desenvolvimento desta integração não contemplou código seguro e melhores práticas de encapsulamento, filtragem, anti-injection e outras premissas do lado principal que era da Machine Learning. Assim, acarretam vulnerabilidades no acesso, na estrutura de codificação, no schema neural do algoritmo. O que, consequentemente, gerou anomalias e comportamentos fora do padrão esperado, além de não considerar falsos positivos, daquilo que se tinha configurado em termos de tomada de decisão, quando da ocorrência dos eventos de rede. Ou seja, se era para bloquear uma porta crítica de acesso, ele liberava. Se era para alarmar enviando SMS ou email quando o storage tivesse chegando em dada percentagem, ele fazia o contrário: deixava chegar em estado de overflow para facilitar outros tipos de ataque e invasão. Resumindo: Tínhamos um espião-inimigo dentro de casa, sem crachá.

Dado o sucesso comprovado de abordagens baseadas em aprendizado para tarefas de segurança com foco limitado, é natural esperar que a integração estreita com os instrumentos de segurança existentes possa fornecer benefícios qualitativos substanciais para o último processo. No entanto, essa integração não é de forma alguma uma tarefa simples. A figura a seguir mostra a arquitetura abstrata de mecanismos de segurança reativa aprimorada pela aprendizagem.

A grande maioria dos dados relacionados à segurança pode ser manipulada usando métodos simples de detecção baseados em regras. As regras operam com rapidez, baixo custo e precisão, e são simples para os especialistas da área entenderem e manterem. No entanto, as regras não são poderosas o suficiente para manipular amostras de entrada novas e inteligentes. Embora eles representem apenas uma pequena fração do total de amostras de entrada, essas amostras podem causar danos substanciais se não forem interrompidas. Algoritmos de aprendizado de máquina podem desempenhar um papel fundamental aqui potencialmente detectando amostras de ataque completamente novas e inéditas. Ao fornecer intervalos de confiança para suas previsões, os métodos de aprendizado podem priorizar os dados a serem inspecionados manualmente por especialistas e, assim, melhorar em grande parte a produtividade desses analistas.

Para melhorar o feedback entre os componentes individuais apresentados na figura anterior, o número de problemas em aberto deve ser investigado:

Geração de regras baseada em aprendizado: Embora os algoritmos de inferência de regras sejam bem conhecidos, o aprendizado de máquina, por exemplo, é propenso ao overfitting e pode ser facilmente evitado por um invasor. São necessários novos métodos de inferência de regras capazes de produzir regras interpretáveis concisas, detectar eventos anômalos na ausência de informações de rótulo e lidar com dados contraditórios. Um exemplo de aprendizado avançado orientado a regras é a descoberta automática de padrões de expressão regular para detecção de spam.
Aprendizado de máquina auxiliado por humanos: O papel desupervisão dos especialistas em segurança é essencial para o sucesso dos métodos de aprendizagem neste domínio. No entanto, a especialização em segurança não se encaixa nas categorias tradicionais binárias ou multiclasse comuns aos métodos clássicos de aprendizado. Para aprender modelos com alto poder preditivo, novas técnicas de interação entre os métodos de aprendizagem e os especialistas em segurança precisam ser investigadas.
Descoberta de conhecimento auxiliada pelo aprendizado de máquina: O trabalho do analista de segurança também pode ser muito facilitado pela aplicação de técnicas de aprendizado adequadas. Por exemplo, técnicas de aprendizado ativo podem ser empregadas para sugerir dados interessantes para uma investigação detalhada. Tais abordagens podem ser especialmente benéficas para aplicações de segurança nas quais a análise manual consome muito tempo e requer profundo conhecimento.

A implementação operacional de métodos de aprendizagem é sempre um processo interativo. Alterações em padrões de dados (mudança distributiva) faz com que o re-treinamento periódico do sistema de aprendizado seja necessário e prático. É necessária uma investigação adicional para compreender o impacto dessa não estacionariedade sobre a arquitetura de segurança reativa de aprendizado aprimorada descrita acima.

A ideia aqui claro, não é fazer terrorismo perante o “tiro sair pela culatra” fazendo com que todo um investimento em Machine Learning seja um grande ofensor à segurança da empresa e consequentemente do negócio. Afinal de contas, não queremos literalmente perder o controle da situação. Provas benéficas de um aprendizado de máquina, bem estruturado e seguro é possuir por exemplo, toda uma automação para a caça às vulnerabilidades através do reconhecimento dinâmico de ameaças com base no reconhecimento contextualizado de fatores como a taxa de situações mal-intencionadas, ou de risco. Enquanto um analista humano experiente pode reconhecer ameaças dinâmicas com base no instinto, os modelos de aprendizado de máquina ganham o desafio vertiginosamente em um mundo onde uma variedade única de malware é identificada a cada segundo. Então paremos aqui a desconfiança. 😉

O treinamento dos modelos de aprendizado de máquina com dados suficientes para reconhecer eventos de ameaças que evoluam dinamicamente em tempo real carregam vários requisitos, incluindo o uso de dados da rede interna e dados de troca de ameaças de terceiros para visibilidade total. E é claro que o mecanismo de análise de um Centro de Operações de Segurança também precisará da capacidade de identificar, integrar e adaptar-se ao cenário de eventos mutáveis em tempo real para fornecer aos analistas recomendações úteis.

Em termos gerais, é importante ao menos tentar criar uma cultura de segurança inovadora quando se tem envolvido qualquer aspecto do Machine Learning. De maneira que se possa desenvolver abordagens dinâmicas e inovadoras para proteger toda uma operação de segurança da empresa, onde por exemplo, consiga:

Manter políticas mais fortes e centralizadas;
Adotar inteligência artificial e aprendizado de máquina, seguindo as melhores práticas de codificação segura;
Aprofundar a colaboração e o conhecimento da comunidade envolvida em projetos deste segmento;
Engajar-se em diversas práticas de recrutamento, fomentando a formação de segurança em sua essência.

Nestes próximos anos, a adoção de ferramentas de aprendizado de máquina e Inteligência Artificial consumidos pela comunidade de hackers é uma das maiores ameaças à segurança de informações enfrentadas pelas Organizações. À medida que as empresas fortalecem seus programas de CTI, a adoção do Machine Learning deve desempenhar um papel significativo na identificação destes eventuais riscos, na caça às ameaças e nos programas de resposta a incidentes de segurança. Por isso, não basta ter um Centro de Operações de Segurança ou simplesmente falar que tem, se ao seu redor (os outros funcionários internos da empresa) não comungam da mesma preocupação e cultura nativa da equipe de segurança na busca de fortalecer as defesas contra ameaças ativadas pela inteligência artificial dentro dos projetos de Machine Learning.

A inteligência das ameaças cibernéticas envolvendo a segurança em Machine Learning e a ciência dos dados

Recomendados para você

Animações em CSS ...

Enriquecimento de dados: fortaleça o relacionamento com o seu cliente! ...

Fábrica de Software: o que é e como ela pode ajudar sua empresa ...