Big data, machine learning (aprendizado de máquina) e data science (ciência de dados) – a revolução de análise de dados está crescendo rapidamente. Mantenha seus profissionais de BA/BI, bem como seus cientistas de dados à frente do mercado com as últimas tecnologias e estratégias.
A análise de dados está se tornando a força vital da TI. Big data, machine learning (aprendizado de máquina), deep learning (aprendizado profundo), ciência de dados – a gama de tecnologias e técnicas de análise de vastos volumes de dados está se expandindo rapidamente. Para obter insights profundos sobre comportamento do consumidor, desempenho de sistemas, e novas oportunidades de receitas, sua estratégia de análise de dados beneficiar-se-á muito de estar atualizada com as últimas tendências do mercado.
Segue abaixo o panorama atual da indústria, técnicas e estratégias que estão aquecendo e tendências antigamente quentes que estão começando a esfriar. De analistas de negócio a cientistas de dados, todo mundo que trabalha com dados está sendo impactado na revolução da análise de dados. Se a sua organização está buscando alavancar a análise de dados de modo a transformá-la em actionable intelligence (tradução livre, inteligência prática para o negócio), o seguinte índice de tendências deveria ser seu guia.
Aquecendo: Self-service BI (autoatendimento em BI)
Quem: profissionais em BI/BA, Gerentes de Negócio
Com ferramentas BI self-service (autoatendimento em BI), tais como Tableau, Qlik Sense, Power BI e Domo, gestores podem obter informações de negócio na forma gráfica quando e onde quiser. Embora, no início, algumas configurações gerais e inserção de dados tenham de ser feitas pela TI, a maior parte do trabalho de filtragem de dados e de criação de análises pode ser feita por analistas de negócios, e as análises podem se atualizar automaticamente com os últimos dados sempre que o software for aberto.
Gestores podem então interagir com as análises graficamente, de modo a identificar problemas que necessitem ser resolvidos. Em um “histórico” de números de vendas gerado pelo BI, isso significa aprofundar-se e verificar lojas, vendedores e produtos que estão deixando a desejar, ou descobrir tendências em comparações ano a ano. Essas descobertas podem, por sua vez, guiar decisões futuras sobre níveis de estoque, venda de produtos e promoções, e mesmo a construção de lojas adicionais em áreas com demanda potencial.
Aquecendo: dashboard (painéis) móveis
Quem: profissionais em BI/BA Pros, gestores, desenvolvedores
Em um mundo onde os gestores raramente estão em suas mesas, as ferramentas gerenciais precisam apresentar painéis nos aplicativos móveis. A maioria das ferramentas de autoatendimento em BI já tem essa característica, mas nem toda métrica-chave de negócio passa pela ferramenta de BI.
Por exemplo, uma fábrica provavelmente terá um sistema de certificação de qualidade monitorando todas as linhas de produção. Todos os gerentes dela precisam saber se qualquer uma das linhas sofreu algum desvio do tolerável para o evento X; isso é facilmente obtido com uma aplicação que revisa a base de dados do QA (certificação de qualidade) a cada minuto, atualizando e mostrando na gráfico de controle Shewhart e, opcionalmente, toca um alarme quando a linha fica for das especificações.
Esfriando: Hadoop
Quem: cientistas de dados
Hadoop certa vez pareceu a resposta à questão “como eu deveria armazenar e processar grandes volumes de dados? Hoje, ele parece a resposta à pergunta: “quantas partes móveis consigo inserir em um sistema antes que sua manutenção seja impossível?”
O projeto Apache Hadoop inclui quatro módulos: Hadoop Common (serviços), Hadoop Distributed File System (HDFS), Hadoop YARN (programador) e Hadoop MapReduce (processamento paralelo/distribuído). Além desses ou em vez desses, as pessoas frequentemente usam um ou mais dos projetos relacionados: Ambari (administração de cluster), Avro (serialização de dados), Cassandra (base de dados multimaster), Chukwa (coleção de dados), HBase (base de dados distribuída), Hive (armazenamento de dados), Mahout (ML e mineração de dados), Pig (execução de modelos), Spark (compute engine), Tez (modelo de programação de dataflow substituindo o MapReduce), e ZooKeeper (serviço de coordenação).
Se isso já não for complicado, some o Apache Storm (processamento de stream) e Kafka (transferência de mensagens). Agora considere o valor agregado por fornecedores: Amazon (Elastic Map Reduce), Cloudera, Hortonworks, Microsoft (HDInsight), MapR, e SAP Altiscale. Agora, você está confuso?
Aquecendo: Linguagem R
Quem: cientistas de dados com forte conhecimento em estatística
Os cientistas de dados têm muitas opções para analisar dados usando métodos estatísticos. Um dos métodos mais convenientes e poderosos é usar a linguagem de programação R. A linguagem R é uma das melhores formas para criação de análise reproduzível de alta qualidade, dado que, ao contrário de uma planilha, os scripts R podem ser auditados e reexecutados facilmente. A linguagem R e seu pacote de repositórios oferecem uma ampla gama de técnicas estatísticas, manipulação de dados e plotagem, a ponto que, se uma técnica existe, é provavelmente implementada em um pacote R. A linguagem R é quase tão poderosa quanto seu apoio para aprendizado de máquina, embora possa não ser a primeira escolha para redes neurais profundas (aprendizado profundo), que requerem computação de alta performance, superior ao que o R entrega atualmente.
R está disponível como uma fonte de código aberto, e está integrado em dezenas de produtos comerciais, incluindo o Microsoft Azure Machine Learning Studio e o SQL Server 2016.
Aquecendo: redes neurais profundas
Quem: cientistas de dados
Alguns dos algoritmos mais poderosos de aprendizado profundo são redes neurais profundas (DNN), constituídas de muitas camadas (daí o termo “profundo”) de unidades de processamento lineares e não lineares, e treinadas com algoritmos de grande escala e quantidades massivas de dados de treinamento. Um rede neural profunda poderá ter de 10 a 20 camadas escondidas, enquanto uma rede neural comum pode só ter algumas.
Quanto mais camadas na rede, mais características ela poderá reconhecer. Infelizmente, quanto mais camadas na rede, mais tempo necessário para calcular, e mais difícil treinar. Softwares para criação de redes neurais profundas incluem Caffe, Microsoft Cognitive Toolkit, MXNet, Neon, TensorFlow, Theano, e Torch.
Esfriando: IoT (Internet das Coisas)
Quem: profissionais em BI/BA, cientistas de dados
A Internet das Coisas (IoT) pode ser o conjunto mais empolgante de tecnologias. Ela pode também ser a pior coisa que ocorreu para a segurança da internet.
A IoT tem sido veiculada por seu uso em casas inteligentes, dispositivos, cidades inteligentes, redes inteligentes, internet industrial, veículos conectados, saúde conectada, varejo inteligente, agricultura e mais uma série de outras atividades. Muitas dessas aplicações fariam sentido se a implementação fosse segura, mas, em geral, não tem sido assim.
Na verdade, as fabricantes normalmente cometem erros de design. Em alguns casos, os dispositivos inteligentes só funcionam se conectados à internet, podendo alcançar os servidores dos fabricantes. Isso se torna um ponto significativo de fracasso quando o fabricante termina o suporte ao produto, como aconteceu com o Dash da Sony e o termômetro Nest. Incluir um servidor remoto conectado à internet em uma malha de controle também introduz um atraso significativo e variável à malha de controle, o que pode introduzir instabilidade.
Ainda pior, em seu afã por conectar suas “coisas” à internet, os fabricantes deixaram vulnerabilidades que têm sido exploradas por hackers. Por exemplo: automóveis foram sequestrados remotamente, roteadores de casas foram usados em um botnet para conduzir ataques DDoS, redes públicas de energia foram derrubadas em algumas áreas.
O que será necessário para tornar os dispositivos de IoT seguros? Por que os fabricantes não estão prestando atenção? Até que a segurança for corrigida, a promessa da análise de dados da IoT terá mais riscos que recompensas.
Esquentando: TensorFlow
Quem: cientistas de dados
TensorFlow é o aprendizado de máquina de código aberto da Google e um modelo de rede neural que dá suporte à maioria, senão a todos os serviços de aprendizado de máquina do Google. Translate, Maps e Google Apps usam as redes neurais baseadas no TensorFlow que funciona nos smartphones. Os modelos de TensorFlow estão por trás de APIs de aprendizado de máquina do Google Cloud Natural Language, Speech, Translate e Vision.
Cientistas de dados podem usar o TensorFlow tão logo superarem as barreiras consideráveis de aprendizado do modelo. O TensorFlow têm muita flexibilidade, total portabilidade, habilidade para conectar pesquisa e produção, autodiferenciação de variáveis, e a habilidade de maximizar performance ao priorizar GPU em vez de CPU. Indique o meu tutorial aos seus cientistas de dados ou busquem a biblioteca Tensor2Tensor para começar.
Aquecendo: MXNet
Quem: cientistas de dados
MXNet é uma estrutura de aprendizado profundo similar ao TensorFlow. Ela não dispõe da depuração visual disponível no TensorFlow, mas oferece uma linguagem imperativa para cálculos tensoriais que a TensorFlow não tem. A plataforma MXNet paraleliza automaticamente operações simbólicas e imperativas, e uma camada de otimização gráfica acima de seu agendador torna a execução simbólica rápida e eficiente em memória.
MXNet atualmente suporta a construção e modelagem de treinamentos em Python, R, Scala, Julia, e C++; modelos de treinamento MXNet podem ser usados para previsão em Matlab e JavaScript. Não importa qual linguagem você usa para construir seus modelos, a MXNet utiliza uma ferramenta de backend C++ otimizada.
Esfriando: processamento de batch (lotes)
Quem: profissionais em BI/BA, cientistas de dados
Processar batches (lotes) na madrugada para analisar dados é o que fazíamos na década de 1970, quando os dados estavam em fitas (discos) de nove faixas e o mainframe passava para o modo batch para o terceiro turno. Em 2017, não há uma boa razão para se contentar com dados do passado.
Em alguns casos, um ou mais sistemas legado (que podem datar da década de 1960) só conseguem rodar análises ou salvar dados à noite quando não estão em uso para outro coisa. Em outros casos, não há razão técnica para prosseguir com análises batch (em lotes), mas “é como sempre fizemos”.
Você é melhor que isso, e a sua gestão merece análise de dados atualizada.
Aquecendo: Microsoft Cognitive Toolkit 2.0
Quem: cientistas de dados
The Microsoft Cognitive Toolkit, também conhecido como CNTK 2.0 é uma ferramenta unificada de aprendizado profundo que descreve redes neurais como uma série de passos computacionais por visual direto. Ela tem muitas similaridades com TensorFlow e MxNet, embora a Microsoft afirme que CNTK é mais rápido que o TensorFlow especialmente nas redes recorrentes, tem apoio por inferência que é mais fácil de integrar em aplicações, e tem leitores internos de dados que também dão suporte à aprendizagem distribuída.
Existem atualmente 60 exemplos na ModelGallery, incluindo os modelos vencedores de concursos da última década. O Cognitive Toolkit é a tecnologia por trás da Cortana da Microsoft, da tradução ao vivo do Skype, Bing, e algumas funções do Xbox.
Aquecendo: Scikit-learn
Quem: Data scientists
Scikits são ferramentas escritas em Python construídas em torno da SciPy, a biblioteca Python para computação científica. Scikit-learn é um projeto de código aberto focado em aprendizado de máquina que é cuidadoso com respeito a evitar scope creep (alterações incontroláveis em projetos) e o uso de algoritmos não provados. Por outro lado, é uma seleção interessante de algoritmos sólidos, e usa Cython (o compilador Python para C) para funções que precisam ser rápidas, tais como inner loops (operações de junções internas).
Entre as áreas de aprendizado do SciKit não cobre estão aprendizado profundo, aprendizado de reforço, modelos gráficos e previsão sequencial. Ele é definido como sendo para Python, de modo que não tem APIs para outras linguagens. Scikit-learn não suporta PyPy, a implementação rápida automática da Python, tampouco seu acelerador de GPU que, para além das redes neurais, o Scikit tem pouca necessidade.
Scikit-learn obtém as maiores notas pela facilidade de desenvolvimento entre todas as estruturas de aprendizado de máquina que testei. Os algoritmos funcionam como prometido e documentado, os API são consistentes e bem projetados, e existem poucos conflitos de impedância entre as estruturas de dados. É um prazer trabalhar com uma biblioteca em que as características foram totalmente revisadas, e os erros, eliminados.
Esfriando: Caffe
Quem: cientistas de dados
O anteriormente promissor projeto de aprendizado profundo Caffe, originalmente uma forte estrutura para classificação de imagens, parece ter estagnado. Embora a estrutura tenha fortes redes convolucionais para reconhecimento de imagem, bom suporte para GRP CUDA, e portabilidade decente, seus modelos frequentemente consomem muita memória GPU, o software tem bugs centenários que não foram corrigidos, e sua documentação é problemática.
Caffe finalmente lançou sua atualização 1.0 em abril de 2017, depois de mais de um ano de problemas com outras versões repletas de erros. E, ainda assim, até julho de 2017, existem ainda 500 questões em aberto. Enquanto o projeto estagna, a comunidade de aprendizado profundo migra para TensorFlow, CNTK e MXNet.
Aquecendo: Jupyter Notebooks
Quem: Cientistas de dados
O Jupyter Notebook, originalmente chamado IPython Notebook, é uma aplicação web de código aberto que permite aos cientistas de dados criar e compartilhar documentos que contém um código editável, equações, visualizações e texto explanatório. Dentre seus usos: limpeza de dados e transformação, simulação numérica, modelagem estatística, aprendizado de máquina e muito mais.
Jupyter Notebooks tornaram-se o ambiente de desenvolvimento preferido de muitos cientistas de dados e pesquisadores em ML. Eles são elementos-padrão no Azure, Databricks e outros serviços online que incluem aprendizado de máquina e Big Data, e você também pode rodá-los localmente. Jupyter é um acrônimo para Julia, Python e R, três das linguagens populares para análise de dados.
Aquecendo: armazenagem e análise em nuvem
Quem: profissionais em BI/BA, cientistas de dados
Um dos mantras da análise eficiente é “faça a análise onde estão os dados.” Se você não pode ou não quer seguir essa regra, a sua análise provavelmente terá muitos atraso caso os dados não fluam em uma rede local, e ainda maior, caso fluam através da internet. É por isso, por exemplo, que a Microsoft recentemente adicionou o suporte R ao SQL Server.
Com o crescimento exponencial dos dados gerados pela sua empresa, a capacidade de seus data centers pode não ser suficiente, tendo de agregar armazenagem na nuvem. Tão logo os dados estiverem na nuvem, sua análise também deverá estar lá. Eventualmente, a maior parte de novos projetos será implementada na nuvem, e projetos existentes serão migrados para a nuvem, movendo sua empresa do mundo CapEx para o OPeX.
Esfriando: relatórios mensais de BI
Quem: profissionais em BI/BA, cientistas de dados
Antes que o BI autoatendimento se tornasse popular, o BI era o mais badalado em TI. Gerentes descreviam o que eles pensavam querer ver, analistas de negócios transformavam-no em especificações, e os especialistas em BI criavam relatórios para atender tais especificações. Tão logo o relatório fosse definido, era rodado mensalmente até o fim dos tempos, e cópias de vários deles paravam na caixa de e-mail no primeiro dia do mês, para serem discutidos, servindo, às vezes, para ações concretas.
Às vezes, a ação consistia em definir um novo relatório. O ciclo recomeçaria e, algum tempo depois, um novo relatório seria enviado à caixa de e-mails do gestor.
Aliás, os negócios que pretendem ser ágeis não podem responder às mudanças de mercado ou do ambiente em questão de meses: o tempo entre pergunta e resposta deveria ser medido em segundos ou minutos, e não em semanas ou meses.
Artigo traduzido a partir da publicação original: 10 hot data analytics trends — and 5 going cold
Autores: Martin Heller