Big Data

Anotações importantes relativa a disciplina "Big Data, MBA em Análise de Dados com BI e Big Data" (EAD Unicsul) - Publicado em junho/2020.
REFERÊNCIAS BIBLIOGRÁFICAS:

  1. Material didático da disciplina;
  2. Análise da informação para tomada de decisão, desafios e soluções. Curitiba, PR: Intersaberes
  3. A Practical Approach to Cloud IaaS with IBM SoftLayer - http://www.redbooks.ibm.com/
  4. Building Big Data and Analytics Solutions in the Cloud - http://www.redbooks.ibm.com/
  5. Building Real-time Mobile Solutions with MQTT and IBM MessageSight - http://www.redbooks.ibm.com/


Dimensões de Big Data. Os 5V's

Zikopoulos e Eaton (2011): IBM caracteriza e define a tecnologia de Big Data por três aspectos conjuntos: pelo seu volume, sua velocidade e a variedade de dados, ou simplesmente 3V's. Posteriormente foram adicionadas veracidade (confiabilidade dos dados em si) e valor (relacionado a agregar ganho e importância ao negócio), formando os 5V's.

5vs
Fonte: https://img.techentice.com/media/2019/04/5_V_Big_data-1.png

Porém, consideremos 2 cenários como exemplo para análise:

  1. Um varejista mantendo 6TB de dados em uma DW, com 400 revendedores acessando relatórios, 800 trabalhos de ETL e “n” usuários simultâneos;
  2. Uma operadora de telecomunicações que coleta 4 bilhões de CDRs (Call Detail Records) que devem ser convertidos do formato nativo (ASCII) para geração de informação e conhecimento importantes em processos de planejamento ou melhoria da qualidade de serviço;
Em ambos a manipulação de dados requer banco de dados relacionais e são sistemas para aplicações com finalidades totalmente distintas, mostrando uma grande variedade de possibilidades quando necessitamos transformar dados em informação, logo é importante pensar além dos 5Vs quando nos referimos a big data.

Volume de Dados – Quão grande é um big data?

O volume de dados armazenados cresce muito rapidamente, exemplos típicos são o Twitter e Facebook (magnitude de TB/dia), e alguns fatores podem ser destacados para esse aumento:

  1. A diminuição dos custos de produção de dados;
  2. Crescimento do volume de dados da World Wide Web (WWW);
  3. Dispositivos móveis largamente difundidos (ubíquos);
  4. Sensores sem fio (grande quantidade de dados sendo gerados a cada minuto ou segundo);
  5. A troca de dados em massa entre os milhares de milhões de serviços de internet;
  6. Vigilância por vídeo;
  7. Registros médicos;
  8. Dados operacionais das empresas;
  9. E-commerce etc.

volume
Fonte: Adaptado de Zikopoulos e Eaton, 2011

Segundo International Data Corporation (2011), a informação do mundo está dobrando a cada dois anos (1,8 ZB ou 1021 Bytes em 2011, e previsão de 35 ZB para 2020). Porém, apesar da ascenção do volume de dados armazenados, o percentual analisado está em declínio, ou seja, as organizações podem armazenar grandes quantidades de dados, porém não tem capacidade para processar os mesmos.

Um exemplo de grande crescimento de dados operacionais é devido à evolução tecnológica, com funções anteriormente executadas puramente por hardware passando a ser executadas por software (migração de hardware para software), viabilizando o armazenando uma gama antes inimaginável de informações, seja para utilização em O&M ou como dados de entrada para planejamento e otimização do serviço. Um exemplo mais específico são as estações rádio base dos sistemas móveis celulares, sendo que nos sistemas analógicos [AMPS], as rádio bases eram basicamente hardware, e na a geração atual em operação no Brasil [4G LTE] a “inteligência” do sistema migrou de forma significativa para software, fator pode ser observado inclusive pelo tamanho que cada um desses equipamentos ocupava nas primeiras gerações para chamadas apenas de voz.

erb
Equipamentos de primeira geração (1G), com inúmeros módulos de hardware para prover serviços apenas de voz, seguidos por um equipamento da segunda geração (CDMA no exemplo), que passou a prover serviços de dados, porém com hardware alocado em apenas um bastidor e pouco módulos, e por último um exemplo hardware 4G-Lte, ilustrando a migração de hardware para software.

Mas é importante reforçar que o volume é de fato uma importante dimensão do big data, porém este não se trata apenas do dado armazenado, sendo muito mais voltado para os processos de geração de informação.

Variedade nos Dados

Dados que vão desde sensores e dispositivos inteligentes, até tecnologias de colaboração social, são cada vez mais complexos, incluindo não apenas os dados tradicionais ou transacionais, mas os dados “brutos” e muitas vezes não estruturados (páginas web, arquivos de log, mídia social, fóruns, e-mails, documentos, dados de sensores de sistemas ativos e passivos, internet das coisas, vídeos, áudios, dados não relacionais etc.). Sistemas tradicionais não foram concebidos para armazenar e processar dados não estruturados, sendo necessário utilizar novas tecnologias, algoritmos e técnicas para a análise dos dados estruturados em conjunto com os dados não estruturados. A IBM estima que 90% de todos os dados criados na atualidade são dados não estruturados, e estes são uma oportunidades para descobrir hábitos das pessoas, aceitação da marca, oportunidades de melhoria etc.

Velocidade nos Dados

Ideia relacionada ao quão rapidamente os dados são resgatados, armazenados e suas taxas associadas de recuperação, velocidade na qual os dados estão fluindo, sendo muitas vezes o processamento em tempo real o ideal para o fim desejado. Atualmente trabalhamos com petabytes de dados a um fluxo constante, ritmo que se tornou impraticável para os sistemas tradicionais. A complexidade dos tipos de dados que são produzidos também é maior, além de crescente a análise de dados não estruturados.

Veracidade – Os dados são confiáveis?

Três características importantes:

  1. A qualidade ou limpeza, consistência e acurácia dos dados;
  2. A origem ou fonte de dados ao longo do tempo e sua evolução;
  3. Como se pretende usar o conjunto de dados, pois os níveis de confiança e/ou qualidade devem ser aceitáveis para o negócio.

Questionamentos relevantes a respeito da veracidade dos dados:

  • De onde os dados são provenientes?
  • Os dados foram gerados interna ou externamente à organização?
  • Os dados poderão ser públicos?
  • As transações que originam os dados são auditáveis?
  • O dado é verdadeiro ou uma opinião?
  • O dado foi fabricado intencionalmente?
  • O dado bruto pode ser usado ou são necessárias padronizações ou limpeza dos dados?
  • Os métodos de governança na organização são usados para vetar ou medir a veracidade ou classificar dados?
  • As fontes internas de dados quando se tornam externas, devem ser auditadas?

Importante:

  • Para dados obtidos através da web a confiabilidade torna-se mais crítica, envolvendo aspectos de veracidade e governança de tais dados;
  • Validação dos dados oriundos de diversos sistemas, mídias ou redes sociais, trazem grande complexidade para a escolha, transformação, processamento, análise e validação das informações e resultados gerados.

Valor dos dados

Identificação de tendências, problemas ou oportunidades em apenas alguns segundos (ou até mesmo microssegundos) são uma grande vantagem competitiva, pois cada vez mais, os dados que são produzidos possuem vida útil significativamente curta, por isso as organizações devem ser capazes de analisá-los quase que em tempo real para serem identificadas ideias e oportunidades a partir desses dados.

Projetos com Big Data frequentemente não obtêm sucesso quando o valor é ignorado, sendo que empresas que investem em análise de dados como um ativo para a tomada de decisões são mais bem sucedidas.

Considera-se então valor como qualquer aplicação de Big Data que:

  • Impulsione aumentos de receita, por exemplo a partir da análise de fidelidade de clientes;
  • Identifique novas oportunidades de receita;
  • Melhore a qualidade e satisfação do cliente, por exemplo a partir de manutenção preditiva;
  • Economize custos e que garanta melhores resultados, por exemplo no atendimento ao cliente etc.

Possíveis ganhos com a adoção de Big Data

Usualmente, big data é adotado focando em receita, atendimento ao cliente, desenvolvimento e agilidade de negócios, além de governança, como mostrado a seguir.

Ganhos relacionados a incremento de receita:
  • Monetizar os dados (aumentar a receita, diminuir os custos ou reduzir riscos);
  • Gerenciar os dados com um custo menor;
  • Melhorar a eficiência operacional;
Ganhos relacionados a melhoria de atendimento ao cliente:
  • Melhorar o entendimento do cliente, focando em melhor satisfação e experiência;
  • Verificar o comportamento do cliente através de suas transações;
  • Atrair e manter clientes;
  • Detectar fraudes;
Ganhos relacionados ao desenvolvimento de negócios:
  • Introduzir novos produtos ou serviços;
  • Terceirizar funções “non-core”;
  • Obter novos “insights” competitivos;
Ganhos relacionados à agilidade nos negócios e governança:
  • Aumentar a agilidade do negócio;
  • Planejar com mais confiança;
  • Tomar as melhores decisões de forma mais rápida;
  • Garantir conformidade regulatória;
  • Diminuir riscos.