Big Data

Anotações importantes relativa a disciplina "Big Data, MBA em Análise de Dados com BI e Big Data" (EAD Unicsul) - Publicado em junho/2020.
REFERÊNCIAS BIBLIOGRÁFICAS:

  1. Material didático da disciplina;
  2. Análise da informação para tomada de decisão, desafios e soluções. Curitiba, PR: Intersaberes
  3. A Practical Approach to Cloud IaaS with IBM SoftLayer - http://www.redbooks.ibm.com/
  4. Building Big Data and Analytics Solutions in the Cloud - http://www.redbooks.ibm.com/
  5. Building Real-time Mobile Solutions with MQTT and IBM MessageSight - http://www.redbooks.ibm.com/


Fontes de dado em Big Data

Dados estruturados correspondem a padrões repetidos de estruturas de dados como a modelagem tradicional de dados no formato de linhas e colunas, porém, em big data, devemos pensar ainda em dados semiestruturados e não estruturados (textos puros, imagens, vídeos, áudios, XML etc.).

rush
Fontes de dados em big data
Referência: http://www.redbooks.ibm.com/ - "Information Governance Principles and Practices for a Big Data Landscape" - Figure 5-3

A seguir uma descrição simplificada e alguns exemplos dos principais tipos de dados encontrados:
(Pós-graduação Unicsul - MBA em Análise de Dados com BI e Big Data, Disciplina Big Data, Unidade 2, Fontes de dados em Big Data)

Social media

Blogs, tweets, sites de redes sociais (exemplos: LinkedIn, Twitter e Facebook), feeds de notícias, fóruns de discussão, sites de vídeos etc. Possuem API específicas para o resgate de dados e seus metadados.

rush
Referência: http://www.redbooks.ibm.com/ - "Information Governance Principles and Practices for a Big Data Landscape" - pgs. 11 e 12
Web logs

Os logs de serviços web existem em vários formatos semiestruturados. Tipicamente, possuem informações a respeito do ambiente de execução, entradas sobre as atividades do servidor de aplicação e, essencialmente, tudo o que acontece no servidor. Tradicionalmente, um log contém informações transacionais de cada conexão, a origem, o início e fim das requisições e conexões, incluindo qualquer erro que tenha ocorrido. Web logs são utilizados para diagnósticos de erros e análises técnicas; mais recentemente passaram a ser utilizados em combinação com outras fontes de dados para se entender o padrão de comportamento das ações dos usuários em sites e para a identificação de ameaças de segurança.

rush
Referência: http://www.redbooks.ibm.com/ - "Information Governance Principles and Practices for a Big Data Landscape" - pgs. 13 e 14
Dados gerados por máquinas

Dados gerados por máquinas tem origem a partir de grande variedade de dispositivos, tais como leitores de RFID, sensores óticos, de áudio, sísmicos, térmicos, químicos, dispositivos médicos ou de clima, sensores em estradas ou ruas, televisores, câmeras de vídeo, sensores corporais ou vestíveis etc.
Exemplo: diversos sites ou sistemas que disponibilizam os dados de clima em tempo real e em vários formatos, tais como numéricos ou textuais como, por exemplo, 26 graus Celsius e com nuvens esparsas, ou september 24, 2016, at 17:56, 26 degrees Celsius, com poucas nuvens (note que para uma aplicação deverá existir um padrão de leitura).

GPS ou geolocalização

Dados de geolocalização se tornaram ubíquos (largamente difundidos), sendo gerados pelos sistemas de Global Positioning System (GPS) em veículos, aviões, navios, smartphones etc. Utilizamos esses dados para guiar ou rastrear nossos movimentos em aplicações de segurança e/ou emergência, ou ainda para rastreamento de nossos smartphones em lojas e shoppings, por exemplo, em busca de análise de comportamento.
Outro uso importante de geolocalização corresponde aos serviços de rastreabilidade logística, os quais podem mostrar à empresa ou ao cliente onde se encontra determinado produto.

rush
Referência: http://www.redbooks.ibm.com/ - "Information Governance Principles and Practices for a Big Data Landscape" - pgs. 15 e 16
Streaming data

Dados de streaming correspondem a uma categoria especial de Big Data, sendo que ao invés de ser um formato, é um tipo especial de processamento. É uma transmissão contínua de qualquer tipo de dados e quase em tempo real. Alguns exemplos de aplicações de análise de streaming incluem detecção de fraude, segurança física, monitoramento de tráfego veicular etc. Essas aplicações utilizam protocolos específicos para enviar e receber informações, e quase sempre recebem os dados, processando-os e os encaminhando para outras aplicações.

No ebook da IBM “Building Big Data and Analytics Solutions in the Cloud”, item 1.1, temos ainda exemplos de fontes de dados descritas de forma um pouco mais detalhada:

  • Conteúdo de mídia social: uma ampla variedade de dados, incluindo dados não estruturados, texto e mídia, contendo informações valiosas que podem ser extraídas por uma empresa;
  • Smartphones: bilhões de dispositivos que podem fornecer informações úteis, como a localização do usuário, o uso do dispositivo, problemas funcionais que podem estar presentes no dispositivo etc.;
  • Smart TVs e outros decodificadores: informações valiosas sobre os tipos de programas e tópicos que interessam ao consumidor;
  • Dados transacionais: o enorme número de transações on-line de hoje, como cartões de crédito, está criando terabytes de dados que podem ser extraídos e analisados;
  • Documentação: documentações como demonstrações financeiras, formulários de seguro, assistência médica, registros e correspondência do cliente, podem ser analisados para extrair informações para análise posterior;
  • Internet das Coisas: IoT está gerando grandes volumes e vários tipos de dados de fontes variadas, como veículos, videogames, decodificadores de televisão e eletrodomésticos etc. Capturar, correlacionar e analisar esses dados pode produzir informações valiosas para uma empresa;
  • Eventos da rede de comunicações: as redes de comunicações estão cada vez mais interconectados, resultando na necessidade de monitorar grandes volumes de dados operacionais, permitindo por exemplo o monitoramento e configuração dinâmica de vários dispositivos, garantindo roteamento de tráfego em tempo real, mantendo os níveis de qualidade de serviço (QoS);
  • Registros de detalhes de chamadas: a análise de registros de detalhes de chamadas (CDRs) permite que uma empresa entenda melhor os hábitos de seus clientes, assim como a criação de KPIs para avaliação da qualidade da rede;
  • Etiquetas de identificação por radiofrequência (RFID): cada vez mais presentes, sendo os dados que elas contêm são frequentemente ignorados e não analisados devido ao grande volume e variedade de dados obtidos com esses sensores.
  • Padrões de tráfego: padrões de tráfego podem ser estudados com base em dados de sensores de trânsito, câmeras de vídeo e dados de motoristas através de aplicativos de traçado de rotas, sendo possível determinar a velocidade média de uma via, entre outras informações (a análise destes dados pode ser usada para aliviar o congestionamento, por exemplo);
  • Informações meteorológicas: dados meteorológicos podem ser correlacionados com várias outras fontes de dados, como vendas, marketing e informações sobre produtos, permitindo que as empresas comercializem seus produtos com mais eficiência e reduzam custos.