Anotações importantes relativa a disciplina "Big Data,
MBA em Análise de Dados com BI e Big Data" (EAD Unicsul) - Publicado em junho/2020.
REFERÊNCIAS BIBLIOGRÁFICAS:
Dados estruturados correspondem a padrões repetidos de estruturas de dados como a modelagem tradicional de dados no formato de linhas e colunas, porém, em big data, devemos pensar ainda em dados semiestruturados e não estruturados (textos puros, imagens, vídeos, áudios, XML etc.).
A seguir uma descrição simplificada e alguns exemplos dos principais tipos de dados encontrados:
(Pós-graduação Unicsul - MBA em Análise de Dados com BI e Big Data, Disciplina Big Data,
Unidade 2, Fontes de dados em Big Data)
Blogs, tweets, sites de redes sociais (exemplos: LinkedIn, Twitter e Facebook), feeds de notícias, fóruns de discussão, sites de vídeos etc. Possuem API específicas para o resgate de dados e seus metadados.
Os logs de serviços web existem em vários formatos semiestruturados. Tipicamente, possuem informações a respeito do ambiente de execução, entradas sobre as atividades do servidor de aplicação e, essencialmente, tudo o que acontece no servidor. Tradicionalmente, um log contém informações transacionais de cada conexão, a origem, o início e fim das requisições e conexões, incluindo qualquer erro que tenha ocorrido. Web logs são utilizados para diagnósticos de erros e análises técnicas; mais recentemente passaram a ser utilizados em combinação com outras fontes de dados para se entender o padrão de comportamento das ações dos usuários em sites e para a identificação de ameaças de segurança.
Dados gerados por máquinas tem origem a partir de grande variedade de dispositivos, tais como leitores de RFID,
sensores óticos, de áudio, sísmicos, térmicos, químicos, dispositivos médicos ou de clima, sensores em
estradas ou ruas, televisores, câmeras de vídeo, sensores corporais ou vestíveis etc.
Exemplo: diversos sites ou sistemas que disponibilizam os dados de clima em tempo real e em
vários formatos, tais como numéricos ou textuais como, por exemplo, 26 graus Celsius e com nuvens esparsas,
ou september 24, 2016, at 17:56, 26 degrees Celsius, com poucas nuvens (note que para uma aplicação deverá
existir um padrão de leitura).
Dados de geolocalização se tornaram ubíquos (largamente difundidos), sendo gerados pelos sistemas
de Global Positioning System (GPS) em veículos, aviões, navios, smartphones etc. Utilizamos esses dados
para guiar ou rastrear nossos movimentos em aplicações de segurança e/ou emergência,
ou ainda para rastreamento de nossos smartphones em lojas e shoppings, por exemplo, em busca de análise de comportamento.
Outro uso importante de geolocalização corresponde aos serviços de rastreabilidade logística, os quais podem mostrar à
empresa ou ao cliente onde se encontra determinado produto.
Dados de streaming correspondem a uma categoria especial de Big Data, sendo que ao invés de ser um formato, é um tipo especial de processamento. É uma transmissão contínua de qualquer tipo de dados e quase em tempo real. Alguns exemplos de aplicações de análise de streaming incluem detecção de fraude, segurança física, monitoramento de tráfego veicular etc. Essas aplicações utilizam protocolos específicos para enviar e receber informações, e quase sempre recebem os dados, processando-os e os encaminhando para outras aplicações.
No ebook da IBM “Building Big Data and Analytics Solutions in the Cloud”, item 1.1, temos ainda exemplos de fontes de dados descritas de forma um pouco mais detalhada: