Big Data

Anotações importantes relativa a disciplina "Big Data, MBA em Análise de Dados com BI e Big Data" (EAD Unicsul) - Publicado em junho/2020.
REFERÊNCIAS BIBLIOGRÁFICAS:

  1. Material didático da disciplina;
  2. Análise da informação para tomada de decisão, desafios e soluções. Curitiba, PR: Intersaberes
  3. A Practical Approach to Cloud IaaS with IBM SoftLayer - http://www.redbooks.ibm.com/
  4. Building Big Data and Analytics Solutions in the Cloud - http://www.redbooks.ibm.com/
  5. Building Real-time Mobile Solutions with MQTT and IBM MessageSight - http://www.redbooks.ibm.com/


Conceitos de Big Data

rush
A explosão dos dados
Referência: http://www.redbooks.ibm.com/ - "Building Big Data and Analytics Solutions in the Cloud", Figure 1-1

A quantidade de dados gerados dentro ou fora de companhias explodiu!
O aumento do volume e detalhes das informações, o crescimento de conteúdos multimídia, mídias sociais e IoT serão provavelmente o combustível para o crescimento contínuo e exponencial destes dados...

Conforme artigo “Big data and analytics overview” da IBM, existem dois tipos comuns de origem de dados para uma big data:

  1. Dados internos de uma organização, que devido a automatização de processos e cada vez mais possibilidades de acesso tem um crescimento no compartilhamento de informações (e-mails, logs de sistemas, documentos internos, eventos, conteúdo social como blogs e wikis, e outros dados, sejam estes estruturados, semiestruturados ou não estruturados)
  2. Dados externos à organização, como publicidade, redes sociais, documentação de produtos, informações corporativas, websites de consumidores, reclamações de clientes (fontes como Reclame Aqui, agências regulatórias) etc.

E as companhias já descobriram que todos os dados, sejam internos ou externos, agregam valor e podem trazer benefícios, ressaltando que big data não significa simplesmente um grande volume de dados como sugere o termo de forma literal.
O termo Big Data pode ter distintos significados (depende do contexto), não existindo um conceito consolidado, como exemplificado a seguir:

  • Bases de dados com características específicas de volume e diferentes formatos, que excedem a capacidade de processamento de ferramentas tradicionais, como bancos de dados baseados no padrão SQL;
  • O fenômeno de explosão da geração de dados em si;
  • Refere-se a aspectos tecnológicos e de infraestrutura propriamente ditos;
  • Refere-se a determinados tipos de aplicação que se beneficiam de um ambiente em que convergem diferentes tecnologias.
Vale, porém, ressaltar que característica mais presente na literatura é referente ao VOUME DE DADOS (não é necessariamente determinante, podendo existir aplicações que apresentam volume na casa dos petabytes ou exabytes).

Algumas definições de big data:

  • Mayer-Schonb e Cukier (2014): grandes conjuntos de dados que são difíceis de armazenar, pesquisar, visualizar e analisar.
  • Nathan e Warren (2015): análise de grandes quantidades de dados para se tomar decisões.
  • Segundo Smith (2012): refere-se ao processamento e à análise de repositórios de dados extremamente grandes, e que não seriam possíveis de processar ou analisar com as ferramentas convencionais de análise de dados.

Observar que todas definições citadas fazem referência ao volume de dados, e com necessidade de grande poder computacional para processar eficientemente essas grandes quantidades de dados em intervalos de tempos toleráveis (tecnologias com Massive Parallel Processing databases (MPP), grids de mineração de dados, sistemas de arquivos distribuídos, plataformas de computação em nuvem, redes de comunicação e sistemas de armazenamento escaláveis são importantes avanços para implementação de big data).

Apesar da relativa complexidade tecnológica, a dificuldade maior não é exatamente a coleta, armazenamento, análise e processamento dos dados, e sim saber o que e onde procurar, com destaque para as dificuldades em minerar dados algoritmicamente para obtenção de padrões originais em situações complexas (algoritmos trabalham com padrões previamente determinados e catalogados, sendo, na melhor das hipóteses levemente adaptativos, sendo o principal fator de competitividade a inovação na descoberta de novos padrões). É fundamental a interação dessas aplicações com o ser humano e sua capacidade intuitiva de associar dados, testar hipóteses, identificar relações e perceber tais padrões.

Alguns exemplos de potenciais benefícios (Canton, 2015; Goodman, 2015; Schneier, 2015) são listados a seguir:

  1. Luta contra o crime organizado e grupos terroristas;
  2. Combate a fraudes financeiras;
  3. Combate a epidemias;
  4. Controle preventivo de grupos de riscos de determinadas doenças;
  5. Localização e atendimento imediato em casos de mal súbito ou emergências diversas;
  6. Planejamento de investimentos em infraestrutura;
  7. Planejamento de ações em caso de acidentes ou catástrofes naturais.
Observar que a maioria dos exemplos tem como fundamento o reconhecimento de padrões, sendo a participação do ser humano e a eficiência de interfaces colaborativas para interação homem-máquina fundamental.

Características de Big Data

Big data refere-se a análise não apenas os dados estruturados, mas também a dados não estruturados e semiestruturados e a partir de uma ampla variedade de fontes de dados, onde a maioria dos dados precisa ser analisada (amostragem não é eficaz). Características importantes:

  1. Variedade de fontes e formatos de dados, com destaque para existência de grande quantidade de dados não estruturados;
  2. Dados gerados por empresas, organizações ou qualquer pessoa de forma geral, e alavancados por grande variedade de dispositivos (celulares, computadores, tablets, cartões de crédito e débito, equipamentos médicos, etiquetas RFID, câmeras de vídeo, radares de vias públicas, GPS, smart TVs, rede de sensores etc.) e crescimento de redes sociais;
  3. Velocidade de geração elevada em relação aos sistemas transacionais tradicionais (eventualmente de forma contínua, necessitando de processamento contínuo);
  4. Volume de dados com origem principalmente de fontes de dados não estruturados;
  5. Alta complexidade técnica (volume, variedade de fontes e dados, processamento em tempo real, reconhecimento e análise de padrões);
  6. Oferece às empresas e cidadãos ou consumidores de forma geral, um ambiente fértil à inovação, podendo impulsionar mudanças nos âmbitos social, cultural, político, jurídico e econômico.

Alguns exemplos de big data são:

  • Sistemas de recomendação de filmes, como os presentes no Netflix e outros provedores de conteúdo;
  • Sistemas de recomendação de leituras e notícias;
  • Sistemas de monitoramento para segurança física;
  • Sistemas para classificação ou criação de perfis de clientes;
  • Análises de sentimento;
  • Análises de textos de redes sociais, de modo a perceber as opiniões de clientes quanto à empresa;
  • Análises de comportamento de alunos em ambientes virtuais de aprendizagem;
  • Análises de pacotes de redes em busca de infecções e/ou anomalias;
  • Web analytics que acompanham o perfil dos clientes em sites de vendas;
  • Análises de séries temporais de dados de sensores;
  • Análises de dados financeiros em busca de fraudes;
  • Análise de dados médicos etc.
Algumas áreas que já utilizam a análise de dados com Big Data são ilustradas abaixo:

Exemplos Big Data