Anotações importantes relativa a disciplina "Big Data,
MBA em Análise de Dados com BI e Big Data" (EAD Unicsul) - Publicado em junho/2020.
REFERÊNCIAS BIBLIOGRÁFICAS:
Zikopoulos e Eaton (2011): IBM caracteriza e define a tecnologia de Big Data por três aspectos conjuntos: pelo seu volume, sua velocidade e a variedade de dados, ou simplesmente 3V's. Posteriormente foram adicionadas veracidade (confiabilidade dos dados em si) e valor (relacionado a agregar ganho e importância ao negócio), formando os 5V's.
Porém, consideremos 2 cenários como exemplo para análise:
O volume de dados armazenados cresce muito rapidamente, exemplos típicos são o Twitter e Facebook (magnitude de TB/dia), e alguns fatores podem ser destacados para esse aumento:
Segundo International Data Corporation (2011), a informação do mundo está dobrando a cada dois anos (1,8 ZB ou 1021 Bytes em 2011, e previsão de 35 ZB para 2020). Porém, apesar da ascenção do volume de dados armazenados, o percentual analisado está em declínio, ou seja, as organizações podem armazenar grandes quantidades de dados, porém não tem capacidade para processar os mesmos.
Um exemplo de grande crescimento de dados operacionais é devido à evolução tecnológica, com funções anteriormente executadas puramente por hardware passando a ser executadas por software (migração de hardware para software), viabilizando o armazenando uma gama antes inimaginável de informações, seja para utilização em O&M ou como dados de entrada para planejamento e otimização do serviço. Um exemplo mais específico são as estações rádio base dos sistemas móveis celulares, sendo que nos sistemas analógicos [AMPS], as rádio bases eram basicamente hardware, e na a geração atual em operação no Brasil [4G LTE] a “inteligência” do sistema migrou de forma significativa para software, fator pode ser observado inclusive pelo tamanho que cada um desses equipamentos ocupava nas primeiras gerações para chamadas apenas de voz.
Mas é importante reforçar que o volume é de fato uma importante dimensão do big data, porém este não se trata apenas do dado armazenado, sendo muito mais voltado para os processos de geração de informação.
Dados que vão desde sensores e dispositivos inteligentes, até tecnologias de colaboração social, são cada vez mais complexos, incluindo não apenas os dados tradicionais ou transacionais, mas os dados “brutos” e muitas vezes não estruturados (páginas web, arquivos de log, mídia social, fóruns, e-mails, documentos, dados de sensores de sistemas ativos e passivos, internet das coisas, vídeos, áudios, dados não relacionais etc.). Sistemas tradicionais não foram concebidos para armazenar e processar dados não estruturados, sendo necessário utilizar novas tecnologias, algoritmos e técnicas para a análise dos dados estruturados em conjunto com os dados não estruturados. A IBM estima que 90% de todos os dados criados na atualidade são dados não estruturados, e estes são uma oportunidades para descobrir hábitos das pessoas, aceitação da marca, oportunidades de melhoria etc.
Ideia relacionada ao quão rapidamente os dados são resgatados, armazenados e suas taxas associadas de recuperação, velocidade na qual os dados estão fluindo, sendo muitas vezes o processamento em tempo real o ideal para o fim desejado. Atualmente trabalhamos com petabytes de dados a um fluxo constante, ritmo que se tornou impraticável para os sistemas tradicionais. A complexidade dos tipos de dados que são produzidos também é maior, além de crescente a análise de dados não estruturados.
Três características importantes:
Questionamentos relevantes a respeito da veracidade dos dados:
Importante:
Identificação de tendências, problemas ou oportunidades em apenas alguns segundos (ou até mesmo microssegundos) são uma grande vantagem competitiva, pois cada vez mais, os dados que são produzidos possuem vida útil significativamente curta, por isso as organizações devem ser capazes de analisá-los quase que em tempo real para serem identificadas ideias e oportunidades a partir desses dados.
Projetos com Big Data frequentemente não obtêm sucesso quando o valor é ignorado, sendo que empresas que investem em análise de dados como um ativo para a tomada de decisões são mais bem sucedidas.
Considera-se então valor como qualquer aplicação de Big Data que:
Usualmente, big data é adotado focando em receita, atendimento ao cliente, desenvolvimento e agilidade de negócios, além de governança, como mostrado a seguir.