A propaganda em torno do chamado “Big Data” parece ter convencido muitos de que, a menos que os dados e análises sejam “grandes”, não terão um grande impacto. 

Leia mais sobre a beleza dos pequenos dados aqui!

Na realidade, para muitas organizações – ainda há toneladas de valor a serem geradas a partir do uso mais inteligente de dados ‘pequenos’ e ‘médios’. 

A lacuna que falta é, muitas vezes, a habilidade na ciência dos dados, não as grandes tecnologias de dados. 

Na prática

Por exemplo, um processo pode ter múltiplos sistemas empresariais que armazenam dados transacionais importantes em silos separados. 

Uma enorme quantidade de valor pode ser derivada de ter uma equipe de ciência de dados integrando esses dados do processo em silos e identificando problemas/raiz causas que abrangem esses silos. 

Já sabe sobre o problema 50/50> Confira os maiores erros do Data Mining aqui!

A quantidade de dados nestes casos pode ser inferior a 1 TB, às vezes muito inferior. Entretanto, uma boa equipe de ciência de dados ainda poderia usar essas informações para transformar completamente as operações de uma empresa. 

Em muitos casos, essa equipe pode não precisar mais do que um simples servidor e algumas ferramentas de código aberto.   

Conclusão

No final das contas, estamos menos preocupados se os dados são pequenos / médios / grandes ou enormes do que com o problema que estamos tentando resolver. 

Leia sobre 5 casos de disrupção do Big Data no setor de saúde! 

Com essa base, vamos então explorar qualquer um de nossos conjuntos de ferramentas disponíveis para implementar da melhor forma os algoritmos desenvolvidos por nossas equipes de ciência de dados.

Hadoop, NoSQL e outras tecnologias são fantásticas, apenas não são necessárias para resolver todos os desafios de análise de dados que enfrentamos. 

Em alguns casos, estas tecnologias realmente tornariam mais difícil a solução do problema. 

Se tivermos um conjunto de dados de 500 GB de conjuntos de dados relacionais, um servidor MySQL / MS-SQL bem sintonizado, acoplado a uma única caixa de linux para executar o código analítico, pode ser tudo o que precisamos. 

Se quisermos conduzir uma análise de 500 GB de texto livre, então sim, podemos fazer isso em um cluster Hadoop. 

 

Published On: novembro 26th, 2021 / Categories: Uncategorized /

Aprenda a conseguir trabalho

Se inscreva para receber acesso gratuito ao módulo Conseguindo Trabalho!

Obrigado por se inscrever!
Houve um erro ao enviar sua inscrição. Tente novamente mais tarde.

Ao acessar, você concorda em receber nossos comunicados.