A máquina de hype do marketing tecnológico gritando “Big Data! Big Data!”abafou o fato de que é provável que se encontrem mais informações acionáveis e valiosas em conjuntos de dados pequenos do que grandes.

Calma aí, vamos explicar: há uma série de razões para este fenômeno, mas a principal é a maldição dos grandes dados.

“Big Data” significa grandes conjuntos de dados que têm propriedades diferentes dos pequenos conjuntos de dados e requerem métodos especiais de ciência de dados para diferenciar sinal de ruído para extrair significado e requer sistemas especiais de computação e potência.

A tal da maldição

Em termos simples, você encontrará mais relações “estatisticamente significativas” em conjuntos de dados maiores. 

“Estatisticamente significativo” significa uma avaliação estatística de se as observações refletem um padrão e não apenas o acaso e podem ou não ser significativas. 

Quanto maior o conjunto de dados, as relações mais “estatisticamente significativas” não terão significado – criando maior oportunidade de confundir ruído com sinal.  

“Sinal” significa uma interpretação significativa dos dados baseada na ciência que pode ser transformada em evidência científica e conhecimento. 

“Ruído” significa uma interpretação concorrente de dados não fundamentada na ciência que pode não ser considerada evidência científica. No entanto, o ruído pode ser manipulado em uma forma de conhecimento (o que não funciona).

Assim, grandes volumes de dados produzem mais correlações e padrões entre os dados – mas também produzem muito mais ruído do que sinal. 

O número de falsos positivos aumentará significativamente. Em outras palavras, mais correlações sem causa, levando a uma ilusão da realidade. 

“Correlação” significa qualquer uma de uma ampla classe de relações estatísticas envolvendo dependência.

“Correlação espúria” significa uma correlação entre duas variáveis que não resulta de nenhuma relação direta entre elas, mas de sua relação com outras variáveis. 

“Causa” significa a relação entre causa e efeito apoiada por evidências científicas (por exemplo, relação entre um evento (a causa) e um segundo evento (o efeito), onde o segundo evento é entendido como uma consequência do primeiro). 

“Correlação não implica causa” é uma frase usada em ciência e estatística para enfatizar que uma correlação entre duas variáveis não implica necessariamente que uma causa a outra.

No entanto, os seres humanos são treinados, desde a nossa evolução, para ver padrões. Esta é uma qualidade necessária para a sobrevivência na selva, mas nos diferencia em muitas formas de pensamento abstrato – especialmente o significado errôneo da aleatoriedade nos dados. Dito de outra forma, confundir ruído com sinal. 

Big Data torna mais difícil encontrar a agulha (acionável, valiosa percepção) em um palheiro cada vez maior.

Leia sobre os 8 níveis de Analytics para ganhar vantagem competitiva aqui!

O perigo é que seremos cada vez mais enganados pela aleatoriedade encontrada nos grandes dados e tomaremos más decisões como resultado, acreditando que o ruído é sinal.

A solução

Sugiro uma boa estratégia para resolver o problema da “maldição dos grandes dados”:  em muitos (mas não em todos) os casos, é a decomposição intencional e proposital de grandes conjuntos de dados em conjuntos de dados menores. 

A criação de conjuntos de dados menores a partir de dados grandes deve ser feita estrategicamente, não de forma aleatória. É mais fácil analisar e testar pequenos conjuntos de dados para diferenciar o sinal do ruído para extrair significado.

Cuidado com a maldição dos grandes dados e evite confundir ruído com sinal. Dados pequenos são, de fato, muito bonitos.

 

Published On: novembro 24th, 2021 / Categories: Uncategorized /

Aprenda a conseguir trabalho

Se inscreva para receber acesso gratuito ao módulo Conseguindo Trabalho!

Obrigado por se inscrever!
Houve um erro ao enviar sua inscrição. Tente novamente mais tarde.

Ao acessar, você concorda em receber nossos comunicados.