Há uma tendência, mesmo entre as pessoas que possuem um bom conhecimento de ciência de dados, de ver todos os dados que chegam para uma determinada organização como sendo de perfeita qualidade e utilidade.

Na realidade, os dados que qualquer organização coleta ao longo do tempo podem variar em graus de utilidade – desde altamente úteis e acionáveis até um desperdício completo de ciclos de computador e esforço de processamento. 

Já sabe a diferença entre Data Lake e Data Warehouse? Leia mais sobre isso aqui! 

Uma parte indispensável de qualquer estratégia de tratamento de dados é a compreensão e diferenciação do ouro e das piritas. 

Entropia

A entropia é uma medida de incerteza associada a variáveis aleatórias. Suponhamos que um departamento de meteorologia quer determinar se vai chover ou não hoje. Eles têm os dados meteorológicos coletados de vários dispositivos, com vários atributos de vento, pressão, umidade, e precipitação.

Se você escolher um valor da série de valores de umidade, como pode dizer quando vai chover ou não? A entropia está associada à variável aleatória “umidade” . 

Se a entropia for alta demais, ela indica que a variável umidade não tem potencial para dizer se choverá. Se a entropia for menor, então consideramos a umidade como uma boa variável a ser considerada nas análises posteriores. 

Outliers

O outlier é uma medida de “inusualidade”, associada a uma variável aleatória. Embora a umidade tenha um bom potencial para resolver o problema, nem todos os seus valores poderão ser úteis para o cálculo.

Crie um box plot e determine o número de outliers. Se uma maior porcentagem de valores estiver fora da caixa, então o resultado final seria menos exato. 

Nesse caso, é preciso descartar a variável umidade. Pegue outra variável e comece com o teste de entropia novamente. 

Covariância

A covariância é uma medida de relação entre duas variáveis. Como a variável X muda quando a variável Y muda. 

Se a umidade diminui à medida que o vento aumenta, então existe uma relação entre umidade e vento. Essa relação agrega mais valor na solução do problema. 

Quantas variáveis existem com uma covariância com pelo menos uma outra variável é o que buscamos medir. Quanto mais alta essa contagem, mais evidências podemos derivar para o resultado final. 

Leia mais sobre conceitos básicos de estatística em Data Science aqui!

 

Published On: setembro 16th, 2021 / Categories: Análise de Dados, Estatística /

Aprenda a conseguir trabalho

Se inscreva para receber acesso gratuito ao módulo Conseguindo Trabalho!

Obrigado por se inscrever!
Houve um erro ao enviar sua inscrição. Tente novamente mais tarde.

Ao acessar, você concorda em receber nossos comunicados.