“Nem tudo o que conta pode ser contado, nem tudo o que pode ser contado conta”. – Albert Einstein

 

Desde seu início, há um debate potente sobre o uso de métodos científicos estabelecidos na prática da ciência dos dados.

Alguns sugerem que métodos científicos tradicionais devem ser usados, enquanto outros afirmam que novos métodos científicos devem ser desenvolvidos – especialmente considerando algoritmos, aprendizagem de máquinas e inteligência artificial futura. Parte desse debate inclui a necessidade da formação de hipóteses. Eu sugiro que a resposta é: depende. 

Leia sobre 5 habilidades que todo analista de dados precisa ter! 

Vamos estipular que “Data Science” significa o estudo científico da criação, manipulação e transformação de dados para criar significado e “Data Scientist” significa um profissional que usa métodos científicos para liberar e criar significado a partir de dados brutos.

Simplificando, uma hipótese é uma explicação proposta para um fenômeno e faz parte do método científico. “Método científico” significa um método de pesquisa no qual um problema é identificado, dados relevantes são coletados, uma hipótese é formulada a partir destes dados, e a hipótese é testada empiricamente.

Sugere-se que os métodos de ciência de dados das melhores práticas consistem nos seguintes passos:

(1) Observações cuidadosas dos dados, conjuntos de dados e relações entre os dados.

(2) Dedução de significado a partir dos dados e diferentes relações entre os dados.

(3) Formação de hipóteses.

(4) Teste experimental ou observacional da validade da hipótese.

Leia sobre as 7 regras de ouro para entregar projetos de ML sem perder o prazo

Para ser chamado de científico, um método de investigação deve ser baseado em evidências empíricas e mensuráveis, sujeito a princípios específicos de raciocínio.

Sugiro que haja uma diferença entre o uso do método científico para fins de ciência dura e de negócios ou política. 

Para que uma hipótese seja uma hipótese científica, o método científico requer que se possa testá-la. Os cientistas geralmente baseiam as hipóteses científicas em observações anteriores que não podem ser explicadas de forma satisfatória com as teorias científicas disponíveis.

Para que uma hipótese seja uma hipótese de negócios ou política, as normas podem ser diferentes. 

Na verdade, pode ou não ser necessário formular uma hipótese para fins comerciais ou de política pública – dependendo do assunto e do contexto.

Note que mesmo sem uma hipótese, é prudente usar métodos científicos padrão para medir e registrar quaisquer resultados experimentais ou de teste para a tomada de decisão ótima e melhoria contínua.

Um cientista de dados trabalhando em um caso de negócios ou política pode encontrar uma série de correlações estatisticamente significativas nos dados sem prova de causalidade. 

Às vezes isso importa (por razões que podem ser difíceis de entender), e outras vezes não. Na ausência de causalidade, estas correlações podem ou não ter valor. Depende do domínio e do contexto.

O segredo

O segredo dos negócios e das políticas públicas (mas não em disciplinas científicas difíceis) – quando lidamos com um comportamento humano imprevisível – é que executar muitos experimentos é muitas vezes (mas nem sempre) superior a criar um modelo para testar uma hipótese. 

Os modelos são – em todos os casos, em graus variáveis – defeituosos. Por exemplo, tentar encontrar uma ou mais variáveis causais em um modelo financeiro, identificar por que a hipótese poderia ser verdadeira antes de triturar os dados é vital, considerando que se trata de um modelo generalizado. 

No entanto, não é necessário construir um modelo geral para entender o comportamento humano e os padrões de compra.

Encontrando uma forte correlação entre A e B e o aumento das vendas, você pode executar um experimento ou melhor ainda uma série de experimentos controlados para ver o que funciona. Você nem precisa saber por que funciona ou não funciona – embora isso seria bom.

Assim, a resposta a se é necessário formar uma hipótese depende do assunto e do contexto. Em disciplinas científicas difíceis (por exemplo, biometria/econometria) absolutamente sim. 

Em negócios e políticas públicas – às vezes sim (por exemplo, saúde/sistema jurídico) e às vezes não (por exemplo, marketing/vendas). Outra complicação é o projeto e a execução de algoritmos e o aprendizado de máquinas quando se pratica a ciência dos dados. 

Comece agora a sua carreira em ciência de dados clicando aqui! 

Published On: novembro 24th, 2021 / Categories: Uncategorized /

Aprenda a conseguir trabalho

Se inscreva para receber acesso gratuito ao módulo Conseguindo Trabalho!

Obrigado por se inscrever!
Houve um erro ao enviar sua inscrição. Tente novamente mais tarde.

Ao acessar, você concorda em receber nossos comunicados.