Ao criar um modelo preditivo, os data miners precisam “afiná-lo” para cometer o tipo certo de erro.  

Estabelecer o ponto de corte entre “promissor” e “não promissor” depende muito da maior preocupação de nosso cliente – oportunidades perdidas ou falsos alarmes.

Leia sobre 3 dicas infalíveis para o sucesso com Data Science aqui!

Mitos de mineração de dados # 1: O problema 50/50

As mudanças no campo de mineração de dados durante a última década são surpreendentes em termos da potência computacional disponível, do tamanho dos bancos de dados sendo gerados e das ferramentas de software desenvolvidas para modelá-los e analisá-los. 

Como funciona a ciência de dados para visibilidade social? Confira aqui!

Ao mesmo tempo, poucos progressos foram feitos na educação do público, em geral, e dos clientes, em particular, sobre a mineração de dados. 

Há muitas inverdades, meias-verdades e estatísticas simples por aí sobre como funciona a mineração de dados e como ela é utilizada. Neste e em artigos futuros, pretendemos esclarecer algumas das mais difundidas destas concepções errôneas.

Alguns equívocos surgem de simples erros de lógica. Muitas vezes, eles se originam de uma falta de familiaridade ou experiência. 

Qual é o impacto da inteligência artificial no mundo do design? Leia aqui!

Nenhum deles é particularmente técnico, sendo facilmente remediados com exemplos simples e explicações simples. Neste artigo, vou me concentrar em um conceito errado que eu chamo de “problema 50/50”.

Um exemplo do problema 50/50

Recentemente, eu estava trabalhando com um cliente muito brilhante e enérgico na indústria biotecnológica. Sua firma constrói equipamentos de imagem e presta serviços a empresas farmacêuticas. 

O equipamento de imagem gerou dados que ele queria usar para classificar os compostos químicos como candidatos promissores ou não promissores para drogas. 

Utilize a IA para impulsionar o seu website! Leia mais sobre esse assunto aqui!

Acontece que, no vasto mundo dos compostos químicos, há mais candidatos a medicamentos não promissores do que promissores – muito mais. 

Meu trabalho era usar técnicas de mineração de dados para criar um classificador (uma fórmula matemática ou um conjunto de regras) que distinguisse com sucesso os candidatos a drogas promissores dos não promissores – usando dados produzidos pelo equipamento de imagem.

Após algum trabalho inicial, apresentei um classificador ao meu cliente. Relatei alegremente que o classificador rotulava corretamente os compostos promissores como promissores 10% do tempo. Meu cliente estava completamente desiludido. A resposta dele foi: “Mas você pode chegar a 50% só atirando uma moeda ao ar”.

Na verdade, um classificador muito simples pode fazer muito melhor do que 50%. Mencionei anteriormente que há muito mais compostos não promissores do que os promissores. 

Neste projeto, 999 de cada 1000 compostos eram pouco promissores, ou 99,9%. Um classificador que rotula cada composto como pouco prometedor é correto 99,9% do tempo. 

Apesar de sua aparente alta precisão, tal classificador é inútil para uma empresa farmacêutica. Por quê? Tal classificador recomendaria que nenhum composto jamais fosse desenvolvido como um medicamento potencial. Cumprindo rigorosamente o classificador, a pesquisa para salvar vidas pararia abruptamente.

Resumindo o problema 50/50 

Está se tornando evidente o equívoco? Meu cliente, como muitas pessoas inteligentes, cometeu um simples erro de raciocínio. 

Ele fez a suposição de que, como havia dois resultados possíveis (promissores e não promissores), então os resultados eram ambos 50% prováveis. Este é o “problema 50/50”.

Minha teoria é que muitos de nós somos vítimas de nossa própria educação. Todos os meus livros de probabilidades introduziram o assunto com discussões sobre a troca de moedas. Tendo isso como ponto de partida, talvez não seja de se admirar que as pessoas façam a suposição 50/50 sem sequer pensar sobre isso.

 

Published On: novembro 24th, 2021 / Categories: Dicas e Habilidades, Inteligência Artificial, Negócios /

Aprenda a conseguir trabalho

Se inscreva para receber acesso gratuito ao módulo Conseguindo Trabalho!

Obrigado por se inscrever!
Houve um erro ao enviar sua inscrição. Tente novamente mais tarde.

Ao acessar, você concorda em receber nossos comunicados.