Eu estava lendo um artigo escrito por cientistas do Google sobre como prever o clique do anúncio com base na consulta do usuário e o texto do anúncio. 

O artigo focaliza o grande número de métricas no modelo (bilhões de recursos), o uso de alguma regressão logística (uma técnica estatística), e técnicas de otimização (análise numérica, métodos gradientes) para resolver a regressão logística (encontrar os coeficientes ótimos de regressão). 

Como seria de se esperar, eles discutem longamente como o espaço de recursos é escasso, e como tirar proveito da escassez para projetar um algoritmo eficiente.

Tudo isso parece ótimo, e certamente é um exemplo de livro de texto de uma aplicação correta, boa e interessante da aprendizagem da máquina. De fato, na minha opinião, isto é ciência da computação.

Confira 4 skills que você precisa construir para 2022!

Tenho duas críticas, e praticamente em todas as coisas de “ciência pura” que li, as críticas são idênticas. Ela se resume a (1) usar uma arma nuclear para matar uma mosca, e não percebê-la, e (2) não mostrar o elevador sobre uma metodologia básica projetada por especialistas de domínio – neste caso, especialistas com profunda experiência simultaneamente em tecnologia publicitária, gestão empresarial e estatística. 

Embora o Google esteja fazendo melhor do que muitas empresas com seus algoritmos, acho que eles poderiam fazer ainda melhor com menos esforços, concentrando-se menos na ciência e mais na especialização do domínio.

Esta é precisamente a lacuna que a ciência dos dados está tentando preencher.

Deixe-me ilustrar meu ponto sobre esta técnica de predição de anúncios, desenvolvida pelo Google.

1. O que estamos tentando realizar?

Essa é a primeira pergunta que todos os cientistas de dados devem fazer. Aqui, talvez o Google esteja tentando maximizar o número de cliques entregues aos anunciantes, para aumentar sua receita. 

Talvez o trabalho de pesquisa seja usado pelo Google internamente. Ou talvez, o objetivo seja ajudar os anunciantes, que sempre querem mais cliques – desde que eles estejam se convertendo em vendas.

Se o trabalho for para uso interno do Google, deve haver uma discussão sobre o fato de que o aumento da taxa de cliques (CTR) para aumentar a receita do Google só funciona a curto prazo. 

Já leu sobre o problema 50/50? Confira aqui!

O aumento da CTR (pela editora, neste caso o Google) acaba resultando para muitos anunciantes em menor ROI, como já experimentamos inúmeras vezes. Pelo menos, deveria haver uma discussão sobre metas de longo prazo (impulsionando conversões) juntamente com metas de curto prazo (impulsionando o CTR). 

Ambas são necessárias e não podem ser consideradas separadamente em nenhum problema de otimização de negócios.

Se o jornal é para os anunciantes, ele perde o ponto: a maioria dos anunciantes (aqueles interessados em tráfego real por humanos reais) estão interessados em conversões. 

É muito fácil para os anunciantes mudar a redação de seus anúncios e adicionar palavras-chave a suas campanhas para gerar toneladas de cliques e… ROI negativo. 

A exceção são os anunciantes que são os próprios editores, e cobram de seus clientes de publicidade a jusante utilizando um modelo por impressão (onde um clique do Google é uma impressão para seus clientes) – em suma, árbitros de cliques.

2. Precisamos de uma arma nuclear para matar uma mosca?

Usando bilhões de recursos, a maioria deles quase nunca acionados, não faz sentido. Como lidar com as co-dependências entre essas características, e que significado estatístico você obtém de 99,9% das características que são acionadas não mais de 3 vezes em 500 bilhões de observações (cliques). 

Claro, você poderia fazer alguma mistura e agrupamento de características – uma técnica bastante cara, computacionalmente falando – mas eu acho que esta questão de agregação de características não foi sequer discutida em seu trabalho.

Além disso, a grande maioria destas características são provavelmente criadas automaticamente, através de algoritmos de geração de características. 

Este é de longe o componente mais intrigante de seu sistema – mas não é discutido no artigo. É um problema de otimização combinatória, analisando todas as relações (relações, produtos, transformações de log e outros mapeamentos, como a categoria IP) entre um conjunto de métricas básicas, como campos de arquivos de log, para descobrir características com poder preditivo. 

Algumas características também são criadas em massa por analistas que analisam os dados. Este conjunto de bilhões de características poderia muito bem estar faltando 2 ou 3 características centrais (mas não óbvias) que tornariam o algoritmo muito superior. 

O Google não menciona nenhuma das características usadas em seu algoritmo, no documento em questão.

Acredito que você pode resolver este problema de previsão de cliques de anúncio com apenas algumas características (uma característica é uma variável) cuidadosamente selecionada por um especialista em domínio. Aqui estão as que eu escolheria, acredito que é improvável que elas sejam criadas por um algoritmo de geração automática de recursos.

Minhas características recomendadas, para prever o clique do anúncio

A categoria da palavra-chave corresponde à categoria atribuída ao anúncio de texto? Isto significa que você tem um algoritmo para atribuir categorias a uma consulta de usuário e a um anúncio de texto. 

Isto significa que você tem outro algoritmo para padronizar as consultas do usuário e ser capaz de discriminar, por exemplo, entre mineração de dados (dados sobre mineração) e mineração de dados (os algoritmos do Google não podem). 

Isto também significa que você tem uma lista de 500 categorias, 100.000 subcategorias e 3 milhões de subcategorias, o suficiente para cobrir 99,99% de todas as consultas de usuários comerciais (onde os anunciantes estão licitando). 

Note que uma palavra-chave pode ter 2 ou 3 termos, como no seguro automóvel Alabama e duas categorias como seguro e regional.

3. Onde as estatísticas inteligentes ajudam

Desenvolvi árvores de decisão ocultas para resolver este tipo de problemas, precisamente depois de perceber a grande esparsidade do espaço de recursos. 

Precisamos de uma regressão logística com um algoritmo de gradiente? Precisamos realmente de uma solução exata quando os dados em si são muito confusos? 

Aposto que você pode fazer grandes previsões usando apenas 20 recursos cuidadosamente selecionados, e é aí que o cientista de dados também pode ajudar: aplicando seu conhecimento estatístico para criar um sistema que roda 1.000 mais rápido, usa muito menos recursos de computador, e fornece resultados semelhantes ou melhores. 

Você não precisa nem mesmo usar técnicas padrão como a regressão logística (robusta). Trabalho com estatísticas sem modelos há muito tempo, com grande satisfação, e sim, também calculei intervalos de confiança sem modelos.

Outra área onde as estatísticas podem ajudar  

Se você realmente gosta de trabalhar com bilhões de recursos – é na identificação de recursos com poder de previsão. 

Tenho certeza que a maioria dos bilhões de recursos usados pelo Google não tem poder de previsão, na verdade o poder de previsão nunca é discutido em seu artigo. Às vezes, duas características não têm poder de previsão, mas quando combinadas, elas têm. 

Por exemplo, país (EUA vs. Reino Unido) e hora do dia têm um poder preditivo muito maior quando combinados juntos. 

A ciência estatística pode ajudar a definir o poder preditivo e avaliar quando ele é significativo. 

Finalmente, se você tiver bilhões de características, encontrará necessariamente características que parecem ter poder preditivo, mas na verdade não têm. 

Pior: estas características espúrias podem ofuscar as que realmente têm poder de previsão, tornando seu sistema propenso a erros sistêmicos, e resultando em previsões caóticas. 

Published On: novembro 25th, 2021 / Categories: Uncategorized /

Aprenda a conseguir trabalho

Se inscreva para receber acesso gratuito ao módulo Conseguindo Trabalho!

Obrigado por se inscrever!
Houve um erro ao enviar sua inscrição. Tente novamente mais tarde.

Ao acessar, você concorda em receber nossos comunicados.