Embora sejam muito similares, cada um desses termos desempenha um papel único em seu processo de preparação de dados e construção de modelos. 

Portanto, você deve saber quando e como utilizar estes importantes procedimentos.

Normal, padrão, e regular são termos bastantes parecidos. Entretanto, cada um caracteriza uma aplicação única e específica. Vamos aprender a diferença entre esses processos e como desempenhá-los da forma correta no uso da estatística!

Normalização

Um uso da normalização é a normalização de texto: processo pelo qual o texto é preparado para análise com ferramentas de processamento de linguagem natural. 

O termo também é utilizado na descrição da estrutura e organização do banco de dados.

Entretanto, há ainda outro significado comumente usado (mas ainda um pouco variável) de normalização: métodos para dimensionar seus dados. 

Essa variação da variância pode causar problemas para a aprendizagem da máquina. Para resolver isso, o escalonamento de características de alguma forma é recomendado.

Redes neurais e máquinas vetoriais de suporte são sensíveis ao escalonamento, juntamente com algoritmos que utilizam as distâncias entre pontos em seus cálculos (como clustering e PCA). 

Um feature com valores abrangentes pode ter uma influência desproporcional sobre as previsões destes modelos quando comparada a outras características.

Portanto, normalmente é melhor restringir todos os valores das características a uma faixa mais restrita, de modo que todos sejam integrados igualmente ao modelo.

Padronização

A padronização pode ser utilizada para cobrir todas essas formas de escalonamento. Entretanto, um uso popular do termo é um método de escalonamento que pode ser chamado, mais especificamente, de z-score. 

Essa abordagem toma os valores de suas características e os escalona para que acabem sendo normalmente distribuídos (ajustando-se àquela curva do sino). 

Os valores são transformados e, portanto, sua média é 0 e seu desvio padrão é 1. 

A padronização é especialmente importante para algoritmos de aprendizagem de máquinas que utilizam medidas de distância, e para aqueles que são construídos com base na suposição de que seus dados são normalmente distribuídos. 

Regularização

Este termo é tão similar aos anteriores que geralmente classificamos igualmente à normalização e padronização. 

Na verdade, a regularização é uma estratégia utilizada para construir modelos com melhor desempenho, reduzindo as chances de sobreajustamento, ou quando o seu modelo faz um trabalho tão bom de adequação aos seus dados de treinamento que ele tem um desempenho ruim em novos dados.

Vamos simplificar: a regularização é uma forma eficiente de ajudar seu modelo a se generalizar melhor, evitando que ele se torne muito complexo. 

Ao contrário da normalização e da padronização, a regularização não faz parte do pré-processamento de dados. Ela é um componente opcional no processo de construção do modelo.

Published On: agosto 17th, 2021 / Categories: Data Science /

Aprenda a conseguir trabalho

Se inscreva para receber acesso gratuito ao módulo Conseguindo Trabalho!

Obrigado por se inscrever!
Houve um erro ao enviar sua inscrição. Tente novamente mais tarde.

Ao acessar, você concorda em receber nossos comunicados.