Mesmo em meio à tantas inovações no mercado de ciência de dados, ainda mantemos conceitos fundamentais, que servem como base para o aprendizado de qualquer habilidade na área. 

Com isso em mente, explicitamos 15 dos conceitos base mais importantes para quem está entrando no campo da ciência de dados agora. 

1) Dataset

A ciência de dados é definida como um ramo da ciência que aplica o método científico aos dados, com o objetivo de estudar as relações entre diferentes conjuntos e tirar conclusões e insights com base nesses estudos. 

Portanto, os dados são componentes chave na ciência de dados. Um conjunto de dados é uma instância particular de dados que é utilizada para análise ou construção de modelos em um determinado momento. 

Um conjunto de dados pode vir em diferentes formas, como: dados numéricos; categóricos; de imagem; de texto; de voz; e de vídeo. 

O conjunto pode, ainda, ser estático ou dinâmico, e pode depender do espaço. Os dados de temperatura dos Estados Unidos, por exemplo, seriam muito diferentes dos dados de temperatura no Brasil. 

2) Data Wrangling

Wrangling é o processo de conversão de dados do seu estado “cru” para um mais organizado, que está pronto para análise.

É uma etapa muito importante do pré-processamento de dados, e inclui vários processos, como: importação, limpeza e estruturação dos dados; análise HTML; processamento de strings; manuseio de dados ausentes; e mineração de texto. 

3) Visualização de Dados

A visualização de dados é um dos ramos mais importantes da ciência de dados. É uma das principais ferramentas utilizadas para analisar e estudar as relações entre diferentes variáveis.

A visualização de dados – gráficos de dispersão, gráficos de linhas, gráficos de barras, histogramas, boxplots, e etc – pode ser usada para análise descritiva.

Também é bastante utilizada na aprendizagem de máquinas para pré-processamento e análise de dados, seleção de características, construção, testes e avaliação de modelos. 

4) Outliers

Um outlier é um ponto de dado que é muito diferente do resto do conjunto. Outliers são, frequentemente, apenas dados ruins – devido a um sensor com mau funcionamento, experimentos contaminados, ou erro humano, por exemplo. 

Às vezes, entretanto, indicam algo real, como um mau funcionamento do sistema. Eles são comuns, e esperados em grandes conjuntos de dados. 

Os outliers podem degradar significativamente o poder preditivo de um modelo de aprendizagem de máquina. Portanto, uma maneira comum de lidar com eles é simplesmente omitindo-os.

Entretanto, a remoção dos outliers pode levar a resultados muito otimistas, e o modelo acaba se tornando irrealista. 

5) Análise de Componentes Principais (PCA) 

Inevitavelmente, quando se há um grande conjunto de dados com milhares de features, haverá algumas redundâncias – especialmente quando os features estão correlacionados uns com os outros.

O treinamento de um modelo em um conjunto de dados de alta dimensão com demasiados features pode, às vezes, levar a sobre ajustes (onde o modelo captura tanto efeitos reais quanto aleatórios).

Além disso, um modelo excessivamente complexo pode se tornar muito difícil de interpretar. Uma maneira de solucionar esse problema é através da seleção de características e técnicas de redução da dimensionalidade, como o PCA. 

A Análise de Componentes Principais é um método estatístico que é usado para extração de características. 

A PCA é usada para dados altamente dimensionais e correlacionados. A ideia básica do método é transformar o espaço original das características no espaço do componente principal. 

6) Análise Linear Discriminatória (LDA)

A LDA, assim como a PCA, é uma técnica de transformação linear de pré-processamento de dados frequentemente utilizada para reduzir dimensionalidade e selecionar características relevantes que podem ser usadas no algoritmo de aprendizagem final da máquina.

O objetivo do LDA é encontrar o subespaço de características que otimiza a separabilidade de classes e reduz a dimensionalidade. Desta forma, o LDA é um algoritmo supervisionado, ao passo que o PCA não é. 

7) Aprendizagem Supervisionada

Os algoritmos de aprendizagem de máquinas que realizam a aprendizagem através do estudo da relação entre as variáveis de característica e a variável-alvo conhecida são supervisionados. 

Esse tipo de aprendizagem possui duas subcategorias:

  1. Variáveis-alvo contínuas

Algoritmos para prever variáveis-alvo contínuas incluem Regressão linear, Regressão KNeighbors (KNR) e Regressão Vetorial de Suporte (SVR). 

  1. Variáveis de destino discretas 

Algoritmos para prever variáveis-alvo discretas incluem: Classificador Perceptron; Classificador de Regressão Logística; Máquinas Vetoriais de Apoio (SVM); Classificador K-nearest; Classificador Naive Bayes. 

8) Aprendizagem Não Supervisionada

Na aprendizagem não supervisionada, lida-se com dados não rotulados, ou com dados de estrutura desconhecida. 

Utilizando técnicas de aprendizagem sem supervisão, somos capazes de explorar a estrutura dos dados para extrair informações significativas sem a orientação de uma variável de resultado conhecida ou função de recompensa.

9) Aprendizagem de Reforço

Na aprendizagem de reforço, o objetivo é desenvolver um sistema (Agente) que melhore seu desempenho com base nas interações com o ambiente.

Como as informações sobre o estado atual do ambiente normalmente também incluem um chamado sinal de recompensa, pode-se pensar no aprendizado de reforço como um campo relacionado ao aprendizado supervisionado. 

Entretanto, no aprendizado de reforço, o feedback não é o rótulo ou valor correto da verdade do terreno, mas uma medida de quão bem a ação foi medida por uma função de recompensa. 

Através da interação com o ambiente, um agente pode então usar o aprendizado de reforço para aprender uma série de ações que maximizam esta recompensa. 

10) Métricas de Avaliação

Na aprendizagem de máquinas (análise preditiva), há várias métricas que podem ser usadas para avaliação de modelos. 

Um modelo de aprendizagem supervisionada (alvo contínuo), por exemplo, pode ser avaliado usando métricas como a pontuação R2, erro quadrático médio, ou erro absoluto médio.

Além disso, um modelo de aprendizagem supervisionada (alvo discreto) pode ser avaliado usando métricas como precisão, recall, pontuação f1 e a área sob a curva ROC. 

11) Quantificação da Incerteza

É importante construir modelos de aprendizagem de máquinas que produzam estimativas imparciais de incertezas nos resultados calculados.

Devido à aleatoriedade inerente ao conjunto de dados e ao modelo, parâmetros de avaliação como a pontuação R2 são variáveis aleatórias e, portanto, é importante estimar o grau de incerteza no modelo.

12) Matemática básica

  1. Cálculo básico

A maioria dos modelos de aprendizagem de máquina são construídos com um conjunto de dados com várias características ou preditores. 

A familiaridade com o cálculo multivariável é extremamente importante para a construção de um modelo ML. 

Se familiarize com os seguintes tópicos: 

  • Funções de várias variáveis
  • Derivativos e gradientes
  • Função Step
  • Função Sigmoid
  • Função Logit
  • Função de Custo
  • Plotting de funções
  • Valores mínimos e máximos de uma função
  1. Álgebra Linear básica

A álgebra linear é a habilidade matemática mais importante na aprendizagem de máquinas. 

Um conjunto de dados é representado como uma matriz. A álgebra linear é utilizada no pré-processamento de dados, na transformação de dados, e na redução de dimensionalidade e avaliação de modelos.

Tome conhecimento dos seguintes tópicos: 

  • Vetores
  • Normas de vetores
  • Matrizes
  • Transposição de uma matriz
  • Inverso de uma matriz
  • Determinante de uma matriz
  • Traço de uma matriz
  • Produto de ponto
  • Valores próprios
  • Vetores próprios
  1. Métodos de otimização

Grande parte dos algoritmos de aprendizagem de máquina realiza a modelagem preditiva minimizando uma função objetiva, aprendendo os presos que devem ser aplicados aos dados de teste a fim de obter as etiquetas previstas.

Busque aprender sobre:

  • Função de custo / função objetiva
  • Função de probabilidade
  • Função de erro
  • Algoritmo de descida gradual e suas variantes 

13) Estatística e Probabilidade

Estatística e probabilidade são usadas para a visualização dos dados, pré-processamento, transformação de features, imputação de dados, redução da dimensionalidade, engenharia de características, avaliação de modelos, entre outros.

Familiarize-se com os seguintes tópicos:

  • Média
  • Mediana
  • Moda
  • Desvio padrão
  • Variância
  • Coeficiente de correlação
  • Matriz de covariância
  • Distribuições de probabilidade (Binomial, Poisson, Normal)
  • Valor P
  • Teorema de Bayes
  • Teorema do Limite Central
  • Pontuação R2
  • Erro Quadrado Médio
  • Teste A/B
  • Simulação Monte Carlo

14) Ferramentas de Produtividade

Um projeto típico de análise de dados envolve vários componentes, cada um incluindo vários arquivos de dados e diferentes scripts com código.

Manter tudo isso organizado e de fácil acesso pode ser um desafio, e as ferramentas de produtividades podem ajudar com isso.

Algumas ferramentas de produtividade essenciais para a prática da ciência de dados incluem: Unix/Linux, git, GitHub, RStudio e Jupyter Notebook. 

15) Data Scaling

O dimensionamento de suas características auxiliará na melhora da qualidade e do poder preditivo do seu modelo.

Sem escalonar suas características, o modelo poderá ser tendencioso com relação aos pesos de alguns parâmetros.

Com o intuito de trazer as características à mesma escala, pode-se decidir utilizar a normalização quanto a padronização das características.

É importante perceber como suas características são distribuídas estatisticamente antes de decidir se utilizará a padronização ou normalização. 

Se a característica tende a ser uniformemente distribuída, então podemos usar a normalização (Min Max Scaler). 

Se a característica for aproximadamente Gaussiana, então pode-se usar a padronização (Standard Scaler). 

Published On: julho 19th, 2021 / Categories: Data Science, Fundamentos /

Aprenda a conseguir trabalho

Se inscreva para receber acesso gratuito ao módulo Conseguindo Trabalho!

Obrigado por se inscrever!
Houve um erro ao enviar sua inscrição. Tente novamente mais tarde.

Ao acessar, você concorda em receber nossos comunicados.