1) Escolha uma linguagem de programação 

O primeiro passo da sua jornada como cientista de dados é se familiarizar com as linguagens de programação disponíveis no mercado atualmente. Estude e escolha qual funciona melhor para você. 

Dentre as mais utilizadas hoje, a Python se mostra mais fácil e versátil – e possui inúmeras bibliotecas integradas, como a Numpy, Pandas, Seaborn, Scipy e MatplotLib –  sendo preferida pela maioria dos cientistas. 

O mais importante é se dedicar a dominar a linguagem que você escolher, tomando conhecimento das variáveis relevantes, tipos de dados, conceitos POOs (programação orientada a objetos), e das bibliotecas integradas. 

Links para cursos de Python online:

  1. Introdução à Ciência da Computação com Python USP: https://www.coursera.org/learn/ciencia-computacao-python-conceitos 
  2. Data Science Academy: https://www.datascienceacademy.com.br/ 
  3. Python para zumbis: https://www.youtube.com/playlist?list=PLUukMN0DTKCtbzhbYe2jdF4cr8MOWClXc 

2) Aprenda além do básico de estatística

Estatística é um dos componentes mais importantes do repertório de um cientista de dados. Ter um conhecimento avançado de estatística e probabilidade é fundamental para a interpretação correta de conjuntos amplos de dados, possibilitando uma análise completa dos mesmos. 

Existem milhares de maneiras diferentes de aprender independentemente, seja por vídeos no youtube, cursos e apostilas online, ou livros de estatística. 

Busque o método que funciona melhor para você e comece a estudar.

Cursos de estatística:

  1. Curso de Estatística – USP: https://www.cursou.com.br/geral/estatistica-usp/ 
  2. Estatística EVG: https://www.escolavirtual.gov.br/curso/96 

3) Aprenda SQL

A Structured Query Language (Linguagem de Consulta Estruturada) é uma linguagem de programação que lida com banco de dados relacional. 

Pode ser usada para analisar ou executar tarefas em tabelas, e foi criada para que vários desenvolvedores de uma empresa pudessem acessar e editar dados simultaneamente de forma rápida e fácil. 

Muitas empresas utilizam essa linguagem, tornando-a imprescindível não só para o futuro cientista de dados, mas para qualquer um que tenha que lidar com banco de dados.

Curso de SQL:

  1. SQL Básico Softblue: https://www.softblue.com.br/site/curso/id/3/CURSO+DE+SQL+COMPLETO+BASICO+AO+AVANCADO+ON+LINE+BD03+GRATIS 

4) Entenda a importância do Data Cleaning (limpeza de dados) 

Uma boa parte do tempo necessário para a realização de um projeto é alocado na limpeza do conjunto de dados (remoção de valores indesejados e preenchimento de lacunas, por exemplo). 

De acordo com o IBM Data Analytics, é normal gastar até 80% do seu tempo com a limpeza e organização de dados, sendo apenas 20% gasto com a análise propriamente dita. Algumas bibliotecas integradas da Python auxiliam nessa limpeza, como a Pandas e a Numpy, mas é importante saber manipular os dados utilizando a plataforma Microsoft Excel também. 

Como fazer data cleaning: 

5) Análise Exploratória de Dados

Componente essencial da ciência de dados, a análise exploratória de dados engloba inúmeras tarefas que possibilitam a extração de insights valiosos acerca do conjunto estudado. 

O cientista de dados deve encontrar padrões de dados, analisá-los e encontrar tendências. Para isso, utiliza-se alguns métodos estatísticos e gráficos, incluindo: análise de dados com Pandas e Numpy; manipulação de dados; visualização de dados. 

Aprenda mais sobre a análise exploratória de dados:

  1. Análise Exploratória de Dados UFPR: https://leg.ufpr.br/~fernandomayer/aulas/ce001n-2016-01/02_Analise_Exploratoria_de_Dados.html 
  2. Análise Exploratória de Dados Zurubabel: https://www.youtube.com/watch?v=4SetLMXelUY&list=PL4OAe-tL47sak0KV_g6VNlPMscQGEAT8t 

6) Aprenda os algoritmos de machine learning

O aprendizado de máquina (machine learning, em inglês) é um método de análise de dados pautado na automatização da construção de modelos analíticos. 

Deriva da inteligência artificial, e baseia-se na noção de que sistemas podem aprender com dados e identificar padrões, possibilitando uma tomada de decisão com o mínimo de intervenção humana necessária. 

É um passo crucial no ciclo de vida de um cientista de dados, pois este deve construir múltiplos modelos utilizando os algoritmos de machine learning e aprender a prever e elaborar soluções para qualquer problema. 

Para aprender mais sobre machine learning:

  1. Machine Learning Crash Course da Google: https://developers.google.com/machine-learning/crash-course/ml-intro 
  2. Machine Learning com Microsoft: https://www.microsoft.com/pt-br/academia 
  3. Machine Learning com Python: https://www.edx.org/course/machine-learning-with-python-a-practical-introduct 

7) Pratique em plataformas como Analytics Vidhya e Kaggle

Depois de adquirir os fundamentos da ciência de dados e compreender os conceitos-chave, pratique em plataformas online que podem transformar a teoria em prática. 

A Analytics Vidhya e a Kaggle são plataformas que fornecem experiências práticas tanto para todos os níveis, e podem te ajudar a entender os diferentes algoritmos e técnicas de análise que podem ser utilizadas. 

Geralmente, pode-se seguir alguns passos para começar a aplicar seu conhecimento nestas plataformas: 

  1. Baixe os conjuntos de dados e analise-os, utilizando as técnicas que você aprendeu;
  2. Busque os cadernos e anotações de pessoas mais experientes e tente entender como eles resolveram determinado problema ou como conseguiram insights daqueles dados;
  3. Participe em competições organizadas pelas plataformas. Isto não só refinará suas habilidades, mas consolidará sua aprendizagem em um ambiente competitivo. 

Aprenda a conseguir trabalho

Se inscreva para receber acesso gratuito ao módulo Conseguindo Trabalho!

Obrigado por se inscrever!
Houve um erro ao enviar sua inscrição. Tente novamente mais tarde.

Ao acessar, você concorda em receber nossos comunicados.