domingo, 3 de novembro de 2019

Data Science workflow

Em 1970, John Tukey, alargava os horizontes das ciências estatísticas para além duma abordagem puramente matemática, como seria a elaboração de testes estatísticos, para uma abordagem mais indutiva com a definição de hipóteses a partir de dados (análise exploratória), ou seja, tentar perceber os dados antes de definir hipóteses a testar. Também o conceito de Knowledge Discovery in Databases (KDD) deve ser visto apenas como mais uma parte do mundo de Data Science.




data science = (statistics + informatics + computing + sociology + management) | (data + environment + thinking)



Sendo os data products o objectivo de qualquer projecto de Data Science, importa definir um workflow orientador que, embora não seja linear, permita esquematizar os passos a seguir:

  • Data Acquisition 
  • Data Preparation
  • Hypothesis and Modelling
  • Evaluation and Interpretation
  • Deployment
  • Operations 
  • Optimization
Weihs C, Ickstadt K. Data Science: the impact of statistics. International Journal of Data Science and Analytics. 2018; 6( 3): 189–194

sábado, 7 de setembro de 2019

eu no mundo dos dados


Esta infografia visa representar qual a minha localização neste ‘mundo dos dados’. Resumidamente, sou um especialista em análise de dados, com algum conhecimento de engenharia de dados e em constante formação para ser um cientista de dados.

As posições de Cientista, Analista e Engenheiro de dados não são posições estanques com áreas de intervenção rígidas. Pelo contrário, estas três posições sobrepõem-se em vários momentos. Se um engenheiro de dados tem de ter uma formação sólida em informática ou ciências da computação, do cientista de dados e analista de dados espera-se que dominem áreas da matemática e em particular da estatística. No entanto, se estes não forem capazes de usar com mestria ferramentas da informática e da computação então serve-lhes de pouco, todo o conhecimento e saber que possam ter em matemática. Por outro lado, o engenheiro de dados desenvolve plataformas de trabalho para analistas e cientistas de dados, pelo que precisa de ter também conhecimentos de estatística para potencializar a utilidade dessas plataformas.

Mas para fazer análise de dados, independentemente da posição que se ocupe, é preciso não só dominar a arte mas também ser conhecedor do negócio.