domingo, 3 de novembro de 2019

Data Science workflow

Em 1970, John Tukey, alargava os horizontes das ciências estatísticas para além duma abordagem puramente matemática, como seria a elaboração de testes estatísticos, para uma abordagem mais indutiva com a definição de hipóteses a partir de dados (análise exploratória), ou seja, tentar perceber os dados antes de definir hipóteses a testar. Também o conceito de Knowledge Discovery in Databases (KDD) deve ser visto apenas como mais uma parte do mundo de Data Science.




data science = (statistics + informatics + computing + sociology + management) | (data + environment + thinking)



Sendo os data products o objectivo de qualquer projecto de Data Science, importa definir um workflow orientador que, embora não seja linear, permita esquematizar os passos a seguir:

  • Data Acquisition 
  • Data Preparation
  • Hypothesis and Modelling
  • Evaluation and Interpretation
  • Deployment
  • Operations 
  • Optimization
Weihs C, Ickstadt K. Data Science: the impact of statistics. International Journal of Data Science and Analytics. 2018; 6( 3): 189–194