Em 1970, John Tukey, alargava os horizontes das ciências estatísticas para além duma abordagem puramente matemática, como seria a elaboração de testes estatísticos, para uma abordagem mais indutiva com a definição de hipóteses a partir de dados (análise exploratória), ou seja, tentar perceber os dados antes de definir hipóteses a testar. Também o conceito de Knowledge Discovery in Databases (KDD) deve ser visto apenas como mais uma parte do mundo de Data Science.
data science = (statistics + informatics + computing + sociology + management) | (data + environment + thinking)
Sendo os data products o objectivo de qualquer projecto de Data Science, importa definir um workflow orientador que, embora não seja linear, permita esquematizar os passos a seguir:
- Data Acquisition
- Data Preparation
- Hypothesis and Modelling
- Evaluation and Interpretation
- Deployment
- Operations
- Optimization
Weihs C, Ickstadt K. Data Science: the impact of statistics. International Journal of Data Science and Analytics. 2018; 6( 3): 189–194