sábado, 8 de julho de 2017

Quando os números são notícia



Convocados os jornalistas, monta-se o palanque. Um membro do governo e por trás uns senhores que até usam fardas. Nesta notícia a Sra Secretária de Estado debita: "Foram controladas 263531 pessoas. Ocorreram 126 recusas de entrada por questões documentais. Foram realizadas 234827 acções de fiscalização, sendo 146893 relativamente a pessoas; 87833 relativamente a viaturas; 81 embarcações; e 20 acções de fiscalização na circulação ferroviária..."

Imaginemos, por absurdo, que a senhora diz: "Foram controladas 632153 pessoas. Ocorreram 261 recusas de entrada por questões documentais. Foram realizadas 423782 acções de fiscalização, sendo 344871 relativamente a pessoas; 78833 relativamente a viaturas; 18 embarcações; e 60 acções de fiscalização na circulação ferroviária..."

Ou ainda pior. E se ela diz: "Foram controladas 326135 pessoas. Ocorreram 612 recusas de entrada por questões documentais. Foram realizadas 324827 acções de fiscalização, sendo 241367 relativamente a pessoas; 83378 relativamente a viaturas; 50 embarcações; e 22 acções de fiscalização na circulação ferroviária..."

Pois... era tudo a mesma coisa.


Para fazer análise estatística ou análise de dados não basta debitar números que embora sejam factuais, só por si, não tem qualquer significado.

Quem faz análise de dados tem de preencher dois requisitos:
Primeiro, ser conhecedor do negócio
Segundo, ser conhecedor da arte 

segunda-feira, 3 de julho de 2017

Revisão por pares

A revisão por pares é, por norma, um processo objectivo para o qual há regras bem definidas. Os revisores são, na maior parte das vezes, pessoas altruístas e abnegadas que dispensam o seu tempo e experiência em favor de terceiros que podem nem conhecer. Só por isto merecem todo o respeito e consideração por parte dos autores em revisão.

Para quem se sujeita a ter o seu trabalho revisto por anónimos, este processo pode muitas vezes parecer uma corrida de obstáculos, pouco convencional.


sexta-feira, 26 de maio de 2017

MICROSOFT - acrónimos



  • MSVS – Microsoft Visual Studio
  • SSMS – SQL Server Management Studio
  • SSDT-BI – SQL Server Data Toll - Business Intelligence
  • SSIS – SQL Server Integration Services
  • SSAS – SQL Server Analysis Services
  • SSRS – SQL Server Reporting Services


 


Usamos o ambiente MSVS para correr o SSDT-BI que engloba as soluções SSIS, SSAS, SSRS.
SSIS serve para preparar os dados a serem analisados (Extract Transform and Load (ETL)); SSAS serve para analisar os dados armazenados em SSMS; SSRS é uma solução de visualização de dados.


PS: SQL - Structured Query Language

terça-feira, 16 de maio de 2017

Regressão logística

“While the individual man is an insoluble puzzle, in the aggregate he becomes a mathematical certainty. You can, for example, never foretell what any one man will do, but you can say with precision what an average number will be up to.”

Sir A. Conan Doyle in Sherlock Holmes: the sign of four













Os modelos de regressão logística são muitas vezes usados para resolver problemas de classificação. São modelos lineares generalizados em que a variável dependente é uma variável categórica que pode ser explicada por uma ou mais variáveis independentes continuas e/ou categóricas.
Quando tentamos prever um resultado dicotómico (por exemplo: tem a doença vs não tem a doença) temos sempre associadas probabilidades de erro. Estes erros podem ser do tipo I (falsos positivos) e do tipo II (falsos negativos).

















APPLIED LOGISTIC REGRESSION



quarta-feira, 10 de maio de 2017

Regressão Linear

Sir Francis Galton (FG) (fevereiro de 1822 – janeiro de 1911) foi um estatístico inglês que publicou mais de 340 artigos e livros onde cunhou os termos ‘correlação’ e ‘regressão’. Primo de Charles Darwin e com base na obra deste criou o conceito de “eugenia” como sendo a melhoria de uma determinada espécie através de selecção artificial.
Um dos trabalhos de FG consistiu em estudar a relação entre a altura de pais e filhos. Concluiu que os filhos tendem a ser da altura aproximada dos respectivos pais e, mais relevante, que a altura dos filhos tende a ser próxima da altura média de todas as pessoas. Ou seja, as características dos filhos regridem para um ponto médio (“regression towards mediocrity”). Com a quantificação desta tendência, FG inventou a Análise de Regressão Linear.





LINEAR REGRESSION IN R - R TUTORIAL

Understanding Diagnostic Plots for Linear Regression Analysis

terça-feira, 9 de maio de 2017

O Xico constipou-se

Uma vez o Xico estava constipado, doía-lhe a cabeça, doía-lhe a garganta, tinha o nariz entupido e também um pouco de febre. Foi à farmácia, onde, depois de lhe venderem umas pastilhas para a garganta e um paracetamol, lhe disseram: “se daqui a dois ou três dias estiver igual, venha cá buscar um antibiótico”.
Passados três dias o Xico estava na mesma. Antes de ir à farmácia outra vez, pensou que era melhor ir ao médico. Assim fez. À médica que o consultou, disse o que lhe doía e que já tinha ido à farmácia onde lhe disseram para lá voltar a buscar o antibiótico. Ao ouvir a ‘prescrição’ da farmacêutica, a médica olhou com reprovação para o Xico e perguntou-lhe a que farmácia tinha ido. O Xico (que não se queria chibar) disse que já não se lembrava, seguramente devido ao seu fraco estado físico.

A médica fez a avaliação clínica do Xico e no fim receitou-lhe um antibiótico. A caminho da farmácia para aviar a receita, o Xico não podia deixar de pensar que para a próxima seguiria os conselhos da farmacêutica e poupava uma consulta médica.




Na área da saúde, não é raro depararmo-nos com pessoal das biologias (leia-se aqui: médicos, enfermeiros, farmacêuticos, biólogos, bioquímicos ou outro(a)s Dr(a)s que tais) que se dizem conhecedores de Análise Estatística e que até sabem trabalhar com o SPSS. Ao ver os trabalhos de estatística destes Dr(a)s, certamente que o Xico depressa dispensaria os serviços que pudesse prestar um Estatístico com formação. 

segunda-feira, 8 de maio de 2017

Golo do Século

No mundial do México de 1986, foi marcado o designado ‘golo do século’, da autoria de Diego Armando Maradona e depois deste ter marcado um primeiro golo com a ‘mãos de Deus’. 
Aos seis minutos da 2ª parte, Maradona recebe a bola no meio campo da Argentina e depois de driblar meia equipa de Inglaterra faz o golo mais memorável da história do Futebol.



Hector Henrique, ‘el Negro’, foi quem fez o passe que iniciou a obra de arte de Maradona. Anos mais tarde ao pedirem a ‘el Negro ’ para comentar o famoso golo, terá dito: “depois do meu passe, se ele falhasse o golo, era para matá-lo!”.   

A ironia de ‘el Negro’ contrasta com o desplante de quem não se coíbe de reclamar para si autoria em publicações científicas pelo simples facto de ter uma posição de chefia ou de responsabilidade para com a recolha ou custódia de dados em instituições públicas.

sexta-feira, 28 de abril de 2017

From Machine Learning to Deep Learning



  • Data Preprocessing
    • Feature selection
    • Dimensionality Reduction (Feature extraction)
      • Principal Component Analysis (PCA)
      • Linear Discriminant Analysis (LDA)
      • Kernel PCA
      • Quadratic Discriminant Analysis (QDA)
  • Regression (both linear and non-linear)
    • Simple Linear Regression
    • Multiple Linear Regression
    • Polynomial Regression
    • Support Vector for Regression (SVR)
    • Decision Tree Classification
    • Random Forest Classification

  • Classification
    • Logistic Regression
    • K-Nearest Neighbors (K-NN)
    • Support Vector Machine (SVM)
    • Kernel SVM
    • Naive Bayes
    • Decision Tree Classification
    • Random Forest Classification
  • Clustering
    • K-Means Clustering
    • Hierarchical Clustering
  • Association Rule Learning
    • Apriori
    • Eclat
  • Reinforcement Learning
    • Upper Confidence Bound (UCB)
    • Thompson Sampling
  • Natural Language Processing
  • Deep Learning
    • Artificial Neural Networks for Regression and Classification
    • Convolutional Neural Networks for Computer Vision
    • Recurrent Neural Networks for Time Series Analysis
    • Self Organizing Maps for Feature Extraction
    • Deep Boltzmann Machines for Recommendation Systems
    • Auto Encoders for Recommendation Systems



sexta-feira, 21 de abril de 2017

Cientista de Dados / Data Scientist (DS)

Data Scientist: The SexiestJob of the 21st Century 



Mas o que é um Cientista de Dados?
Dizer que é alguém capaz de usar o método científico para transformar dados em informação, é dizer pouco.



Um Cientista de Dados deve dominar vários campos de conhecimento, como sejam: a Estatística, Ciências da Computação e o seu meio de actuação, como exemplifica o seguinte diagrama de Venn.