domingo, 21 de fevereiro de 2021

Dados falsos com o R

O teste e validação de aplicações ou produtos de dados (data products) requer a utilização de dados que nem sempre nos são disponibilizados. Como alternativa à utilização de dados reais temos a possibilidade de gerar dados falsos (fake data) ou sintéticos (synthetic data) com um formato semelhante aos dados reais.

Com o R podemos gerar vectores de dados de acordo com determinadas distribuições, recorrendo às funções: rnorm, rexp, rpois, runif, rmultinom, sample...

Mas também podemos recorrer a packages desenvolvidos para gerar dados falsos ou sintéticos:

bindata - Generation of correlated artificial binary data.

MultiOrd - A method for multivariate ordinal data generation given marginal distributions and correlation matrix based on the methodology proposed by Demirtas (2006).

PoisBinOrdNonNor - Generation of a chosen number of count, binary, ordinal, and continuous random variables, with specified correlations and marginal properties.

simstudy - a collection of functions that allow users to generate simulated data sets in order to explore modeling techniques or better understand data generating processes. The user defines the distributions of individual variables, specifies relationships between covariates and outcomes, and generates data based on these specifications.

wakefiled - designed to quickly generate random data sets.

rcorpora - a collection of datasets

charlatan - makes fake data, inspired from and borrowing some code from Python's faker

fakir - The goal of {fakir} is to provide fake datasets that can be used to teach R.

fabricatr - helps researchers imagine what data will look like before they collect it.

GenOrd - Simulation of Discrete Random Variables with Given Correlation Matrix and Marginal Distributions

SimMultiCorrData - Simulation of Correlated Data with Multiple Variable Types

synthesis - Generate Synthetic Data from Statistical Models

conjurer - A Parametric Method for Generating Synthetic Data

sdjlinkage - generate synthetic dataset using different approaches

sim.survdata - Simulating duration data for the Cox proportional hazards model. Generating survival data.

survsim Simulation of simple and complex survival data including recurrent and multiple events and competing risks

synthpop -  generating synthetic versions of sensitive microdata for statistical disclosure control

datasynthR - Functions to procedurally generate synthetic data in R for testing and collaboration.

sdjlinkage - generate synthetic dataset using different approaches

fakeR - Simulates Data from a Data Frame of Different Variable Types

SynthTools - Tools and Tests for Experiments with Partially Synthetic Data Sets

OpenSDPsynthR - A project to generate realistic synthetic unit-level longitudinal education data to empower collaboration in education analytics.

sgr - Sample Generation by Replacement

humanleague - Synthetic Population Generator




Alguns links que vale a pena espreitar: R-Vogg-Blog; UNT; R Views; R-bloggers; Data from GANs

domingo, 3 de novembro de 2019

Data Science workflow

Em 1970, John Tukey, alargava os horizontes das ciências estatísticas para além duma abordagem puramente matemática, como seria a elaboração de testes estatísticos, para uma abordagem mais indutiva com a definição de hipóteses a partir de dados (análise exploratória), ou seja, tentar perceber os dados antes de definir hipóteses a testar. Também o conceito de Knowledge Discovery in Databases (KDD) deve ser visto apenas como mais uma parte do mundo de Data Science.




data science = (statistics + informatics + computing + sociology + management) | (data + environment + thinking)



Sendo os data products o objectivo de qualquer projecto de Data Science, importa definir um workflow orientador que, embora não seja linear, permita esquematizar os passos a seguir:

  • Data Acquisition 
  • Data Preparation
  • Hypothesis and Modelling
  • Evaluation and Interpretation
  • Deployment
  • Operations 
  • Optimization
Weihs C, Ickstadt K. Data Science: the impact of statistics. International Journal of Data Science and Analytics. 2018; 6( 3): 189–194

sábado, 7 de setembro de 2019

eu no mundo dos dados


Esta infografia visa representar qual a minha localização neste ‘mundo dos dados’. Resumidamente, sou um especialista em análise de dados, com algum conhecimento de engenharia de dados e em constante formação para ser um cientista de dados.

As posições de Cientista, Analista e Engenheiro de dados não são posições estanques com áreas de intervenção rígidas. Pelo contrário, estas três posições sobrepõem-se em vários momentos. Se um engenheiro de dados tem de ter uma formação sólida em informática ou ciências da computação, do cientista de dados e analista de dados espera-se que dominem áreas da matemática e em particular da estatística. No entanto, se estes não forem capazes de usar com mestria ferramentas da informática e da computação então serve-lhes de pouco, todo o conhecimento e saber que possam ter em matemática. Por outro lado, o engenheiro de dados desenvolve plataformas de trabalho para analistas e cientistas de dados, pelo que precisa de ter também conhecimentos de estatística para potencializar a utilidade dessas plataformas.

Mas para fazer análise de dados, independentemente da posição que se ocupe, é preciso não só dominar a arte mas também ser conhecedor do negócio. 

sexta-feira, 20 de abril de 2018

Estatístico

Se conhece algum estatístico, então deve saber:

  • NÃO existe essa coisa de “dar uma vista de olhos nos dados”;
  • Os seus dados podem NÃO evidenciar aquilo que procura a todo custo;
  • Exercícios de estatística e aulas de estatística NÃO são as únicas coisas que fazem os estatísticos;
  • O Instituto Nacional de Estatística NÃO é o único local de trabalho dum estatístico;
  • Estatística NÃO significa apenas fazer gráficos, tabelas e encontrar valores de p < 0.05;
  • NÃO, não existe um “software que faz tudo para um estatístico”;
  • Margem de erro e probabilidade de erro NÃO são a mesma coisa;
  • A probabilidade de um acontecimento NUNCA pode ser superior a 1 (um) nem NUNCA pode ser inferior a 0 (zero). Se tiver uma probabilidade fora deste intervalo o valor está errado, e pronto;
  • Sim, existe um aumento de 120% para muitas coisas, mas NUNCA existirá uma probabilidade de 120% para nada;
  • Um Estatístico é um Estatístico! NÃO é outra profissão qualquer.



segunda-feira, 26 de fevereiro de 2018

a Luxúria

Luxúria: o desejo exacerbado e egoísta pelos prazeres carnais e materiais. o Pecado da luxúria está intimamente ligado aos pecados da gula, do orgulho e da avareza, uma vez que através destes há o desejo de se obter prazer.


No seu sentido original, luxúria significa ser dominado pelas paixões e os dados também podem ser uma paixão.
Vem-me à memória uma melodia do folclore nacional e apetece-me cantar:
Abre os dados, meu amor!
É aí que tudo se esconde, 
quando vem o investigador. 



quarta-feira, 21 de fevereiro de 2018

a Inveja

A inveja (do latim invidia) é o desejo exagerado por posses, status, habilidades e tudo que outra pessoa tem e consegue. O invejoso ignora tudo o que possui, para cobiçar o que é do próximo.



 
Na investigação, os autores que publicam trabalhos com base em open data ainda são acusados de parasitismo. A recolha de dados requer tempo e recursos; que terceiros possam tirar proveito destes dados, se disponibilizados abertamente, ainda é motivo de crítica, mais ou menos velada. 
O invejoso tem receio do que os seus dados possam dar origem a possíveis proveitos financeiros ou pessoais para outros. Há sempre o risco de a nossa concorrência conseguir fazer mais com os dados que nós mesmos. Se não podemos controlar o que os outros vão fazer com os dados, é melhor escondê-los, mesmo que isso signifique que não terão qualquer tipo de uso. Para o invejoso, mais importante que tirar proveito dos seus dados é garantir que outros não beneficiarão deles.




segunda-feira, 19 de fevereiro de 2018

a Soberba

A soberba está associada ao orgulho excessivo, à arrogância e à vaidade. A Soberba consiste em se sentir superior a todos, tal como Lúcifer se sentiu mais alto que o próprio Deus.



A privacidade dos dados é um dos principais argumentos contra os open data. Existem também as questões da propriedade dos dados. No caso das instituições públicas, os guardas dos dados tendem a considerar-se donos desses dados. Além disso, os outros não saberão fazer um bom uso dos dados.
O arrogante não se coíbe em afirmar que as outras pessoas não conhecem nem compreendem os seus dados. A não disponibilização dos open data é também justificada pelo desdém que se tem por resultados que outros possam obter desses dados, isto sem mesmo se conhecerem os possíveis resultados.
A arrogância faz-nos pedir mais provas da necessidade dos open data. Se as coisas funcionavam sem open data para quê disponibilizá-los agora? A sua disponibilização apenas confundiria as pessoas.




quarta-feira, 31 de janeiro de 2018

a Avareza

A avareza ou ganância é o apego excessivo e descontrolado aos bens materiais e ao dinheiro. O pecado da avareza conduz à idolatria, ou seja, tratar como se fosse Deus algo que não o é. É considerado o pecado mais idiota, por se suster em meras possibilidades.



O movimento do open data, instiga cientistas e investigadores a disponibilizar os dados dos seus próprios trabalhos. No entanto, não raras vezes, levantam-se questões de propriedade intelectual, crédito académico, ou medo dos resultados dos outros. Além disto, o avarento preocupa-se com os possíveis benefícios económicos que pode tirar dos dados que guarda, sem se questionar pelas necessidades dos outros. A ideia de que com os dados se pode obter um lucro monetário é ainda mais reprovável quando estes dados foram obtidos com dinheiros públicos. Seja pela possibilidade de vender os dados ou pela possibilidade de obter vantagens profissionais por ser o único a processar os dados e transformá-los em informação. 
A avareza traduz-se também numa excessiva preocupação com eventuais custos que possam estar associados à disponibilização de open data.



sábado, 27 de janeiro de 2018

a Ira


Conhecida também por cólera, a ira é o sentimento humano de raiva, ódio, rancor que pode ou não gerar um sentimento de vingança. É o forte desejo de causar mal a outrem e um dos grandes responsáveis pela maior parte dos conflitos humanos no transcorrer das gerações.



A ira floresce na ausência de paciência, serenidade e calma. A disponibilização de open data implica que os dados sejam acessíveis, processáveis e apresentados de forma clara. Se reclamarmos por dados haverá sempre alguém pronto a exclamar: "Mas porque raio vou eu perder tempo com isso !". Os dados a disponibilizar têm de ser acompanhados por meta dados que permitam uma utilização transparente dos primeiros. Criar estes meta dados é uma tarefa que exige muita paciência.




quinta-feira, 25 de janeiro de 2018

a Preguiça

Do latim acedia ou pigritia, a preguiça é provavelmente um dos 7 pecados capitais aparentemente mais inócuos e geralmente menos recriminável. “O preguiçoso é caracterizado como alguém que vive em estado de falta de capricho, de esmero, de empenho, em negligência, desleixo, morosidade, lentidão e moleza, que o leva a uma inatividade acentuada. 


As más-línguas poderiam dizer que estamos a descrever um típico funcionário público. A burocracia serve de desculpa ao preguiçoso que também costuma queixar-se da falta de meios e/ou falta de tempo. A culpa é do patrão que não deu indicações para tal, ou então duma entidade ainda superior que não deu as devidas autorizações, ou então há um qualquer problema legal. Quem não quer fazer pode sempre dizer que não sabe. Não sabe o que são dados abertos; ou para que podem servir esses dados; ou que dados devem ser disponibilizados; ou como devem disponibilizados. As prioridades geralmente são sempre outras e hoje nunca é uma boa altura, além disso quem quer saber de open data?

A disponibilização de Open data requer que estes sejam acompanhados com os respectivos meta-dados, bem como a existência de meios apropriados para a sua divulgação. Nos dias de hoje, cada vez é mais fácil ter acesso a estes meios mas a preguiça ainda é um obstáculo difícil de ultrapassar.