Ecosyste.ms: Awesome

An open API service indexing awesome lists of open source software.

Awesome Lists | Featured Topics | Projects

https://github.com/catarse/projects_online_and_successful

Data analysis of projects online and successful correlation
https://github.com/catarse/projects_online_and_successful

Last synced: 5 days ago
JSON representation

Data analysis of projects online and successful correlation

Awesome Lists containing this project

README

        

```{r,echo=FALSE,results='hide'}
library(ggplot2)
```
---
title: "Número de projetos online e taxa de sucesso"
output:
html_document:
keep_md: yes
---

Uma dúvida pairava sobre o escritório do Catarse há algumas semanas já.
Será que ter muitos projetos online pode reduzir a chance de um projeto específico ser bem sucedido?
Especialmente se observarmos os apoios em uma categoria.

O raciocínio parece fazer sentido, pois em uma comunidade pequena, talvez vários projetos compartilhem apoiadores. As pessoas têm um orçamento limitado para apoiar projetos, logo se saturarmos uma rede de contatos os apoiadores talvez escolham um projeto em detrimento de outro.

No entanto, temos que considerar a hipótese alternativa. Se se não existir tal correlação?
Obviamente o número de projetos financiados e não financiados estarão correlacionados com o
número de projetos online, pois os projetos online geram aqueles. Mas e se isso for a única
relação e não existir nenhum indício de saturação de redes?

## Os números

Uma das vantagens de se trabalhar no Catarse é que podemos usar a nossa base de dados para tentar
responder esse tipo de pergunta.

## Apresentando "O incrível R"
Vamos abrir o processo investigativo não só por uma questão de clareza, e porque estamos abertos a críticas ao método, mas também pr acreditarmos que as ferramentas usadas aqui podem ser valiosas para a nossa comunidade de realizadores. O código usado assim como esse texto podem ser encontrados em nossa (conta do github)["http://github.com/catarse"]

As ferramentas que usamos para criar esse texto:

* [RStudio](http://www.rstudio.com/)
* [Dataclip de projetos de quadrinhos por mês](https://www.catarse.me/dbhero/dataclips/1b81eb33-16cd-4a1b-a76f-efe1bab9aa4e.csv)

## A Análise

```{r,echo=FALSE}
# Preparing data sources
# Download, extract and read into variables
file <- "./data.csv"
if(!file.exists(file)){
download.file("https://www.catarse.me/dbhero/dataclips/1b81eb33-16cd-4a1b-a76f-efe1bab9aa4e.csv", destfile=file, method="curl")
}
projects <- read.csv(file, header=TRUE)
xaxis <- as.POSIXct(paste(projects[,1], "-01", sep = ""))
```

Vamos estabelecer a correlação entre total de projetos online no período e total de projetos não financiados. No gráfico abaixo cada ponto um mês de projetos no Catarse. No eixo X está o total de projetos online naquele mês. No eixo Y temos o total de projetos financiados, no caso dos pontos verdes, ou o total de projetos não financiados no caso dos pontos vermelhos.

```{r, echo=FALSE}
ggplot(data = projects, aes(x = total_mes, y = total_resultado, colour = resultado)) +
xlab("Total de projetos em um mês") +
ylab("Resultados dos projetos no mês") +
geom_point() +
stat_smooth(method="lm", se=FALSE)
```

Desenhamos no gráfico duas linhas que mostram as correlações entre os eixos. A medida em que aumentamos o número de projetos online em um mês (indo para a direita no eixo X), aumentamos os projetos com os dois resultados (por isso as duas linhas são ascendentes).

No entanto, a linha verde cresce mais rapidamente, o que indica a tendência de termos projetos financiados aumenta ao termos mais projetos online no mês.

### Comparando com os números do Catarse em todas as categorias
```{r,echo=FALSE}
# Preparing data sources
# Download, extract and read into variables
file <- "./data_all.csv"
if(!file.exists(file)){
download.file("https://www.catarse.me/dbhero/dataclips/8720eec7-d8a7-4adc-a3ed-8fac162fde65.csv", destfile=file, method="curl")
}
projects <- read.csv(file, header=TRUE)
xaxis <- as.POSIXct(paste(projects[,1], "-01", sep = ""))
```

Ao gerar um novo gráfico, considerando todas as categorias do Catarse. Podemos ver um comportamento distinto.

```{r, echo=FALSE}
ggplot(data = projects, aes(x = total_mes, y = total_resultado, colour = resultado)) +
xlab("Total de projetos em um mês") +
ylab("Resultados dos projetos no mês") +
geom_point() +
stat_smooth(method="lm", se=FALSE)
```