https://github.com/carvalhoandre/coletor-tweets
Criado para coletar e armazenar tweets utilizando a API do Twitter. Inicialmente inspirado no caso de uso do livro Um Voluntário na Campanha de Obama, este projeto tem como objetivo demonstrar a importância do monitoramento no X. O coletor permite buscar tweets sobre qualquer termo desejado
https://github.com/carvalhoandre/coletor-tweets
data-analysis mongodb python twiter-analysis twitter
Last synced: about 2 months ago
JSON representation
Criado para coletar e armazenar tweets utilizando a API do Twitter. Inicialmente inspirado no caso de uso do livro Um Voluntário na Campanha de Obama, este projeto tem como objetivo demonstrar a importância do monitoramento no X. O coletor permite buscar tweets sobre qualquer termo desejado
- Host: GitHub
- URL: https://github.com/carvalhoandre/coletor-tweets
- Owner: carvalhoandre
- License: mit
- Created: 2025-02-27T18:34:38.000Z (3 months ago)
- Default Branch: main
- Last Pushed: 2025-03-27T21:07:00.000Z (2 months ago)
- Last Synced: 2025-03-27T22:22:40.510Z (2 months ago)
- Topics: data-analysis, mongodb, python, twiter-analysis, twitter
- Language: Python
- Homepage:
- Size: 60.5 KB
- Stars: 0
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
- License: LICENSE
Awesome Lists containing this project
README
# Coletor de Tweets
O **Coletor de Tweets** é um projeto em Python criado para coletar e armazenar tweets utilizando a API do Twitter. Inicialmente inspirado no caso de uso do livro *Um Voluntário na Campanha de Obama*, este projeto tem como objetivo demonstrar a importância do monitoramento de redes sociais. Agora, o coletor permite buscar tweets sobre **qualquer termo desejado** via **parâmetro de busca (`search`)**, tornando-o altamente flexível para análises e pesquisas.
## 🚀 **Funcionalidades**
- 📡 **Coleta de tweets em tempo real**.
- 🔍 **Busca personalizada** por palavras-chave, hashtags ou usuários via parâmetro `search`.
- 📊 **Extração de métricas avançadas**, como sentimentos e engajamento (likes, retweets, respostas).
- 💾 **Armazenamento em formatos CSV, JSON e banco de dados MongoDB**.
- 🔥 **Cálculo de hype score**, que mede o nível de engajamento dos tweets.---
## 🛠️ **Tecnologias Utilizadas**
- **Python 3.x**
- **Flask** (API)
- **MongoDB** (Armazenamento de tweets e métricas)
- **Tweepy** (Acesso à API do Twitter)
- **Pandas** (Processamento de dados)
- **NLTK** (Análise de sentimentos)---
## 📌 **Pré-requisitos**
Antes de iniciar, certifique-se de ter instalado:- **Python 3.x**
- **pip** (gerenciador de pacotes do Python)
- **MongoDB** (opcional, caso utilize armazenamento em banco de dados)---
## ⚙️ **Instalação**
1. **Clone o repositório:**
```bash
git clone https://github.com/carvalhoandre/coletor-tweets.git
cd coletor-tweets
```2. **Crie e ative um ambiente virtual (opcional, mas recomendado):**
python -m venv venv
#### Para Linux/macOS:
```source venv/bin/activate```
#### Para Windows:
```venv\Scripts\activate```3. **Instale as dependências:**
```pip install -r requirements.txt```---
## 🔑 Configuração
1. **Obtenha as credenciais da API do Twitter:**
Para utilizar o coletor, você precisará das credenciais da API (API Key, API Secret, Access Token e Access Token Secret). Essas credenciais podem ser obtidas ao criar um aplicativo no Twitter Developer.
2. **Configure as credenciais:**
Crie um arquivo de configuração, por exemplo, config.py ou um arquivo .env com as seguintes variáveis:#### Exemplo de config.py
```
TWITTER_API_KEY = 'sua_api_key'
TWITTER_API_SECRET = 'sua_api_secret'
TWITTER_ACCESS_TOKEN = 'seu_access_token'
TWITTER_ACCESS_TOKEN_SECRET = 'seu_access_token_secret'
```3. **Banco de Dados (Opcional):**
Se deseja armazenar os tweets em MongoDB, adicione a variável de ambiente:
```
DATABASE_MONGO_URI='mongodb://localhost:27017'
```---
## 🚀 Uso
Para iniciar a coleta de tweets, utilize o seguinte comando:
```
python coletor.py --keywords "Copa do Mundo" --output tweets.csv
```📡 Acessando a API
Os endpoints permitem buscar tweets sobre qualquer assunto, especificado pelo parâmetro search.### Parâmetros Comuns:
- --keywords: Define as palavras-chave ou hashtags para filtrar os tweets.
- --output: Especifica o nome do arquivo onde os tweets coletados serão salvos.
- Outros parâmetros podem ser implementados conforme a necessidade do projeto.### Exemplo de Uso
Coletar tweets contendo a palavra-chave Neymar e salvar no arquivo coleta.csv:
```
python coletor.py --keywords "Neymar" --output coleta.csv
```## 🔥 API Endpoints
A seguir, estão listados os endpoints disponíveis na API do projeto:
### 1️⃣ GET Buscar Tweets `/fetch_tweets`
- **Descrição:**
Busca tweets relacionados ao termo especificado no parâmetro search.- **Parâmetros de Consulta:**
- `force_refresh` (opcional): Se definido como `true`, força a atualização dos tweets.
- `search` (obrigatório): Define o termo de busca (exemplo: "Messi", "Bitcoin").- **Resposta:**
- **Sucesso (200):**
JSON com status verdadeiro, mensagem "Tweets retrieved" e os dados dos tweets.
- **Nenhum tweet encontrado (404):**
JSON com status falso e mensagem "No tweets available".
- **Erros (400 ou 500):**
JSON com status falso e mensagem de erro (400 para erros de validação e 500 para erros internos).### 2️⃣ GET Análise de Sentimentos `/feelings`
- **Descrição:**
Busca tweets, processa os sentimentos extraídos dos mesmos e retorna o resultado como JSON.- **Parâmetros de Consulta:**
- `force_refresh` (opcional): Se definido como `true`, força a atualização dos tweets.
- `search` (obrigatório): Define o termo de busca (exemplo: "Messi", "Bitcoin").- **Resposta:**
- **Sucesso (200):**
JSON com status verdadeiro, mensagem "Feelings retrieved" e os dados dos sentimentos processados.
- **Nenhum tweet encontrado (404):**
JSON com status falso e mensagem "No tweets available".
- **Erros (400 ou 500):**
JSON com status falso e mensagem de erro.### 3️⃣ GET Métricas Horárias e Indicador de Hype `/hourly_metrics`
- **Descrição:**
Processa os tweets para extrair métricas horárias e retorna o resultado como JSON.- **Parâmetros de Consulta:**
- `force_refresh` (opcional): Se definido como `true`, força a atualização dos dados.
- `search` (obrigatório): Define o termo de busca (exemplo: "Messi", "Bitcoin").- **Resposta:**
- **Sucesso (200):**
JSON com status verdadeiro, mensagem "Feelings retrieved" e os dados das métricas horárias.
- **Nenhum dado disponível (404):**
JSON com status falso e mensagem "No tweets available".
- **Erros (400 ou 500):**
JSON com status falso e mensagem de erro.---
## 🎯 Principais Melhorias✅ Busca dinâmica por qualquer termo via search.
✅ Novo indicador de hype score, analisando engajamento e sentimentos.
✅ Métricas horárias detalhadas para insights profundos.
✅ Análises de sentimentos com NLP para entender reações do público.
✅ Otimização da coleta e processamento de tweets.
---
## 📌 Contribuição
🚀 Contribuições são bem-vindas!Em breve: Arquivo CONTRIBUTING.md para mais detalhes.
---
## 📜 Licença
Este projeto está licenciado sob a [MIT License](LICENSE) .---