https://github.com/jonasaacampos/ensemble-learning-em-python
Ensemble learning em python para classificação de texto em nótícias
https://github.com/jonasaacampos/ensemble-learning-em-python
algorithms-and-data-structures data-science ensemble-learning ensemble-model python
Last synced: 14 days ago
JSON representation
Ensemble learning em python para classificação de texto em nótícias
- Host: GitHub
- URL: https://github.com/jonasaacampos/ensemble-learning-em-python
- Owner: jonasaacampos
- License: bsd-3-clause
- Created: 2022-07-28T01:02:33.000Z (over 3 years ago)
- Default Branch: main
- Last Pushed: 2024-03-06T00:17:26.000Z (almost 2 years ago)
- Last Synced: 2025-01-10T02:13:11.053Z (11 months ago)
- Topics: algorithms-and-data-structures, data-science, ensemble-learning, ensemble-model, python
- Language: Python
- Homepage:
- Size: 9.99 MB
- Stars: 0
- Watchers: 2
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
- License: LICENSE
Awesome Lists containing this project
README
Modelagem de tópicos do noticiário financeiro
------

Ensemble learning em python para classificação de texto em nótícias

Anotações e projetos do curso de **formação em Engenharia de Machine Learning** da DS Academy.
> Extrair, tratar e classificar textos para filtrar dados relevantes para auxílio de tomada de decisão do investidor
Índice / Table of Contents / Tabla de Contenido
[](https://jonasaacampos.github.io/portfolio/)
[](https://www.linkedin.com/in/jonasaacampos)
- [Definição do projeto](#definição-do-projeto)
- [Conjuntos de dados](#conjuntos-de-dados)
- [Para saber mais](#para-saber-mais)
- [Crédito das imagens](#crédito-das-imagens)
- [Contato](#contato)
--------
## Definição do projeto
> Com alguns parágrafos de texto, podemos afirmar sobre qual assunto é discutido?
Modelos de entrada: trechos de notícias
Modelos de saída: categorias, baseadas em dados históricos
> A etiquetagem é um processo demorado e CARO, geralmente bancos de dados etiquetados são guardados secretamente.
A aprendizagem ensemble é um paradigma de aprendizagem de máquina em que vários
modelos (frequentemente chamados de “estimadores fracos”) são treinados para resolver o
mesmo problema e combinados para obter melhores resultados. A hipótese principal é que
quando modelos fracos são combinados corretamente podemos obter modelos mais precisos
e/ou robustos.
## Conjuntos de dados
Os dados utilizados são notícias da BBC[^1]. Para esta análise foram utilizados os dados brutos.

> dados brutos na área...

```bash
// para baixar os dados, acese o site da bbc, ou baixe o arquivo diretamente via terminal
wget http://mlg.ucd.ie/files/datasets/bbc-fulltext.zip
unzip bbc-fulltext.zip
```
Consiste em 2.225 documentos do site de notícias da BBC, publicadas entre 2004 e 2005, correspondentes a histórias em cinco áreas temáticas:
1. negócios
2. entretenimento
3. política
4. esporte
5. tecnologia
Votin = todos os modelos fazem as previsões, e suas saídas passam por uma votação
Staking = as saídas dos modelos individuais alimentam um terceiro modelo
## Para saber mais
- [[S2E2] Ensemble Methods | 5 Minutes With Ingo](https://youtu.be/dhvmVScjrzE)
- Tom Michael, Machine Learning
- Mark Fenne, Machine Learning with Python for Everyone
- Andriy Burkov, The Hundred-Page Machine Learning Book
- [sklearn.ensemble.StackingClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.StackingClassifier.html)
- [Stacked generalization¶](https://scikit-learn.org/stable/modules/ensemble.html#stacking)
## Crédito das imagens
- Desenhos no título by [flaticon](https://www.flaticon.com)
- Badges e demos do projeto feitos por mim
## Contato
**Author:** Jonas Araujo de Avila Campos
**Confira mais projetos: [AQUI](https://jonasaacampos.github.io/portfolio/)**
## Referências
[^1]: D. Greene and P. Cunningham. ("Practical Solutions to the Problem of Diagonal Dominance in Kernel Document Clustering")[D. Greene and P. Cunningham. "Practical Solutions to the Problem of Diagonal Dominance in Kernel Document Clustering", Proc. ICML 2006. ], Proc. ICML 2006.