An open API service indexing awesome lists of open source software.

https://github.com/jonasaacampos/ensemble-learning-em-python

Ensemble learning em python para classificação de texto em nótícias
https://github.com/jonasaacampos/ensemble-learning-em-python

algorithms-and-data-structures data-science ensemble-learning ensemble-model python

Last synced: 14 days ago
JSON representation

Ensemble learning em python para classificação de texto em nótícias

Awesome Lists containing this project

README

          



Engenheiro de Machine Learning - Badge

Modelagem de tópicos do noticiário financeiro

------

brain

Ensemble learning em python para classificação de texto em nótícias

![](https://img.shields.io/badge/BackEnd-Python-informational?style=flat&logo=Python&logoColor=white&color=059A10)

Anotações e projetos do curso de **formação em Engenharia de Machine Learning** da DS Academy.

> Extrair, tratar e classificar textos para filtrar dados relevantes para auxílio de tomada de decisão do investidor

Índice / Table of Contents / Tabla de Contenido

[![](https://img.shields.io/badge/feito%20com%20%E2%9D%A4%20por-jaac-cyan)](https://jonasaacampos.github.io/portfolio/)
[![LinkedIn Badge](https://img.shields.io/badge/LinkedIn-Profile-informational?style=flat&logo=linkedin&logoColor=white&color=0D76A8)](https://www.linkedin.com/in/jonasaacampos)
- [Definição do projeto](#definição-do-projeto)
- [Conjuntos de dados](#conjuntos-de-dados)
- [Para saber mais](#para-saber-mais)
- [Crédito das imagens](#crédito-das-imagens)
- [Contato](#contato)

--------

## Definição do projeto

> Com alguns parágrafos de texto, podemos afirmar sobre qual assunto é discutido?

Modelos de entrada: trechos de notícias
Modelos de saída: categorias, baseadas em dados históricos

> A etiquetagem é um processo demorado e CARO, geralmente bancos de dados etiquetados são guardados secretamente.

A aprendizagem ensemble é um paradigma de aprendizagem de máquina em que vários
modelos (frequentemente chamados de “estimadores fracos”) são treinados para resolver o
mesmo problema e combinados para obter melhores resultados. A hipótese principal é que
quando modelos fracos são combinados corretamente podemos obter modelos mais precisos
e/ou robustos.

## Conjuntos de dados

Os dados utilizados são notícias da BBC[^1]. Para esta análise foram utilizados os dados brutos.

![](https://media2.giphy.com/media/v1.Y2lkPTc5MGI3NjExcjQ2bnVtdHdrNzB0emJsYnBwNDB0dDA5eTl0dGRpbWcwdWZuZjVqaSZlcD12MV9pbnRlcm5hbF9naWZfYnlfaWQmY3Q9Zw/YqENbSOVvEAnCYbhM5/giphy.gif)

> dados brutos na área...

dados brutos na área...

```bash
// para baixar os dados, acese o site da bbc, ou baixe o arquivo diretamente via terminal

wget http://mlg.ucd.ie/files/datasets/bbc-fulltext.zip

unzip bbc-fulltext.zip

```

Consiste em 2.225 documentos do site de notícias da BBC, publicadas entre 2004 e 2005, correspondentes a histórias em cinco áreas temáticas:

1. negócios
2. entretenimento
3. política
4. esporte
5. tecnologia

Votin = todos os modelos fazem as previsões, e suas saídas passam por uma votação
Staking = as saídas dos modelos individuais alimentam um terceiro modelo

## Para saber mais

- [[S2E2] Ensemble Methods | 5 Minutes With Ingo](https://youtu.be/dhvmVScjrzE)
- Tom Michael, Machine Learning
- Mark Fenne, Machine Learning with Python for Everyone
- Andriy Burkov, The Hundred-Page Machine Learning Book
- [sklearn.ensemble.StackingClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.StackingClassifier.html)
- [Stacked generalization¶](https://scikit-learn.org/stable/modules/ensemble.html#stacking)

## Crédito das imagens

- Desenhos no título by [flaticon](https://www.flaticon.com)
- Badges e demos do projeto feitos por mim

## Contato

**Author:** Jonas Araujo de Avila Campos

**Confira mais projetos: [AQUI](https://jonasaacampos.github.io/portfolio/)**








## Referências

[^1]: D. Greene and P. Cunningham. ("Practical Solutions to the Problem of Diagonal Dominance in Kernel Document Clustering")[D. Greene and P. Cunningham. "Practical Solutions to the Problem of Diagonal Dominance in Kernel Document Clustering", Proc. ICML 2006. ], Proc. ICML 2006.