https://github.com/jeffersonlicet/santander-questions-classification
🥈 Second Place Solution - Public Leaderboard Top 3 - 0.86639 | Clasificación de preguntas de clientes | Escuela de Ciencias Informáticas 2020. Universidad de Buenos Aires y Banco Santander.
https://github.com/jeffersonlicet/santander-questions-classification
fastext keras machine-learning nlp tensorflow word2vec
Last synced: about 2 months ago
JSON representation
🥈 Second Place Solution - Public Leaderboard Top 3 - 0.86639 | Clasificación de preguntas de clientes | Escuela de Ciencias Informáticas 2020. Universidad de Buenos Aires y Banco Santander.
- Host: GitHub
- URL: https://github.com/jeffersonlicet/santander-questions-classification
- Owner: jeffersonlicet
- Created: 2020-07-15T17:24:45.000Z (almost 5 years ago)
- Default Branch: master
- Last Pushed: 2020-11-26T21:33:51.000Z (over 4 years ago)
- Last Synced: 2025-03-28T09:51:30.278Z (2 months ago)
- Topics: fastext, keras, machine-learning, nlp, tensorflow, word2vec
- Language: Jupyter Notebook
- Homepage:
- Size: 225 KB
- Stars: 6
- Watchers: 1
- Forks: 1
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# Santander Questions Classification 2020 - Second Place
## 🏅 TOP 3 - 0.86639## Exploración de datos y explicación de la solución:
https://github.com/jeffersonlicet/santander-questions-classification/blob/master/Informe.ipynb## Solución:

Indicaciones para entrenar los modelos:
Se adjuntan 4 archivos:
* LSTM_GRU_0_86.ipynb Notebook con todo el código para entrenar los modelos basados en LSTM y GRU
* BERT_0_86.ipynb Notebook con todo el código para entrenar el modelo basado en BERT
* Informe.ipynb Notebook con el informe y el análisis de datos.
* assemble.py Script que ensambla las predicciones de los 3 modelo y genera un archivo listo para ser enviado a la competencia.# 1: Entrenar los modelos:
Correr los notebooks preferiblemente en paralelo y utilizando Google Colaboratory.
* LSTM_GRU_0_86.ipynb con GPU Activado
* BERT_0_86.ipynb con TPU Activado# 2: Descargar los archivos
Una vez finalizado el entrenamiento, que toma algo más de una hora, ambos notebooks van a intentar
descargar archivos, en caso de que no posean permisos para descargarlos por parte del browser puede
intentar descargarlos manualmente.# 3: Ensamblar la solución
Archivos que deben estar descargados y en el mismo directorio:
* test_ids.npy Contiene los ids de los casos de testing
* labels.npy Contiene los nombres de las clases mapeadas a indices
* bert.npy Contiene la distribución de probabilidad calculada usando BERT
* lstm.npy Contiene la distribución de probabilidad calculada usando LSTM
* gru.npy Contiene la distribución de probabilidad calculada usando GRUCon los archivos en el mismo directorio que el archivo assemble.py que se encuentra
adjuntado realizar lo siguiete:> pip install numpy
y luego
> python assemble.pyFinalmente se va a generar un archivo llamado submission.csv con las predicciones correspondientes.
Gracias.