Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/the-finai/pixiu
This repository introduces PIXIU, an open-source resource featuring the first financial large language models (LLMs), instruction tuning data, and evaluation benchmarks to holistically assess financial LLMs. Our goal is to continually push forward the open-source development of financial artificial intelligence (AI).
https://github.com/the-finai/pixiu
aifinance chatgpt fintech gpt-4 large-language-models llama machine-learning named-entity-recognition natural-language-processing nlp pixiu question-answering sentiment-analysis stock-price-prediction text-classification
Last synced: 3 months ago
JSON representation
This repository introduces PIXIU, an open-source resource featuring the first financial large language models (LLMs), instruction tuning data, and evaluation benchmarks to holistically assess financial LLMs. Our goal is to continually push forward the open-source development of financial artificial intelligence (AI).
- Host: GitHub
- URL: https://github.com/the-finai/pixiu
- Owner: The-FinAI
- License: mit
- Created: 2023-06-02T02:59:15.000Z (over 1 year ago)
- Default Branch: main
- Last Pushed: 2024-05-19T13:24:29.000Z (6 months ago)
- Last Synced: 2024-05-21T13:03:12.476Z (6 months ago)
- Topics: aifinance, chatgpt, fintech, gpt-4, large-language-models, llama, machine-learning, named-entity-recognition, natural-language-processing, nlp, pixiu, question-answering, sentiment-analysis, stock-price-prediction, text-classification
- Language: Jupyter Notebook
- Homepage:
- Size: 50.2 MB
- Stars: 416
- Watchers: 8
- Forks: 43
- Open Issues: 3
-
Metadata Files:
- Readme: README.es.md
- License: LICENSE
Awesome Lists containing this project
- awesome-ChatGPT-repositories - PIXIU - This repository introduces PIXIU, an open-source resource featuring the first financial large language models (LLMs), instruction tuning data, and evaluation benchmarks to holistically assess financial LLMs. Our goal is to continually push forward the open-source development of financial artificial intelligence (AI). (Langchain)
README
Qianqian Xie1
Weiguang Han2
Zhengyu Chen2
Ruoyu Xiang1
Xiao Zhang1
Yueru He1
Mengxi Xiao2
Dong Li2
Yongfu Dai7
Duanyu Feng7
Yijing Xu1
Haoqiang Kang5
Ziyan Kuang12
Chenhan Yuan3
Kailai Yang3
Zheheng Luo3
Tianlin Zhang3
Zhiwei Liu3
Guojun Xiong10
Zhiyang Deng9
Yuechen Jiang9
Zhiyuan Yao9
Haohang Li9
Yangyang Yu9
Gang Hu8
Jiajia Huang11
Xiao-Yang Liu5
Alejandro Lopez-Lira4
Benyou Wang6
Yanzhao Lai13
Hao Wang7
Min Peng2*
Sophia Ananiadou3
Jimin Huang1
1The Fin AI
2Wuhan University
3The University of Manchester
4University of Florida
5Columbia University
6The Chinese University of Hong Kong, Shenzhen
7Sichuan University
8Yunnan University
9Stevens Institute of Technology
10Stony Brook University
11Nanjin Audit University
12Jiangxi Normal University
13Southwest Jiaotong University
-----------------![](https://img.shields.io/badge/pixiu-v0.1-gold)
![](https://black.readthedocs.io/en/stable/_static/license.svg)
[![Discord](https://img.shields.io/discord/1146837080798933112)](https://discord.gg/HRWpUmKB)[Pixiu Paper](https://arxiv.org/abs/2306.05443) | [FinBen Leaderboard](https://huggingface.co/spaces/ChanceFocus/FLARE)
**Descargo de responsabilidad**
Este repositorio y su contenido se proporcionan **únicamente con fines académicos y educativos**. Ninguno de los materiales constituye asesoramiento financiero, legal o de inversión. No se ofrecen garantías, explícitas o implícitas, respecto a la precisión, integridad o utilidad del contenido. Los autores y colaboradores no son responsables de errores, omisiones o cualquier consecuencia derivada del uso de la información aquí contenida. Los usuarios deben ejercer su propio juicio y consultar a profesionales antes de tomar cualquier decisión financiera, legal o de inversión. El uso del software e información contenida en este repositorio es bajo el propio riesgo del usuario.
**Al utilizar o acceder a la información de este repositorio, usted acepta indemnizar, defender y eximir de responsabilidad a los autores, colaboradores y cualquier organización o persona afiliada por cualquier reclamo o daño.**
**Puntos de control:**
- [FinMA v0.1 (Full 7B version)](https://huggingface.co/ChanceFocus/finma-7b-full)
**Idiomas**
- [Inglés](README.md)
- [Español](README.es.md)**documento**
- [PIXIU: A Comprehensive Benchmark, Instruction Dataset and Large Language Model for Finance](https://arxiv.org/abs/2306.05443)
- [The FinBen: An Holistic Financial Benchmark for Large Language Models](https://arxiv.org/abs/2402.12659)
- [No Language is an Island: Unifying Chinese and English in Financial Large Language Models, Instruction Data, and Benchmarks](https://arxiv.org/abs/2403.06249)
- [Dólares or Dollars? Unraveling the Bilingual Prowess of Financial LLMs Between Spanish and English](https://arxiv.org/abs/2402.07405)**Evaluaciones** (más detalles en la sección FinBen):
- [flare (flare-es-financees)](https://huggingface.co/datasets/TheFinAI/flare-es-financees)
- [flare (flare-es-tsa)](https://huggingface.co/datasets/TheFinAI/flare-es-tsa)
- [flare (flare-es-fns)](https://huggingface.co/datasets/TheFinAI/flare-es-fns)
- [flare (flare-es-efpa)](https://huggingface.co/datasets/TheFinAI/flare-es-efpa)
- [flare (flare-es-efp)](https://huggingface.co/datasets/TheFinAI/flare-es-efp)
- [flare (flare-es-multifin)](https://huggingface.co/datasets/TheFinAI/flare-es-multifin)## Descripción general
**FinBen_ES** es una iniciativa fundamental enfocada en el dominio financiero español. FinBen_ES busca reforzar el progreso, perfeccionamiento y evaluación de Modelos de Lenguaje a Gran Escala (MLGs) diseñados específicamente para contextos financieros españoles. Como un segmento vital del esfuerzo más amplio de PIXIU, FinBen_ES se erige como un testimonio del compromiso por aprovechar las capacidades de los MLGs, asegurando que los profesionales y entusiastas financieros del mundo hispanohablante tengan a su disposición herramientas lingüísticas de primera categoría.
### Características clave
- **Recursos abiertos**: PIXIU proporciona abiertamente el LLM financiero, los datos de instrucción de ajuste fino y los conjuntos de datos incluidos en el conjunto de evaluación de referencia para fomentar la investigación abierta y la transparencia.
- **Multitarea**: Los datos de instrucción y el conjunto de referencia en PIXIU cubren un diverso conjunto de tareas financieras, que incluyen cuatro tareas de NLP financiero y una tarea de predicción financiera.
- **Multimodalidad**: Los datos de instrucción y el conjunto de referencia de PIXIU consisten en datos financieros multimodales, que incluyen datos de series de tiempo de la tarea de predicción de movimientos de acciones. Cubre varios tipos de textos financieros, que incluyen informes, artículos de noticias, tweets y presentaciones regulatorias.
- **Diversidad**: A diferencia de conjuntos de referencia anteriores que se centran principalmente en tareas de NLP financiero, el conjunto de evaluación de referencia de PIXIU incluye tareas críticas de predicción financiera alineadas con escenarios del mundo real, lo que lo hace más desafiante.---
## FinBen_ES: Conjunto de evaluación de comprensión y predicción del lenguaje financiero
En esta sección, proporcionamos un análisis de rendimiento detallado de FinMA en comparación con otros modelos líderes, incluyendo ChatGPT, GPT-4, lince-zero et al. Para este análisis, hemos elegido una gama de tareas y métricas que abarcan varios aspectos del Procesamiento del Lenguaje Natural financiero y de la predicción financiera.
### Tareas
| Datos | Tarea | Bruto | Tipos de Datos | Modalidades | Licencia | Artículo |
| --------------------- | ------------------------------ | ------ | ----------------------------------- | ----------------- | --------------- | -------- |
| MultiFin | clasificación de titulares | 230 | titulares de noticias | texto | CC BY 4.0 | [1] |
| FNS | respuesta a preguntas | 50 | informes de ganancias | texto | Público | [2] |
| TSA | análisis de sentimientos | 3,829 | titulares de noticias | texto | CC BY 4.0 | [3] |
| Financees | análisis de sentimientos | 6,539 | titulares de noticias | texto | Público | [4] |
| EFP | respuesta a preguntas | 37 | preguntas de evaluación empresarial | texto | Público | |
| EFPA | respuesta a preguntas | 228 | preguntas de evaluación empresarial | texto | Público | |1. Rasmus Jørgensen, Oliver Brandt, Mareike Hartmann, Xiang Dai, Christian Igel, and Desmond Elliott. 2023. MultiFin: A Dataset for Multilingual Financial NLP. In Findings of the Association for Computational Linguistics: EACL 2023, 894–909. Association for Computational Linguistics, Dubrovnik, Croatia.
2. [FNS 2023. FNP 2023.](http://wp.lancs.ac.uk/cfie/fns2023/).
3. Pan R, García-Díaz JA, Garcia-Sanchez F, and Valencia-García R. 2023. Evaluation of transformer models for financial targeted sentiment analysis in Spanish. In PeerJ Computer Science, 9:e1377. https://doi.org/10.7717/peerj-cs.1377.
4. CodaLab. 2023. [Competition](https://codalab.lisn.upsaclay.fr/competitions/10052)### Evaluación
#### Preparación
##### Instalación local
```bash
git clone https://github.com/TheFinAI/PIXIU.git --recursive
cd PIXIU
pip install -r requirements.txt
cd PIXIU/src/financial-evaluation
pip install -e .[multilingual]
```
##### Imagen de Docker
```bash
sudo bash scripts/docker_run.sh
```
El comando anterior inicia un contenedor docker, puede modificar docker_run.sh para adaptarlo a su entorno. Proporcionamos una imagen precompilada ejecutando sudo docker pull tothemoon/pixiu:latest```bash
docker run --gpus all --ipc=host --ulimit memlock=-1 --ulimit stack=67108864 \
--network host \
--env https_proxy=$https_proxy \
--env http_proxy=$http_proxy \
--env all_proxy=$all_proxy \
--env HF_HOME=$hf_home \
-it [--rm] \
--name pixiu \
-v $pixiu_path:$pixiu_path \
-v $hf_home:$hf_home \
-v $ssh_pub_key:/root/.ssh/authorized_keys \
-w $workdir \
$docker_user/pixiu:$tag \
[--sshd_port 2201 --cmd "echo 'Hello, world!' && /bin/bash"]
```
Argumentos de explicación:
- `[]` significa argumentos ignorables
- `HF_HOME`: directorio de caché huggingface
- `sshd_port`: puerto sshd del contenedor, puede ejecutar `ssh -i private_key -p $sshd_port root@$ip` para conectarse al contenedor, el valor predeterminado es 22001
- `--rm`: elimina el contenedor al salir del contenedor (es decir,`CTRL + D`)#### Evaluación automatizada de tareas
Antes de la evaluación, descargue el [punto de control BART](https://drive.google.com/u/0/uc?id=1_7JfF7KOInb7ZrxKHIigTMR4ChVET01m&export=download) en `src/metrics/BARTScore/bart_score.pth`.Para la evaluación automatizada, siga estas instrucciones:
1. Transformador Huggingface
Para evaluar un modelo alojado en HuggingFace Hub (por ejemplo, finma-7b-full), use este comando:
```bash
python eval.py \
--model "hf-causal-llama" \
--model_args "use_accelerate=True,pretrained=chancefocus/finma-7b-full,tokenizer=chancefocus/finma-7b-full,use_fast=False" \
--tasks "flare_ner,flare_sm_acl,flare_fpb"
```Puede encontrar más detalles en la documentación de [lm_eval](https://github.com/EleutherAI/lm-evaluation-harness).
2. API comerciales
Tenga en cuenta que para tareas como NER, la evaluación automatizada se basa en un patrón específico. Esto podría no extraer información relevante en entornos de cero disparos, dando como resultado un rendimiento relativamente más bajo en comparación con los resultados anteriores anotados manualmente.
```bash
export OPENAI_API_SECRET_KEY=YOUR_KEY_HERE
python eval.py \
--model gpt-4 \
--tasks flare_ner,flare_sm_acl,flare_fpb
```---
## License
PIXIU tiene licencia [MIT]. Para más detalles, consulte el archivo [MIT](LICENSE).
## Historial de estrellas
[![Star History Chart](https://api.star-history.com/svg?repos=The-FinAI/PIXIU&type=Date)](https://star-history.com/#The-FinAI/PIXIU&Date)