https://github.com/gcondeh/tokens
Pequeñas utilidades para contar tokens y cortar cadenas de texto
https://github.com/gcondeh/tokens
langchain python spacy-nlp spanish tiktoken
Last synced: about 1 month ago
JSON representation
Pequeñas utilidades para contar tokens y cortar cadenas de texto
- Host: GitHub
- URL: https://github.com/gcondeh/tokens
- Owner: gcondeh
- License: cc0-1.0
- Created: 2024-11-14T15:05:32.000Z (over 1 year ago)
- Default Branch: main
- Last Pushed: 2024-11-15T08:35:59.000Z (over 1 year ago)
- Last Synced: 2025-03-16T08:41:46.575Z (over 1 year ago)
- Topics: langchain, python, spacy-nlp, spanish, tiktoken
- Language: Python
- Homepage:
- Size: 21.5 KB
- Stars: 0
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
- License: LICENSE
Awesome Lists containing this project
README
# Tokens
Pequeñas utilidades para contar tokens y cortar cadenas de texto
## contar_tokens_tiktoken
Se cargan de Datos desde un csv en df_texto, y se eliminan las filas que no tienen datos en la columna "subtitulo".
Se definen las funciones:
* Función mayor_long: Encuentra el Índice de la fila con el subtitulo de mayor longitud en la columna "subtitulo".
* Función num_tokens: Usa tiktoken para obtener el número de tokens en cada texto de textos.
Ejemplos de uso:
* Obtener la fila con subtitulo más Largo y su longitud.
* Se define un límite n (en este caso, 20), y se cuenta cuantos subtítulos tienen más de 20 tokens.
## contar_tokens_spacy
Básicamente hace lo mismo que "contar_tokens_tiktoken", pero con spacy
## separar_textos_en_parrafos
Se cargan de Datos desde un csv en df_texto, y divide el campo "subtitulo" en fragmentos de una longitud dada aumentando el número de filas del dataframe. Después se guarda el resultado en un fichero.
Implementa dos métodos para separar los fragmentos. Por tokens, usando Tiktoken y por longitud del texto.