https://github.com/gcondeh/tokens

Pequeñas utilidades para contar tokens y cortar cadenas de texto
https://github.com/gcondeh/tokens

langchain python spacy-nlp spanish tiktoken

Last synced: about 1 month ago
JSON representation

Pequeñas utilidades para contar tokens y cortar cadenas de texto

Host: GitHub
URL: https://github.com/gcondeh/tokens
Owner: gcondeh
License: cc0-1.0
Created: 2024-11-14T15:05:32.000Z (over 1 year ago)
Default Branch: main
Last Pushed: 2024-11-15T08:35:59.000Z (over 1 year ago)
Last Synced: 2025-03-16T08:41:46.575Z (over 1 year ago)
Topics: langchain, python, spacy-nlp, spanish, tiktoken
Language: Python
Homepage:
Size: 21.5 KB
Stars: 0
Watchers: 1
Forks: 0
Open Issues: 0
Metadata Files:
- Readme: README.md
- License: LICENSE

Awesome Lists containing this project

README

# Tokens
Pequeñas utilidades para contar tokens y cortar cadenas de texto

## contar_tokens_tiktoken
Se cargan de Datos desde un csv en df_texto, y se eliminan las filas que no tienen datos en la columna "subtitulo".
Se definen las funciones:
* Función mayor_long: Encuentra el Índice de la fila con el subtitulo de mayor longitud en la columna "subtitulo".
* Función num_tokens: Usa tiktoken para obtener el número de tokens en cada texto de textos.
Ejemplos de uso:
* Obtener la fila con subtitulo más Largo y su longitud.
* Se define un límite n (en este caso, 20), y se cuenta cuantos subtítulos tienen más de 20 tokens.

## contar_tokens_spacy
Básicamente hace lo mismo que "contar_tokens_tiktoken", pero con spacy

## separar_textos_en_parrafos
Se cargan de Datos desde un csv en df_texto, y divide el campo "subtitulo" en fragmentos de una longitud dada aumentando el número de filas del dataframe. Después se guarda el resultado en un fichero.
Implementa dos métodos para separar los fragmentos. Por tokens, usando Tiktoken y por longitud del texto.

ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Awesome

https://github.com/gcondeh/tokens

Awesome Lists containing this project

README