An open API service indexing awesome lists of open source software.

https://github.com/dmt-zh/nlp

Practical NLP
https://github.com/dmt-zh/nlp

bag-of-words lca nlp nltk regex sklearn spacy tf-idf word2vec

Last synced: about 2 months ago
JSON representation

Practical NLP

Awesome Lists containing this project

README

          

## Предварительные требования

Для начала работы нужны:
* Linux (Ubuntu22+, Debian) либо Windows10/11 + WSL2
* Python версии 3.12.x


## Настройка окружения:

Устанавливаем пакетный менеджер [uv](https://docs.astral.sh/uv/getting-started/installation/):
```bash
curl -LsSf https://astral.sh/uv/install.sh | sh
```

Копируем репозиторий:
```bash
git clone https://github.com/dmt-zh/nlp.git && cd nlp
```

Создаем виртуальное окружение и устанавливаем зависимости:
```
uv sync
```


## Для работы с кодом ноутбуков необходимо:

Запутить Jupyter server в фоновом режиме

```sh
nohup uv run -m notebook &> logging.log &
```
Перейти по url адресу в браузере
```
http://localhost:8888/
```


## Интерактивные ноутбуки

| Ноутбук | Тема | Содержание | Технологии |
| ----------------------------- | ----------------------- | ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | --------------------------------------------- |
| `Text Representation. Part 1` | Векторная модель текста | Стемминг
Лемматизация
One-Hot Encoding
BoW (Bag of Words)
BoN (Bag of N Grams)
TF-IDF (Term Frequency Inverse Document Frequency)
LDA (Latent Semantic Analysis) | NLTK
spaCy
regex
scikit-learn |
| `Text Representation. Part 2` | Векторная модель текста | Embeddings
Word2Vec
SentenceTransformer | gensim
SentenceTransformer
transformers |