https://github.com/dmt-zh/nlp
Practical NLP
https://github.com/dmt-zh/nlp
bag-of-words lca nlp nltk regex sklearn spacy tf-idf word2vec
Last synced: about 2 months ago
JSON representation
Practical NLP
- Host: GitHub
- URL: https://github.com/dmt-zh/nlp
- Owner: dmt-zh
- Created: 2025-05-03T16:54:54.000Z (about 1 year ago)
- Default Branch: main
- Last Pushed: 2025-06-25T13:38:45.000Z (12 months ago)
- Last Synced: 2025-06-25T14:29:34.499Z (12 months ago)
- Topics: bag-of-words, lca, nlp, nltk, regex, sklearn, spacy, tf-idf, word2vec
- Language: Jupyter Notebook
- Homepage:
- Size: 530 KB
- Stars: 1
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
## Предварительные требования
Для начала работы нужны:
* Linux (Ubuntu22+, Debian) либо Windows10/11 + WSL2
* Python версии 3.12.x
## Настройка окружения:
Устанавливаем пакетный менеджер [uv](https://docs.astral.sh/uv/getting-started/installation/):
```bash
curl -LsSf https://astral.sh/uv/install.sh | sh
```
Копируем репозиторий:
```bash
git clone https://github.com/dmt-zh/nlp.git && cd nlp
```
Создаем виртуальное окружение и устанавливаем зависимости:
```
uv sync
```
## Для работы с кодом ноутбуков необходимо:
Запутить Jupyter server в фоновом режиме
```sh
nohup uv run -m notebook &> logging.log &
```
Перейти по url адресу в браузере
```
http://localhost:8888/
```
## Интерактивные ноутбуки
| Ноутбук | Тема | Содержание | Технологии |
| ----------------------------- | ----------------------- | ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | --------------------------------------------- |
| `Text Representation. Part 1` | Векторная модель текста | Стемминг
Лемматизация
One-Hot Encoding
BoW (Bag of Words)
BoN (Bag of N Grams)
TF-IDF (Term Frequency Inverse Document Frequency)
LDA (Latent Semantic Analysis) | NLTK
spaCy
regex
scikit-learn |
| `Text Representation. Part 2` | Векторная модель текста | Embeddings
Word2Vec
SentenceTransformer | gensim
SentenceTransformer
transformers |