https://github.com/undertheseanlp/preprocess
https://github.com/undertheseanlp/preprocess
Last synced: 2 months ago
JSON representation
- Host: GitHub
- URL: https://github.com/undertheseanlp/preprocess
- Owner: undertheseanlp
- Created: 2018-02-24T02:48:41.000Z (about 7 years ago)
- Default Branch: master
- Last Pushed: 2018-02-24T03:00:12.000Z (about 7 years ago)
- Last Synced: 2025-01-08T16:23:16.956Z (4 months ago)
- Size: 2.93 KB
- Stars: 0
- Watchers: 2
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
Các bước tiền xử lý dữ liệu văn bản
- Chuẩn hóa unicode (unicode tổ hợp và dựng sẵn)
- Chuẩn hóa ký tự
- Chuẩn hóa dấu
- Loại bỏ các ký tự đặc biệt (thẻ html, ...)- File Loading
- Tách từ
- Vocab
- Numericalize/Indexify
- Word Vector
- Batching
- Embedding LookupTham khảo
* [A Tutorial on Torchtext](http://anie.me/On-Torchtext/)