https://github.com/tuandoan998/news-classification
Data Science Project
https://github.com/tuandoan998/news-classification
Last synced: 4 months ago
JSON representation
Data Science Project
- Host: GitHub
- URL: https://github.com/tuandoan998/news-classification
- Owner: tuandoan998
- Created: 2019-11-11T02:39:38.000Z (over 5 years ago)
- Default Branch: master
- Last Pushed: 2020-01-10T09:14:36.000Z (over 5 years ago)
- Last Synced: 2025-01-03T14:23:47.515Z (6 months ago)
- Language: Jupyter Notebook
- Size: 39.3 MB
- Stars: 0
- Watchers: 1
- Forks: 0
- Open Issues: 1
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# Data Science Final Project:
## Đề tài: phân loại văn bản
#### Câu hỏi đặt ra
Cho một đoạn văn bản (tiếng Anh), làm sao để biết loại văn bản đó thuộc chủ đề nào.
#### Ứng dụng
Giúp các trang web tin tức, các diễn đàn tự động kiểm tra các bài post từ user thuộc thể loại nào và phân vào lớp cụ thể.
#### Thu thập dữ liệu
Dữ liệu thu thập từ https://vietnamnews.vn/ (đã kiểm tra file robots.txt và hợp lệ)
Dữ liệu bao gồm 5 nhãn (thể loại), mỗi mẫu gồm các cột (id, title, text, label):
- polictics-laws
- society
- economy
- sports
- environmentCấu trúc project:
- Thư mục data: chứa dữ liệu được crawl sẵn (vietnamnews_backup.csv) và file thông tin cho các nhãn (label.txt)
- Thưc mục scripts: chứa 2 file notebook: crawl_all.ipynb, pipe_line.ipynb
- Slide
- Phân công công việc