{"id":20457936,"url":"https://github.com/pythainlp/thaigov-v2-corpus","last_synced_at":"2025-04-13T05:26:24.405Z","repository":{"id":62827639,"uuid":"296343047","full_name":"PyThaiNLP/thaigov-v2-corpus","owner":"PyThaiNLP","description":"Thai News Dataset from Thai government website. ","archived":false,"fork":false,"pushed_at":"2025-04-11T12:22:42.000Z","size":118254,"stargazers_count":16,"open_issues_count":0,"forks_count":1,"subscribers_count":2,"default_branch":"master","last_synced_at":"2025-04-11T14:08:39.061Z","etag":null,"topics":["corpus","corpus-data","pythainlp","thai-language","thai-nlp"],"latest_commit_sha":null,"homepage":"","language":"Jupyter Notebook","has_issues":true,"has_wiki":null,"has_pages":null,"mirror_url":null,"source_name":null,"license":"apache-2.0","status":null,"scm":"git","pull_requests_enabled":true,"icon_url":"https://github.com/PyThaiNLP.png","metadata":{"files":{"readme":"README.md","changelog":null,"contributing":null,"funding":null,"license":"LICENSE","code_of_conduct":null,"threat_model":null,"audit":null,"citation":null,"codeowners":null,"security":null,"support":null,"governance":null,"roadmap":null,"authors":null,"dei":null,"publiccode":null,"codemeta":null}},"created_at":"2020-09-17T13:58:30.000Z","updated_at":"2025-04-11T12:22:46.000Z","dependencies_parsed_at":"2024-11-05T13:38:00.620Z","dependency_job_id":null,"html_url":"https://github.com/PyThaiNLP/thaigov-v2-corpus","commit_stats":null,"previous_names":[],"tags_count":2,"template":false,"template_full_name":null,"repository_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/PyThaiNLP%2Fthaigov-v2-corpus","tags_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/PyThaiNLP%2Fthaigov-v2-corpus/tags","releases_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/PyThaiNLP%2Fthaigov-v2-corpus/releases","manifests_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/PyThaiNLP%2Fthaigov-v2-corpus/manifests","owner_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners/PyThaiNLP","download_url":"https://codeload.github.com/PyThaiNLP/thaigov-v2-corpus/tar.gz/refs/heads/master","host":{"name":"GitHub","url":"https://github.com","kind":"github","repositories_count":248667224,"owners_count":21142393,"icon_url":"https://github.com/github.png","version":null,"created_at":"2022-05-30T11:31:42.601Z","updated_at":"2022-07-04T15:15:14.044Z","host_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub","repositories_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories","repository_names_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repository_names","owners_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners"}},"keywords":["corpus","corpus-data","pythainlp","thai-language","thai-nlp"],"created_at":"2024-11-15T12:09:50.370Z","updated_at":"2025-04-13T05:26:24.386Z","avatar_url":"https://github.com/PyThaiNLP.png","language":"Jupyter Notebook","funding_links":[],"categories":[],"sub_categories":[],"readme":"# ThaiGov V2 Corpus\n\n\n## English\n- Data from Thai government website. https://www.thaigov.go.th\n- This part of PyThaiNLP Project.\n- Compiled by Mr.Wannaphong Phatthiyaphaibun\n- License Dataset is public domain.\n\n## Data format\n\n- 1 file, 1 news, which is extracted from 1 url.\n\n```\ntopic\n(Blank line)\ncontent\ncontent\ncontent\ncontent\ncontent\n(Blank line)\nที่มา (URL source) : http://www.thaigov.go.th/news/contents/details/NNN\n```\n\n## Thai\n- เป็นข้อมูลที่รวบรวมข่าวสารจากเว็บไซต์รัฐบาลไทย https://www.thaigov.go.th\n- โครงการนี้เป็นส่วนหนึ่งในแผนพัฒนา [PyThaiNLP](https://github.com/PyThaiNLP/)\n- รวบรวมโดย นาย วรรณพงษ์  ภัททิยไพบูลย์\n- ข้อมูลที่รวบรวมในคลังข้อความนี้เป็นสาธารณสมบัติ (public domain) ตามพ.ร.บ.ลิขสิทธิ์ พ.ศ. 2537 มาตรา 7 (สิ่งต่อไปนี้ไม่ถือว่าเป็นงานอันมีลิขสิทธิ์ตามพระราชบัญญัตินี้ (1) ข่าวประจำวัน และข้อเท็จจริงต่างๆ ที่มีลักษณะเป็นเพียงข่าวสารอันมิใช่งานในแผนกวรรณคดี แผนกวิทยาศาสตร์ หรือแผนกศิลปะ [...] (3) ระเบียบ ข้อบังคับ ประกาศ คำสั่ง คำชี้แจง และหนังสือตอบโต้ของกระทรวง ทบวง กรม หรือหน่วยงานอื่นใดของรัฐหรือของท้องถิ่น [...])\n\n**สามารถติดตามประวัติการแก้ไขคลังข้อความนี้ได้ผ่านระบบ Git**\n\n### จำนวนข่าว\n\n- วันเริ่มต้นโครงการ 17 ก.ย. 2563\n\n### รูปแบบข้อมูล\n\n- 1 ไฟล์ 1 ข่าว ซึ่งดึงมาจาก 1 url\n\n```\nหัวเรื่อง\n(บรรทัดว่าง)\nเนื้อความ\nเนื้อความ\nเนื้อความ\nเนื้อความ\nเนื้อความ\n(บรรทัดว่าง)\nที่มา : http://www.thaigov.go.th/news/contents/details/NNN\n```\n\n### รายละเอียดชื่อไฟล์\n\n- ชื่อหมวดหมู่_จำนวนที่ของข่าว.txt\n\n### Script\n\n- run.py สำหรับเก็บข้อมูลจากหน้าเว็บ โดยจะดึงหน้าเว็บจาก url ```http://www.thaigov.go.th/news/contents/details/NNN``` โดยที่ NNN คือเลขจำนวนเต็ม\n    - เปลี่ยนค่าตัวแปร i ในไฟล์เป็นเลขที่ต้องการเริ่มเก็บ\n- clean.py สำหรับทำความสะอาดข้อมูลเบื้องต้น โดยจะลบช่องว่างหน้าและท้ายบรรทัด ลบบรรทัดว่าง\n    - ```clean.py ชื่อไฟล์```\n    - ```clean.py ชื่อไฟล์1 ชื่อไฟล์2```\n    - ```clean.py *.txt```\n\n\n\nWe build Thai NLP.\n\nPyThaiNLP\n","project_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fpythainlp%2Fthaigov-v2-corpus","html_url":"https://awesome.ecosyste.ms/projects/github.com%2Fpythainlp%2Fthaigov-v2-corpus","lists_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fpythainlp%2Fthaigov-v2-corpus/lists"}