https://github.com/ldkrsi/cpbl-opendata
從中職官網上爬資料並進行勘誤
https://github.com/ldkrsi/cpbl-opendata
cpbl open-data
Last synced: about 1 year ago
JSON representation
從中職官網上爬資料並進行勘誤
- Host: GitHub
- URL: https://github.com/ldkrsi/cpbl-opendata
- Owner: ldkrsi
- License: mit
- Created: 2018-05-22T14:57:12.000Z (about 8 years ago)
- Default Branch: master
- Last Pushed: 2025-01-26T03:39:56.000Z (over 1 year ago)
- Last Synced: 2025-06-06T00:09:00.031Z (about 1 year ago)
- Topics: cpbl, open-data
- Homepage:
- Size: 1.56 MB
- Stars: 28
- Watchers: 3
- Forks: 8
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
- License: LICENSE
Awesome Lists containing this project
README
# CPBL Opendata
收集中華職棒球員的逐年成績及球隊逐年戰績
從中職官網上爬資料並進行勘誤
## 2023年冬盟官網重生
冬盟官網在2023年度重生後整個資料換新,球員ID也一併更新。
本資料集也同步重抓歷屆冬盟資料,其統計數據的改變同2021年中職官網改版。
## 2021年中職官網改版
中職官網在2021年5月進行大改版,年度數據統計部份作了以下的改變:
1. 球員、球團的ID系統換成了另一套新的
1. 冬季聯盟、二軍業餘隊的數據都查不到了
1. BB 數據配合MLB標準加入了 IBB
1. 沒有投手救援失敗(BS)的統計
由於把部份非一軍的資料隱藏了,導致我沒辬法完美的將ID系統轉換過去,因此在 `players.csv` 和 `standings.csv` 保留了 `Old ID` 欄位供無法轉換ID系統的球員/球團仍可用舊的ID來對照。
## 修正的錯誤
1. 2020年前若有球員在一季內有轉隊,在官網上的滾地出局(GO)及飛球出局(FO)數據會有錯誤,我用出局的計算及平均分佈的方式,給這兩個數字合理的值。
3. 修正部份球員有兩個ID的問題
## 使用上的注意事項
1. 本資料集所記錄的球員姓名,並不會因為球員修改登錄名而跟著變化,全是以抓資料當下所使用的姓名,本表格不保證該球員在該年度所使用登錄名的正確性。
1. 只有`standings.csv`上寫出的球隊名稱是正確的,在其他CSV檔中所寫的球隊名不保證正確性。
1. 中華職棒在2005年才開始有中繼成功(HLD)及救援失敗(BS)的統計,2021年拔掉BS的統計(存在於聯盟資料庫,但沒公開)。
1. 2020年二軍業餘球隊僅有部份場次的守備數據總合,而2022年起沒有二軍業餘球隊守備數據。
1. 2023年起二軍業餘交流賽不再併入戰績計算、個人數據統計,本資料集也從該年度停止收集二軍業餘交流賽的數字