https://github.com/macrat/chop-csv
時系列データのCSVファイルをデータレイク用に分割して圧縮する。
https://github.com/macrat/chop-csv
Last synced: 12 months ago
JSON representation
時系列データのCSVファイルをデータレイク用に分割して圧縮する。
- Host: GitHub
- URL: https://github.com/macrat/chop-csv
- Owner: macrat
- Created: 2021-11-10T04:42:19.000Z (over 4 years ago)
- Default Branch: main
- Last Pushed: 2023-02-23T08:27:54.000Z (over 3 years ago)
- Last Synced: 2024-06-20T15:06:53.731Z (about 2 years ago)
- Language: Go
- Size: 11.7 KB
- Stars: 0
- Watchers: 2
- Forks: 0
- Open Issues: 1
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
chop-csv
========
時系列データのCSVファイルをデータレイク用に分割して圧縮する。
## 使い方
引数に対象ファイル名を指定して実行すると、カレントディレクトリの `chopped` ディレクトリに結果が保存される。
入力ファイルは複数あっても良い。
``` shell
$ chop-csv ./input.csv
```
Windows環境でオプションを渡さないのであれば、exeに対象ファイルをドラッグアンドドロップするだけでも使える。
## 入力ファイルのルール
- 一番左の列をタイムスタンプにする。
デフォルトでは「YYYYMMDD」形式だが、 `-date-format` オプションで変更可能。
- Shift-JIS形式のCSVファイルとして保存する。
`-utf8` オプションを付けるとUTF8として読む。
## 出力ファイルの形式
- タイムスタンプを元にHive形式のディレクトリを生成する。
`chopped/year=YYYY/month=MM/day=DD/` 形式。 `chopped` の部分は `out-dir` で変更できる。
- 出力ファイル名は入力ファイルの絶対パス名のmd5ハッシュを元に決定される。
同じ名前のファイルが既にあった場合警告なしで上書きするので注意。
- 出力csvはbzip2で圧縮される。