An open API service indexing awesome lists of open source software.

https://github.com/macrat/chop-csv

時系列データのCSVファイルをデータレイク用に分割して圧縮する。
https://github.com/macrat/chop-csv

Last synced: 12 months ago
JSON representation

時系列データのCSVファイルをデータレイク用に分割して圧縮する。

Awesome Lists containing this project

README

          

chop-csv
========

時系列データのCSVファイルをデータレイク用に分割して圧縮する。

## 使い方

引数に対象ファイル名を指定して実行すると、カレントディレクトリの `chopped` ディレクトリに結果が保存される。
入力ファイルは複数あっても良い。

``` shell
$ chop-csv ./input.csv
```

Windows環境でオプションを渡さないのであれば、exeに対象ファイルをドラッグアンドドロップするだけでも使える。

## 入力ファイルのルール

- 一番左の列をタイムスタンプにする。

デフォルトでは「YYYYMMDD」形式だが、 `-date-format` オプションで変更可能。

- Shift-JIS形式のCSVファイルとして保存する。

`-utf8` オプションを付けるとUTF8として読む。

## 出力ファイルの形式

- タイムスタンプを元にHive形式のディレクトリを生成する。

`chopped/year=YYYY/month=MM/day=DD/` 形式。 `chopped` の部分は `out-dir` で変更できる。

- 出力ファイル名は入力ファイルの絶対パス名のmd5ハッシュを元に決定される。

同じ名前のファイルが既にあった場合警告なしで上書きするので注意。

- 出力csvはbzip2で圧縮される。