Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/yuanxiaolong/ParquetDemo
MR转换parquet
https://github.com/yuanxiaolong/ParquetDemo
Last synced: 12 days ago
JSON representation
MR转换parquet
- Host: GitHub
- URL: https://github.com/yuanxiaolong/ParquetDemo
- Owner: yuanxiaolong
- Created: 2016-02-03T06:37:28.000Z (almost 9 years ago)
- Default Branch: master
- Last Pushed: 2016-12-23T10:20:05.000Z (almost 8 years ago)
- Last Synced: 2024-08-01T18:32:00.017Z (3 months ago)
- Language: Java
- Size: 12.4 MB
- Stars: 4
- Watchers: 3
- Forks: 7
- Open Issues: 0
-
Metadata Files:
- Readme: readme.md
Awesome Lists containing this project
README
## 介绍
此工程用于通用转换 textfile或parquetfile 为 parquetfile 主要是应用于 提高hive表的查询效率或ETL处理
## 准备
需要准备一个 xml 配置文件,用于描述 生成parquet文件的schema 及 Input Output hdfs 路径等
示例如下:
```
/test/xiaolong_1
/user/hive/warehouse/test.db/tb_normal_sep
remote_addr,
upstream_addr,
http_x_forwarded_for,
visit_time,
request_uri,
request_method,
server_protocol,
status,
body_bytes_sent,
request_time,
uid,
uuid,
user_agent,
refer,
request_body
\t
snappy
true```
说明:
* input 输入的hdfs路径
* output 输出的hdfs路径,如果不为空,则会先清空此目录
* schema 生成的parquet文件元信息
* sep 输入hdfs文件的分隔符
* compress 压缩形式,可选有 snappy 或 gzip 两种
* isOverwrite 是否覆盖写入,如果为true会先删除output再执行MR,请仔细.## 遗留问题
目前只支持textfile源文件为 ```\t``` 分隔
## 改进