An open API service indexing awesome lists of open source software.

https://github.com/oeljeklaus-you/loganalyzehelper

论坛日志分析系统清洗程序(包含IP规则库,UDF开发,MapReduce程序,日志数据)
https://github.com/oeljeklaus-you/loganalyzehelper

hadoop java

Last synced: 4 months ago
JSON representation

论坛日志分析系统清洗程序(包含IP规则库,UDF开发,MapReduce程序,日志数据)

Awesome Lists containing this project

README

          

# logAnalyzeHelper
## 工程的目的
该工程是论坛日志分析系统的辅助工程,主要功能模块是帮助日志分析系统清洗数据、以及在Hive中建立相应的数据表。
## 工程目录结构
### /src
### ------/main
### --------------/java
### ---------------------/cn.edu.hust
### ---------------------------------------/preprocess
### -------------------------------------------------/domain
### -------------------------------------------------------/WebLogBean 日志的POJO对象
### -------------------------------------------------/ClickStream r日志清洗数据

### ---------------------------------------/udf
### -------------------------------------------bean
### ---------------------------------------------Pair IP查找的辅助类
### -------------------------------------------BrowserUtils 获取浏览器的UDF函数
### -------------------------------------------CityUtils 获取城市的UDF函数类
### -------------------------------------------IPUtils 获取省份的UDF函数类
### -------------------------------------------OSUtils 获取操作系统UDF函数类
### -------------/resources
### ------/test
### ------/pom,xml
## 工程使用的数据集
工程使用的数据集可以在作者的百度云中
下载[日志数据](https://pan.baidu.com/s/1ALZfXFkGcERiaQEIs6JHxQ),
## 工程的流程
原始数据--->数据规整--->ETL--->导入mysql数据库--->可视化
## ETL使用的SQL
使用的SQL在本本工程中命名为点击流.sql