https://github.com/oeljeklaus-you/loganalyzehelper
论坛日志分析系统清洗程序(包含IP规则库,UDF开发,MapReduce程序,日志数据)
https://github.com/oeljeklaus-you/loganalyzehelper
hadoop java
Last synced: 4 months ago
JSON representation
论坛日志分析系统清洗程序(包含IP规则库,UDF开发,MapReduce程序,日志数据)
- Host: GitHub
- URL: https://github.com/oeljeklaus-you/loganalyzehelper
- Owner: oeljeklaus-you
- Created: 2018-05-17T12:05:33.000Z (over 7 years ago)
- Default Branch: master
- Last Pushed: 2018-05-18T10:41:13.000Z (over 7 years ago)
- Last Synced: 2025-04-05T18:51:00.894Z (7 months ago)
- Topics: hadoop, java
- Language: Java
- Homepage:
- Size: 2.02 MB
- Stars: 33
- Watchers: 3
- Forks: 21
- Open Issues: 1
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# logAnalyzeHelper
## 工程的目的
该工程是论坛日志分析系统的辅助工程,主要功能模块是帮助日志分析系统清洗数据、以及在Hive中建立相应的数据表。
## 工程目录结构
### /src
### ------/main
### --------------/java
### ---------------------/cn.edu.hust
### ---------------------------------------/preprocess
### -------------------------------------------------/domain
### -------------------------------------------------------/WebLogBean 日志的POJO对象
### -------------------------------------------------/ClickStream r日志清洗数据
### ---------------------------------------/udf
### -------------------------------------------bean
### ---------------------------------------------Pair IP查找的辅助类
### -------------------------------------------BrowserUtils 获取浏览器的UDF函数
### -------------------------------------------CityUtils 获取城市的UDF函数类
### -------------------------------------------IPUtils 获取省份的UDF函数类
### -------------------------------------------OSUtils 获取操作系统UDF函数类
### -------------/resources
### ------/test
### ------/pom,xml
## 工程使用的数据集
工程使用的数据集可以在作者的百度云中
下载[日志数据](https://pan.baidu.com/s/1ALZfXFkGcERiaQEIs6JHxQ),
## 工程的流程
原始数据--->数据规整--->ETL--->导入mysql数据库--->可视化
## ETL使用的SQL
使用的SQL在本本工程中命名为点击流.sql