https://github.com/budali/spark_mooc_learn
spark 慕课网日志分析
https://github.com/budali/spark_mooc_learn
Last synced: about 1 month ago
JSON representation
spark 慕课网日志分析
- Host: GitHub
- URL: https://github.com/budali/spark_mooc_learn
- Owner: budaLi
- Created: 2021-03-25T12:31:56.000Z (about 5 years ago)
- Default Branch: master
- Last Pushed: 2021-05-18T01:00:11.000Z (about 5 years ago)
- Last Synced: 2025-01-16T01:55:26.020Z (over 1 year ago)
- Language: Scala
- Size: 7.89 MB
- Stars: 0
- Watchers: 2
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# spark_mooc_learn
spark 慕课网日志分析
### 2021-3-25
勉强模仿着可以跑得项目加上百度搜到的教程,基础环境搭建成功....慢慢走上学习大数据的正轨...
### 2021-3-29
maven项目创建,修改基本学会了,引入的第三方包在我的电脑中是中文路径...放弃了,mvn增加第三方库的两种方式。
1. clone源码后mvn 打包再上传到本地mvn仓库。
2. 下载源码,放到本地文件目录。
### 2021-3-31
通过spark sql 及dataframe查询数据,并写入mysql数据。
### 2021-4-1
流量topN的实现及入库。
再后面就是数据可视化相关的内容,暂时不学习了,开始新的项目。
-------------------------------------------
### 2021-4-6
在本项目的代码基础上学习基于spark的电影实时和离线推荐系统。主要技术栈包括Spark,hadoop,Kafka,Hive,Zeppelin等
在这个项目中,主要有以下几层:
1.存储层:HDFS作为底层存储,Hive作为数据仓库。
2.离线数据处理:SparkSql
3.实时数据处理:Kafka,SparkStreaming
4.数据应用层:MLlib
5.数据展示和对接:Zeppelin
开发的重难点:
1.数据仓库的准备
2.数据的处理
3.实时数据流
### 2021-4-7
1. 对links,movies,ratings,tags的数据清洗。
2. git commit后但未push的版本回退:VCS->reset head ->填写HEAD~n n代表回退的版本
### 2021-4-8
配置了Hive好久...太坑,还是不行
### 2021-4-13
考虑放弃Hive,数据存储采用Hdfs+Mysql
spark源码解析系列:https://github.com/lw-lin/CoolplaySpark
### 2021-4-14
梳理下现有数据:
1.链接数据:Links(movieId: Long, imdbId: Long, tmdbId: Long)
2.电影数据:Movies(movieId: Int, title: String, genres: String)
3.评分数据:Ratings(userId: Int, movieId: Int, rating: Double, timestamp: Int)
4.标签数据:Tags(userId: Int, movieId: Int, tag: String, timestamp: Int)
离线推荐主要指根据现有数据,为每个用户推荐其评分较高的类型的电影。
### 2021-5-13
学习hive sql