https://github.com/budali/spark_mooc_learn

spark 慕课网日志分析
https://github.com/budali/spark_mooc_learn

Last synced: about 1 month ago
JSON representation

spark 慕课网日志分析

Host: GitHub
URL: https://github.com/budali/spark_mooc_learn
Owner: budaLi
Created: 2021-03-25T12:31:56.000Z (about 5 years ago)
Default Branch: master
Last Pushed: 2021-05-18T01:00:11.000Z (about 5 years ago)
Last Synced: 2025-01-16T01:55:26.020Z (over 1 year ago)
Language: Scala
Size: 7.89 MB
Stars: 0
Watchers: 2
Forks: 0
Open Issues: 0
Metadata Files:
- Readme: README.md

Awesome Lists containing this project

README

# spark_mooc_learn
spark 慕课网日志分析
### 2021-3-25

勉强模仿着可以跑得项目加上百度搜到的教程，基础环境搭建成功....慢慢走上学习大数据的正轨...

### 2021-3-29

maven项目创建，修改基本学会了，引入的第三方包在我的电脑中是中文路径...放弃了，mvn增加第三方库的两种方式。
1. clone源码后mvn 打包再上传到本地mvn仓库。
2. 下载源码，放到本地文件目录。

### 2021-3-31

通过spark sql 及dataframe查询数据，并写入mysql数据。

### 2021-4-1

流量topN的实现及入库。
再后面就是数据可视化相关的内容，暂时不学习了，开始新的项目。

-------------------------------------------

### 2021-4-6

在本项目的代码基础上学习基于spark的电影实时和离线推荐系统。主要技术栈包括Spark,hadoop,Kafka,Hive,Zeppelin等
在这个项目中，主要有以下几层：
1.存储层：HDFS作为底层存储，Hive作为数据仓库。
2.离线数据处理:SparkSql
3.实时数据处理：Kafka,SparkStreaming
4.数据应用层：MLlib
5.数据展示和对接：Zeppelin

开发的重难点：
1.数据仓库的准备
2.数据的处理
3.实时数据流

### 2021-4-7
1. 对links,movies,ratings,tags的数据清洗。
2. git commit后但未push的版本回退：VCS->reset head ->填写HEAD~n n代表回退的版本

### 2021-4-8

配置了Hive好久...太坑，还是不行

### 2021-4-13

考虑放弃Hive,数据存储采用Hdfs+Mysql
spark源码解析系列：https://github.com/lw-lin/CoolplaySpark

### 2021-4-14
梳理下现有数据：
1.链接数据：Links(movieId: Long, imdbId: Long, tmdbId: Long)
2.电影数据：Movies(movieId: Int, title: String, genres: String)
3.评分数据：Ratings(userId: Int, movieId: Int, rating: Double, timestamp: Int)
4.标签数据：Tags(userId: Int, movieId: Int, tag: String, timestamp: Int)

离线推荐主要指根据现有数据，为每个用户推荐其评分较高的类型的电影。

### 2021-5-13
学习hive sql

ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Awesome

https://github.com/budali/spark_mooc_learn

Awesome Lists containing this project

README