Ecosyste.ms: Awesome

An open API service indexing awesome lists of open source software.

Awesome Lists | Featured Topics | Projects

https://github.com/livingbio/news_parser


https://github.com/livingbio/news_parser

Last synced: 7 days ago
JSON representation

Awesome Lists containing this project

README

        

[![Build Status](https://travis-ci.org/livingbio/news_parser.svg?branch=master)](https://travis-ci.org/livingbio/news_parser)

#### 實習生parser 列表

說明
---

待parser
---

1. 科技新報 http://technews.tw/2016/01/04/tiobe-2015-programming-language-index/ #alec
2. 新頭殼 http://newtalk.tw/news/view/2016-01-14/69148 #
3. 三立新聞網 http://www.setn.com/News.aspx?NewsID=118251 #AaronLai_intern
4. 數位時代 http://www.bnext.com.tw/article/view/id/37335 #tsaiJN
5. 華視新聞 http://news.cts.com.tw/ #sharon
6. tvbs http://news.tvbs.com.tw/ #chuyun

需要欄位
---

名稱| 說明
---|---
url| 該新聞 url
source_press| 新聞來源(轉貼某間自?)
title| 新聞title
post_time| 發佈時間
journalist| 記者(作者)
content| 新聞內文
popularity| 人氣
compare| 評比
keywords| 關鍵字
fb_like| fb 按讚數(可選)
fb_share| fb share 數(可選)
category| 類別
comment| 回覆

comment 說明

name| 說明
---|---
acotr| 作者
like| 喜歡數量
dislike| 討厭數量
post_time| 回復時間
source_type| 來源類別(fb...etc)
sub_comment| 子回應

需求spec
---
1. 頁面 parser
```python
def parser_page(url):
"""
parser page method
主要用於抓取新聞detail頁面資訊

page_data = parser_page(news detail url)
"""

return {
"url": string
"source_press": string
"title": string
"post_time": datetime.datetime()
"journalist": string
"content": string
"compare": string
"keyword": [string, string, ...]
"fb_like": int
"fb_share": int
"category": [category, category]
"comment": [{
"actor": str
"like": int
"dislike": int
"content": str
"post_time": datetime.datetime
"source_type": string

sub_comments: [{
"actor": str
"like": int
"dislike": int
"content": str
"post_time": datetime.datetime
"source_type": string
}]
}]
}
```

2. detail url 取得
```python
def get_category_urls(category_url):
"""
get_category_urls
根據category 頁面取得 detail urls

detail_urls = get_category_urls(category_url)
"""
return [detail_url, detail_url, detail_url]

```

django 需求
---

1. 設計一套models 儲存 留言, 文章 # django models
2. 我需要能夠幫我filter 文章和留言的api (支援csv, json)
3. 使用django admin 介面管理 留言 & 文章 # django admin
4. 我需要有一個能夠更新單一新聞網站的 command # django command