Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/livingbio/news_parser
https://github.com/livingbio/news_parser
Last synced: 7 days ago
JSON representation
- Host: GitHub
- URL: https://github.com/livingbio/news_parser
- Owner: livingbio
- Created: 2016-01-14T05:50:41.000Z (almost 9 years ago)
- Default Branch: master
- Last Pushed: 2023-11-25T05:31:12.000Z (12 months ago)
- Last Synced: 2024-05-15T20:14:06.066Z (6 months ago)
- Language: Python
- Size: 25.1 MB
- Stars: 1
- Watchers: 10
- Forks: 0
- Open Issues: 8
-
Metadata Files:
- Readme: readme.mkd
Awesome Lists containing this project
README
[![Build Status](https://travis-ci.org/livingbio/news_parser.svg?branch=master)](https://travis-ci.org/livingbio/news_parser)
#### 實習生parser 列表
說明
---待parser
---1. 科技新報 http://technews.tw/2016/01/04/tiobe-2015-programming-language-index/ #alec
2. 新頭殼 http://newtalk.tw/news/view/2016-01-14/69148 #
3. 三立新聞網 http://www.setn.com/News.aspx?NewsID=118251 #AaronLai_intern
4. 數位時代 http://www.bnext.com.tw/article/view/id/37335 #tsaiJN
5. 華視新聞 http://news.cts.com.tw/ #sharon
6. tvbs http://news.tvbs.com.tw/ #chuyun需要欄位
---名稱| 說明
---|---
url| 該新聞 url
source_press| 新聞來源(轉貼某間自?)
title| 新聞title
post_time| 發佈時間
journalist| 記者(作者)
content| 新聞內文
popularity| 人氣
compare| 評比
keywords| 關鍵字
fb_like| fb 按讚數(可選)
fb_share| fb share 數(可選)
category| 類別
comment| 回覆comment 說明
name| 說明
---|---
acotr| 作者
like| 喜歡數量
dislike| 討厭數量
post_time| 回復時間
source_type| 來源類別(fb...etc)
sub_comment| 子回應需求spec
---
1. 頁面 parser
```python
def parser_page(url):
"""
parser page method
主要用於抓取新聞detail頁面資訊page_data = parser_page(news detail url)
"""return {
"url": string
"source_press": string
"title": string
"post_time": datetime.datetime()
"journalist": string
"content": string
"compare": string
"keyword": [string, string, ...]
"fb_like": int
"fb_share": int
"category": [category, category]
"comment": [{
"actor": str
"like": int
"dislike": int
"content": str
"post_time": datetime.datetime
"source_type": stringsub_comments: [{
"actor": str
"like": int
"dislike": int
"content": str
"post_time": datetime.datetime
"source_type": string
}]
}]
}
```2. detail url 取得
```python
def get_category_urls(category_url):
"""
get_category_urls
根據category 頁面取得 detail urlsdetail_urls = get_category_urls(category_url)
"""
return [detail_url, detail_url, detail_url]```
django 需求
---1. 設計一套models 儲存 留言, 文章 # django models
2. 我需要能夠幫我filter 文章和留言的api (支援csv, json)
3. 使用django admin 介面管理 留言 & 文章 # django admin
4. 我需要有一個能夠更新單一新聞網站的 command # django command