https://github.com/benderpan/searchonline
实现搜索引擎搜索内容回传以及制定URL内容加载回传,适合作为远程插件功能使用。
https://github.com/benderpan/searchonline
baidu bing engine google search
Last synced: about 1 year ago
JSON representation
实现搜索引擎搜索内容回传以及制定URL内容加载回传,适合作为远程插件功能使用。
- Host: GitHub
- URL: https://github.com/benderpan/searchonline
- Owner: BenDerPan
- License: mit
- Created: 2017-12-31T10:36:31.000Z (over 8 years ago)
- Default Branch: master
- Last Pushed: 2018-01-02T08:44:01.000Z (over 8 years ago)
- Last Synced: 2025-02-15T02:46:10.466Z (over 1 year ago)
- Topics: baidu, bing, engine, google, search
- Language: Python
- Homepage:
- Size: 19.5 KB
- Stars: 0
- Watchers: 3
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
- License: LICENSE
Awesome Lists containing this project
README
# SearchOnline [基于Python3.5,其他python版本未测试]
实现搜索引擎搜索内容回传以及制定URL内容加载回传,适合作为远程插件功能使用。
## 使用方法
* 安装Python 依赖库:`pip install -r requirements.txt`
* 搜索功能:
```python
searchResults=WebPageOnlineEngine.search("习大大",search_engines=["baidu"],num_pages_for_keyword=1)
print(json.dumps(searchResults,indent=4,ensure_ascii=False))
```
结果输出:
```json
{
"baidu": {
"query": "习大大",
"pages": {
"1": {
"scrape_method": "http",
"requested_at": 1514689866,
"status": "successful",
"num_results_for_query": "搜索工具百度为您找到相关结果约11,300,000个",
"links": [
{
"rank": 1,
"domain": "www.baidu.com",
"title": "习大大的“亲民范儿”——十三张图告诉你有多“暖暖哒”_央广网",
"snippet": "2015年8月5日 - “亲吻芦山地震灾区男孩”“大雨中挽裤腿自己撑伞”“吃‘红军饭’时给战士夹菜”等一幕幕场景更是全面地让大家领略到了“习大大”朴实亲民的领导风格...",
"visible_link": null,
"link": "http://www.baidu.com/link?url=kkX4cfyK-tCNlwfcdH1T8UHm3lOukNdK55DIpyZTo3O_I1hbAFxzct2cW7B3hw06UiMhkG7_gZMG-1dfF3MyBOdyIOmaSbsBKUsMdtwjMpC"
},
{
"rank": 2,
"domain": "www.baidu.com",
"title": "被叫“习大大” 总书记笑了_网易财经",
"snippet": "2014年9月10日 - 潘聿航提到,当时牌子的内容有“习总书记辛苦了”和“习大大辛苦了”两个备选。“曾经犹豫了一番,担心用 习大大 这三个字欠妥。”但他们想,总书...",
"visible_link": null,
"link": "http://www.baidu.com/link?url=5tBlgVr6Sj0HZWOBdiSNZx6ls8G6I5ZKOKdfVzQXAQ3Bxn7DQwahn7mTe2CPCRKpRafI5a-ujrYRkxh-Tgyo-K"
}
]
}
//...此处省略若干
},
"num_results": 10
}
}
```
* 加载页面内容功能:
```python
urls = [
"https://arxiv.org/pdf/1710.00811.pdf",
'http://blog.csdn.net/nero_g/article/details/52912305',
'https://gss1.bdstatic.com/9vo3dSag_xI4khGkpoWK1HF6hhy/baike/c0%3Dbaike150%2C5%2C5%2C150%2C50/sign=c05506e79482d158af8f51e3e16372bd/c2fdfc039245d688c56332adacc27d1ed21b2451.jpg'
]
for url in urls:
urlData = WebPageOnlineEngine.get_url_content(url)
print(json.dumps(urlData,indent=4,ensure_ascii=False))
```
输出结果:
```json
{
"file_extension": ".htm", #URL对应的文件类型
"error": 0, #错误码,0-表示正常,其他表示出现错误
"error_msg": "", #若出现错误,错误消息内容
"url": "http://blog.csdn.net/nero_g/article/details/52912305", #加载内容原始URL地址
"b64_data": "Cgo8IURPQ1RZU....==", #URL对应内容base64编码字符串,需要对应解码
"content_type_origin": "text/html; charset=utf-8", #原始URL请求Response Header头部原始Content-Type类型
"time": 1514717424, #内容返回处理的时间戳
"content_type": "text/html", #原始URL请求Response Header头部Content-Type 内容类型,不含其他附加值
"status": 200 #URL访问返回的Http Status Code
}
```
* 完整代码参考 `web_page_online.py`