Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/zjyl1994/lazydogocr
OCR in browser use Tesseract.js
https://github.com/zjyl1994/lazydogocr
Last synced: 3 months ago
JSON representation
OCR in browser use Tesseract.js
- Host: GitHub
- URL: https://github.com/zjyl1994/lazydogocr
- Owner: zjyl1994
- License: mit
- Created: 2022-09-24T13:50:56.000Z (over 1 year ago)
- Default Branch: master
- Last Pushed: 2022-09-24T16:28:28.000Z (over 1 year ago)
- Last Synced: 2024-01-17T03:25:16.259Z (5 months ago)
- Language: JavaScript
- Size: 56.7 MB
- Stars: 36
- Watchers: 1
- Forks: 4
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
- License: LICENSE
Lists
- awesome - zjyl1994/lazydogocr - OCR in browser use Tesseract.js (JavaScript)
README
# Lazydog OCR
OCR in browser use Tesseract.js
纯离线的浏览器 OCR 方案,核心使用 [Tesseract.js](https://github.com/naptha/tesseract.js)。
没有数据安全问题,全程在浏览器中进行识别,不会上传到任何服务器。
支持识别 SIMD 并加载对应的 Tesseract-Core。
所有依赖均已下载到仓库,可以在任何无外网环境下部署使用。
支持拖拽、剪贴板粘贴、传统的文件选择器,默认自带 English、简体中文、正體中文 三种识别模型。
(英文模式识别效果最好,中文对图片比较挑剔。)
# 安装
1. 直接下载,在主机中当作静态网站部署即可。
1. 本机使用`python3 -m http.server`等本地HTTP服务器加载。
1. 部署到 S3 等对象存储中
1. 部署到 CloudFlare Pages 等云托管中如果你只需要识别纯英文内容,可以使用部署在 CloudFlare Pages 上的 [在线](ocr.zjyl1994.com) 版本。
(由于CF Pages最大限制25MB, 所以只装载了英文的训练数据。)# 依赖版本:
- Alpine 3.10.3
- Water.css 2
- Tesseract.js 3.03
- Tesseract-core 3.0.2
- Tesseract TrainedData 4.0.0# 如何添加新语言?
额外的语言数据可以从[这里](https://github.com/naptha/tessdata)下载,放到 `assets/lang-data` 中。
下载后编辑 index.html 的 `#langList` 部分,增加`select`中的`option`即可。