https://github.com/910jqk/add-jyutping

OCR 粤拼字幕生成工具
https://github.com/910jqk/add-jyutping

cantonese jyutping language-learning ocr opencv python

Last synced: 9 months ago
JSON representation

OCR 粤拼字幕生成工具

Host: GitHub
URL: https://github.com/910jqk/add-jyutping
Owner: 910JQK
Created: 2017-09-04T09:37:23.000Z (almost 9 years ago)
Default Branch: master
Last Pushed: 2017-09-04T14:43:38.000Z (almost 9 years ago)
Last Synced: 2025-04-11T04:42:52.832Z (about 1 year ago)
Topics: cantonese, jyutping, language-learning, ocr, opencv, python
Language: Python
Homepage:
Size: 471 KB
Stars: 7
Watchers: 1
Forks: 0
Open Issues: 1
Metadata Files:
- Readme: README.md

Awesome Lists containing this project

README

# 粵拼字幕生成工具

## 簡介

此 Python Script 可用於給 TVB 的電視節目添加粵拼字幕，目前尚在 Experimental 階段。開源授權條款寫在程式檔案中。

現在的效果一般，時間軸稍有偏差，OCR 有不少錯字，多音字也沒辦法處理。而且二十分鐘的影片都需要處理八十分鐘（……）。不過到這種程度就已經很有用了，借用一句名言就是「不滿意但可以接受」。

圖形處理和 OCR 的部分，是由 OpenCV 和 pyocr 完成的。由於本人對這些方面並不太了解，所以這部分借用的是 kerrickstaley 的程式，原程式見：[kerrickstaley/extracting-chinese-subs](https://github.com/kerrickstaley/extracting-chinese-subs)

## 使用方法

```
usage: jyutping.py [-h] [--top TOP] [--bottom BOTTOM] [--left LEFT]
[--right RIGHT]
video_file
```
其中 top, bottom, left, right 是包住字幕的矩形的邊界，若搞錯則得不到任何文字。默認的數字是以 1280×720 大小的影片為準的。

運行後，程式會向 stderr 輸出有關處理進度的資訊，並在 stdout 輸出 .srt 檔的內容，因此使用時請重定向 stdout 到檔案。

例如：

```
$ ./jyutping.py foobar.mp4 > foobar.srt
```

## 這麽粗製濫造真的大丈夫？

講真，為了學個廣東話去深入學習 OpenCV / Image Processing 實在是主次顛倒，所以就先這樣吧。而且最近不大想寫程式了，心累。

ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Awesome

https://github.com/910jqk/add-jyutping

Awesome Lists containing this project

README