Ecosyste.ms: Awesome

An open API service indexing awesome lists of open source software.

Awesome Lists | Featured Topics | Projects

https://github.com/pinto0309/faster-whisper-env

An environment where you can try out faster-whisper immediately.
https://github.com/pinto0309/faster-whisper-env

whisper

Last synced: 3 months ago
JSON representation

An environment where you can try out faster-whisper immediately.

Host: GitHub
URL: https://github.com/pinto0309/faster-whisper-env
Owner: PINTO0309
License: mit
Created: 2023-05-27T15:43:27.000Z (over 1 year ago)
Default Branch: main
Last Pushed: 2023-07-28T11:59:35.000Z (over 1 year ago)
Last Synced: 2024-10-03T12:38:09.522Z (4 months ago)
Topics: whisper
Language: Python
Homepage:
Size: 217 KB
Stars: 36
Watchers: 4
Forks: 2
Open Issues: 0
Metadata Files:
- Readme: README.md
- License: LICENSE

Awesome Lists containing this project

README

# faster-whisper-env
An environment where you can try out faster-whisper immediately.

Cited: https://github.com/guillaumekln/faster-whisper

Cited: https://github.com/reriiasu/speech-to-text

## 1. Docker build
```
docker build -t faster-whisper-env -f Dockerfile.gpu .
```
## 2. Docker run
```
docker run --rm -it \
--gpus all \
-v `pwd`:/workdir \
--device /dev/snd:/dev/snd \
pinto0309/faster-whisper-env:latest
```
or
```
docker run --rm -it \
--gpus all \
-v `pwd`:/workdir \
--device /dev/snd:/dev/snd \
faster-whisper-env
```

## 3. Test
- Usage
```
usage: transcribe_realtime.py
[-s {tiny.en,tiny,base.en,base,small.en,small,medium.en,medium,large-v1,large-v2}]
[-p {float16,int8_float16,int8}]
[-l {en,zh,de,es,ru,ko, ...}]

options:
-h, --help
show this help message and exit

-s {tiny.en,tiny,base.en,base,small.en,small,medium.en,medium,large-v1,large-v2}, \
--model_size {tiny.en,tiny,base.en,base,small.en,small,medium.en,medium,large-v1,large-v2}
Model size.

-l {en,zh,de,es,ru,ko, ...}, --language {en,zh,de,es,ru,ko, ...}
Language.

-p {float16,int8_float16,int8}, --precision {float16,int8_float16,int8}
Precision.
```
- Microphone
```bash
python transcribe_realtime.py --model_size large-v2 --language ja
```
```
Input Device ID 0, - HDA Intel PCH: ALC892 Analog (hw:0,0)
Input Device ID 2, - HDA Intel PCH: ALC892 Alt Analog (hw:0,2)
Input Device ID 10, - EMEET OfficeCore M3: USB Audio (hw:2,0)
Input Device ID 11, - SteelSeries Arctis 7: USB Audio (hw:3,0)
Input Device ID 13, - sysdefault
Input Device ID 23, - default
Please input your microphone Device ID: 10

Speak now!
```
https://github.com/PINTO0309/faster-whisper-env/assets/33194443/bd150529-6c64-4d96-949e-630f93da3c3e

- 28m59s mp4 test, Large-V2 beam_size=5, RTX3070 (RAM:8GB)
```bash
python test.py
```
```
Detected language ja with probability 1.00
[0.00s -> 7.24s] ステレオ震度推定モデルの最適化としまして後半のパート2は実践
[7.24s -> 11.60s] のデモを交えまして普段私がどのようにモデルを最適化してさまざまな
[11.60s -> 15.04s] フレームワークの環境へデプロイしてるかというのを実際に操作
[15.04s -> 18.28s] をこの画面上で見ていただきながらご理解いただけるように努めたい
[18.28s -> 22.12s] と思いますそれでは早速ですがこちらのGitHub
[22.12s -> 26.32s] のほうに本日の講演内容については全てチュートリアルをまとめて
[26.32s -> 32.44s] コミットしてあります 2021-02-28 Intel Deep Learning Day HeatNet
[32.44s -> 36.28s] デモというちょっと長い名前なんですけれども現状はプライベートになって
[36.28s -> 40.56s] ますがこの講演のタイミングでパブリックのほうに変更したい
[40.56s -> 43.32s] と思っております基本的にはこちらの上から順番
[43.32s -> 49.28s] にチュートリアルをなぞっていくという形になりますまず本日
[49.28s -> 53.52s] 対象にするモデルの内容なんですけれども Googleリサーチが公開している
[53.52s -> 58.48s] HeatNetというステレオ震度推定モデルになりますステレオ震度
[58.48s -> 62.48s] 推定って何ぞやという話なんですけれどもこういう一つのカメラに
[62.48s -> 69.64s] 二つのRGBのカメラが付いているタイプの撮影機器を使って左目
[69.64s -> 73.64s] と右目の両方から画像を同時に取得して記録していくとそういう
[73.64s -> 78.28s] シチュエーションにおいて 2枚の画像を同時にモデルに入力する
[78.28s -> 84.16s] とこのようにきれいな震度推定結果が取得できるとそういうモデル
[84.16s -> 89.56s] になります次に環境ですが私の普段で使っているメインの端末
[89.56s -> 99.52s] がUbuntuの20104で8664という環境ですただ Windows上でも一緒にどっか
[99.52s -> 104.92s] コンテナ化して作業を進めていきますのでおそらくWSL2などを使用すれば
[104.92s -> 109.40s] 問題なく動くかと思いますあと OpenVINOなんですがインストーラー
[109.40s -> 115.96s] としてシェアされているものではなくて今回はちょっと特殊なOpenVINO
[115.96s -> 120.32s] を直接ビルドして動かしてみるということまでやってしまいます
[120.32s -> 125.76s] あとはバックエンドで少し変換過程で使うOnyxですね他にもいろいろ
[125.76s -> 129.16s] もろもろとその環境の中に入っているんですが基本的にはコンテナ
[129.16s -> 133.64s] の中に全ての必要なものがほとんどのものが導入された状態
[133.64s -> 137.60s] になってますのであまり皆さんは気にする必要はなく作業上から
[137.60s -> 145.00s] 順番に辿ることができるかと思います全体の流れですけれどもまずHIT
[145.00s -> 149.16s] NETのモデルがGoogleリサーチから提供されているんですが TensorFlow
[149.16s -> 152.88s] のプロトコルバッファーという一世代前といっても数年前ですね
[152.88s -> 156.24s] でもうほぼこれディスコになってしまっている形式なんですけれども
[156.24s -> 159.64s] そのプロトコルバッファーの形式提供されていますのでそれを一度
[159.64s -> 163.28s] TensorFlowのバージョン2の形式であるセーブドモデル推奨されている
[163.28s -> 167.88s] 形式のほうに変更をかけましてその後ここがちょっとトリッキー
[167.88s -> 172.76s] なんですが TensorFlow Liteの形式に一度最適化のために変換をします
[172.76s -> 179.28s] その後 Onyxに変換をかけてさらに OpenVINO IR こういった流れで変換
[179.28s -> 183.84s] をかけてきます当然 Onyxに途中で変換したりしてますのでその後
[183.84s -> 189.92s] TensorRTの変換へも簡単にできますあと私が提供している他のツール
[189.92s -> 194.68s] をうまく活用すると TensorFlow Lite から例えば Onyx TensorFlow Liteから
[194.68s -> 197.76s] OpenVINO それ以外のフォーマットにももろもろにも変換できます
[197.76s -> 205.48s] し Onyxから逆向きの変換もできるとそういう手段もご用意しております
[205.48s -> 211.64s] 大きく1番から9番までのこちらの手順に基づいて実施していきます
[211.64s -> 214.56s] まずはヒットネットのモデルをダウンロードしてきてセーブド
[214.56s -> 220.48s] モデルに変換して Onyxに変換して OpenVINOそのものをビルドします
[220.48s -> 226.28s] その後で自前でビルドしたOpenVINO を使用して OpenVINO IRというOpenVINO
[226.28s -> 232.40s] の独自の形式に変換をかけまして今回はヒットネットのステレオ
[232.40s -> 236.56s] 振動推定用のテスト用のデータセットですね MITライセンスで公開されている
[236.56s -> 240.84s] いいものがありましたのでそちらをダウンロードしてきてそれを使った
[240.84s -> 245.36s] デモを3種類 OnyxのデモとOpenVINO のデモとTensorRTのデモとこの3
[245.36s -> 249.40s] パターンをご紹介したいと思いますそれでは早速ですが手順のほう
[249.40s -> 252.14s] に入っていきたいと思いますまずはGoogleリサーチが公開して
[252.14s -> 256.32s] くれているヒットネットのモデルの本体をダウンロードしていきます
[256.32s -> 259.44s] このチュートリアル全体を通してこちらに表示されているコマンド
[259.44s -> 266.28s] 1行1行コンソールに入力していくと正常に実行できるはずにして
[266.28s -> 270.64s] ありますモデルは3種類ありまして一応どれを選んでもデモまで
[270.64s -> 274.64s] 到達できるにはしてあるんですが今回は一番下のRGBハードは2枚
[274.64s -> 279.64s] を渡すモデルを選択してみたいと思いますこれ普段よくある
[279.64s -> 305.64s] 3チャンネルRGBではなくてRGB RGB の6チャンネルというモデルになります
[305.64s -> 309.24s] 正常にダウンロードできましたでは一度ダウンロードしたモデル
[309.24s -> 312.92s] をNetronというモデルの構造を可視化するために便利なツールがあります
[312.92s -> 318.16s] のでそちらを使用して一度見てみたいと思いますこちらはリンク
[318.16s -> 322.12s] をクリックするとこのように簡素な画面が披露してくるんですけ
[322.12s -> 325.04s] れどもオープンモデルというボタンを押しますとファイルを選んで
[325.04s -> 329.04s] ねと聞いてきますので先ほどダウンロードしたプロトコルバッファーを指定します
[329.04s -> 333.44s] 表示に時間かかりますのでもうすでに表示済みのものがこちら
[333.44s -> 343.12s] になります入り口がここですねインプットという名前でNHWのところ
[343.12s -> 347.76s] が全てアンノウンになってますね全体としてかなり大きなモデル
[347.76s -> 351.64s] で複雑なモデルになってますこれ序盤しか見えてないんですがこれを
[351.64s -> 358.80s] 実際に引きで見るとこんな感じでずいっとかなりの数のオペレーション
[358.80s -> 364.76s] が積み上がっていますようやくここが出口ですねアウトプット
[364.76s -> 371.04s] の名前はReference Output Disparity ということみたいですこのプロトコル
[371.04s -> 375.84s] バッファーのファイルは最初しか使えませんここまで冗長な形式
[375.84s -> 382.32s] になってますのでこれを最適化していきたいと思います
[382.32s -> 386.28s] では次にプロトコルバッファーをTensorFlow V2の形式であるセーブド
[386.28s -> 390.72s] モデルのほうに変換していきたいと思います普段皆さんかなり
[390.72s -> 394.08s] 手こずられるポイントなのかもしれませんけどもまずこういうモデル
[394.08s -> 399.44s] を例えば加工したりだとか何かのフレームワークに適合させてアプリケーション
[399.44s -> 402.56s] に組み込んで実行するためにまずは地味に動かしてみたいとかそういう
[402.56s -> 405.68s] シチュエーションのときに環境を作ることにかなり苦戦されるん
[405.68s -> 408.76s] じゃないかなといろいろと普段から何かやられてるんじゃない
[408.76s -> 411.72s] かなと思うんですけれど事前に導入されているツールとバージョン
[411.72s -> 415.20s] が競合してうまく入らない動かないみたいなことが多々あると思います
[415.20s -> 419.92s] 私も多分に漏れずそういう状況によく遭遇しますので私の独自
[419.92s -> 422.60s] のDockerコンテナというのを用意しております今日は全てその
[422.60s -> 427.00s] Dockerコンテナ上で作業を完結させる想定です一応そのコンテナという
[427.00s -> 431.20s] のがどのようなものが導入されているかというのはこちらに記載されて
[431.20s -> 435.20s] まして主要なフレームワーク TensorFlowだとかPyTorchだとかあとTensorRT
[435.20s -> 438.76s] だとかOpenVINOだとかそういったものは全て導入済みのかなり
[438.76s -> 444.24s] 大きなコンテナになります裏を返しますとほぼ全てのフレームワーク
[444.24s -> 449.56s] が入っていますので何かしらモデルを加工したいみたいな話
[449.56s -> 451.72s] がありましたらこのコンテナとりあえず起動しておけば何とかな
[451.72s -> 462.28s] ってしまうとそういう次元のものですねではコンテナを起動します
[462.28s -> 466.76s] はい起動しました一応GPUが使える状態あとGUIが使える状態のオプション
[466.76s -> 473.80s] 付きで起動しておりますこちらでミドルバーリンのモデルの名前
[473.80s -> 480.56s] を一旦環境変数のほうに設定します続いて PBtoSavedModelという私独自
[480.56s -> 484.76s] のツールなんですが手軽にプロトコルバッファーをSavedModelの形式で
[484.76s -> 487.84s] 変換できるためのツールになりますプロトコルバッファーのファイル名
[487.84s -> 491.88s] とあとインプットの言い口のオペレーションの名前ですねあと
[491.88s -> 494.52s] アウトプットのリファレンスアウトプットディスパーティーというアウトプット
[494.52s -> 497.96s] の名前を指定してあとはこれオプションなんですけど出力先のパスを指定
[497.96s -> 505.00s] してありますこれを実行すると一瞬でSavedModelが生成されます
[505.00s -> 510.32s] 裏でテストフローが動きまして Optimized Graph Converted SavedModelということで
[510.32s -> 518.28s] 実際にファイルができ上がっているのを確認できると思います
[518.28s -> 528.60s] ミドル代わり SavedModel できてますね一応 GPUを積んでない環境ですとか
[528.60s -> 532.76s] GUIでわざわざ表示を試す必要もないよという場合はもう少しオプション
[532.76s -> 536.52s] を減らした状態で最小環境で起動するためのコマンドの例もこちら
[536.52s -> 541.00s] に記載しております基本的にはほとんど同じですでは生成された
[541.00s -> 543.76s] SavedModelがどういう形式になっているかというのをテンサフローの標準
[543.76s -> 547.32s] で付属されているSavedModel CLIというコマンドを使いまして一度確認
[547.32s -> 557.00s] してみます先ほど見ていただいた SavedModel形式のものが確かにテンサフロー
[557.00s -> 561.04s] で読み込めましたと正常に読み込めた上で入力と出力がどのような
[561.04s -> 564.32s] 形式になっているかというのがコンソール上に表示されました
[564.32s -> 567.24s] 最初にご確認いただいたとおりプロトコルパフォーマーと同じ形式で
[567.24s -> 572.36s] NHWの部分がアンノウンになっていますこちらがアンノウンになっている
[572.36s -> 577.00s] ので出力部分はほぼ全てアンノウンになっていますこちらをサイズ
[577.00s -> 580.08s] を固定化してあげることで内部の構造はかなり最適化することが
[580.08s -> 588.32s] できますでは続いて SavedModelから今度は
[588.32s -> 593.64s] Onyxに変換します Onyxに変換する意味としては OpenVinoに変換する
[593.64s -> 599.60s] ときに Onyx自体はNCHW形式で OpenVino もNCHW形式を基本としております
[599.60s -> 604.28s] ので一度 Onyxに変換するという点が一つもう一つが Onyxに変換
[604.28s -> 608.84s] しておくと他のフレームワークに対してかなり流動的に変換が
[608.84s -> 613.56s] 可能ですなのでストレートにOpenVino に変換することも可能なんですけ
[613.56s -> 618.72s] れども一度 SavedModelからOnyxに変換しておいて必要であれば他のフレームワーク
[618.72s -> 624.08s] へも横展開するということをしますでは Dockerコンテナに導入されている
[624.08s -> 629.00s] SavedModelToTFlightというツールを使用しまして名前にちょっとそご
[629.00s -> 631.84s] わないんですけどもこのツール自体が内部でいろんなフォーマット
[631.84s -> 635.00s] に変換かけられるようになってまして TFlight テンサフローライト
[635.00s -> 639.84s] にも変換できますし Onyxにも変換できるとそういう代物になります
[639.84s -> 643.52s] まずは Onyxをストレートに変換する前にこちらのコマンドでテンサ
[643.52s -> 648.72s] フローライトのFloat32のモデルを生成しますなぜFloat32を生成する
[648.72s -> 653.84s] かというとテンサフローライトのオプティマイダーの最適化の動き
[653.84s -> 658.04s] はとても効率が良くてストレートにOnyxに変換するよりも一度テンサ
[658.04s -> 661.60s] フローライトの形式に変換してあげるほうが最終的なフォーマット
[661.60s -> 667.48s] の最適化具合はとても上がりますここから私が作ったツールの動作
[667.48s -> 678.88s] になります少し待ちがありますがもともとこのモデルが中がかなり
[678.88s -> 683.04s] 複雑なので少し待たされましたけれどももう少し軽量なモデル
[683.04s -> 687.48s] ですと一瞬で処理が終わります一応ログとしてUnknownだったところ
[687.48s -> 692.80s] に指定した縦横の幅が自動的に設定されてモデルが生成されました
[692.80s -> 696.76s] よというログが出ましたね実際に生成されたかどうかを確認して
[696.76s -> 701.04s] みますこちらの別のフォルダーにテンサフローライトが生成されて
[701.04s -> 709.60s] います表示を確認してみます確かにテンサフローライトの形式
[709.60s -> 714.40s] で読み込みができましたねアウトプットのところが全てUnknownになっていた
[714.40s -> 718.24s] ところが指定した縦横の幅に合わせて最適化の上ちゃんと次元が定義
[718.24s -> 721.80s] されているという状態を確認できますモデル全体の構造を見ていただいて
[721.80s -> 725.36s] も分かるとおり先ほどよりも若干最適化が進んでますねオペレーション
[725.36s -> 733.24s] の数はかなり半分ぐらいまで減ってるんじゃないかなと思います
[733.24s -> 736.56s] 前半のときにご説明しましたとおりテンサフローライトはかなり
[736.56s -> 741.40s] オペレーションの融合がかなり得意なので数的には多分半分ぐらい
[741.40s -> 744.44s] 先ほど申し上げましたとおり半分ぐらいの減っていて処理自体
[744.44s -> 748.24s] もかなり効率的になっているんじゃないかなと思います一度テンサ
[748.24s -> 751.00s] フローライトは中継地点としてファイルを生成するだけにとどめ
[751.00s -> 754.32s] ましてそのまま今度はテンサフローライトのファイルを使用してオニキス
[754.32s -> 758.68s] を生成します今度は別のツールを使いますテンサフローオニキス
[758.68s -> 763.12s] というMicrosoftさんが公式化提供していただいているツールになります
[763.12s -> 766.96s] こちらにテンサフローライトのファイルを入力として与えてオニキス
[766.96s -> 771.60s] のファイルを生成しますテンサフローライトはNHWC形式なんですが
[771.60s -> 778.16s] オニキスはNCHW形式は基本形式になりますので Input as NCHWという
[778.16s -> 784.96s] パラメータを指定してあげて NHWCからNCHW形式へコンバートします
[784.96s -> 794.20s] モデルのサイズが少し大きいので若干待たされますがそこまで大きな
[794.20s -> 801.72s] 待ち時間ではないです変換が正常に終了したようです確かに
[801.72s -> 804.80s] こちらにテンサフローライトからオニキス形式にコンバートかかった
[804.80s -> 811.84s] 状態のものは存在しません単純にテンサフローライトから
[811.84s -> 815.92s] オニキスへ変換した状態ですと確かにNCHWの形式変わってはいる
[815.92s -> 820.12s] もののこちらを見ていただくと分かるとおり公式のツールが2枚
[820.12s -> 826.60s] 1枚1でして各オペレーションの入出力の情報が欠けていたり全体
[826.60s -> 831.24s] を一つ一つ見ていくと分かるんですけどこういった部分ですね割と冗長
[831.24s -> 836.28s] な部分がまだまだ残っております全体の構造的にはあまり美しくない
[836.28s -> 843.96s] 状態ですのでこれをもう一段最適化しにいきます
[843.96s -> 846.96s] オニキスシンプリファーというこれはサードパーティー製のUCが
[846.96s -> 850.20s] 作られてるツールなんですけどこちらにオニキスのファイルを
[850.20s -> 859.12s] 与えてあげてもう一度同じオニキスにかぶせてあげますモデルの構造
[859.12s -> 873.60s] が少し複雑ですので多少待ち時間がかかります
[873.60s -> 879.92s] ファイルの名前は同じものに上かぶせしてますので同じオニキス
[879.92s -> 884.56s] ファイルを見てみます最初に生成したときは先ほど多分スルーして
[884.56s -> 887.64s] しまったんですけどおそらく8メガ前後だったと思いますそれが82
[887.64s -> 890.76s] メガというふうにちょっと大きくなってしまっているんですけど
[890.76s -> 896.84s] 構造はどうなってるか一度見てみますファイル大きくなっちゃって
[896.84s -> 898.88s] パフォーマンス落ちるんじゃないかと懸念されている方もいるか
[898.88s -> 901.96s] と思うんですが実際に実行してみると分かるんですけれどもパフォーマンス
[901.96s -> 904.44s] にはほとんど影響がありませんただファイルサイズが大きくなって
[904.44s -> 908.68s] こういった人間が目で見て分かりやすいような不随の情報が孵化
[908.68s -> 913.28s] された状態でなおかつモデルの構造も先ほどの少しだけちょっと
[913.28s -> 916.48s] 分かりにくいですね今回のパターンは分かりにくいんですが最適化
[916.48s -> 927.04s] がされているという状態になります
[927.04s -> 933.80s] では OnyxからOpenVINOへ変換をする前に OpenVINOの現状を最新で公開
[933.80s -> 938.32s] されているインストーラーは実は中身に少し問題がありましてそちら
[938.32s -> 942.60s] の問題を解消するために私が自らインテルのエンジニアの方にイッシュ
[942.60s -> 947.52s] を挙げまして問題があるので修正お願いしますということでこちら
[947.52s -> 951.16s] のイッシュのほうに投稿しましたそれが解消されたということ
[951.16s -> 955.20s] で半年ぐらいかかったんですけれどもそのコミットを利用して一度
[955.20s -> 960.08s] OpenVINOを最新の状態でビルドをかけまして最新のモデルオプティマイザー
[960.08s -> 963.52s] を使用して最適化していきますこちらのコマンド一つなぎになって
[963.52s -> 968.96s] おりますので全てコピーしてOpenVINO をビルドします少し時間かかります
[968.96s -> 973.60s] のでこちらは一度動画を省略しまして生成後の状態からもう一度再開
[973.60s -> 979.00s] させていただきますビルドが終わりましたこれでOpenVINOが全てビルド
[979.00s -> 986.24s] された状態になっているはずです期待値としてはビルドされたOpenVINO
[986.24s -> 989.52s] がホイールファイルになっていて Pythonから気軽に叩けるような状態
[989.52s -> 992.76s] になっていると嬉しいですので確かにホイールファイルが生成
[992.76s -> 998.04s] されているかどうかを確認します二種類のホイールファイルが生成
[998.04s -> 1001.88s] されていますねちょっとファイル名が長いものと少し短めのもの一応
[1001.88s -> 1004.48s] オプティマイザーなどのデベロッパーツールが含まれているホイール
[1004.48s -> 1008.88s] が下のほうで上のほうはインフェレンスエンジンとかが入っているものですね
[1008.88s -> 1014.12s] というふうに進み分けがされていますでは生成されたOpenVINOをDockerコンテナ
[1014.12s -> 1020.44s] のほうにインストールしていきます最初からこのコンテナはかなり
[1020.44s -> 1023.08s] 大きなコンテナというご説明をしてまして OpenVINOもインストール
[1023.08s -> 1026.68s] 済みの状態にはなってはいるんですけれども新たにビルドし直した
[1026.68s -> 1031.56s] OpenVINOをこちらのホイールファイルで上書き更新してしまいますこちら
[1031.56s -> 1036.00s] はバグフィックスのために自分でビルドしたOpenVINOで上書きアクセス
[1036.00s -> 1043.24s] をするということですね OpenVINO 自体がかなりバックエンドでたくさんの
[1043.24s -> 1047.00s] 補助的なツールを使う手前ですね大量にいろんなツールをインストール
[1047.00s -> 1054.48s] してくれますインストールが終わりましたでは新たにインストールしたOpenVINO
[1054.48s -> 1061.08s] を使用しまして OnyxからOpenVINO IRファイルを生成しますこちらのコマンド
[1061.08s -> 1067.60s] をひとつなぎになっておりますのでまとめて実行します今最適化
[1067.60s -> 1076.08s] と変換中ですこちらはモデルのサイズが大きい
[1076.08s -> 1081.32s] ので少し待ち時間がかかりますねもう少し軽量なモデルですとこれも
[1081.32s -> 1090.80s] 一瞬で終わりますこのオプティマイザーとは別に MyLiad CompilerというOpenCV
[1090.80s -> 1095.00s] AIキットというよく皆さんご存じだと思うんですけど半年前ぐらい
[1095.00s -> 1098.28s] に発売されたステレオカメラですねあちらに適応させるためのコンパイラー
[1098.28s -> 1101.68s] ツールが用意されているんですが実はそちらのほうにもまだ一部
[1101.68s -> 1105.12s] 問題がありまして今私のほうで意思を挙げてインテリアのエンジニア
[1105.12s -> 1108.72s] の方に対応いただいている最中です一応取り扱わせされているので
[1108.72s -> 1113.24s] もしかしたら数ヶ月後長くて半年後ぐらいには対応されてこのステレオ
[1113.24s -> 1116.52s] 振動付付いてモデルがオーク上でも実行できるようになるかもし
[1116.52s -> 1120.44s] れませんねサクセスということでモデルの変換が正常に終了しました
[1120.44s -> 1125.44s] これでOpenVINOのIRモデルが生成されているはずです実際に確認
[1125.44s -> 1131.16s] いたします OpenVINOというフォルダーを生成するコマンドを打ち込んで
[1131.16s -> 1136.00s] おりましてその中にFloat32でこのようにビンファイルとXMLファイル
[1136.00s -> 1140.80s] この2枚が重要ですマッピングファイルは特に使用いたしません一応これも
[1140.80s -> 1149.20s] ネット論を使用して構造確認することができます見た目はオフィン
[1149.20s -> 1152.72s] キスのときと大きく変わっておりませんが OpenVINO独自のオペレーション
[1152.72s -> 1158.88s] に置き換えがかなり大量にされております最適化と言いながらも
[1158.88s -> 1162.72s] 部分的に最適化されておりますので全体としてはそこまで大きく
[1162.72s -> 1174.00s] 最適化されてないような状況ですねでは次にここから先はデモの流れ
[1174.00s -> 1180.40s] になりますテストするためのデータセットして左目と右目 2枚セットで走行
[1180.40s -> 1185.84s] 中のドライビングの動画動画というか静止画のデータセットを公開して
[1185.84s -> 1189.20s] くださってまして一応 MITライセンスで公開してくださってますそちら
[1189.20s -> 1192.84s] の動画をあらかじめ私のリポジトリのほうにダウンロードしてコミット
[1192.84s -> 1199.72s] しておりますのでそれをダウンロードします一応左目右目震度ということで
[1199.72s -> 1204.08s] 3種類のデータセットになってますプライベートリポジトリになって
[1204.08s -> 1207.76s] ますのでちょっとGitHubのほうにプライベートリポジトリからプル
[1207.76s -> 1211.12s] してくるための認証を今通しておりませんでしたので偉いなって
[1211.12s -> 1214.80s] しまいましたが事前にダウンロード済みのデータセットを用意して
[1214.80s -> 1217.92s] おりますのでそちらを使ってご説明したいと思いますダウンロード
[1217.92s -> 1221.08s] が成功するとドライビングステレオイメージズというフォルダが自動的に
[1221.08s -> 1229.24s] 作られましてライトレフトデプスということで静止画像がこのように
[1229.24s -> 1234.40s] 全て展開された状態で落ちてくるようになってますあとテスト用に
[1234.40s -> 1239.60s] 最後にデモをするときにMP4の動画を使いますのでステレオ.mp4という
[1239.60s -> 1246.96s] テスト用の動画も一緒に落ちてきますではようやくここでデモを実行
[1247.00s -> 1250.44s] してみたいと思いますコンバートの過程でオニキスを設定しました
[1250.44s -> 1256.76s] のでそちらのオニキスを使って岩井五郎郎さんが作ってくださった
[1256.76s -> 1261.76s] オニキスのデモこちらのリポジトリを拝借しまして実行してみたい
[1261.76s -> 1267.76s] と思います一応岩井さんが作ってくださったデモから空打用に最適化
[1267.76s -> 1271.76s] するために一部こちらの文字列を差し替えるためのSDコマンド
[1271.76s -> 1274.68s] フォークすればいいじゃんという話ありますけれども手軽にコピー
[1274.68s -> 1277.92s] してペースとしてすぐ終わるという状況ですね皆さんに実施していただく
[1277.92s -> 1284.12s] ために全てSDコマンドで置き換えておりますではデモ用のリポジトリ
[1284.12s -> 1292.12s] をクローンするところとロジックの書き換えのところを実行しています
[1292.12s -> 1295.56s] オニキスのランタイムは2種類ありましてオニキスランタイムとオニキス
[1295.56s -> 1299.36s] ランタイムGPUと2種類あります今回のモデルは少し重たいモデル
[1299.36s -> 1304.40s] ですのでオニキスランタイムGPU というものにインストールし直して
[1304.40s -> 1310.96s] おります Gitクローンとランタイムの差し替え
[1310.96s -> 1314.60s] とプログラムの修正すべて今終わりましたので早速デモを実行
[1314.60s -> 1324.88s] してみたいと思います裏では空打が動いてまして若干
[1324.88s -> 1331.32s] 遅いかなという感覚は受けますが 20FPS前後出ているんじゃないかな
[1331.32s -> 1336.84s] と思います動画が2 3分ありますので一旦このデモはここで止めます
[1336.84s -> 1341.32s] ねただかなりヒットネット性能が高いモデルですので体感的に
[1341.32s -> 1344.28s] 皆さんどう感じられるか分からないですがかなりきれいに振動推定
[1344.28s -> 1347.28s] ができてるんじゃないかなと思いますステレオデプスであるがゆえに
[1347.28s -> 1352.20s] 計算量は多少単画振動推定よりも重いんですけれどもここまできれい
[1352.20s -> 1357.00s] に推定することができますよという事例ですね今のがオニキスのデモ
[1357.00s -> 1366.36s] になります続いて私が作成した OpenVINOのモデルのデモになります
[1366.36s -> 1371.56s] これがカスタムビルドしたOpenVINO を裏で動かして実行すると標準
[1371.56s -> 1378.68s] のインストーラーでは実行できないデモになります先ほどよりもかなり
[1378.68s -> 1385.36s] 遅いですね一応私のマシンがCore i9 第10世代 20スレッドなんですけ
[1385.36s -> 1389.28s] れどそこまでハイパワーなマシンを使ってもこれぐらい重たいモデル
[1389.28s -> 1393.92s] ですモデルの内部はコンボリューションの3Dっていうのがかなりたくさん
[1393.92s -> 1397.92s] ありまして恐らくCPU推論するときにコンボリューション3Dがネック
[1397.92s -> 1404.24s] になってるんじゃないかなと思います 23FPSですかねちょっと重いですが
[1404.24s -> 1414.92s] 精度的には大差がないですね続いて精度は落とさずにかなり
[1414.92s -> 1420.04s] 早いデモということで多分今まで OnyxとOpenVINOよりも圧倒的に
[1420.04s -> 1425.08s] 早いであろう TensorRTのデモも岩竹さんという方から許可いただいて
[1425.08s -> 1435.68s] 借用しておりますそちらのデモもご覧いただきたいと思います
[1435.68s -> 1439.64s] では TensorRT用のリポジトリですが岩竹さんのリポジトリからクローン
[1439.64s -> 1445.44s] してきたものの環境で一度 Dockerコンテナを起動します Dockerコンテナ
[1445.44s -> 1449.28s] を起動する理由は TensorRTが導入されている環境をすぐ使いたい
[1449.28s -> 1466.04s] からですね同じ場所に来ました既に私が手元でビルド済みのもの
[1466.04s -> 1471.36s] がメインという本体のバイナリーになりますこちらを使いまして
[1471.36s -> 1480.64s] デモを実行してみたいと思いますどうでしょうかさっきよりも全然
[1480.64s -> 1485.28s] 早くてですねフレームレートが 30FPS超えてますね 1フレームあたり
[1485.28s -> 1489.28s] の推論 2フレームの同時推論で 20ミリセックというかなり早い
[1489.28s -> 1493.28s] 推論結果になってます若干ちょっと私のMP4の動画の作り方がよくなか
[1493.28s -> 1497.56s] ってノイズが入っておりますけれども基本性能自体は同じOnyx使って
[1497.56s -> 1509.68s] おりますので変わりはないという感じです
[1509.68s -> 1514.04s] では OnyxとOpenVINOとTensorRT この三種類のデモをさせていただき
[1514.04s -> 1520.56s] ましたこれで一通りカスタムビルドのOpenVINOを使った最適化という
[1520.56s -> 1526.92s] 講演のメインの部分のお話は終了になります次は裏話というところ
[1526.92s -> 1530.40s] も聞きたいされてる方がいるかもしれませんのでもう少しですね今回
[1530.40s -> 1534.48s] はかなり簡単にモデル変換できるパターンのご紹介だったわけですけ
[1534.48s -> 1537.88s] れども普段私がチャレンジしているモデル変換というのはもっと難易度
[1537.88s -> 1543.24s] が高くて実際今日やったようなモデル変換は大体15分ぐらいで
[1543.24s -> 1547.24s] やってるんですけれども難易度高いモデルは数時間かかっている
[1547.24s -> 1551.20s] という感じですその状況をどんな感じなのかというのを黒話みたい
[1551.20s -> 1555.40s] になるんですけどもお伝えしたいと思います裏話ということなんですけど
[1555.40s -> 1558.24s] ここでコマンドを1から叩いているとめちゃくちゃ時間かかって全然
[1558.24s -> 1561.28s] 時間が収まらなくなってしまいますので普段私が作っているツール
[1561.28s -> 1564.84s] のほうに上がってきているイシューで簡単にご説明したいと思います
[1564.84s -> 1568.76s] OpenVINO2 TensorFlowという私の独自ツールなんですけどこれはOpenVINOのIRモデル
[1568.76s -> 1573.32s] からTensorFlowに逆変換するとちょっと一風変わったもので多分私しか
[1573.32s -> 1577.28s] 作ってないんじゃないかなと思いますそこに君のツールを使って変換
[1577.28s -> 1586.80s] したらエラーが出たよということです確かこれが YORO V5 Liteのモデル
[1586.80s -> 1593.64s] をOpenVINOからTensorFlow Liteに変換かけたらツールからこんなエラー
[1593.64s -> 1601.44s] が出ちゃうんだよねと確かに出ますとエラーになる理由がチャンネル
[1601.44s -> 1605.96s] 変換といって YORO V5の場合は結構特殊な処理があるんですけど 5次元
[1605.96s -> 1610.64s] に加工した上でチャンネル部分をスイッチしてっていうのをさん
[1610.64s -> 1614.84s] ざんパラコーモデルの中で何段にも分けてやってるんですが 5次元
[1614.84s -> 1618.30s] のチャンネルシフトっていうのはそもそも5次元っていうのはツール
[1618.30s -> 1621.40s] 上でどこからどこへ展示すればいいかっていうのを予測すること
[1621.40s -> 1625.56s] がかなり難しくってエラーになることを前提としてツール論を設計
[1625.56s -> 1630.92s] しておりますので実はそのエラーは5次元ではよく発生するのでツール
[1630.92s -> 1634.48s] の動作を変えるためのJSONファイルが用意してあるからそれを食わ
[1634.48s -> 1638.24s] せればいいんだよということで私のほうで提示してますこのJSON
[1638.24s -> 1641.40s] ファイルを作るのがかなり大変でトライハンドエラーでエラー
[1641.40s -> 1644.64s] になってはJSONにここの部分このレイヤーの動きを変えろという
[1644.64s -> 1649.16s] 指示を出しもう一度実行してエラーになったこのオペレーションの
[1649.16s -> 1653.08s] 動作を展示動作をこのように変えなさいという指示をツールに出し
[1653.08s -> 1656.88s] もう一回実行したらエラーになったじゃあ次のオペレーションですね
[1656.88s -> 1660.28s] ここはリシェープかなリシェープの動作この形状に変えなさい
[1660.28s -> 1664.12s] っていうのを指示を出しっていうのを延々とやっていますまだ
[1664.12s -> 1668.08s] このYORO VGOライトはモデル全体の構造がすごく小さくてシンプル
[1668.08s -> 1672.36s] ですのでただこれぐらいで終わってるんですけど例えばステレオ
[1672.36s -> 1674.96s] 芯の推定モデルのヒットネットはすごくシンプルでしたがそれ
[1674.96s -> 1678.20s] 以外の世に出回っているステレオ芯の推定モデルってものすごく
[1678.20s -> 1683.40s] モデルの構造がもっと複雑ですそういうものが当然変化確率は
[1683.40s -> 1687.08s] エラーになるんですけどこのJSONファイルはこれしきりではなくてこれの
[1687.08s -> 1690.68s] 50倍ぐらいの長さのJSONファイルになってしまいますツールで
[1690.68s -> 1695.24s] 自動的に変換できれば嬉しいんですが今例えばマイクロソフトさん
[1695.24s -> 1700.00s] だとかGoogleさんが提供してくれている公式のツールでは変換ができない
[1700.00s -> 1704.12s] もの変換できたとしても最適化が不十分なまま変換されるもの
[1704.12s -> 1707.72s] っていうのが大多数ですそこで私のツールであればツールその
[1707.72s -> 1712.20s] ものの動作をJSONファイルで書き換えることができますのでほとんどの
[1712.20s -> 1718.12s] パターン LSTM以外の画像系のモデルであればほぼ確実に変換すること
[1718.12s -> 1724.28s] ができますと時間をかければという状況です裏話は以上ですもっと
[1724.28s -> 1731.20s] お話聞きたい方は私のOSSありますので一周なのでご質問いただく
[1731.20s -> 1737.76s] かディスカッションのほうでお待ちしております本日の私の講演
[1737.76s -> 1739.68s] は以上になりますご清聴ありがとうございました

:-: main --> 137.2445514202118 sec
```

## 4. Models
```
tiny.en
tiny
base.en
base
small.en
small
medium.en
medium
large-v1
large-v2
```

## 5. TODO
- [ ] I intend to try a trial implementation of a process that greatly increases the number of inferences, successively overwriting `stdout`, and overwriting the entire `stdout` with the final inference result at the break in utterance.
- [ ] CNN VAD: https://github.com/ina-foss/inaSpeechSegmenter