GoogLeNetを用いて画像の分類を試してみる（CaffeとC++による実装）

OpenCV3系で導入されたdnnモジュールのサンプルで、GoogLeNetのCaffeモデルの読み込みを行うプログラムのサンプルがあったので、自作画像で画像認識をしつつ、使い方を確認してみようという記事です。

GoogLeNetはGoogle発のDeep Learningの画像分類のニューラルネットワークです。発表されたのは2014年で、今ではもっと新しいネットワークも様々発表されてはいますが、22層という多くの層を用いており、分類精度の高いモデルです。

詳細については論文[1]も出ていますし、他に詳しい記事もたくさんあると思うので、今日は取りあえず使ってみる、実践してみるというところに重きを置きたいと思います。

[1] “Going Deeper with Convolutions” Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, Andrew Rabinovich

Toggle

今回の環境

・OS : Windows10(64bit)
・OpenCV 3.4.1(環境構築済)

OpenCVの環境構築は今回はやりません。OpenCVの環境構築はこちらの記事を参考にしてください。試してないですがOpenCVのバージョンは3.4じゃないと上手くいかないかもしれません。

ソースコード

以下のサンプルコードを参考としました。OpenCVのコマンドラインパーサーがあんまり好きではないので外しています。

外部サイト：OpenCV: Load Caffe framework

また、上記サイトのプログラムでは計算時間測定のため同じ画像を複数回認識させていますが、実際の利用では特に意味がないので、その部分は外しています。

上記コードを実行する上で必要なものがいくつかあります。

学習済のCaffeのモデルのパラメータ(bvlc_googlenet.caffemodel)
学習済のCaffeのモデルのネットワーク設定(bvlc_googlenet.prototxt)
クラスIDとクラス名を対応付けるファイル(synset_words.txt)
認識するテスト画像(.jpgとか.pngとか)

4.に関しては今回のプログラムでは使っていますが、必ずしも必要なものではありません。例えばクラスIDが3となったときに、3は「DOG」みたいな感じでIDと名前を対応付けたいときだけに用意する必要があるものです。

今回試すGoogLeNetについては1.～4.は全て自分で作らずとも入手可能なので難しくありません。

以下のページから全てダウンロード可能なはずなのですが、bvlc_googlenet.prototxtとsynset_words.txtはnot foundとなり取得できませんでした。

外部サイト：OpenCV: Load Caffe framework

bvlc_googlenet.prototxtとsynset_words.txtはOpenCV3.4.1のsourcesフォルダの中にも入っていて、そこからも入手可能ですし、それが無理であればインターネットなどで検索すればどこかからは入手可能なように思います。

OpenCVのパッケージから入手する場合には

opencv341\opencv\sources\samples\data\dnn

のフォルダの中にファイルがあります。

用意してきたファイルを全てVisual Studioのプロジェクトのカレントディレクトリに配置すれば、準備はOKです。

String modelTxt = "bvlc_googlenet.prototxt";
String modelBin = "bvlc_googlenet.caffemodel";
String imageFile = "test1.jpg";

認識させたい画像を上記コードのimageFileにセットして認識させてみましょう。

実験

3枚のオリジナル画像で実験してみました。1000クラスの分類のうち、一番近いクラスを確率付きで表示してくれます。

【Shih-Tzu：58.9323%】

概ね正しい気がしますね。

【Castle：49.2096%】

【seashore：38.5309%】

もちろん1000クラスしかないので上手く認識できないものもありますが、こうやって見るとかなり高い精度で分類ができていることがわかります。

今回の環境

今回はOpenCVからCaffeのGoogLeNetモデルを読み込んで実行してみました。

自分で作ったモデルなども同様に読み込むことができると思います。

敢えてOpenCVでCaffeモデルを読み込みたいという需要がどれだけあるのかはわかりませんが、C++のプログラムに簡単に組み込んで使うとかの用途なら、かなり簡単に実現できるので使いやすいのではないでしょうか。

Haruoka

Next フォルダ内の全ての画像ファイル名を取得する方法(C++) »

Previous « Kinect v2を使ってRGB画像とデプス画像を同時に確認するプログラムを書いてみる

【論文紹介】Taming 3DGS: 限られたリソースで高品質な3D Gaussian Splattingを実現する手法

本記事では、3D Gaussi…

4週間 ago

3DGS

【論文紹介】Speedy-Splat：3D Gaussian Splattingを高速化し、モデルサイズを劇的に削減する新手法

「Speedy-Splat: …

4週間 ago

3DGS

【論文紹介】1分で3DGS再構築！　高速化手法 “Fast Converging 3D Gaussian Splatting”

本記事では、「Fast Con…

4週間 ago

3DGS

【論文紹介】DashGaussian: 3D Gaussian Splattingの生成を200秒で！

arXivリンク: arXiv…

4週間 ago

3DGS

【論文紹介】FastGS: 3D Gaussian Splattingの生成を100秒で！

FastGS: Trainin…

4週間 ago

3DGS

【論文紹介】RI3D：DiffusionモデルでSparseな画像から高品質な3Dシーンを再構築するFew-Shot Gaussian Splatting

本記事では、3D Gaussi…

1か月 ago

GoogLeNetを用いて画像の分類を試してみる（CaffeとC++による実装）

今回の環境

ソースコード

実験

今回の環境

Related Post

Recent Posts

【論文紹介】Taming 3DGS: 限られたリソースで高品質な3D Gaussian Splattingを実現する手法

【論文紹介】Speedy-Splat：3D Gaussian Splattingを高速化し、モデルサイズを劇的に削減する新手法

【論文紹介】1分で3DGS再構築！ 高速化手法 “Fast Converging 3D Gaussian Splatting”

【論文紹介】DashGaussian: 3D Gaussian Splattingの生成を200秒で！

【論文紹介】FastGS: 3D Gaussian Splattingの生成を100秒で！

【論文紹介】RI3D：DiffusionモデルでSparseな画像から高品質な3Dシーンを再構築するFew-Shot Gaussian Splatting

【論文紹介】1分で3DGS再構築！　高速化手法 “Fast Converging 3D Gaussian Splatting”