日々是勉強

機械学習やもろもろ勉強したことに関するゆるい備忘録

論文読み：Predicting Depth, Surface Normals and Semantic Labels with a Common Multi-Scale Convolutional Architecture

2015年にFacebook AI Researchから発表された論文「Predicting Depth, Surface Normals and Semantic Labels with a Common Multi-Scale Convolutional Architecture」について読んだのでメモ。

今となっては目新しい手法ではないように思うけど（あまり深度・法線推定の論文は読んではいないけど）深度・法線推定の推定結果がセグメンテーション精度の向上に役に立つのか？という考察が面白かった。

Abstract

単一のマルチスケールCNN構造による深度推定・法線推定・セマンティックセグメンテーションを対象とする
SuperpixelやLow-levelセグメンテーション等（どちらもkMeansのようなをクラスタリング？）必要とせずに連続する異なるスケールを利用し推定結果を補正することができる

概要

様々な応用に繋がるようOff-the-shelfな回帰モデルの構築に取り組んだ
同様の理由から単一のアーキテクチャを用いた
深度と法線の推定では計算を共有することで効率化した

新規性・差分

マルチスケールによる連続的な処理を取り入れたところ？

手法

本論文のモデルはFig.1のとおり。入力画像の解像度は320x240で、出力は147x109。

f:id:alpaca2san:20210109072730p:plain — Fig.1 モデル構成

結果

f:id:alpaca2san:20210109073518p:plain — Table 6. スケールごとorマルチスケール時の推値精度の評価

f:id:alpaca2san:20210109073431p:plain — Table 7. RGBのみとDepth+Normalの推定精度の比較

Table 6.のとおりマルチスケールは効果があった
Scale 1の粗めのスケールはDepth、Normal推定に役立っている
Table 7.よりScale 1+2の際に、Depth、Normal推定結果は精度向上に寄与しなかった
上記の理由はおそらく、セグメンテーション時にDepth、Normal推定にも繋がるような関係性を学習しているからであり、GT情報であれば役に立つが推論結果では役に立たないということだと考えられる

なんかちょっと英語的に読みづらかった。特にDepth、Normalの出力とScaleの関係があまりはっきり把握できなかった。結構論文の書き手によってすっと読めるのと何回か読み返しても？？？となるところが多い論文があるなぁ。もっと英語も精進が必要。