GTMNet: 単一リモートセンシング画像のかすみ除去用のガイド付き透過マップを備えたビジョントランスフォーマー

Rapporti scientifici Volume 13,

Scientific Reports volume 13、記事番号: 9222 (2023) この記事を引用

72 アクセス

メトリクスの詳細

既存のかすみ除去アルゴリズムは、かすみが濃いリモートセンシング画像 (RSI) には効果的ではなく、かすみ除去の結果は過度の強調、色の歪み、アーティファクトが発生する傾向があります。これらの問題に取り組むために、畳み込みニューラルネットワーク (CNN) とビジョントランスフォーマー (ViT) に基づいたモデル GTMNet を提案し、ダークチャネルプリア (DCP) と組み合わせて良好なパフォーマンスを実現します。具体的には、最初に空間特徴変換 (SFT) レイヤーを使用してガイド付き透過マップ (GTM) をモデルにスムーズに導入し、ヘイズの厚さを推定するネットワークの能力を向上させます。次に、強化演算減算 (SOS) ブーストモジュールが追加され、復元されたイメージの局所的な特徴が調整されます。 GTMNet のフレームワークは、SOS ブーストモジュールの入力と SFT 層の位置を調整することで決定されます。 SateHaze1k データセットで、GTMNet をいくつかの古典的なかすみ除去アルゴリズムと比較します。結果は、中程度の霧と濃い霧のサブデータセットでは、GTMNet-B の PSNR と SSIM が、パラメーター量がわずか 0.1 倍で、最先端のモデル Dehazeformer-L の PSNR と SSIM に匹敵することを示しています。さらに、私たちの方法は、かすみ除去された画像の明瞭さと詳細を改善するのに直感的に効果的であり、単一のRSIかすみ除去で以前のGTMとSOSブーストモジュールを使用することの有用性と重要性を証明しています。

リモートセンシング衛星および無人航空機 (UAV) センサーは、収集された画像のコントラストと色の忠実度を損なう大気現象の影響を受けやすく、その結果、画像の詳細が弱くなり、画像内の情報を認識することが困難になります。もや、霧、煙は、大気の吸収と散乱によって生成される非常に一般的な大気現象です。警察警備、農林植物の保護、電力巡視検査、土地資源調査などの分野でリモートセンシング技術を応用する場合、リモートセンシング画像から霞、霧、煙を正確に除去することは非常に重要です。 (RSI) ターゲット検出、ターゲット追跡、UAV 検出用。簡単にするために、かすみ除去という用語は、かすみ、霧、および煙の除去を示すために一律に使用されます。

画像のかすみ除去タスクでは、かすみのある画像を説明するために次の式が広く使用されています 1、2、3:

ここで、\(I(x)\)、\(J(x)\)、A、t はそれぞれ、かすんだ画像、かすみのない画像、全球大気の光、透過率マップを表します。単一画像のかすみ除去は困難な問題であり、深度情報が不明なため制約が不十分です。現在、さまざまな方向から多くのかすみ除去アルゴリズムが提案されています。

初期の事前ベースのアプローチが効果的であることが実証されています。式を使用すると、鮮明な画像を復元するには、(1)、\(A\) および \(t\) を正確に推定する必要があります。最も代表的なものの 1 つは、鮮明な画像と大気物理モデルの間のマッピング関係を決定するダークチャネルプリア (DCP) 法 4 であり、比較的安定したかすみ除去アルゴリズムです。ただし、大きな白い領域のかすみ除去効果では、大きな偏差が生じる傾向があります。したがって、何人かの研究者は、データ駆動型深層学習アプローチ 5,6 を使用して、大気散乱モデルの中間パラメータを推定し、かすんだ画像から中間パラメータへのマッピング関係を構築しています。これらの深層学習アルゴリズムは、大気散乱モデルに基づいています。空の領域では大幅に改善され、従来の方法よりも視覚的に効果的ですが、モデルは非常に複雑で、大気の照明やシーンの変化の制限を受けやすいため、リアルタイムのパフォーマンスが低下し、復元された画像の明るさが暗くなります。これらの問題に対処するために、いくつかのアルゴリズムが潜在的なかすみのない画像をエンドツーエンドの方法で直接予測します。 Huang et al.7 は、かすみ除去に RGB および SAR 画像を使用する条件付き敵対的生成ネットワークを提案しました。 Mehta ら 8 は、限られた霞んだハイパースペクトル航空画像データセットの課題に対処するために、航空画像のかすみを除去することに特化した SkyGAN を開発しました。

近年、Vision Transformer (ViT)9 は、データの長期依存関係のモデリングに重点を置き、高レベルのビジョンタスクに優れています。ただし、以前の ViT および Pyramid Vision Transformer (PVT)10 はパラメーター化が過剰であり、計算コストが高かった。したがって、Liang ら 11 は、Swin-Transformer 12 に触発され、それぞれが複数の Swin Transformer 層と残留接続を備えたいくつかの Residual Swin Transformer Blocks (RSTB) で構成される SwinIR を提案しました。 Uformer13 では、新しいローカル拡張ウィンドウ (LeWin) Transformer ブロックと、Uformer デコーダーの複数のレイヤーの機能を調整するためのマルチスケール空間バイアスの形式で学習可能なマルチスケール復元変調器が導入されました。 Dong et al.14 は、かすみを除去した RSI の詳細を復元するために、トランスと残留注意を融合した 2 分岐ニューラルネットワークである TransRA を提案しました。 Song ら 15 は、Swin-Transformer12 と U-Net16 に基づいて、標準化層、活性化関数、空間情報集約スキームを変更し、弱い事前確率を使用するソフト制約を導入した Dehazeformer を提案しました。 Dehazeformer は、SOTS 屋内データセットで以前の方法と比較して優れたパフォーマンスを示し、同時にパラメーターが少なく、計算コストが低いため効率的です。ただし、自然条件や機器の制限により、十分なペアのヘイジー RSI データセットを取得することは困難です。トレーニングサンプルが小さく、濃いかすみ画像が含まれている場合、Dehazeformer による RSI かすみ除去のパフォーマンスは低下します。

要約すると、RSI のかすみ除去タスクでは、ローカルとグローバルの両方の特徴が重要であり、従来の画像のかすみ除去手法は、ネットワーク学習を導くことができる健全な理論的基盤に依存しています。そこで、モデルアーキテクチャを再構築し、提案されたネットワークにDCPを組み合わせることで、Dehazeformerに基づいた新しいRGBリモートセンシング画像かすみ除去モデル(GTMNet)を設計しました。 Dehazeformer のエンコーダでのダウンサンプリング操作により、圧縮された空間情報が Dehazeformer のデコーダによって効果的に取得されない可能性があります。したがって、この作業では、デコーダで強化演算減算 (SOS) 戦略を使用して、より圧縮された情報を取得し、潜在的なかすみのない画像を徐々に復元します。また、いくつかの高度なかすみ除去モデルと GTMNet を比較し、提案されたモデルの適用性を検証します。この論文に対する主な貢献は次のとおりです。 (1) CNN と ViT に基づき、DCP を組み合わせた新しいハイブリッドアーキテクチャが提案されました。他の参照モデルと比較して、より優れた PSNR と SSIM を提供します。 (2) ガイド付きフィルタリングと線形変換によって最適化された透過マップは、空間特徴変換 (SFT) レイヤーを介してモデルにスムーズに導入され、画像内のヘイズの厚さをより適切に推定できるようになり、パフォーマンスが向上します。 (3) 特徴回復モジュールで復元された画像を段階的に改良するために、SOS ブーストモジュールがスキップ接続を介して画像のかすみ除去タスクに組み込まれます。

このセクションでは、GTMNet の詳細を説明します。まずはDCPについて紹介します。次に、透過マップを推定します。最後に、SFT 層、SOS ブーストモジュール、SK 融合モジュールの詳細について説明します。

He et al.4 は、5,000 枚を超えるかすみのない屋外画像の空以外の領域の統計分析を実施し、少なくとも 1 つのカラーチャネルに非常に低い値を持つピクセルが存在することが多いことを発見しました。正式には、かすみのない画像 \(J(x)\) の暗い原色は次のように定義されます。

ここで、c は R、G、B チャンネルのうちの 1 つのチャンネルを表します。 Ω(x) は x を中心とするローカルな正方形です。 \({J}^{c}\) は \(J\) の特定のカラーチャネルを表します。この観察結果は、\(J\) が空の領域を除いてかすみのない屋外画像である場合、\({J}^{dark}\) のピクセル値が 0 になる傾向があることを示しています。上記の統計的な観察は次のとおりです。 DCPまたは暗原色プリアと呼ばれます。

かすみのない鮮明な画像 \(J\) を取得するには、式 (1) を使用します。 (1) を解くには、A と t を解く必要があります。式 (1) は次のように書き換えることができます。

DCP によれば、ヘイズ画像のダークチャネルはヘイズの密度によく近似します。したがって、He et al.4 は、かすんだ画像の暗いチャネルで上位 0.1% の最も明るいピクセルを選択しました。これらの画素のうち、入力画像Ｉ内で最も強度の高い画素が環境光として選択される。

ローカルパッチの透過率 Ω(x) が一定であると仮定すると、パッチの透過率 \(\widehat{t}\left(x\right)\) は次のように定義できます。

文献 4 にも記載されているように、天気が晴れていても、遠くの物体は多かれ少なかれかすみの影響を受けるため、著者らは被写界深度の感覚を与えるために [0,1] の係数 ω を導入することでかすみの度合いを制御しています。。具体的な表現は次のとおりです。

ここで、ω は通常 0.95 と見なされます。

局所的な仮定により、推定された透過マップ \(\widehat{t}\left(x\right)\) はブロック効果を示します。従来の画像のかすみ除去方法では、通常、\(\widehat{t}\left(x\right)\) は、ソフトマット法、ガイド付きフィルタリング、または高速ガイドフィルタリングを使用して調整されます。ソフトマット法は良好な結果を得ることができますが、オブジェクトのエッジ情報が弱く、時間がかかります。したがって、最適化には高速ガイドフィルターを使用します17。フィルターウィンドウの半径は 60 に設定され、正則化パラメーター e は 0.0001 です。

図 1 は、SateHaze1k データセットの透過マップの関連結果を示しています。図1cの高速ガイドフィルタによって最適化された透過マップは、入力画像のかすんだ分布を客観的に推定できることがわかります。ただし、本論文で DCP を導入するのは、ヘイズ濃度を推定することを目的としています。図1dに示すように、画像内のヘイズの厚さを強調するために、線形変換を使用して最適化された透過マップ t を強化し、それをガイド付き透過マップ（GTM） t1 として定義しました。これは次のように定式化できます。

SateHaze1k データセット上の透過マップの結果: (a) 入力画像。 (b) ダークチャネルマップ。 (c) 高速ガイドフィルターによって最適化された透過マップ。 (d) 誘導伝送マップ。

図 2 と表 1 に示すように、提案されたネットワーク GTMNet は Dehazeformer に基づいていますが、SFT 層 18 と SOS ブーストモジュールが組み込まれています。 SFT レイヤーは GTM を GTMNet に統合します。これにより、GTM の機能と入力画像を効果的に融合して、入力画像内のヘイズの厚さをより正確に推定できます。 SOS ブーストモジュールは、鮮明な画像を繰り返し復元できます。デコーダの最後では、ソフト再構成層を使用してかすみのない画像 \(\widehat{J}\) を推定します。

提案された GTMNet の全体的なアーキテクチャ。

SFT 層は、超解像タスクで最初に適用されます18。これはパラメータ効率が高く、強力な拡張性を備えた既存のかすみ除去ネットワーク構造に簡単に導入できます。図 3 に示すように、SFT 層の追加入力として GTM t1 を使用します。最初に 3 つの畳み込み層を適用して、GTM から条件付きマップ φ を抽出します。次に、条件付きマップ φ が他の 2 つの畳み込み層に入力され、変調パラメータ γ と β がそれぞれ予測されます。最後に、特定のレイヤーの特徴マップをスケーリングおよびシフトすることによって変換が実行され、シフトされた出力特徴を次のように取得できます。

ここで、F は γ および β と同じ次元の特徴マップ、⊙ は要素ごとの乗算、つまりアダマール積を指し、⊕ は要素ごとの加算を表します。空間次元が保存されるため、SFT レイヤーは特徴ごとの操作と空間ごとの変換を実行します。 RSI では一般に各オブジェクトのサイズが小さいため、局所的な特徴を取得することが重要になります。この論文では、ローカル特徴を取得するトランスフォーマーの限られた能力を補うために、共有パラメーターを持つ SFT レイヤーを利用しました。

SFT層の構造。

SOS ブースティング手法 19 は、繰り返し鮮明な画像を復元する画像ノイズ除去に効果的であることが数学的に証明されています。 Dong ら 20 は、さまざまなオプションの SOS ブーストモジュールを検証しました。その結果は、式 1 に示すように、次のブーストスキームが最も効果的であることを示しています。 (8):

ここで、\(Up(.)\) はピクセルシャッフルメソッド 21 を使用したアップサンプリング演算子を表し、\({S}^{n+1}\) は前のレベルの特徴を表し、\({I}^{n}\) はエンコーダからの潜在特徴、\(({I}^{n}+Up{(S}^{n+1}))\) は強化された特徴を表し、\({\mathcal{G}}_{ {\theta }_{n}}^{n}\) は、\({\theta }_{n}\) によってパラメータ化された (n) 番目のレベルのトレーニング可能な洗練単位を示します。提案されたアーキテクチャによれば、式 (8) は式 (8) のように表されます。 (9):

ここで、 \({J}^{n+1}\) は、デコーダの Dehazeformer ブロックからの特徴を示します。図 4 に示すように、SOS ブーストモジュールは 3 つの残差ブロックで構成されます。

SOSブーストモジュールの構造。

Song et al.22 は、チャネルアテンションを使用して複数のブランチを融合するために、SKNet23 からインスピレーションを得た選択的カーネル (SK) Fusion モジュールを設計しました。 SK Fusion module22 を使用して、SOS とデコーダブランチを融合します。具体的には、2 つの特徴マップ \(x1\) と \(x2\) を考えます。最初に線形層 \(f\left(.\right)\) を使用して \(x1\) を \(\widehat{x) に投影します。 }1\)。次に、図に示すように、グローバル平均プーリング \(GAP\left(.\right)\)、多層パーセプトロン \(MLP\left(.\right)\)、ソフトマックス関数、および分割演算を使用して融合重みを取得します。式で (10):

最後に、重み \(\left\{a1,a2\right\}\) を使用して \(\widehat{x}1\)、\(x2\) を \(y=a1\ を介して追加の短い残差と融合します)ワイドハット{x}1+a2x2+x2\)。

このパートでは、まずデータセットと GTMNet の実装の詳細を紹介します。次に、RS-Haze および SateHaze1k データセットでメソッドを評価します。最後に、提案されたアプローチを分析するために、アブレーション研究とその他の比較実験が行われます。

RS-Haze22 は、良好な気象条件の多様な地形を含む 76 個の RSI と 108 個の曇り RSI から合成された合成霞 RSI データセットです。すべての画像は、EarthExplorer の Landsat-8 レベル 1 データ製品からダウンロードされます。最終的なトレーニングセットには 51,300 の RSI ペアが含まれ、テストセットには画像解像度 512 × 512 の 2,700 の RSI ペアが含まれています。提案された方法は Dehazeformer モデルで最適化されているため、実験セットアップは Dehazeformer22 と一致しています。 150 エポックの L1 損失を使用してモデルをトレーニングし、各エポックは 1 回検証されます。テストセットの画像は検証セットの画像と同じです。

SateHaze1k7 は合成ヘイズ衛星リモートセンシングデータセットでもあり、Photoshop ソフトウェアを補助ツールとして使用して、リッチでリアルな多様なヘイズ画像を生成します。このデータセットには 1,200 の RSI ペアが含まれており、画像の各ペアにはかすんだ画像と実際のかすみのない画像が含まれています。これらの画像は、画像解像度 512 × 512 の 3 つの霧画像サブセット (薄い霧、中程度の霧、濃い霧) に分割されます。各タイプの霧画像サブセットから 320 組の画像をトレーニングセットとして選択し、45 組の画像を選択します。テストセットとして。かすんだ画像のサブセットの各タイプは個別にトレーニングおよびテストされます。 SateHaze1k データセットは小さいため、GTMNet を 1000 エポックでトレーニングし、10 エポックごとに検証します。他の実験構成は RS-Haze データセットの構成と同じです。

GTMNet の 4 つのバリアント (-T、-S、-B、および -L はそれぞれ、tiny、small、basic、large を表します) を提供し、PyTorch フレームワークを使用して提案されたネットワーク構造を実装し、NVIDIA GeForce RTX3090 でモデルをトレーニングします。。トレーニング中に、画像は 256 × 256 のパッチにランダムにトリミングされます。さまざまなバリアントに対して異なるミニバッチサイズを設定します。つまり、{-T、-S、-B、-L} に対して {32、16、8、4} を設定します。初期学習率は、バリアント {-T, -S, -B, -L} に対して {4, 2, 2, 1} × 10–4 に設定されます。コサインアニーリング戦略 25 を備えた AdamW オプティマイザー 24 を使用してモデルをトレーニングします。学習率は初期学習率から {4, 2, 2, 1} × 10–6 まで徐々に減少します。

GTMNet トレーニング用に提案されたメカニズムは、アルゴリズム 1 に示されています。GTMNet の学習可能なパラメーターはすべて、切り捨て正規分布戦略を使用して初期化されます26。

客観的な評価指標としてピーク信号対雑音比 (PSNR) と構造類似性指数測定 (SSIM) を使用し、表 2 と表 3 に示すように、GTMNet と他の手法のパラメータ数を比較します。太字は最適値を示し、太字は最適値を示します。下線は次善の値を示します。

機器の制限により、-T ではテストとトレーニングのみが実施されます。提案された方法を他の 4 つの古典的なかすみ除去アルゴリズムと比較します。表 2 に示すように、私たちの方法の PSNR は Dehazeformer-T の PSNR よりわずかに低くなりますが、両方の SSIM は同じです。提案されたアーキテクチャにはより多くのパラメーターがあるため、オーバーフィットが容易になり、汎化パフォーマンスが低下します。

提案された方法を DCP4、DehazeNet5、Huang (SAR)7、SkyGAN8、TransRA14、および Dehazeformer22 と比較し、その結果を表 3 に示します。 3 つのサブデータセットにおける GTMNet-T の PSNR および SSIM は、GTMNet-T の PSNR および SSIM よりも優れています。 Dehazeformer-T22、特に薄い霧の PSNR は 2.6% 近く改善され、SSIM は 0.968 から 0.970 に増加しました。中程度の霧では、GTMNet-B の PSNR と SSIM はそれぞれ 27.22 dB と 0.973 に達し、SkyGAN8 と比較して 7.2% と 7.6% 増加しました。濃霧では、GTMNet-B の PSNR は Huang (SAR)7 および SkyGAN8 よりも低いものの、SSIM メトリクスは 2 つのアルゴリズムと比較して、それぞれ 8.7% および 5.2% 向上します。 3 つのサブデータセットにおいて、GTMNet-T は TransRA14 よりも優れた PSNR および SSIM スコアを達成し、PSNR パフォーマンスが大幅に向上しました。

表 3 に示すように、上記の定量的な比較結果と組み合わせると、パラメーターはわずかに増加していますが、提案されたモデルは依然として軽量です。中霧および濃い霧のサブデータセットでは、GTMNet-B は Dehazeformer-L と同等のパフォーマンスを発揮しますが、パラメーターの数はわずか 0.1 倍です。ただし、GTMNet-L のパフォーマンスは Dehazeformer-L よりも劣ります。これは 2 つの側面によって引き起こされる可能性があります。まず、GTMNet-L のパラメーター量が増加すると、オーバーフィッティングが起こりやすくなります。第二に、データセットが小さいため、GTMNet-L の汎化能力が低下します。

RS-Haze および SateHaze1k データセットに対して、関連する手法の定性的な比較が実行されました。 Song et al.22 は RS-Haze データセットに関する既存の高度なかすみ除去画像手法を比較しているため、ここでは GTMNet-T と Dehazeformer-T のかすみ除去画像のみを示します。図 5 に示すように、RS-Haze 画像では GTMNet-T と Dehazeformer-T の間に視覚的な違いはほとんどなく、どちらも鮮明さ、豊富な特徴情報、リアルな色、階層感を示しています。

RS-Haze データセットにおける画像のかすみ除去方法の定性的比較。

SateHaze1k データセットについて、GTMNet と最先端の手法の定性的な比較結果を示します。図 6 に示すように、かすんだ入力画像には農地、道路、建物、植生が含まれています。おそらく大気の光と物体の色の類似性が原因で、DCP4 手法が失敗したことがわかりました。 Huang (SAR)7 の方法はかすみを除去できますが、濃いかすみ領域の復元画像の地表特徴情報は十分に豊富ではなく、建物の詳細は著しく弱くなっています。一般に、DehazeNet5 と SkyGAN8 は両方ともかすみを完全に除去することができず (図 6 の最初のかすみ画像の処理結果に示されているように)、その結果、画像の色が不自然になり、詳細情報の復元能力が弱くなります。 Dehazeformer-T22 と GTMNet-T は、不完全な画像のかすみ除去の問題を解決します。ただし、濃いもやまたは雲のかすみのある領域では、Dehazeformer アルゴリズムでは重大な色の歪みが発生します。 GTMNet は画像の色ずれの問題だけでなく、鮮明さも改善します。

SateHaze1k データセットにおける画像のかすみ除去方法の定性的比較。

このパートでは、提案されたモデル構造に対してアブレーション研究を実行し、結果に影響を与える可能性のある要因を分析します。これらの研究では、被験者が異なることを除いて、他の戦略は各実験グループで同じです。

画像のかすみ除去効果に対するさまざまなコンポーネントの影響を研究するために、Dehazeformer-T22 をベースラインモデルとして採用し、SateHaze1k データセット 7 上のさまざまなコンポーネントに対してアブレーション実験を実施します。

表 4 に示すように、D-SOS-T は Dehazeformer-T に SOS モジュールを追加することを指します。表 5 によると、3 つのサブデータセットの PSNR および SSIM インジケーターが大幅に改善されていることがわかり、画像のかすみ除去タスクにおける SOS モジュールの有効性が検証されました。 D-GTM-T は、2 つの SFT 層を介した Dehazeformer-T へのプリアとしての GTM の導入を示します。 SFT層の位置を図9bに示します。表 5 によると、SOS ブースト戦略を使用せずに以前の GTM のみを Dehazeformer-T に追加した場合のパフォーマンスは、中程度の霧では Dehazeformer-T のパフォーマンスより優れていますが、薄い霧と厚い霧では効果が劣ります。これは、GTM の取得方法が通常の画像の統計に基づいており、RSI と通常の画像との間に大きなギャップがあるためであると考えられます。従来の従来の方法は、均一なヘイズ画像ではより効果的です。

図 7 に示すように、Dehazeformer-T、D-SOS-T、および D-GTM-T によって生成されたかすみのない画像はすべて建物の歪みを示しています。すべての方法の中で、GTMNet のかすみ除去効果が最も優れており、復元された画像の鮮明さを確保し、画像の色をより良く復元できます。薄い霧と厚い霧のサブデータセットでは、2 つのコンポーネントを別々に使用した場合よりも一緒に使用した場合の方が、PSNR インジケーターと SSIM インジケーターが増加します。

SateHaze1k データセット上のさまざまなコンポーネントのアブレーションモデルの定性的比較。

式によると、 (8–9)、SateHaze1k データセット上で 2 つの異なるアブレーションモデル D-SOS-T および D-SOS1-T を設計しました。具体的な構成を表 6 に示します。表 7 によると、\({S}^{2}\) を直接アップサンプリングして SOS1 (図 2) に入力すると、D-SOS-T に比べて PSNR が低下します。 27.09 ～ 26.77 dB、Moderate Fog では SSIM の値は変化しません。さらに、Dehazeformer-T と比較して、PSNR と SSIM はそれぞれ 26.38 dB と 0.969 から 26.77 dB と 0.971 に増加しました。

図 8 に見られるように、D-SOS-T と D-SOS1-T のかすみを除去した画像の間には視覚的な違いはほとんどありません。図 8 の 3 番目のかすみ画像の結果に示すように、濃いかすみ領域では、色の歪みがひどくなり、エッジのディテールが失われます。まとめると、 \(Up({J}^{2})\ ) が SOS1 モジュールの入力として設定されます。

SateHaze1k データセット上の SOS1 モジュールへのさまざまな入力を使用したアブレーションモデルの定性的比較。

モデルの構造に従って、SFT 層の位置は 4 つの状況に分類できます (図 9 を参照): (a) Dehazeformer ブロック 1 の前で SFT 層を 1 つだけ使用する場合、(b) SFT 層を 1 つだけ使用する場合Dehazeformer block5 の後ろ、(c) Dehazeformer block1 の前と Dehazeformer block5 の後ろでそれぞれ SFT 層を使用する (つまり、GTMNet)、(d) Dehazeformer ブロック 2 の前と Dehazeformer ブロック 4 の後ろでそれぞれ SFT 層を使用します。表 8 に示すように、中程度の霧では (d)-T が最も高い PSNR と SSIM を示しますが、表 9 は、GTMNet-B が (d)-B よりも PSNR と SSIM の増加が大きいことを示しています。さらに、図 10 の比較結果からわかるように、GTMNet-T を使用すると最良のかすみ除去結果が得られ、特に図 10 の 3 番目のかすみのある画像では、画像の鮮明さが大幅に向上し、画像の色の歪みがそれほどひどくなくなりました。

SFT 層の位置: (a) Dehazeformer ブロック 1 の前。 (b) Dehazeformer ブロック 5 の後ろ。 (c) Dehazeformer ブロック 1 の前と Dehazeformer ブロック 5 の後ろ。 (d) Dehazeformer ブロック 2 の前と Dehazeformer ブロック 4 の後ろ。

SateHaze1k データセット上の SFT 層と GTM のアブレーションモデルの定性的比較。

表 8 に示す結果に基づいて、GTM をエンコーダーとデコーダーの両方に追加すると、Thin Fog RSI からのヘイズの除去に優れた効果があり、デコーダーのみに GTM を追加すると、Moderate RSI からのヘイズの除去に優れた効果があると結論付けます。霧と濃霧の RSI。 GTM の有効性はヘイズの厚さに関係するだけでなく、SOS ブーストモジュールの有無にも依存すると考えられます。

異なる透過マップは、モデルのかすみ除去パフォーマンスに影響を与える可能性があります。実験では、(c)-tT と呼ばれるガイド付きフィルタリングのみによって最適化された透過率マップと、ガイド付きフィルタリングによって推定された透過率マップを最適化し、それに線形変換を適用することで得られる GTM の 2 種類の透過率マップを利用しました。 GTMNetで使用されていたものです。表 8 に示すように、GTM は、ガイド付きフィルターのみによって最適化された送信マップと比較して、薄い霧と厚い霧の両方で高い PSNR および SSIM インジケーターをもたらします。さらに、主観的な視覚評価と客観的な定量的メトリクスの結果は、GTM が局所的な濃いかすみ画像にも適しており、顕著なかすみ除去効果をもたらすことを示しています。

Dehazeformer22 のトレーニング方法によれば、バッチサイズが小さくなるにつれて、モデルの初期学習率は低下します。線形スケーリング規則に従って、GTMNet-B の初期学習率は 1 × 10–4 である必要があります。 3 つのサブデータセットに対してアブレーション実験を実行したところ、表 10 に示すように GTMNet-B の初期学習率を下げると、PSNR と SSIM の値が一般に大幅に減少することがわかりました。そのため、初期学習率を一定に保ちました。 , -B で反復のバッチサイズを減らしたとしても、2 × 10–4。

GTMNet の汎化能力を評価するために、テスト用に 2 つの現実世界の無人航空ヘイジー RSI を選択します。全体として、Dehazeformer メソッドは最適とは言えません。したがって、この部分では GTMNet-T と Dehazeformer-T の結果のみを比較し、Moderate Fog でトレーニングされた -T モデルを使用して 2 つの現実世界のもや画像をテストします。図 11 は、提案アルゴリズムと Dehazeformer-T によって得られた処理結果の間に視覚的な違いがほとんどないことを示しています。どちらの方法でも、鮮明で豊富な地面情報と現実的な色が生成され、どちらのアルゴリズムも現実世界のかすんだリモートセンシング画像に適していることがわかります。実世界の画像でのメソッドのパフォーマンスを示すために、補足資料に追加の視覚的な比較を含めました (補足資料)。

現実世界の画像に対する Dehazeformer と GTMNet の定量的な比較。かすんだ入力は DJI-Phantom 4 Pro によって取得されます。

かすんだ画像には、低コントラスト、低彩度、細部の損失、色ずれなどの問題があり、分類、位置決め、検出、セグメンテーションなどの画像分析タスクに重大な影響を与えます。したがって、このような場合、かすみ除去は、良好な知覚品質の画像を生成し、後続のコンピュータービジョンタスクのパフォーマンスを向上させるために非常に重要です。

このセクションでは、RSI 水域セグメンテーションに対するかすみ除去結果の影響を分析します。まず、生物医学画像セグメンテーション用の U-Net に触発された RSI 水セグメンテーションネットワークを 1500 RSI を使用してトレーニングし、300 RSI を使用してテストしました。次に、テストセットから 2 つの画像を選択し、Photoshop ソフトウェアを使用して中程度の濃度のかすみを追加し、中程度の霧でトレーニングされた -T モデルを使用して 2 つの画像をテストしました。最後に、かすんだ入力の水域セグメンテーションの結果、GTMNet-T および Dehazeformer-T によるかすみ除去の結果、およびかすみのない画像を定性的に比較します。図 12 に示すように、GTMNet-T のかすみを除去した画像とかすみのない画像の間には、視覚的な違いはほとんどありません。ただし、Dehazeformer-T のかすみを除去した画像では、かすみのない画像と比較して、水域セグメンテーションプロセスでのエラーが増加しています。

RSI 水域セグメンテーションタスクにおけるさまざまな曇り除去結果の定性的比較。グラウンドトゥルースは DJI-Phantom 3 Pro によって取得されます。

ViT と CNN の利点を組み合わせて、新しい RSI かすみ除去ハイブリッドモデル GTMNet を提案します。 GTM は、ヘイズの厚さを推定するモデルの機能を向上させるために、2 つの SFT 層を使用して最初にモデルに導入されます。次に、SOS ブーストモジュールが導入され、復元されたイメージの局所的な特徴が徐々に改善されます。実験結果は、提案されたモデルが小規模のかすみのある RSI データセットに対しても優れたかすみ除去効果を示し、現在の低レベル視覚タスクのトレーニングデータの不足を効果的に補い、モデルの適用性を向上させることを示しています。 GTMNet は、最先端の方法と比較して、高輝度の建物の屋根や霧の濃い領域での色の歪みをある程度軽減します。

以前の GTM の有効性は、SOS ブーストモジュールの存在に依存することがわかりました。したがって、外部の事前知識を導入する戦略が重要です。今後の研究では、ターゲット関連の外部知識と画像特徴を融合するためのダイナミックメモリネットワーク (DMN+)29 と、ネットワークの冗長性に対処するためのマルチレベル特徴融合ネットワーク (MFFN)30 に触発されて、自己補助データ (合成開口レーダー画像、GTM など) と RSI 特徴の重み付けされた融合戦略。さらに、従来の手法と深層学習ベースの手法を組み合わせた戦略をさらに研究し、過学習を回避するためにより適切なモデルを設計します。

この研究中に生成または分析されたすべてのデータは、この公開記事に含まれています。かすんだ RSI を作成するための Photoshop ソフトウェアのバージョンは 24.3 で、https://www.adobe.com/products/photoshop.html から入手できます。

McCartney、EJ Optics of the Atmosphere: Scattering by Molecules and Particles (Springer、1976)。

Google スカラー

サウスカロライナ州ネイヤーとシンガポール、ナラシンハン悪天候のビジョン。第 7 回 IEEE コンピュータビジョン国際会議議事録、Vol. 2、820–827 (IEEE、1999)。

ナラシンハン、SG、ネイヤー、SKビジョン、そして雰囲気。内部。Ｊ．Ｃｏｍｐｕｔ．ヴィス。 48、233–254 (2002)。

記事 MATH Google Scholar

He, K.、Sun, J. & Tang, X. ダークチャネルプリアを使用した単一画像のかすみ除去。 IEEEトランス。パターンアナル。マッハ。知性。 33、2341–2353 (2010)。

PubMed Google Scholar

Cai, B.、Xu, X.、Jia, K.、Qing, C. & Tao, D. Dehazenet: 単一画像のかすみ除去のためのエンドツーエンドシステム。 IEEEトランス。画像処理。 25、5187–5198 (2016)。

記事 ADS MathSciNet MATH Google Scholar

Chavez, PS Jr. マルチスペクトルデータの大気散乱補正のための改良された暗黒物体減算技術。遠隔感覚環境。 24、459–479 (1988)。

記事 ADS Google Scholar

Huang, B.、Zhi, L.、Yang, C.、Sun, F.、Song, Y. 条件付き敵対的生成ネットワークに基づく事前 SAR 画像を使用した単一衛星光学画像のかすみ除去。コンピュータービジョンのアプリケーションに関する IEEE/CVF 冬季会議議事録、1806 ～ 1813 年 (2020)。

Mehta, A.、Sinha, H.、Mandal, M.、Narang, P. 航空画像のかすみ除去のためのドメイン認識の教師なしハイパースペクトル再構成。コンピュータービジョンのアプリケーションに関する IEEE/CVF 冬季会議議事録、413 ～ 422 (2021)。

Vaswani、A. et al. 必要なのは注意力だけです。上級神経情報プロセス。システム。 30、1–10 (2017)。

Google スカラー

Wang、W.ら。ピラミッドビジョントランスフォーマー: 畳み込みのない高密度予測のための多用途のバックボーン。 IEEE/CVF International Conference on Computer Vision の議事録、568–578 (2021)。

Liang、J.ら。 Swinir: swin トランスフォーマーを使用した画像復元。コンピュータービジョンに関する IEEE/CVF 国際会議議事録、1833 ～ 1844 年 (2021)。

Liu、Z.ら。 Swin トランスフォーマー: シフトされたウィンドウを使用する階層型ビジョントランスフォーマー。 IEEE/CVF International Conference on Computer Vision の議事録、10012–10022 (2021)。

Wang、Z.ら。 Uformer: 画像復元用の一般的な U 字型トランス。コンピュータービジョンとパターン認識に関する IEEE/CVF 会議議事録、17683–17693 (2022)。

Dong, P. & Wang, B. TransRA: 単一リモートセンシング画像のかすみ除去のためのトランスフォーマーと残留注意の融合。多次元。システム。信号プロセス。 33、1119–1138 (2022)。

記事 Google Scholar

Song、Y.、He、Z.、Qian、H.、Du、X. 単一画像のかすみ除去用のビジョントランスフォーマー。 IEEEトランス。画像処理。 32、1927 ～ 1941 年 (2023)。

記事 ADS Google Scholar

Ronneberger, O.、Fischer, P. & Brox, T. U-net: 生物医学画像セグメンテーションのための畳み込みネットワーク。医用画像コンピューティングとコンピュータ支援介入に関する国際会議、234–241 (Springer、2015)。

He、K.、Sun、J.、Tang、X. ガイド付き画像フィルタリング。コンピュータービジョンに関する欧州会議、1 ～ 14 (Springer、2010)。

Wang, X.、Yu, K.、Dong, C. & Loy, CC 深い空間特徴変換による画像超解像度でのリアルなテクスチャの復元。コンピュータービジョンとパターン認識に関する IEEE 会議議事録、606 ～ 615 (2018)。

Romano, Y. & Elad, M. 画像ノイズ除去アルゴリズムのブースト。サイアム・J・イメージ科学。 8、1187–1219 (2015)。

記事 MathSciNet MATH Google Scholar

Dong, H. et al. 高密度の機能融合を備えたマルチスケールのブーストされたかすみ除去ネットワーク。コンピュータービジョンとパターン認識に関する IEEE/CVF 会議議事録、2157 ～ 2167 (2020)。

Shi、W.ら。効率的なサブピクセル畳み込みニューラルネットワークを使用した、リアルタイムの単一画像とビデオの超解像度。コンピュータービジョンとパターン認識に関する IEEE 会議議事録、1874 ～ 1883 年 (2016)。

Song, Y.、He, Z.、Qian, H. & Du, X. 単一画像のかすみ除去用のビジョントランスフォーマー。 http://arxiv.org/abs/2204.03883 (2022)。

Li、X.、Wang、W.、Hu、X.、Yang、J. 選択的カーネルネットワーク。コンピュータービジョンとパターン認識に関する IEEE/CVF 会議議事録、510–519 (2019)。

Loshchilov, I. & Hutter, F. 分離された体重減少の正則化。 http://arxiv.org/abs/1711.05101 (2017)。

Loshchilov, I. & Hutter, F. Sgdr: ウォームリスタートによる確率的勾配降下法。 http://arxiv.org/abs/1608.03983 (2016)。

Burkardt, J. 切り捨てられた正規分布。科学コンピューティング学科のウェブサイト 1、35 (2014)。

チェン、D.ら。画像のかすみ除去と輪郭除去のためのゲート付きコンテキスト集約ネットワーク。 2019 年 IEEE Winter Conference on Applications of Computer Vision (WACV) 1375–1383 (IEEE、2019)。

Ronneberger, O.、Fischer, P. & Brox, T. U-net: 生物医学画像セグメンテーションのための畳み込みネットワーク。医用画像コンピューティングとコンピュータ支援介入 – MICCAI 2015: 第 18 回国際会議、ドイツ、ミュンヘン、2015 年 10 月 5 ～ 9 日、議事録、パート III 18 234 ～ 241 (Springer、2015)。

Chen、Y.、Xia、R.、Zou、K.、Yang、K. FFTI: フィーチャーフュージョンおよび 2 ステップペインティングによる画像ペインティングアルゴリズム。 J.Vis. 共通。画像を表します。改訂 91、103776 (2023)。

記事 Google Scholar

Chen, Y.、Xia, R.、Yang, K. & Zou, K. MFFN: マルチレベル特徴融合ネットワークによる画像超解像度。ヴィス。計算します。 1、1–16 (2023)。

Google スカラー

リファレンスをダウンロードする

Yaping Zhang は、雲南省農業基礎研究共同特別プロジェクト (助成金番号 202101BD070001-042) および雲南省一万人人材プログラムから資金提供を受けました。著者らは競合する利害関係を宣言していません。

雲南師範大学情報科学技術学部、昆明、650500、雲南、中国

ハイチン・リー、ヤピン・チャン、Jiatao Liu、Yuanjie Ma

PubMed Google Scholar でこの著者を検索することもできます

HL: 概念化、ソフトウェア、調査、視覚化、検証、執筆、改訂。 YZ: 概念化、方法論、執筆、改訂、監督、財政的支援。 JL: 概念化、執筆、改訂。 YM: 検証、リソース。

張亜平氏への通信。

著者らは競合する利害関係を宣言していません。

シュプリンガーネイチャーは、発行された地図および所属機関における管轄権の主張に関して中立を保ちます。

オープンアクセスこの記事はクリエイティブコモンズ表示 4.0 国際ライセンスに基づいてライセンスされており、元の著者と情報源に適切なクレジットを表示する限り、あらゆる媒体または形式での使用、共有、翻案、配布、複製が許可されます。クリエイティブコモンズライセンスへのリンクを提供し、変更が加えられたかどうかを示します。この記事内の画像またはその他のサードパーティ素材は、素材のクレジットラインに別段の記載がない限り、記事のクリエイティブコモンズライセンスに含まれています。素材が記事のクリエイティブコモンズライセンスに含まれておらず、意図した使用が法的規制で許可されていない場合、または許可されている使用を超えている場合は、著作権所有者から直接許可を得る必要があります。このライセンスのコピーを表示するには、http://creativecommons.org/licenses/by/4.0/ にアクセスしてください。

転載と許可

Li, H.、Zhang, Y.、Liu, J. 他 GTMNet: 単一リモートセンシング画像のかすみ除去用のガイド付き透過マップを備えたビジョントランスフォーマー。 Sci Rep 13、9222 (2023)。 https://doi.org/10.1038/s41598-023-36149-6

引用をダウンロード

受信日: 2023 年 2 月 14 日

受理日: 2023 年 5 月 30 日

公開日: 2023 年 6 月 7 日

DOI: https://doi.org/10.1038/s41598-023-36149-6

次のリンクを共有すると、誰でもこのコンテンツを読むことができます。

申し訳ございませんが、現在この記事の共有リンクは利用できません。

Springer Nature SharedIt コンテンツ共有イニシアチブによって提供

コメントを送信すると、利用規約とコミュニティガイドラインに従うことに同意したことになります。虐待的なもの、または当社の規約やガイドラインに準拠していないものを見つけた場合は、不適切としてフラグを立ててください。

PLD3はアルツハイマー病の軸索スフェロイドとネットワーク欠陥に影響を与える

芸術解説: アニー・エルノー、中絶、そして私

ニュース

GTMNet: 単一リモート センシング画像のかすみ除去用のガイド付き透過マップを備えたビジョン トランスフォーマー

GTMNet: 単一リモートセンシング画像のかすみ除去用のガイド付き透過マップを備えたビジョントランスフォーマー