高频感知图像的增强外文翻译资料

 2023-03-14 11:40:31

本科毕业设计(论文)

外文翻译

中文译文:

高频感知图像的增强

作者:Hyungmin Roh, Myungjoo Kang

国籍:韩国

出处:arXiv.orggt;csgt;arXiv:2105.11711

摘要:本文介绍了一种适合于多尺度分析的新型深度神经网络,并提出了有效的模型无关方法,帮助网络从高频域提取信息,以重建更清晰的图像。我们的模型可以应用于多尺度的图像增强问题,包括去噪、去模糊和单个图像超分辨率。在SIDD、Flickr2K、DIV2K和REDS数据集上进行的实验表明,我们的方法在每个任务上都取得了最先进的性能。此外,我们还表明,我们的模型可以克服现有面向PSNR的方法中常见的过平滑问题,并通过应用对抗性训练生成更自然的高分辨率图像。

  1. 产品简介

大多数基于学习的方法利用深度神经网络的高能力,具有显著的能力来识别它们在视觉识别任务中显示的图像的内容和风格,包括图像分类和对象检测。利用深度神经网络的高能力和分析能力,基于学习的方法已经成功地适应了图像增强领域,并在实验室环境中比传统的基于模型的方法表现出更好的性能。

然而,当应用于现实问题时,大多数基于学习的方法都没有产生如此好的结果,而基于模型的方法更灵活,更适用于具有各种模糊和噪声的低分辨率图像。这是因为基于学习的方法学习如何通过分析给定的低分辨率图像与相应的高分辨率图像之间的关系来提高图像质量。然而,在现实问题中,只给出了低分辨率的图像,而且它们的高分辨率对是未知的。这意味着这些模型必须推断出它们从未学到过的新关系,当它们解决现实问题时,这往往会导致巨大的性能下降。

另一个问题称为“不适定问题”也使解决现实世界的问题更具有挑战性。在给定低分辨率图像的溶液空间中有无数高分辨率图像候选,而人类观众感知自然的高分辨率输出数量是非常小或独特的。这个不适定的问题使得深度神经网络在解决现实世界的问题时很难推导出自然的高分辨率输出。最近提出了在无监督环境下减少解空间的数学方法来解决这个问题。

多年来,许多关于深度神经网络建筑设计的研究已经被提出,并显示出良好的性能。然而,他们最近达到了极限除了性能的微小改善外,几乎没有取得什么进展。这是因为深度神经网络最初是基于深度堆叠层的高容量来理解图像的内容而进行优化的,因此它们无法解释和恢复损坏图像的详细信息。因此,最近的研究更集中于将图像的数学特性传递给现有的模型,而不是设计更深层次的网络。

为了符合这一趋势,我们不仅提出新的架构深度神经网络图像增强问题还引入一些最先进的建模方法,使网络能够产生更清晰和更现实的图像提供抽象特征和高频组件的图像稍微修改现有模型的结构。

  1. 相关工作

近年来,许多研究被提出来使用不同的深度学习技术技巧来解决SISR问题。2015年,董等人表示。[1]在SISR问题中引入了深度学习方法,提出了SRCNN是一个完全卷积的神经网络,能够在输入和输出图像之间实现端到端映射。2016年,Kim等人表示。[2]提出了VDSR,它利用分布在大片图像上的上下文信息,使用大的接受字域来进行卷积层。2017年,Tai等人表示。[3]提出了一个由52个卷积层组成的非常深的网络结构,称为DRRN,通过设计一个具有多路径结构的递归块,而Ledig等人。[4]提出了具有16块深度ResNet的SRResNet,并引入了基于GAN的SRGAN,该SRGAN对在VGG[5]网络特征图上计算的感知损失进行了优化。

(a)图像去噪处理

(b)图像去模糊

(c)单个图像超分辨率

2017年,林等人。[6]提出了一种名为EDSR的新模型。他们从网络中删除每一批归一化,堆叠16个剩余块,从低分辨率图像中提取高频信息。同年,唐等人表示。[7]提出了SRDenseNet,它由8个密集的块[8]组成,并跳过了结合来自不同级别的特征地图的连接。2018年,张等人表示。[9]引入了一个剩余的密集块,允许从前面的块直接连接,从而导致一个连续的内存机制。张等人。[10]还提出了一种名为RCAN的新模型,增加了对EDSR的关注,并在残余模块中引入了残余来构建10倍深的网络。他们使用不同长度的跳过连接,以帮助他们的模型从低分辨率图像中分别提取丰富的低频特征和稀缺但重要的高频信息。

直到2019年,研究主要集中于通过引入或结合各种神经块来修改网络的建筑设计。然而,随着神经网络变得足够深和宽,仅结构修改就只能期待微小的边际改进。为了克服这些问题,研究人员最近关注了SISR问题的内在局限性,或者试图将他们的神经网络与传统的基于模型的方法结合起来。

2020年,郭等人表示。[11]在网络中引入了周期一致性,以解决固有的不适定问题;有有限的高分辨率图像可以下采样到给定的低分辨率输入图像。他们将RCAN[10]提出的RCAB重建为UNet[12]结构。在这个过程中,他们还从低分辨率输入中产生具有目标分辨率的1/2和1/4大小的图像,然后将它们与缩小的输出图像进行比较。通过这个过程,即对偶回归,可以保持周期一致性,并使其网络同时使用未标记的数据进行训练。潘等人。[13]利用低分辨率图像中的像素替换方案,用输入信息约束他们的网络。他们将被已知模糊核模糊的降级图像添加到输入图像中,并迭代地转发到去模糊网络中。从这个过程中,他们试图将一个给定的不同盲核问题转换为一个简单的非盲问题,以便他们的模型能够更容易地恢复清晰的图像。

人们没有通过给予受输入信息约束的网络周期一致性来解决不适定问题,而是有人多次尝试通过对网络的卷积层应用有意义的核来创建一个人类可解释的网络结构。Huang等人。[14]引入了一种多尺度黑森滤波(MSHF),该内核从多尺度中提取边缘,导致他们的模型从不同角度和尺度处理图像的高频信息。另一方面,尚等人则这样认为。[15]并行使用矩形的接受场,如1times;3或3times;1,而不是随机初始化3times;3卷积核。通过这种方式,他们的模型RFB-ESRGAN成为了人类可解释的模型,并可以自适应地分析图像的水平和垂直信息。

还提出了一项将知识分离应用于SISR问题,使模型能够在训练阶段使用高分辨率图像中的丰富信息。Lee等人。[16]将人力资源图像的编码特征转发到教师网络,该网络与学生网络的结构相同,允许教师网络使用特权信息来获得更好的结果。然后,学生网络使用变分信息分割[17]技术,允许教师网络将其编码特征提取到学生网络中,这样它就可以学习如何提取特权信息,允许模型从给定的低分辨率输入中提取更有意义的特征。

图2 我们提出的网络

随着EDSR[6]和RCAN[10]分别从RGB颜色空间上的图像中提取浅特征和深特征,提出了一项试图从颜色域到频域并进一步分解高频和低频信息的研究。Pang等人。[18]将输入图像分割成高、中和低频,并将它们单独传递到网络,然后自适应地聚合每个复杂的特征图,以生成高分辨率图像。然而,他们没有使用像FFT或DWT这样的数学方法,而是只是使用三个卷积层来划分频域,这很容易无法提取有效和有意义的频率信息。

3.我们提出的方法

3.1.多尺度的边缘筛选

图3多尺度的边缘筛选

成功的超分辨率需要理解图像的结构。特别是,我们需要分离高频和低频区域,并对每个区域进行自适应适当的分析,以成功地将噪声图与原始图像中分离出来。这是因为每个区域像素值的分布似乎不同;高频区域的像素通常有较大的方差,而在低频区域观察到的方差更小。

我们提出了一个模块,从给定的图像中提取边缘,以获得有关高频区域的信息。所获得的信息被传输到网络中,并通过更多地关注难以重建的高频区域来提高恢复性能。该模块由使用预定义的过滤器初始化的卷积层组成,使反向传播方案成为可能,并在网络训练数据时实现端到端优化。

3.2.功能注意模块

RCAN[10]通过向EDSR[6]的剩余块添加通道注意,获得了更好的结果。图4(a)说明了通道注意的概念。通道注意力将特征图中汇集的向量作为输入,并通过一系列卷积层前馈。在这里,这些层通过从平均池向量操作局部通道向区域的点积给我们每个通道的权重。此过程允许网络确定特征图中通道之间的重要性,并关注具有更多信息的通道。

EDSR和RCAN使用将浅特征和深度特征相加得到的特征图来恢复图像。然而,由于它们只是添加了两个特征,因此它们没有考虑到浅层特征和深层特征的相对重要性。由于浅特征和深特征包含不同类型的信息,如低频和高频,因此它们的重要性不可能相同。此外,给定图像的特征会改变,该特征包含更多的信息。因此,在添加不同信息之前,需要引入一个模块,在特征映射来识别给定图像的特征并确定每个重要性。

(a)渠道注意事项

(b)功能注意事项

图4功能注意模块

图5这是高通滤波的一个可视化示例。(a)原始图像。(b)极谱形式的频率谱,使中心为零频率。(c)高通滤波后的频谱。(d)高通滤波图像,或(c)的傅里叶逆变换。(e)我们模 型的原始图像的高频域。

图6基于CNN模型的高通滤波

为了解决这个问题,我们引入了特征注意模块。在添加特征图之前,可以通过我们的特征注意模块来估计重要性的相对权重。考虑到每个信道的重要性,我们计算了特征图中向量形式的维数的重要性权重。

图4显示了我们的功能注意模块的结构。首先,我们使用全局平均池层连接每个特征映射的向量。然后我们填充向量堆,将它们以特征方向而不是通道方向的方式卷积。我们填充向量来保持输出维数,并使卷积来均匀地计算每个特征。通过以元素方面的方式乘以每个特征图,我们最终可以根据特征的重要性得到一个特征的加权和。

3.3.高通过滤损耗

感知丧失的概念最初是由约翰逊等人提出的。[19]试图通过比较两幅图像之间的内容和风格差异来解决图像转换问题。他们使用预先训练的VGG-16[5]作为损失网络,并测量输出和地面真实图像的感知差异。基于他们的方法,我们提出了一个损失函数来比较高频域中的特征差异,而不是比较颜色空间中的每像素差异。

常用的感知损失使用了在ImageNet数据集上预先训练的VGG-16网络。然而,对图像分类训练的网络进行了优化,以提取包含图像中对象类信息的特征表示。网络的目标是找出图像中的对象,而不是提取详细的模式或复杂的高频信息。然而,我们所需要的是神经网络,它提取这些详细的模式和高频信息,以及提取这些信息所需的网络的特征表示。由于常用的感知损失不适合解决我们的问题,我们训练了一个优化为高频提取的神经网络。

我们首先通过对通过快速傅里叶变换转换为频域的图像应用高通滤波器来提取高频信号。然后,我们训练了一个简单的三层CNN,或高通滤波网络,它以图像作为输入,并生成高通滤波信号。图5显示了由传统高通滤波器使用FFT和高通滤波网络提取的高频信号的示例。图6显示了网络中间层在提取高频信号时产生的特征图的可视化图。

我们利用该高通滤波网络作为损耗网络,并将高通滤波损失函数定义如下:

Lhf (ISR, IHR) = Lphi;0 (ISR, IHR) Lphi;1 (ISR, IHR) (1)

其中,phi;表示高通光纤滤波网络。损失网络phi;从不同的角度分析图像,以生成高频信号,其中中间层给我们抽象的特征图,包括边缘。我们通过将两幅图像转发到固定phi;来测量ISR和IHR的特征差异,其中特征差异是通过卷积层生成时通过反向传播训练的。通过最小化高通光纤滤波损失,在ISR中添加了高频特征,允许我们获得更清晰的图像。

3.4.软梯度大小相似度图掩蔽

(a)硬梯度大小相似度图掩蔽

(b)软梯度大小相似度图掩蔽

图7 梯度大小相似性地图掩蔽的硬版本和软版本的可视化例子。从左到右:GMS地图、二值化的GMS地图、GMS地图掩蔽图像、硬/软GMS地图掩蔽图像和原始图像。

输出图像的局部感知质量通常因区域而异。一般来说,在包含详细和不规则模式的区域中,观察到的感知质量更低,但这些结果取决于使用了哪个模型。为了学习执行均匀的模型,我们需要知道结果图像的哪一部分较差,因此需要更多的训练。

在这里,我们采用了梯度大小相似度(GMS)映射[20]来评估图像的局部质量。给定图像I的梯度大小计算如下:

GM(I)=q(Ilowast;Gx)2 (Ilowast;Gy)2

剩余内容已隐藏,支付完成后下载完整资料


本科毕业设计(论文)

外文翻译

附:外文原文

High-Frequency aware Perceptual Image Enhancement

Hyungmin Roh The Interdisciplinary Program of Computational Science and Technology Seoul National University Seoul, Republic of Korea raingold1347@snu.ac.kr

Myungjoo Kang Department of Mathematics Seoul National University Seoul, Republic of Korea mkang@snu.ac.kr

Abstract—In this paper, we introduce a novel deep neural network suitable for multi-scale analysis and propose efficient model-agnostic methods that help the network extract information from high-frequency domains to reconstruct clearer images. Our model can be applied to multi-scale image enhancement problems including denoising, deblurring and single image super-resolution. Experiments on SIDD, Flickr2K, DIV2K, and REDS datasets show that our method achieves state-of-the-art performance on each task. Furthermore, we show that our model can overcome the over-smoothing problem commonly observed in existing PSNR-oriented methods and generate more natural high-resolution images by applying adversarial training.

  1. Introduction

Most learning-based methods utilize the high capacity of deep neural networks with remarkable ability to understand the content and style of the image that they have shown in visual recognition tasks, including image classification and object detection. Using these high capacities and analytic powers of deep neural networks, learning-based methods have been successfully adapted to the field of image enhancement and have shown better performances compared to traditional model-based methods in laboratory environments.

When applied to real-world problems, however, most learning-based methods have failed to produce such good results while model-based methods are more flexible and applicable to low-resolution images with various kinds of blur and noises. This is because learning-based methods learn how to enhance the quality of images only by analyzing relations between given pairs of low-resolution images and their corresponding high-resolution ones in the training phase. However, in real-world problems, only lowresolution images are given and their high-resolution pairs are unknown. This means that the models have to infer new relations that they have never learned, which often leads to huge performance degradation when they solve real-world problems.

Another problem called the “ill-posed problem” also makes solving real-world problems more challenging; there are countless high-resolution image candidates in solution spaces corresponding to a given low-resolution image, while the number of high-resolution outputs human viewers perceive natural is very small or unique. The ill-posed problem makes it very difficult for deep neural networks to derive natural high-resolution outputs when solving realworld problems. Research on mathematical ways to reduce the solution spaces in unsupervised environments has been recently proposed to deal with the problem.

Many studies on the architectural design of deep neural networks have been proposed over the years and have shown great performances. However, they have recently reached the limit; little progress has been made except for marginal improvements on performances. This is because deep neural networks are originally optimized for understanding the content of images based on the high capacity of deeply stacked layers, so they are less capable of interpreting and restoring detailed information of corrupted images. Accordingly, recent studies are more focused on conveying mathematical properties of images to the existing models rather than designing deeper networks.

In keeping with this trend, we not only propose novel architectures of deep neural network for image enhancement problems but also introduce some state-of-the-art modelagnostic methods to make networks capable of producing sharper and more realistic images by providing abstract characteristics and high-frequency components of images with a little modification in the structure of existing models.

  1. Related work

In recent years, many studies have been proposed to solve the SISR problem using different deep-learning techniques. In 2015, Dong et al. [1] introduced deep learning methods into the SISR problem, proposing SRCNN that is a fully convolutional neural network that enables end-to-end mapping between input and output images. In 2016, Kim et al. [2] proposed VDSR that utilizes contextual information spread over large patches of images using large receptive fields to convolutional layers. In 2017, Ta iet al. [3] proposed a very deep network structure consisting of 52 convolutional layers called DRRN by designing a recursive block with a multi-path structure while Ledig et al. [4] proposed SRResNet with 16 blocks of deep ResNet and also introduced GAN-based SRGAN which is optimized for perceptual loss calculated on feature maps of the VGG [5] network.

In 2017, Lim et al. [6] proposed a novel model named EDSR. They removed every batch normalization from their network and stacked 16 residual blocks, which extracts highfrequency information from low-resolution images. In the same year, Tong et al. [7] proposed SRDenseNet, which consists of 8 dense blocks [8] and skip connections that combine feature maps from different levels. In 2018, Zhang et al. [9] introduced a residual dense block that allows direct connections from preceding blocks, leading to a continuous memory mechanism. Zhang et al. [10] also proposed a novel model called RCAN, which added channel attention to EDSR and introduced a Residual in Residual module to construct a 10 times deep

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[596403],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。