〖【九江在】〗{线}:Time-Frequency Networks For Audio Super-Resolution

2020-02-23 30 views 0

扫一扫用手机浏览

Ant Design Vue Pro (项目实战)-项目初始化(“『一』”)

论文地址:2018_用于音频超分辨率〖『 ‘〖{<“『 『的』[』”>}〗’[』〗{时频网络}

博客作者:凌逆战

《博客地址》:https://www.cnblogs.com/LXP-Never/p/12345950.html

摘要

  音频超分辨率(即带宽扩展)是提高音频信号时域分辨率〖『 ‘〖{<“『 『的』[』”>}〗’[』〗“『一』”项具有挑战性〖『 ‘〖{<“『 『的』[』”>}〗’[』〗任务。最近〖『 ‘〖{<“『 『的』[』”>}〗’[』〗“『一』”些深度学习方法通过将任务建模为时域或频域〖『 ‘〖{<“『 『的』[』”>}〗’[』〗回归问题,取得了令人满意〖『 ‘〖{<“『 『的』[』”>}〗’[』〗结果。在本文中,(我们)提出了“『一』”种新〖『 ‘〖{<“『 『的』[』”>}〗’[』〗模型体系结构——{时频网络}(TFNet,Time-Frequency Network),这是“『一』”种在时域和频域同时进行监控〖『 ‘〖{<“『 『的』[』”>}〗’[』〗深度神经网络。(我们)提出了“『一』”种新〖『 ‘〖{<“『 『的』[』”>}〗’[』〗模型体系结构,允许两个域共同优化。结果表明,「(我们)〖『 ‘〖{<“『 『的』[』”>}〗’[』〗方法在数量和质量上都优于」【目前最先进】〖『 ‘〖{<“『 『的』[』”>}〗’[』〗方法。

索引术语:带宽扩展,音频超分辨率,深度学习

1、引言

  超分辨率(SR)是从低分辨率(LR){输入}“重建”高分辨率(HR)数据〖『 ‘〖{<“『 『的』[』”>}〗’[』〗任务。这是“『一』”个具有挑战性〖『 ‘〖{<“『 『的』[』”>}〗’[』〗任务,因为它是ill-posed〖『 ‘〖{<“『 『的』[』”>}〗’[』〗性质,特别是当上采样因子很高〖『 ‘〖{<“『 『的』[』”>}〗’[』〗时候。{通过处理}SR问题,(我们)可以获得对数据先验〖『 ‘〖{<“『 『的』[』”>}〗’[』〗理解,并引导相关领域〖『 ‘〖{<“『 『的』[』”>}〗’[』〗改进,如压缩和生成建模。

  ‘近年来’,【图】像超分辨率算法在计算机视觉领域得「到」了广泛〖『 ‘〖{<“『 『的』[』”>}〗’[』〗关注,并将SR建模为“『一』”种深度神经网络回归任务,取得了显著〖『 ‘〖{<“『 『的』[』”>}〗’[』〗成功。在这项工作中,(我们)探索了音频数据〖『 ‘〖{<“『 『的』[』”>}〗’[』〗类似SR任务(即学习从LR「到」HR音频帧『〖『 ‘〖{<“『 『的』[』”>}〗’[』〗映射』)。为了可视化“重建”,『在【图】』1中(我们)展示了LR{输入}、HR“重建”和ground truth{〖『 ‘〖{<“『 『的』[』”>}〗’[』〗频谱【图】}。

【图】1:LR{输入}(频率4kHz{以上缺失}),HR重构,HR ground truth。(我们)〖『 ‘〖{<“『 『的』[』”>}〗’[』〗方法成功地从LR音频信号中恢复了高频{分量}。

  Li[1]等人提出了“『一』”种深度神经网络来学习频谱幅值从LR「到」HR『〖『 ‘〖{<“『 『的』[』”>}〗’[』〗映射』,完全忽略缺失〖『 ‘〖{<“『 『的』[』”>}〗’[』〗高频{分量}〖『 ‘〖{<“『 『的』[』”>}〗’[』〗相位。在[2]中,Kuleshov等人提出了“『一』”种深度神经网络来直接在时域中学习LR「到」HR『〖『 ‘〖{<“『 『的』[』”>}〗’[』〗映射』。虽然这些模型显示了有希望〖『 ‘〖{<“『 『的』[』”>}〗’[』〗结果,但每个模型都只在时域或频域工作,并侧重于信号〖『 ‘〖{<“『 『的』[』”>}〗’[』〗 不同方面[。目前也只有这两个人提供了代码。

  为了充分『利用』时域和频域信息,(我们)提出了{时频网络}(TFNet),它是“『一』”种深度神经网络,可以选择何时将时域和频域信息用于音频SR。

  乍“『一』”看,在频域和时域建模似乎是“『一』”个冗余〖『 ‘〖{<“『 『的』[』”>}〗’[』〗表示;从Parseval定理可知,预测误差〖『 ‘〖{<“『 『的』[』”>}〗’[』〗L2差异,【无论是在频域还是在时域都是完】全相同〖『 ‘〖{<“『 『的』[』”>}〗’[』〗。然而,从LR「到」HR在时域或频域〖『 ‘〖{<“『 『的』[』”>}〗’[』〗回归解决了“『一』”个非常不同〖『 ‘〖{<“『 『的』[』”>}〗’[』〗问题。在时域上,〖它类似于【图】〗像〖『 ‘〖{<“『 『的』[』”>}〗’[』〗超分辨率任务,将音频块从LR映射「到」HR。另“『一』”方面,频域SR与语意【图】像修复任务类似[3,4]。给定频谱〖『 ‘〖{<“『 『的』[』”>}〗’[』〗低频{分量},输出高频{分量},如【图】2〖所示〗。因此,为了充分『利用』这两种方法〖『 ‘〖{<“『 『的』[』”>}〗’[』〗优点,〖(我们)建议在时域和频域内对音频〗SR进行联合建模。

【图】2:【图】像SR〖『 ‘〖{<“『 『的』[』”>}〗’[』〗{输入}输出,语义【图】像修复,音频SR〖『 ‘〖{<“『 『的』[』”>}〗’[』〗时域和频域说明。「时域中〖『 ‘〖{<“『 『的』[』”>}〗’[』〗音频」SR类似于【图】像SR,(其)中LR{输入}中缺少“edges边”。另“『一』”方面,谱域音频SR可以看作是谱【图】〖『 ‘〖{<“『 『的』[』”>}〗’[』〗【图】像修复,即给定底层低频“【图】像”,对剩余【图】像进行预测。

2、相关工作

频带扩展

  语音社区将音频超分辨任务作为带宽扩展进行研究。提出了『利用』低频[5]估计高频{分量}〖『 ‘〖{<“『 『的』[』”>}〗’[』〗各种方法。如线性映射[6,7]、混合模型[8,9,10]、神经网络[11,12,1,2]。

深度神经网络〖『 ‘〖{<“『 『的』[』”>}〗’[』〗单【图】像超分辨率

  【“深度卷积神经”】网络(CNNs)是目前单【图】像超分辨率研究〖『 ‘〖{<“『 『的』[』”>}〗’[』〗最新进展。已经提出了许多体系结构[13,14,15]。这些模型都是完全卷积〖『 ‘〖{<“『 『的』[』”>}〗’[』〗,并带有早些时候〖『 ‘〖{<“『 『的』[』”>}〗’[』〗skip / redisual连接。

深度神经网络〖『 ‘〖{<“『 『的』[』”>}〗’[』〗语义【图】像修复

  “深度神经网络在语义【图】”像修复任务中也表现出了较强〖『 ‘〖{<“『 『的』[』”>}〗’[』〗性能。『利用』CNNs,[3,4]证明了预测【图】像中掩蔽区域〖『 ‘〖{<“『 『的』[』”>}〗’[』〗『可能性』。与超级分辨率类似,这些模型也是完全卷积〖『 ‘〖{<“『 『的』[』”>}〗’[』〗。从这些模型中获得灵感,(我们)〖『 ‘〖{<“『 『的』[』”>}〗’[』〗深层网络架构也遵循类似〖『 ‘〖{<“『 『的』[』”>}〗’[』〗设计原则。

3、方法

  (我们)将音频SR定义为回归任务,即预测HR音频帧,$y\in \mathbb{R}^L$,给定LR音频帧,$x\in \mathbb{R}^{L/R}$,(其)中$R${是下采样因子}。

3.1 {时频网络}

  (我们)提出{时频网络}(TFNet),这是“『一』”个完全可微〖『 ‘〖{<“『 『的』[』”>}〗’[』〗网络,可以端「到」端〖『 ‘〖{<“『 『的』[』”>}〗’[』〗(训练)。如【图】3〖所示〗,设$\Theta $为模型中〖『 ‘〖{<“『 『的』[』”>}〗’[』〗所有参数,(我们)〖『 ‘〖{<“『 『的』[』”>}〗’[』〗模型由“『一』”个基于全卷积〖『 ‘〖{<“『 『的』[』”>}〗’[』〗编码器-解码器网络$H(x; \Theta )$构成。对于给定〖『 ‘〖{<“『 『的』[』”>}〗’[』〗LR{输入}x,H预测HR音频,“重建”$\hat{z}$和HR频谱幅度$\hat{m}$。『利用』(我们)提出〖『 ‘〖{<“『 『的』[』”>}〗’[』〗频谱融合层合成最终〖『 ‘〖{<“『 『的』[』”>}〗’[』〗输出。

【图】3:{时频网络}结构。TFNet同时『利用』时域和频域来完成音频信号〖『 ‘〖{<“『 『的』[』”>}〗’[』〗重构,它包含“『一』”个明确建模重构频谱幅值〖『 ‘〖{<“『 『的』[』”>}〗’[』〗分支,而其他〖『 ‘〖{<“『 『的』[』”>}〗’[』〗分支建模重构时域音频。“最后”将这两个分支〖『 ‘〖{<“『 『的』[』”>}〗’[』〗输出与(我们)〖『 ‘〖{<“『 『的』[』”>}〗’[』〗频谱融合层相结合,合成高分辨率〖『 ‘〖{<“『 『的』[』”>}〗’[』〗输出。

频谱融合层

  频谱融合层结合$\hat{z}$和$\hat{m}$输出最终〖『 ‘〖{<“『 『的』[』”>}〗’[』〗“重建”$\hat{y}$,如下【图】〖所示〗:

$$\begin{aligned} M=& w \odot|\mathscr{F}(\hat{z})|+(1-w) \odot \hat{m} \\ \hat{y} &=\mathscr{F}^{-1}\left(M e^{j \angle \mathscr{F}(\hat{z})}\right) \end{aligned}$$

(其)中$\mathscr{F}$表示傅里叶变换,$\odot$是元素〖『 ‘〖{<“『 『的』[』”>}〗’[』〗乘法运算,$w$ 是可(训练)参数[。

  这“『一』”层是可微〖『 ‘〖{<“『 『的』[』”>}〗’[』〗,可以端「到」端〖『 ‘〖{<“『 『的』[』”>}〗’[』〗(训练)。关键〖『 ‘〖{<“『 『的』[』”>}〗’[』〗优点是,该层可强制网络对波形〖『 ‘〖{<“『 『的』[』”>}〗’[』〗『频谱幅度进行建模』,而模型〖『 ‘〖{<“『 『的』[』”>}〗’[』〗其余部分可以在时域内建模相位。

  (我们)对网络体系结构〖『 ‘〖{<“『 『的』[』”>}〗’[』〗设计是基于这样〖『 ‘〖{<“『 『的』[』”>}〗’[』〗观察:卷积层只能捕获局部关系,特别擅长捕获视觉特征。当(我们)『利用』短时傅里叶变换对赋值和相位进行可视化处理时,幅值明显〖『 ‘〖{<“『 『的』[』”>}〗’[』〗视觉结构,而相位没有,因此,(我们)只在谱域中对幅值进行建模。

频谱复制器

  (如前所述),卷积层通常捕获局部关系(即,{输入}-输出关系〖『 ‘〖{<“『 『的』[』”>}〗’[』〗范围受「到」感受野〖『 ‘〖{<“『 『的』[』”>}〗’[』〗限制)。这导致了“『一』”个问题,因为(我们)想要输出〖『 ‘〖{<“『 『的』[』”>}〗’[』〗高频{分量}依赖于{输入}〖『 ‘〖{<“『 『的』[』”>}〗’[』〗低频{分量}。例如,当向上采样4倍时,接受域至少需要为总频率bin〖『 ‘〖{<“『 『的』[』”>}〗’[』〗3/4,这将需要非常大〖『 ‘〖{<“『 『的』[』”>}〗’[』〗内核或许多层。为了解决接受域〖『 ‘〖{<“『 『的』[』”>}〗’[』〗问题,(我们)将可用〖『 ‘〖{<“『 『的』[』”>}〗’[』〗低频频谱复制「到」高频频谱中,高频频谱最初都是零,如【图】4〖所示〗。

Sunbet,进入申博Sunbet官网  第1张

【图】4:在4x SR任务上〖『 ‘〖{<“『 『的』[』”>}〗’[』〗频谱复制层【图】解。低频{分量}被复制四次以替换零

【损】失函数

ORB-SLAM2 论文&代码学习 —— 概览

  为了(训练)(我们)〖『 ‘〖{<“『 『的』[』”>}〗’[』〗网络,(我们)『利用』$l_2$“重建”损失和权重衰减。总〖『 ‘〖{<“『 『的』[』”>}〗’[』〗目标函数是最小化下面关于$\Theta $〖『 ‘〖{<“『 『的』[』”>}〗’[』〗【损】失函数

$$公式1:\mathcal{L}=\sum_{(x, y) \in \mathcal{D}}\|y-\hat{y}(x)\|_{2}+\lambda\|\Theta\|_{2}$$

(其)中$D$是所有(LR,HR)对〖『 ‘〖{<“『 『的』[』”>}〗’[』〗(训练)集,$\lambda $是正则化器〖『 ‘〖{<“『 『的』[』”>}〗’[』〗加权超参数,在(我们)〖『 ‘〖{<“『 『的』[』”>}〗’[』〗所有实验中选择为0:0001。

3.2、实现细节

预处理

  对于(训练),(我们)进行了沉默过滤以丢弃能量阈值为0.05以下〖『 ‘〖{<“『 『的』[』”>}〗’[』〗「序列脉冲」,计算结果A。(我们)发现这提高了(训练)〖『 ‘〖{<“『 『的』[』”>}〗’[』〗收敛性,并稳定了梯度。对于测试和评估,(我们)不过滤沉默。

网络架构

  (我们)〖『 ‘〖{<“『 『的』[』”>}〗’[』〗网络由两个具有相似架构〖『 ‘〖{<“『 『的』[』”>}〗’[』〗分支组成;时域分支和频域分支。为了公平〖『 ‘〖{<“『 『的』[』”>}〗’[』〗比较,(我们)〖『 ‘〖{<“『 『的』[』”>}〗’[』〗网络遵循了AudioUNet[2]〖『 ‘〖{<“『 『的』[』”>}〗’[』〗架构设计模式,包括编码器和解码器块。为了保持模型大小大致相同,每个分支中〖『 ‘〖{<“『 『的』[』”>}〗’[』〗过滤器数量减半。(我们)〖『 ‘〖{<“『 『的』[』”>}〗’[』〗网络以8192段音频作为{输入}。

  对于频域分支,(我们)对序列进行离散傅里叶变换(DFT)。由于所有〖『 ‘〖{<“『 『的』[』”>}〗’[』〗{音频}信号都是实数,所以(我们)抛弃了所有负相位〖『 ‘〖{<“『 『的』[』”>}〗’[』〗{分量},得「到」了4097个傅立叶系数。“最后”,求这些系数〖『 ‘〖{<“『 『的』[』”>}〗’[』〗大小。

  (如前所述),{输入}〖『 ‘〖{<“『 『的』[』”>}〗’[』〗高频{分量}为零,因此使用频谱复制器,(我们)用低频{分量}〖『 ‘〖{<“『 『的』[』”>}〗’[』〗副本替换零值。具体来说,对于4x上采样,(我们)在1025「到」2048、2049「到」3072和3073「到」4096重复第1个{分量}「到」第1024个{分量}。第0个{分量}(直流{分量})直接通过网络,“最后”融合。

(训练)细节

  (我们)使用流行〖『 ‘〖{<“『 『的』[』”>}〗’[』〗Adam 优化器[16]来(训练)(我们)〖『 ‘〖{<“『 『的』[』”>}〗’[』〗网络。初始学习速率为$3e^{-5}$,采用多项式学习速率衰减调度,学习速率为0.5。(我们)所有〖『 ‘〖{<“『 『的』[』”>}〗’[』〗模特都经过了50万步〖『 ‘〖{<“『 『的』[』”>}〗’[』〗(训练)。

4、实验

数据集[和准备

(我们)在两个 数据集[上评估(我们)〖『 ‘〖{<“『 『的』[』”>}〗’[』〗方法:VCTK 数据集[[17]和Piano 数据集[[18]。

  VCTK 数据集[包含来自109个以英语为母语〖『 ‘〖{<“『 『的』[』”>}〗’[』〗人〖『 ‘〖{<“『 『的』[』”>}〗’[』〗语音数据。每个说话人会读出大约400个不同〖『 ‘〖{<“『 『的』[』”>}〗’[』〗句子,每个说话人〖『 ‘〖{<“『 『的』[』”>}〗’[』〗句子也不同,总共有44个小时〖『 ‘〖{<“『 『的』[』”>}〗’[』〗语音数据。

  根据之前〖『 ‘〖{<“『 『的』[』”>}〗’[』〗工作[2],(我们)将数据分为88%〖『 ‘〖{<“『 『的』[』”>}〗’[』〗培训6%〖『 ‘〖{<“『 『的』[』”>}〗’[』〗验证和6%〖『 ‘〖{<“『 『的』[』”>}〗’[』〗测试,没有说话人重叠。

  对于 数据集[中〖『 ‘〖{<“『 『的』[』”>}〗’[』〗每个文件,(我们)通过以目标较低采样率〖『 ‘〖{<“『 『的』[』”>}〗’[』〗奈奎斯特速率执行带截止频率〖『 ‘〖{<“『 『的』[』”>}〗’[』〗低通滤波器,将音频重采样「到」较低〖『 ‘〖{<“『 『的』[』”>}〗’[』〗采样率。然后通过双三次插值将LR序列向上采样「到」原始速率。为了编制(训练)(LR, HR)对,(我们)从重采样信号及其对应〖『 ‘〖{<“『 『的』[』”>}〗’[』〗原始信号中提取了8192‘个重叠度为’75%〖『 ‘〖{<“『 『的』[』”>}〗’[』〗样本长度子序列。  

  对于采样速率为16kHz〖『 ‘〖{<“『 『的』[』”>}〗’[』〗VCTK 数据集[,它对应〖『 ‘〖{<“『 『的』[』”>}〗’[』〗子序列约为500ms,每个子序列〖『 ‘〖{<“『 『的』[』”>}〗’[』〗起始距离为125ms。剩下〖『 ‘〖{<“『 『的』[』”>}〗’[』〗50%〖『 ‘〖{<“『 『的』[』”>}〗’[』〗序列会被丢弃,因为得「到」〖『 ‘〖{<“『 『的』[』”>}〗’[』〗 数据集[太大,无法有效地(训练)。

  此外,为了了解模型〖『 ‘〖{<“『 『的』[』”>}〗’[』〗性能是否会受「到」数据多样性〖『 ‘〖{<“『 『的』[』”>}〗’[』〗影响,(我们)建立了“『一』”个新〖『 ‘〖{<“『 『的』[』”>}〗’[』〗 数据集[(VCTKs),它只包含说话者VCTK〖『 ‘〖{<“『 『的』[』”>}〗’[』〗“『一』”个子集。这包括大约30分钟〖『 ‘〖{<“『 『的』[』”>}〗’[』〗演讲。音频数据以16kHz〖『 ‘〖{<“『 『的』[』”>}〗’[』〗(采样率提供)。

  钢琴 数据集[包含10小时〖『 ‘〖{<“『 『的』[』”>}〗’[』〗贝多芬奏鸣曲,采样率为16kHz。由于音乐〖『 ‘〖{<“『 『的』[』”>}〗’[』〗重复性,(我们)在文件级别上对Piano 数据集[进行了分割以进行公平〖『 ‘〖{<“『 『的』[』”>}〗’[』〗评估。

评估

为了进行评价,(我们)计算了信噪比(SNR)和对数谱距离(LSD)〖『 ‘〖{<“『 『的』[』”>}〗’[』〗相似性度量。

  在时域内,信噪比捕获了预测和fround-truth数据之间〖『 ‘〖{<“『 『的』[』”>}〗’[』〗加权差。另“『一』”方面,LSD在频域[19]捕获预测与fround-truth之间〖『 ‘〖{<“『 『的』[』”>}〗’[』〗差异。

$$公式2:\mathrm{LSD}(y, \hat{y})=\frac{10}{L} \sum_{l=1}^{L}\left\|\log _{10} \mathscr{F}\left(y_{l}\right)-\log _{10} \mathscr{F}\left(\hat{y}_{l}\right)\right\|_{2}$$

(其)中下标$l$表示音频短窗口段〖『 ‘〖{<“『 『的』[』”>}〗’[』〗索引。

结果

  根据表1中[1,2]〖『 ‘〖{<“『 『的』[』”>}〗’[』〗结果,(我们)将(我们)〖『 ‘〖{<“『 『的』[』”>}〗’[』〗方法与三个不同〖『 ‘〖{<“『 『的』[』”>}〗’[』〗基线、“『一』”个简单〖『 ‘〖{<“『 『的』[』”>}〗’[』〗双三次插值和两个深度网络方法进行了比较。「“特别地”」,(我们)实验了不同〖『 ‘〖{<“『 『的』[』”>}〗’[』〗下采样率,从4x开始,在这里质量〖『 ‘〖{<“『 『的』[』”>}〗’[』〗下降变得清晰可见。对于VCTK,(我们)〖『 ‘〖{<“『 『的』[』”>}〗’[』〗方法在4倍上采样〖『 ‘〖{<“『 『的』[』”>}〗’[』〗情况下比基线方法〖『 ‘〖{<“『 『的』[』”>}〗’[』〗信噪比大约高出1.5dB。8倍上采样甚至比基线 6倍上采样结果高1.5dB SNR。在Piano 数据集[上,(我们)〖『 ‘〖{<“『 『的』[』”>}〗’[』〗方法性能与基线方法相当。需要注意〖『 ‘〖{<“『 『的』[』”>}〗’[』〗是,在[2]中〖『 ‘〖{<“『 『的』[』”>}〗’[』〗参数数量与(我们)〖『 ‘〖{<“『 『的』[』”>}〗’[』〗模型相同;这进“『一』”步证明了(我们)〖『 ‘〖{<“『 『的』[』”>}〗’[』〗model架构在表达上更加有效。

Sunbet,进入申博Sunbet官网  第2张

表1:对不同上采样率下〖『 ‘〖{<“『 『的』[』”>}〗’[』〗测试集进行定量比较。左/(右结果为信噪)比/LSD。

Sunbet,进入申博Sunbet官网  第3张

表2:消融研究,评估时域和谱域各分支〖『 ‘〖{<“『 『的』[』”>}〗’[』〗性能。左/(右结果为信噪)比/LSD。

细节分析[

  此外,为了确认(我们)〖『 ‘〖{<“『 『的』[』”>}〗’[』〗网络架构同时『利用』了时域和频域,(我们)进行了消融(ablation)研究。(我们)通过移除时域或频域分支来评估模型性能,如表2〖所示〗。对于谱支,(我们)假设重构时高频{分量}为零相位。

5、结论与未来工作

   本文提出了“『一』”种{时频网络}(TFNet),这是“『一』”种【“深度卷积神经”】网络,『利用』时域和频域来实现音频〖『 ‘〖{<“『 『的』[』”>}〗’[』〗超分辨。与现有方法相比,(我们)〖『 ‘〖{<“『 『的』[』”>}〗’[』〗新型频谱复制和融合层具有更好〖『 ‘〖{<“『 『的』[』”>}〗’[』〗性能。“最后”,TFNet已经证明了具有冗余表示有助于对音频信号进行建模。(我们)认为该方法〖『 ‘〖{<“『 『的』[』”>}〗’[』〗经验结果是有趣〖『 ‘〖{<“『 『的』[』”>}〗’[』〗和有前途〖『 ‘〖{<“『 『的』[』”>}〗’[』〗,这为进“『一』”步〖『 ‘〖{<“『 『的』[』”>}〗’[』〗理论和数值分析提供了依据。此外,(我们)希望将此观察推广「到」其他音频任务,例如音频生成,【目前最先进】〖『 ‘〖{<“『 『的』[』”>}〗’[』〗WaveNet[20]是“『一』”种时域方法。

文献

[1] Kehuang Li, Zhen Huang, Yong Xu, and Chin-Hui Lee,“Dnn-based speech bandwidth expansion and its application to adding high-frequency missing features for automatic speech recognition of narrowband speech,” in Proc. INTERSPEECH, 2015.
[2] Volodymyr Kuleshov, S Zayd Enam, and Stefano Ermon,“Audio super-resolution using neural networks,”, 2017.
[3] Deepak Pathak, Philipp Kr¨ahenb¨uhl, Jeff Donahue,Trevor Darrell, and Alexei Efros, “Context encoders:Feature learning by inpainting,” in Computer Vision and Pattern Recognition (CVPR), 2016.
[4] Raymond A. Yeh, Chen Chen, Teck Yian Lim,Schwing Alexander G., Mark Hasegawa-Johnson, and Minh N. Do, “Semantic image inpainting with deep generative models,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017,  equal contribution.
[5] Bernd Iser and Gerhard Schmidt, “Bandwidth extension of telephony speech,” Speech and Audio Processing in Adverse Environments, pp. 135–184, 2008.
[6] Yoshihisa Nakatoh, Mineo Tsushima, and Takeshi Norimatsu,“Generation of broadband speech from narrowband speech using piecewise linear mapping,” in Fifth European Conference on Speech Communication and Technology, 1997.
[7] Yoshihisa Nakatoh, Mineo Tsushima, and Takeshi Norimatsu,“Generation of broadband speech from narrowband speech based on linear mapping,” Electronics and Communications in Japan (Part II: Electronics), vol. 85,no. 8, pp. 44–53, 2002.
[8] Geun-Bae Song and Pavel Martynovich, “A study of hmm-based bandwidth extension of speech signals,” Signal Processing, vol. 89, no. 10, pp. 2036–2044, 2009.
[9] Hyunson Seo, Hong-Goo Kang, and Frank Soong, “A maximum a posterior-based reconstruction approach to speech bandwidth expansion in noise,” in Acoustics,Speech and Signal Processing (ICASSP), 2014 IEEE International Conference on. IEEE, 2014, pp. 6087–6091.
[10] Saeed Vaseghi, Esfandiar Zavarehei, and Qin Yan, “Speech bandwidth extension: Extrapolations of spectral envelop and harmonicity quality of excitation,” in Acoustics, Speech and Signal Processing, 2006. ICASSP 2006 Proceedings. 2006 IEEE International Conference on. IEEE, 2006, vol. 3, pp. III–III.
[11] Juho Kontio, Laura Laaksonen, and Paavo Alku, “Neural network-based artificial bandwidth expansion of speech,” IEEE transactions on audio, speech, and language processing, vol. 15, no. 3, pp. 873–881, 2007.
[12] Bernd Iser and Gerhard Schmidt, “Neural networks versus codebooks in an application for bandwidth extension of speech signals,” in Eighth European Conference on Speech Communication and Technology, 2003.
[13] Chao Dong, Chen Change Loy, Kaiming He, and Xiaoou Tang, “Image super-resolution using deep convolutional networks,” IEEE Trans. Pattern Anal. Mach.Intell., vol. 38, no. 2, pp. 295–307, Feb. 2016.
[14] Jiwon Kim, Jung Kwon Lee, and Kyoung Mu Lee, “Accurate image super-resolution using very deep convolutional networks,” in The IEEE Conference on Computer Vision and Pattern Recognition (CVPR Oral), June 2016.
[15] Wei-Sheng Lai, Jia-Bin Huang, Narendra Ahuja, and Ming-Hsuan Yang, “Deep laplacian pyramid networks for fast and accurate super-resolution,” in IEEE Conference on Computer Vision and Pattern Recognition,2017.
[16] Diederik Kingma and Jimmy Ba, “Adam: A method for stochastic optimization,” arXiv preprint arXiv:1412.6980, 2014.
[17] Junichi Yamagishi, “English multi-speaker corpus for cstr voice cloning toolkit,” http://homepages.inf.ed.ac.uk/jyamagis/page3/page58/page58.html, 2012.
[18] Soroush Mehri, Kundan Kumar, Ishaan Gulrajani,Rithesh Kumar, Shubham Jain, Jose Sotelo, Aaron Courville, and Yoshua Bengio, “Samplernn: An unconditional end-to-end neural audio generation model,”2016, cite arxiv:1612.07837.
[19] Augustine Gray and John Markel, “Distance measures for speech processing,” IEEE Transactions on Acoustics,Speech, and Signal Processing, vol. 24, no. 5, pp.380–391, 1976.
[20] Aron van den Oord, Sander Dieleman, Heiga Zen,Karen Simonyan, Oriol Vinyals, Alexander Graves, Nal Kalchbrenner, Andrew Senior, and Koray Kavukcuoglu,“Wavenet: A generative model for raw audio,” in Arxiv,2016.

 

,

sunbet

Sunbet www.0577meeting.com提供官方APP下载,游戏火爆,口碑极好,服务“『一』”流,“『一』”直是sunbet会员〖『 ‘〖{<“『 『的』[』”>}〗’[』〗首选。

Sunbet网站内容转载自互联网,如有侵权,联系Sunbet 删除。

本文链接地址:http://www.shfkgcjxyxgs.com/post/1162.html

相关文章

发表评论