卷积神经网络(CNN)用于音频[关闭]
convolution
deep-learning
feature-extraction
neural-network
8
0

我一直在关注DeepLearning.net上的教程,以学习如何实现从图像中提取特征的卷积神经网络。本教程解释清楚,易于理解和遵循。

我想扩展相同的CNN,以同时从视频(图像+音频)中提取多模式功能。

我了解视频输入只不过是在与音频相关的一段时间(例如30 FPS)中显示的一系列图像(像素强度)。但是,我不太了解音频是什么,如何工作或如何分解以馈入网络。

我已经阅读了几篇有关该主题的论文(多模式特征提取/表示),但是都没有解释如何将音频输入到网络。

此外,从我的研究中我了解到,多模式表示法是我们大脑真正工作的方式,因为我们没有刻意过滤出自己的感官来获得理解。所有这些同时发生,而我们却没有通过(联合表示)知道它。一个简单的例子是,如果我们听到狮子的吼叫声,我们立即构想出狮子的心理形象,感到危险,反之亦然。我们的大脑会激发出多种神经模式,以全面了解狮子的外观,声音,感觉,气味等。

上面提到的是我的最终目标,但是暂时为了简单起见,我正在分解我的问题。

如果有人能够阐明音频的解剖方法,然后再在卷积神经网络中进行表示,我将不胜感激。我还要感谢您对多模式同步,联合表示以及使用多模式数据训练CNN的正确方法的想法。

编辑:我发现音频可以表示为声谱图。它是音频的通用格式,并以具有两个几何尺寸的图形表示,其中水平线表示时间,垂直线表示频率。

在此处输入图片说明

这些频谱图上的图像是否可以使用相同的技术?换句话说,我可以简单地将这些频谱图用作卷积神经网络的输入图像吗?

参考资料:
Stack Overflow
收藏
评论
共 2 个回答
高赞 时间 活跃

为了训练分类器,有许多技术可以从音频数据中提取特征向量。最常用的称为MFCC(梅尔频率倒谱),您可以将其视为“改进的”频谱图,保留更多相关信息以区分类别。其他常用的技术是PLP(感知线性预测),也可以提供良好的效果。这些还有许多其他鲜为人知的地方。

最近,深层网络已被用于自身提取特征向量,因此与我们在图像识别中的方式类似。这是一个活跃的研究领域。不久前,我们还使用特征提取器来训练图像的分类器(SIFT,HOG等),但是这些被深度学习技术所取代,后者将原始图像作为输入并自己提取特征向量(实际上,这就是深度学习真的全部有关)。

注意音频数据是连续的,这一点也很重要。训练完分类器后,您需要将序列模型训练为HMM或CRF,该模型使用输入的分类器给出的概率来选择最可能的语音单位序列。

学习语音识别的一个很好的起点是Jursky和Martins: 语音和语言处理 。它很好地解释了所有这些概念。

[ 编辑 :添加一些可能有用的信息]

有许多语音识别工具箱,其模块具有从音频文件中提取MFCC特征向量的功能,但为此目的使用并非总是那么简单。我目前正在使用CMU Sphinx4 。它具有一个名为FeatureFileDumper的类,可以单独使用该类从音频文件生成MFCC矢量。

收藏
评论

我们在声谱图上使用了深度卷积网络来进行口头语言识别任务。我们在此TopCoder竞赛中提供的数据集上的准确性约为95%。详细信息在这里

普通卷积网络无法捕获时间特征,因此例如在这项工作中,卷积网络的输出被馈送到了时延神经网络。但是我们的实验表明,即使输入没有类似的元素,卷积网络也可以至少在某些任务上表现出色。

收藏
评论
新手导航
  • 社区规范
  • 提出问题
  • 进行投票
  • 个人资料
  • 优化问题
  • 回答问题

关于我们

常见问题

内容许可

联系我们

@2020 AskGo
京ICP备20001863号