深度学习从Pix2Code到Cycl

选自Statsbot

作者：EduardTyantov

机器之心编译

年只剩不到十天，随着NIPS等重要会议的结束，是时候对这一年深度学习领域的重要研究与进展进行总结了。来自机器学习创业公司的EduardTyantov最近就为我们整理了这样一份列表。想知道哪些深度学习技术即将影响我们的未来吗？本文将给你作出解答。

1.文本

1.1谷歌神经机器翻译

去年，谷歌宣布上线GooglTranslat的新模型，并详细介绍了所使用的网络架构——循环神经网络（RNN）。

关键结果：与人类翻译准确率的差距缩小了55-85%（研究者使用6个语言对的评估结果）。但是该模型如果没有谷歌的大型数据集，则很难复现这么优秀的结果。

参考阅读：

重磅

谷歌翻译整合神经网络：机器翻译实现颠覆性突破（附论文）

专访

谷歌神经网络翻译系统发布后，我们和GooglBrain的工程师聊了聊

1.2谈判会达成吗？

你或许听说过「Facbook因为聊天机器人失控、创造自己语言而关闭聊天机器人」的消息。这个机器人是用来进行谈判的，其目的是与另一个智能体进行文本谈判，然后达成协议：如何把物品（书籍、帽子等）分成两份。谈判中每个智能体都有自己的目标，而对方并不知道。谈判不可能出现未达成协议的情况。

研究者在训练过程中收集人类谈判的数据集，训练监督式循环网络。然后，让用强化学习训练出的智能体自己与自己交流，直到获得与人类相似的谈判模式。

该机器人学会了一种真正的谈判策略——对某个交易的特定方面假装产生兴趣，然后再放弃它们，以达到真实目标。这是第一次尝试此类互动机器人，而且也比较成功。

当然，称该机器人创造了一种新语言的说法过于夸张了。和同一个智能体进行谈判的训练过程中，研究者无法限制文本与人类语言的相似度，然后算法修改了互动语言。这是很寻常的事。

参考阅读：

业界

让人工智能学会谈判，Facbook开源端到端强化学习模型

2.语音

2.1WavNt：一种针对原始语音的生成模型

DpMind的研究者基于先前的图像生成方法构建了一种自回归全卷积模型WavNt。该模型是完全概率的和自回归的（fullyprobabilisticandautorgrssiv），其每一个音频样本的预测分布的前提是所有先前的样本；不过研究表明它可以有效地在每秒音频带有数万个样本的数据上进行训练。当被应用于文本转语音时，它可以得到当前最佳的表现，人类听众评价它在英语和汉语上比当前最好的参数（paramtric）和拼接（concatnativ）系统所生成的音频听起来都显著更为自然。

单个WavNt就可以以同等的保真度捕获许多不同说话者的特点，而且可以通过调节说话者身份来在它们之间切换。当训练该模型对音乐建模时，我们发现它可以生成全新的、而且往往具有高度真实感的音乐片段。该研究还证明其可以被用作判别模型，可以为音速识别（phonmrcognition）返回很有希望的结果。

该网络以端到端的方式进行训练：文本作为输入，音频作为输出。研究者得到了非常好的结果，机器合成语音水平与人类差距缩小50%。

该网络的主要缺陷是低生产力，因为它使用自回归，声音按序列生成，需要1-2分钟的时间才能生成一秒音频。

参考阅读：

DpMindWavNt，将机器合成语音水平与人类差距缩小50%

2.2唇读

唇读（liprading）是指根据说话人的嘴唇运动解码出文本的任务。传统的方法是将该问题分成两步解决：设计或学习视觉特征、以及预测。最近的深度唇读方法是可以端到端训练的（Wandtal.,;ChungZissrman,a）。目前唇读的准确度已经超过了人类。

GooglDpMind与牛津大学合作的一篇论文《LipRadingSntncsinthWild》介绍了他们的模型经过电视数据集的训练后，性能超越BBC的专业唇读者。

该数据集包含10万个音频、视频语句。音频模型：LSTM，视频模型：CNN+LSTM。这两个状态向量被馈送至最后的LSTM，然后生成结果（字符）。

训练过程中使用不同类型的输入数据：音频、视频、音频+视频。即，这是一个「多渠道」模型。

参考阅读：

如何通过机器学习解读唇语？DpMind要通过LipNt帮助机器「看」懂别人说的话

2.3人工合成奥巴马：嘴唇动作和音频的同步

华盛顿大学进行了一项研究，生成美国前总统奥巴马的嘴唇动作。选择奥巴马的原因在于网络上有他大量的视频（17小时高清视频）。

研究者使用了一些技巧来改善该研究的效果。

3.计算机视觉

3.1.OCR：谷歌地图与街景

谷歌大脑团队在其文章中报道了如何把新的OCR（光学字符识别）引擎引入其地图中，进而可以识别街头的标志与商标。

在该技术的发展过程中，谷歌还给出了新的FSNS（FrnchStrtNamSigns），它包含了大量的复杂案例。

为了识别标志，网络最多使用4张图片。特征通过CNN提取，在空间注意力（考虑像素坐标）的帮助下缩放，最后结果被馈送至LSTM。

相同方法被用于识别广告牌上店铺名称的任务上（存在大量噪音数据，网络本身必须

专科白癜风医院北京哪里有
 北京中科医院假

转载请注明：http://www.shiwangmoa.com/smhb/1111.html

上一篇文章：糖尿病视网膜病变，有人没事，有人却失明，
下一篇文章：眼睛模糊什么原因警惕着五个原因