只听6秒语音,就能知道你长啥样

2019-06-19 08:38:32来源:扬子晚报
字号:

blob.png

说话人真实相貌 输入声音 生成说话人面容

根据一个人的声音就能大致推测出他/她的面容?美国麻省理工学院和谷歌公司研究人员开发出一种计算机新算法,利用短短6秒的语音片段,就可以绘制出说话者的种族、性别、年龄甚至长相。相关研究报告由阿奇夫论文预印本网站发布。

研究原理

研究发现,生理和文化因素对人说话的声音同样有影响。

年龄、性别、嘴巴形状、面部骨骼结构会影响人发出的声音,语言、口音、速度通常也会体现出民族、地域、文化特征。

这解释了为什么与从来没有谋面的人打电话时,人们脑海中可能会形成关于对方长相的图像。

凭借语音和相貌的关联性,人工智能(AI)能够听声音绘制说话者的相貌。

透过声音看到脸

根据声音“重建”的面容,接近说话者本人长相

为此,研究人员利用视频共享网站YouTube涉及10万多人讲话的视频片段,对程序进行开发和训练,让其学习声音和面部的相关性,找到说话的人一些基本特征,比如年龄、性别、种族等。

研究人员表示,只需要听6秒的声音片段,AI就能够查找出人们说话时相关的面部特征,凭借听“一个人讲话的方式就能推断出相貌”。

研究显示,这种程序依据声音重建的人物面容接近说话者本人长相,能准确捕捉年龄、性别和种族特征,还能显现包括鼻子形状在内的面部特征。研究人员说,鼻子形状可能对发声有影响。

同一个人说不同语言,画出的“脸”可能不同

如果根据语言来预测种族,那么一个人说不同的语言会不会导致出现不同的预测结果?研究人员让一个亚洲男性分别说英语和汉语,结果分别得到了2张不同的面孔(如图)。有时,AI也能正确预测出结果,比如让一个亚洲小女孩说英文,虽然恢复出的图像和本人有很大差距,但仍可看出黄种人的面部特征。对此,研究人员表示,这个小女孩并没有明显的口音特征,他们还要进一步对模型进行检查来确定其对语言的依赖程度。

不过,在其他一些情况下,AI也会出现“翻车”的情况。比如:变声期之前的儿童,会导致模型误判性别发生错误;口音与种族特征不匹配;有时会将老人识别为年轻人,或者是年轻人识别为老人。

新技术有什么用

可帮助警方借录音绘制嫌疑人容貌

研究人员说,这项技术或许可以应用于为来电者配图等。一些分析师认为,它或有助警方借助录音绘制嫌疑人容貌。

同时,这个研究也会引发一些隐私方面的担忧。不过,研究团队在论文中特别声明,该算法不追求完全精确还原单一个体的脸部图像。

英国《泰晤士报》17日以谷歌公司为消息源报道,它的应用将沿用谷歌与人工智能技术应用相关原则,即有益社会且避免产生或强化偏见。(综合新华社等)

责编:陈亚楠

  • 路过

新闻热图

海外网评

文娱看点

国家频道精选

新闻排行