说话人真实相貌 输入声音 生成说话人面容
根据一个人的声音就能大致推测出他/她的面容?美国麻省理工学院和谷歌公司研究人员开发出一种计算机新算法,利用短短6秒的语音片段,就可以绘制出说话者的种族、性别、年龄甚至长相。相关研究报告由阿奇夫论文预印本网站发布。
研究原理
研究发现,生理和文化因素对人说话的声音同样有影响。
年龄、性别、嘴巴形状、面部骨骼结构会影响人发出的声音,语言、口音、速度通常也会体现出民族、地域、文化特征。
这解释了为什么与从来没有谋面的人打电话时,人们脑海中可能会形成关于对方长相的图像。
凭借语音和相貌的关联性,人工智能(AI)能够听声音绘制说话者的相貌。
透过声音看到脸
根据声音“重建”的面容,接近说话者本人长相
为此,研究人员利用视频共享网站YouTube涉及10万多人讲话的视频片段,对程序进行开发和训练,让其学习声音和面部的相关性,找到说话的人一些基本特征,比如年龄、性别、种族等。
研究人员表示,只需要听6秒的声音片段,AI就能够查找出人们说话时相关的面部特征,凭借听“一个人讲话的方式就能推断出相貌”。
研究显示,这种程序依据声音重建的人物面容接近说话者本人长相,能准确捕捉年龄、性别和种族特征,还能显现包括鼻子形状在内的面部特征。研究人员说,鼻子形状可能对发声有影响。
同一个人说不同语言,画出的“脸”可能不同
如果根据语言来预测种族,那么一个人说不同的语言会不会导致出现不同的预测结果?研究人员让一个亚洲男性分别说英语和汉语,结果分别得到了2张不同的面孔(如图)。有时,AI也能正确预测出结果,比如让一个亚洲小女孩说英文,虽然恢复出的图像和本人有很大差距,但仍可看出黄种人的面部特征。对此,研究人员表示,这个小女孩并没有明显的口音特征,他们还要进一步对模型进行检查来确定其对语言的依赖程度。
不过,在其他一些情况下,AI也会出现“翻车”的情况。比如:变声期之前的儿童,会导致模型误判性别发生错误;口音与种族特征不匹配;有时会将老人识别为年轻人,或者是年轻人识别为老人。
新技术有什么用
可帮助警方借录音绘制嫌疑人容貌
研究人员说,这项技术或许可以应用于为来电者配图等。一些分析师认为,它或有助警方借助录音绘制嫌疑人容貌。
同时,这个研究也会引发一些隐私方面的担忧。不过,研究团队在论文中特别声明,该算法不追求完全精确还原单一个体的脸部图像。
英国《泰晤士报》17日以谷歌公司为消息源报道,它的应用将沿用谷歌与人工智能技术应用相关原则,即有益社会且避免产生或强化偏见。(综合新华社等)
责编:陈亚楠
赞
踩
路过