辨认多媒体「情绪内涵」 中研院获国际首奖

作者: 时间:2019-09-02时政要闻354人已围观

辨认多媒体「情绪内涵」 中研院获国际首奖

我国中研院资讯科学研究所研究员王新民、资讯科技创新研究中心助研究员杨奕轩、林彦宇所领导之研究团队,获得美国电脑协会国际多媒体年度学术研讨年会(ACM Multimedia 2012)所颁发的「电脑多媒体应用顶尖挑战」(Multimedia Grand Challenge)首奖。

ACM Multimedia 2012是目前全球多媒体研究最重要的学术交流平台,「电脑多媒体应用顶尖挑战」则是其中最受重视的一项竞赛活动。今年,中研院研究团队以名为「自动化音乐影带生成之声学视觉情绪高斯模型」(Acousticvisual Emotion Guassians Model for Automatic Generation of Music Video)的机器学习演算法夺冠。这项演算法的特点,在于使用声音、视觉、情绪来自动分析及辨认多媒体影音的「情绪内涵」。

「电脑多媒体应用顶尖挑战」自2009年起,为使多媒体研究更切合业界需求,每年研讨会期间,由几家国际上最具影响力之多媒体公司提出未来3~5年最重要、最前瞻的困难议题及需求,开放学术界竞逐以寻求最佳解决方案。今年由Google、3DLife、HP、NHK、NTT以及Technicolor六家国际大企业提出六项挑战。提出的议题包含自动化音乐影带生成与配对系统(Google)、线上虚拟实境与互动(3Dlife)、影像与录相情绪冲击感知(HP)、自动化美感评估影像撷取(NHK)、社群媒体之图文事件辨识(NTT)以及特殊事件之影音辨识(Technicolor)。

此次参赛,是由本院资讯所研究助理王如江、卓奕宏、研究员王新民以及资创中心助研究员杨奕轩与林彦宇共同组成的团队以一套新颖且有效的机器学习演算法──「声学视觉情绪高斯模型」(Acousticvisual Emotion Guassians Model)参与由Google所提出的「自动化音乐影带生成与配对系统」(Automatic Music Video Generation Challenge)竞赛议题,与来自中国大陆、新加坡、美国、法国、荷兰及香港等国的17支优秀的决赛团队竞逐,终脱颖而出荣获首奖。

中研院以声学视觉情绪高斯模型来自动分析及辨认多媒体的情绪内涵;在听觉方面是透过音色、音调与节奏等特徵,而视觉方面则透过色彩、亮度与画面跳动频率等特徵,来分别辨析影片及音乐的情绪内涵,进而以情绪为根基进行两者的自动配对。这套系统,亦可支援使用者以音乐搜寻具有相关情绪的影片。这项技术,可应用于个人影片的声音后製,或是诸如YouTube等社群影像分享网站上;也可自动为音乐录影带製作人推荐适合搭配的影片,让使用者轻鬆完成影音俱佳的多媒体作品,具有很高的娱乐以及应用性。