挑战卡通脸检测,腾讯优图ACFD斩获IJCAI 2020挑战赛冠军

动漫
互联网
2020-07-17

近日,在人工智能国际会议 IJCAI 举办的2020 iCartoonFace挑战赛中,腾讯优图实验室基于自研的“千寻”检测平台,首次提出面向动漫场景的卡通脸检测算法ACFD,并从国内顶尖学术机构和商业公司中脱颖而出,取得第一名的成绩。目前,论文已在arXiv公开。

优图提出的ACFD算法在IJCAI2020举办的iCartoonFace挑战赛中排名第一

卡通脸检测广泛使用在内容审核和动漫视频分析等业务场景中,现有的DSFD等通用人脸检测器难以检测到一些特定场景下的人脸,因此,优图首次提出一种面向动漫场景的非对称卡通脸检测器ACFD。ACFD是一种基于深度学习的目标检测技术,属于一阶段带有锚点框的检测方法,输入一张卡通图片,ACFD便可以输出卡通图片中卡通脸的位置(x,y,w,h)以及对应的置信度。

本次,优图提出的ACFD检测算法推理速度仅为50ms且无需任何预训练模型,能够检测出动漫视频作品中的较为抽象的卡通脸:如机器人脸,类动物脸,玩具脸,简笔画脸,表情脸等。

不同于含有端正五官的正常人脸,卡通脸种类丰富,人物抽象。最为常见的有类动物脸,机器人脸,还有一些表情脸。针对这些特点,优图提出非对称卡通人脸检测算法ACFD,复用了一些经典的人脸检测器的框架,并作出创新性的改进。

ACFD包括四个部分:用来对卡通图提取6个特征图的主干网络VoVNetV3,对高低特征融合的非对称的双向特征金字塔结构ABi-FPN,动态锚点框匹配DAM和基于间隔的损失函数MC loss。

VoVNet是一种计算高效的骨干网络,其OSA模块可以输出灵活的特征表达。VoVNetV2通过添加残差连接方式解决了VoVNet训练的局限性,同时引入一种高效的注意力机制。

为进一步提升特征的灵活性,优图提出了一种更有效的骨干网络VoVNetV3。VoVNetV3在不使用预训练模型情况下,在较为抽象的动漫场景中表现优异,相比于ResNet50,VoVNetV3能够将检测指标AP Average Precision 从0.9018提升至0.9074。

在提取多尺度特征时,目前大部分人脸检测器采用ResNet或VGG。然而,它们仅仅可以处理方形感受野的,这可能会影响尺度差异较大的人脸检测。而卡通人脸中大约有10的比例大于2.0或小于0.5.

优图提出的ABi-FPN模块同时进行特征融合、语义信息增强以及感受野精细处理,它可以使特征感受野更灵活。

为了在检测任务中更好的划分并分类正负样本,也就是卡通脸和背景两个类别,ACFD将传统的锚点框匹配过程改进为动态的锚点框匹配DAM,在训练的每次前向传播后,对于困难的卡通脸用一些负样本进行锚点框的补偿。这种动态的锚点框匹配能将baseline的AP指标由0.8765提升至0.8890。

动态的锚点框匹配策略DAM

在训练的过程中使用的多任务损失函数,包括回归loss和分类loss。损失函数对补偿的锚点框计算出的loss进行了加权,并且在分类loss中引入了margin。优图提出的基于margin损失函数MC loss最终将AP提升了0.3。

卡通脸检测是许多业务的基础和关键环节,广泛使用在内容审核和动漫视频分析两个典型的场景中:

互联网上源源不断产生海量内容和数据,AI算法审核可以提升内容审核效率,降低审核成本。比如AI可以在电商平台、新闻、视频网站、短视频应用上检测识别知名IP形象的使用是否侵权。

动漫产业蓬勃发展,每年会产生大量的卡通视频。使用AI帮助检测卡通脸,理解卡通人物的人脸信息来进行动漫视频的分析。

作为腾讯旗下AI实验室之一,优图一直聚焦视觉AI研究与落地,并积极拓展卡通脸等相关智能识别能力,为新闻平台、视频网站、短视频应用等业务提供技术支持和解决方案,让AI视觉识别提升应用效率。