人工智能前沿学术论坛
领先的人工智能知识平台

关于

现代科学技术高度社会化,在科学理论与技术方法上更加趋向综合与统一,为了满足人工智能不同领域研究者相互交流、彼此启发的需求,我们发起了人工智能前沿学生论坛SFFAI,邀请一线科研人员分享、讨论人工智能各个领域的前沿思想和最新成果,使专注于各个细分领域的研究者开拓视野、触类旁通。SFFAI目前主要关注机器学习、计算机视觉、自然语言处理等各个人工智能垂直领域及交叉领域的前沿进展,进行学术传播,同时为讲者塑造个人影响力。

SFFAI还在构建人工智能领域的知识森林—AI Knowledge Forest。通过汇总各位参与者贡献的领域知识,沉淀人工智能前沿精华,使AI Knowledge Tree枝繁叶茂,为人工智能社区做出贡献。SFFAI自2018年9月16日举办第一期,每周一期学术分享交流,截止目前已举办82期学术交流活动,共有100+位讲者分享了他们的真知灼见,来自100多家单位的同学参与了现场交流,通过线上推文、网络直播等形式,50000+人次参与了人工智能前沿学生论坛。SFFAI自发起以来,迅速成长壮大,已经成为人工智能学生交流的第一品牌,有志同道合的论坛核心志愿者团队、乐于学术分享的讲者伙伴,还有许多认可活动价值、多次报名参加现场交流的观众,大家通过参与人工智能前沿学生论坛,收获了宝贵的知识和友谊,SFFAI致力于帮助大家解决在学术中遇到的相关问题,拓展学术人脉,为大家营造专业、开放的学术交流环境!

82

累计举办

117

累计讲者

50000

参会人数

100

参与企业

召集人

SFFAI论坛的召集人是学术上的伯乐,用一双慧眼从浩如烟海的研究成果中找出前沿的、有启发性的优秀工作,邀请讲者进行分享,为SFFAI论坛注入活力。

历届讲者

SFFAI论坛的讲者不仅拥有学术上的成就,更有一颗乐于分享、为人工智能方向的广大研究者做出无私奉献的热心。他们的智慧成果,将通过SFFAI论坛不断传播与发扬。

查看更多

历届主题

1
图神经网络及网络表示学习最新前沿
报告题目:图神经网络模型及应用进展
报告摘要:Deepmind尝试把拓扑结 构网络图与深度强化学习融合,由此提出了一个新的AI模块一一图网络。图网络,是对以前各种对图进行操作的神经网络方法的推广和扩展,学习图网络中实体、关系的向量表示以及构成它们的规则。在图网络中使用关系归纳偏置学习,保存结构化输入数据之间的拓扑关系,并通过对输入数据的节点处理来跟踪节点中的图结构。因此,图网络具有强大的关系归纳偏置,为操纵结构化知识和生成结构化行为提供了一个直接的界面。结构化的表示和计算可以实现模型的组合泛化能力,这-能力非常重要,可以为更复杂、可解释和灵活的学习和推理模式打下基础。图神经网络模型已经在不同的问题领域中进行了探索,包括监督、半监督、非监督和强化学习设置,它们在被认为具有丰富关系结构的任务中是有效的。本讲内容主要包含图网络基础框架和应用。
朱时超
13
图神经网络最新进展及挑战
报告题目:图卷积神经网络介绍及进展
报告摘要:图是现实世界中一类重要的数据结构,社交网络、通讯网络、交通网络、蛋白质作用网络等都可以由图的形式表达。图的生成与分类、社区发现、节点分类等任务也有着广泛应用。近几年图卷积神经网络把深度学习中卷积神经网络的思想用到图的学习上,达到了非常好的效果。本次分享将主要介绍图卷积网络的基本概念,以及关于它的一些进展。
Spotlight:
1、理解图卷积神经网络的原理和使用场景;
2、近几年的研究进展;
3、研究中的问题和难点。
王胤全
报告题目:图神经网络的变种与挑战
报告摘要:半监督图卷积神经网络(Semi-GCN)对原始的GCN进行了约束与简化,也因此诞生了诸多研究方向。GraphSAGE首先归纳出了Neighbor Aggregate模式;GAT将Attention机制引入到了GCN当中;GeniePath尝试将GCN的层次做深。本次讨论将主要介绍semi-GCN之后的这些变体与它们之间的联系,以及当前GCN研究当中的问题与挑战。
Spotlight:
1、semi-GCN之后的研究方向;
2、semi-GCN,GraphSAGE,GAT以及GeniePath之间的联系;
3、当前GCN中的挑战。
高扬
27
图神经网络
报告题目:Heterogeneous Graph Attention Network
报告摘要:图神经网络是近年来图数据挖掘领域的热门研究方向之一,被誉为是新一代深度学习。图神经网络可以将端到端学习与归纳推理相结合,有望解决深度学习无法进行关系推理的问题。以Graph Convolutional Network,Graph Attention Network为代表的图神经网络已经引起了学术界与工业界的广泛关注。然而,目前的图神经网络主要针对同质图(节点类型和边类型单一)设计,但真实世界中的图大部分都可以被自然地建模为异质图(多种类型的节点和边)。如何设计可以处理真实世界图数据的异质图神经网络是一个迫切需要解决的问题。
本次分享将介绍我们在异质图神经网络上的最新工作,这是第一篇基于注意力机制的异质图神经网络的工作。本文围绕异质图数据中一些基础性结构(多种类型的节点/边和元路径结构),分别设计了节点级别注意力和语义级别注意力来实现对节点全面且细致的表示。相对于现有的工作,我们的模型可以处理更加复杂的结构和语义信息也具有更强的现实意义。
Spotlight:
1、Node-Level Attention可以学习元路径邻居的重要性并通过聚合操作得到节点表示;
2、Semantic-Level Attention 可以针对不同任务来学习语义信息的重要性并对语义进行融合。
纪厚业
报告题目:I Know the Relationships: Zero-Shot Action Recognition via Two-Stream Graph Convolutional Networks and Knowledge Graphs
报告摘要:随着社交网络与在线视频平台的兴起,网络上每天都在涌现大量的视频,伴随着这些视频而来的是与日俱增的行为类别。虽然有监督的行为分类方法取得了显著的进展和很好的效果,但是这些方法依赖于大量的标注样本,而标注这些数据是极为耗时耗力的。因此,零样本视频分类的方法应运而生。目前,通过自动挖掘潜在概念(如行为、属性等)进行零样本视频分类的方法获得了极大的成功。但是,大多数现有方法只利用了视频的视觉信息而忽视了对这些概念之间的显式关系建模。因此,我们提出了一个基于知识图谱的端到端零样本行为识别框架,其可以联合建模行为-属性、属性-属性、行为-行为之间的关系。具体的,我们设计了一个双支图卷积神经网络,其包括一个分类器支和一个实例支。分类器支输入所有概念的词向量并产生对应概念的分类器。实例支将属性的词向量和和每个视频实例的属性得分映射到一个特征空间中。最后,学习到的分类器在产生的属性特征上进行评估,并通过一个分类损失进行端到端地整体优化。为了考虑视频的时序建模,我们还引入了一个自注意力模型来有效利用视频的时序信息。实验结果表明提出方法具有很好的效果。
Spotlight:
1、基于双支图神经网络的视频零样本识别方法;
2、结合知识图谱与图神经网络,对概念间关系进行高效建模。
高君宇
67
图表示学习专题
报告题目:图平滑样条神经网络
报告摘要:图神经网络受到广泛的关注和应用,针对图表示学习的图神经网络仍然具有以下两个缺陷:首先,它们利用非平滑节点特征来学习图级别特征,这可能会导致图表示的次优嵌入和退化性能;其次,只利用邻居信息而忽略全局拓扑知识同样会导致上述问题。为了解决以上缺陷,本文提出了一种新颖、灵活的端到端框架——图平滑样条神经网络(GSSNN)来进行图表示学习。
Spotlight:
1、本文尝试解决图神经网络表示学习中的特征平滑问题和全局拓扑信息捕获问题;
2、本文首次结合平滑样条来平滑节点重要特征,避免噪声影响;3、本文提出了一个可嵌入框架,增强现有模型的表达能力和解释能力。
朱时超
1
图神经网络及网络表示学习最新前沿
报告题目:网络表示学习介绍
报告摘要:网络是描述复杂系统的一种数据结构, 生活中很多数据都可以用网络来表示,例如社交网络、计算机网络、生物网络、信息网络、神经网络等。不同于声音、图像等规则数据,网络的拓扑结构可能很复杂,其特征很难直接用简单的单一模态的数字来表示,因此需要嵌入式网络表示学习方法。本次分享主要介绍几种经典的网络表示学习方法,包括DeepWalk, Line, Node2vec, SDNE等等,以及他们各自在顶点分类、连边预测等网络任务中的表现,然后简要地梳理- -下2018年网络表示学习的最新进展,以及个人在时空数据中应用网络表示学习方法的心得体会。
柳阳
3
深度卷积网络中的卷积算子研究进展
报告题目:深度卷积网络中的卷积算子研究进展
报告摘要:Convolutional neural networks (CNNs) provide an effective and efficient framework to deal with Euclidean structured data, including speeches and images. As a core module in CNNs, the convolution unit explicitly allows to share parameters among the whole spatial domains to extremely reduce the number of parameters, without sacrificing the expressive capability of networks. Benefiting from such artful modeling, significant successes have been achieved in a multitude of fields, including image classification and clustering, object detection,and amongst others. Although the achievements in the literature are brilliant, CNNs are still incompetent to handle non-Euclidean structured data, such as the traffic flow data on traffic networks, the relational data on social networks, and the active data on molecule structure networks.
常建龙
4
注意力及记忆模块在神经网络中的最新前沿
报告题目:详解记忆增强神经网络
报告摘要:内存是计算的前提,目前广泛被采用的不具有外置内存(external memory)的机器学习模型(如LSTM)的记忆能力是受可训练参数数目影响的,使得其面对需要较大存储的任务时想达到较好性能代价较高;而具有外置内存(一般称为memory augmented)的模型能够一定程度上解决这一问题。本次演示分享主要关注(外置)记忆增强神经网络系列模型,从两种分类方式(读写角度以及从类比自动机理论角度)介绍其发展过程以及这类模型的核心设计思路;另着重介绍神经图灵机模型(neural turing machine),分析工作原理,并进一步简单探讨表达能力与学习能力的关系等。
王克欣
7
二值化网络 & 基于素描图的图像检索
报告题目:二值化网络
报告摘要:二值化网络是将网络的参数和激活值二值化,在不改变网络结构的条件下压缩网络并降低运算时间,本次报告主要介绍二值化网络的发展,包括BinaryConnect, BNN, XNORnet, DoReFa-Net等经典模型。
杨朝晖
10
优化算法论坛
报告题目:基于数据的分布式鲁棒优化算法及其应用
报告摘要:robust optimization 以及 distributionally robust optimization算法是目前优化算法领域的研究热点,同时,随着如今大数据的发展,如何利用获得的大量数据解决优化问题也是robust optimization 中研究的一个重点问题。此次分享将介绍distributionally robust optimization的基本概念以及如何利用数据对问题进行求解,最后介绍其在机器学习等多个领域的应用。
Spotlight:
1、如何利用大数据更好的解决优化问题;
2、极速了解分布式鲁棒优化算法的前世今生;
3、分布式鲁棒优化如何在具体应用中大放异彩。
王卓琳
报告题目:分布式优化算法及其在多智能体系统与机器学习中的应用
报告摘要:分布式优化理论和算法是多智能体系统研究的一个热点,并逐渐受到了机器学习领域的关注。比如利用多个GPU或者多台机器训练一个神经网络就可以建模成一个分布式优化问题。此次分享将介绍分布式优化的基本概念,分类,一些经典算法以及我们在这上面的一些工作,并讨论如何将分布式优化应用在大规模机器学习或者深度学习问题中。
Spotlight:
1、深入浅出纵览分布式优化算法;
2、探究分布式优化算法在机器学习中的重要作用。
张家绮
17
类脑计算介绍及最新进展
报告题目:基于深度学习的人脑视觉神经信息编解码研究进展及挑战
报告摘要:现实世界中,外部视觉刺激是多种多样、杂乱无章的,而人类的视觉系统,从视网膜到高级视觉皮层的各个认知阶段,却能以某种方式稳定地识别和理解这些视觉输入数据。人脑在复杂视觉信息处理方面具有计算机所无法比拟的高效性、鲁棒性。视觉信息编码是指人脑将外部视觉刺激转换成神经活动信号的过程,解码是指根据观测到的脑信号模式预测对应的外部视觉刺激的过程。研究人脑视觉神经信息编解码,开发类似人脑的视觉信息处理模型,对于提高机器的智能感知能力具有重要意义。本报告将围绕深度学习来讲解视觉神经信息编解码研究进展以及该领域面临的挑战。
Spotlight:
1、视觉神经信息编解码背景介绍;
2、深度神经网络助力计算机视觉发展;
3、深度神经网络与人脑视觉神经编码;
4、感受野及可解释的人脑视觉编码模型;
5、该领域存在的一些难点和挑战。
杜长德
17
类脑计算介绍及最新进展
报告题目:脉冲神经网络与小样本学习
报告摘要:脉冲神经网络(SNN)最早起源于生物学家对生物神经系统工作机制的探索,随着人工智能技术的发展,SNN也被越来越多地用于人工神经网络(ANN)所擅长的任务中。相比于ANN,SNN因其起源而拥有一些独特的优势,包括更强的可解释性、低能耗和更好地模拟生物认知过程的潜力。相比于生物的认知过程,现有的ANN模型还要很多不足,其中小样本学习能力就是很重要的一项。虽然我们现在拥有一些公开数据集,但是更多的应用场景和目标类别无法提供足够的训练数据。人们希望ANN也能利用少量的样本学习到新类别的特征,所以对传统的ANN进行了很多改造,更好地模仿人类从小样本数据中学习类型特征的能力。既然是要更好地模仿人类,那么SNN很有可能会对小样本学习产生帮助。
Spotlight:
1、SNN与ANN的区别;
2、对SNN认识的发展;
3、小样本学习的兴起;
4、SNN与小样本学习的结合。
李春放
33
图深度学习专题
报告题目:Hierarchical Graph Convolutional Networks for Semi-supervised Node Classification
报告摘要:节点分类是图数据挖掘中一个重要而基础的任务,已有的工作通常使用图卷积网络(GCNs)学出每个节点的表达并最终分类。但是大多数主流的图神经网络层数比较浅(仅有两层或三层),而且缺乏“图池化”机制,这使得每个节点只能获取有限的局部信息而无法感知全局信息,从而限制了模型的性能。现实中,由于海量的图数据量和高昂的标注成本,我们通常面临的是一种半监督节点分类的场景(即标记数据很少,待预测的节点和标记节点通常距离较远),这更加要求模型有足够大的感受野来感知到标记样本的信息。本次报告将以增大图网络的感受野为出发点,介绍我们在IJCAI2019上的最新工作。
Spotlight:
1、通过对称的粗化(coarsening)和还原(refine)操作,设计了层次化的图神经网络,从而增大了模型的感受野;
2、在半监督条件下效果显著,在基准数据集上取得state-of-the-art的结果;当训练数据极少时,相比之前方法至少有6个百分点的精度提升。
呼奋宇
报告题目:基于关系的深度学习( Relation-based Deep Learning)
报告摘要:作为当下最受欢迎的机器学习方法之一,深度神经网络在很多领域取得了非凡的成绩。但是目前的深度神经网络模型依旧存在很多局限性,例如无法自动地设计网络结构、无法有效地降低网络中的参数冗余度、很难处理嵌入在非欧几里得空间的数据和无标签的数据等等。为此,我们通过建模深度神经网络中变量之间的关系来解决以上问题并提升深度神经网络的性能,例如通过考虑神经网络中层与层之间的关系来自动学习网络结构、通过考虑参数与参数之间的关系来压缩模型、通过考虑特征与特征之间的关系来处理非欧式空间中的数据、通过考虑样本于样本之间的关系来聚类无标签数据等等。
Spotlight:
1、深度网络中关系的建模。
常建龙
39
SFFAIx旷视 技术圆桌派 for phd 之网络结构搜索
报告题目:神经网络架构搜索技术的研究与应用
报告摘要:近年来,随着自动化机器学习(AutoML)的兴起,神经网络架构搜索(NAS)迅速成为当下热门的研究课题,得到了学术界和工业界的广泛关注。如今基于NAS的深度学习模型已经在多个视觉基础任务如分类、检测、分割等取得了超越手工设计模型的性能,展示出了良好的应用前景。本次讲座主要分享旷视研究院在AutoML和NAS方面的相关研究成果,以及将NAS算法实用化、工程化的具体落地尝试。最后,还将讨论目前NAS研究及应用中尚存在的问题和未来研究的趋势。
张祥雨
46
机器学习硬件专题
报告题目:FPGA Accelerated DNN Inference Engines for Embedded Systems based on Structured Model Compression and Quantization
报告摘要:FPGA是一种可重构计算芯片,随着其架构的不断迭代,更多的专用计算单元(DSP)、大容量存储(BRAM)、高带宽资源(HBM)被集成到了FPGA芯片内部,使其拥有了更强的通用计算能力。由于其支持高度定制化的加速器架构和较高的能效比,越来越多的嵌入式设备基于FPGA构建深度学习加速器引擎。但是,嵌入式设备通常有更严格的功耗、存储和算力约束,如何在嵌入式端部署复杂的深度学习应用成为了一个挑战。本文提出了一种软硬件协同优化的方案来解决这一难题,在软件层面通过模型压缩和量化构建轻量化的深度学习模型,在硬件层面提出高度定制的硬件加速器设计,从而实现高能效的FPGA深度学习嵌入式端加速器。
(1) C-LSTM: Enabling Efficient LSTM using Structured Compression Techniques on FPGAs (ACM/SIGDA FPGA’18)
(2) REQ-YOLO: A Resource-Aware, Efficient quantization Framework for Object Detection on FPGAs (ACM/SIGDA FPGA’19)
Spotlight:
1、基于分块循环矩阵的模型规则化压缩技术;
2、基于混合精度的模型量化技术;
3、DNN Inference Engine 自动化生成工具链。
王硕
报告题目:Cambricon-F: Machine Learning Computers with Fractal von Neumann Architecture
报告摘要:随着机器学习加速器的发展,机器学习计算机的性能与能效大幅提高;而机器学习计算机异构化、并行化、层次化的特点,使编程效率成为了制约机器学习计算机发展的首要难题。本工作提出一组分形机器学习计算机Cambricon-F,利用分形思想设计体系结构,在达到较高的效率的同时解决了编程难题。
Spotlight:
1、编程难题是机器学习计算机面临的主要挑战;
2、机器学习应用负载可以通过分形操作来表示;
3、通过设计分形指令集和分形冯诺依曼结构,Cambricon-F可以同时具有易编程和高效率的性质。
赵永威
48
面向神经网络GPU集群调度 & 自监督学习视觉里程计
报告题目:面向神经网络的GPU集群调度
报告摘要:神经网络近年的迅猛发展,得益于具有超高并行性、超强计算力的计算设备GPU的迅猛发展。几乎所有的神经网络都由使用GPU训练得到。因此,许多AI企业和大型神经网络(如BERT)都使用大规模GPU集群对网络进行训练与部署。如何在大规模GPU集群中对神经网络负载进行安排与调度,是提高集群利用率、减少神经网络训练用时的重点。然而,与CPU相比,GPU设备本身不具有良好的虚拟化能力;与其他的工作负载相比,神经网络这种负载具有许多独特的特点——这些都为GPU集群调度带来新的机会与挑战。
Spotlight:
1、GPU集群调度中的难点与挑战;
2、神经网络在GPU集群中进行调度的常见策略。
谢佳明
52
社会计算&点云配准
报告题目:正负符号图注意力网络
报告摘要:网络数据在现实世界中无处不在,包括社交网络,信息网络,交通网络,生物网络等。网络数据的非欧性质对建模和分析图数据提出了挑战。最近,图神经网络(GNN)作为处理图数据任务通用且功能强大的框架,在许多任务例如节点嵌入,链接预测和节点分类等任务上取得了巨大成功。作为GNN的代表性实现,图注意力网络(GAT)已成功应用于实际数据集的各种任务中。但是,GAT设计为仅具有正向连边的网络,无法处理包含正向和负向的符号网络。在本文中,我们提出了正负符号图注意力网络(SiGAT),将GAT推广到符号网络中。SiGAT将图模态(graph motifs)整合到GAT中,以捕获正负网络研究中的两个著名社会学理论,即平衡理论和地位理论。在SiGAT中,模态(motif)为我们提供了灵活的结构模式,可在正负符号网络上聚合和传播消息以生成节点嵌入。我们通过将其应用于连边符号预测任务来评估所提出的SiGAT方法。在三个真实数据集上的实验结果表明,SiGAT优于基于特征的方法,网络嵌入方法和基于最新的GNN的方法(如符号卷积网络(SGCN))。
Spotlight:
1、分析了在正负符号网络中的关键社会学理论(平衡理论和身份理论);
2、使用motif来刻画上述的两个社会学理论,结合GNN框架提出正负符号图注意力网络(SiGAT)。
黄俊杰
50
ICCV'19专场 场景解析 & CNN架构优化
报告题目:非对称卷积模块:零代价地提升卷积网络的精度
报告摘要:我们提出非对称卷积模块(Asymmetric Convolution Block),一种架构无关的卷积神经网络基本构件。这一模块使用一维卷积核来增强常用的二维卷积核。相比于常用的卷积层,这种结构在训练的时候可以达到更高的精度。在训练完成后,这种结构可以等效转换成普通的卷积层,所以部署的模型虽然精度更高了,但其结构和普通的网络完全相同。因此我们说,这种性能提升是“白给”的。
Spotlight:
1、提出的是一种通用的卷积神经网络构件,可以被用到任何架构的卷积网络中去;
2、非常实用和易用,只需要几行代码实现,甚至不需要调参;
3、不引入任何推理开销(inference-time costs),将你的性能-开销曲线垂直上移。
丁霄汉
47
同态加密&社会计算
报告题目:Combining Bayesian Deep Learning and Homomorphic Encryption for Secure DNN Inference
报告摘要:在云上部署深度神经网络(DNN)、提供在线DNN计算的MLaaS(Machine Learning as a Service)平台存在潜在的隐私问题,其中既包括用户数据的隐私又包括服务商权重数据的隐私。如何在保护隐私的情况下提供高效的在线推理服务成为了一个技术难点。本文提出一种结合同态加密和贝叶斯神经网络的隐私保护推理解决方案。具体来说,我们利用同态加密来保护用户隐私,用贝叶斯神经网络来保护服务商隐私。根据实验评估,该方案可以同时保护用户和服务商的隐私,并且计算速度比目前最先进的基于同态加密的方案快约五倍。
Spotlight:
1、MLaaS中的隐私问题;
2、基于同态加密的的隐私保护机器学习;
3、贝叶斯神经网络应用于隐私保护。
谢佩辰
60
知识图谱专场
报告题目:规则引导的知识图谱组合式表示学习
报告摘要:知识图谱的表示学习是将知识图谱中的实体与关系嵌入低维实值向量空间。早期的知识图谱表示学习方法只关注知识图谱中三元组的结构信息,最近的一些尝试考虑采用路径信息来扩展知识图谱的结构,但是在得到路径表示的过程中缺乏可解释性。本文提出了一种新的基于规则和路径的联合嵌入的方法(RPJE),该方案充分利用了逻辑规则的可解释性和准确性、知识图谱表示学习的泛化性以及路径提供的语义结构。具体来说,首先从知识图谱中挖掘不同长度(规则体中的关系个数)的Horn子句形式的逻辑规则,并对其进行编码,用于表示学习。然后,应用长度为2的规则以可解释和透明的方式组合路径,并显式地使用长度为1的规则来创建关系之间的语义关联并约束关系的向量表示。此外,在优化过程中还考虑了各规则的置信度,以保证规则应用于表示学习的有效性。大量的实验结果表明,RPJE在完成知识图谱补全任务方面优于其它baselines,同时验证了利用逻辑规则和路径提高知识图谱表示学习的精度和可解释性。
Spotlight:
1、将逻辑规则与路径组合进行知识图谱表示学习,提高了模型的可解释性;
2、对长度分为1和2的规则编码后能够直接显式地用于知识图谱表示学习过程中;
3、引入规则的置信度提高了使用规则的有效性和鲁棒性。
牛广林
71
泛化误差专题
报告题目:论非凸学习下有噪声梯度方法的泛化误差上界
报告摘要:泛化误差也即一个学习算法在训练集和真实未知数据集上表现的差距,是机器学习理论最重要的问题之一。基于该文新提出Bayes-Stability理论框架,作者得到了比前人更优的SGLD的期望泛化误差上界O(G/n),其中G和n分别是训练路径上梯度的范数之和以及训练集大小。同时该上界对于非高斯噪音、动量加速、和滑动平均等扩展情况一样成立。除此之外,该文还证明了连续时间朗之万运动 (CLD) 任意时刻的Log-Sobolev不等式,基于该结论,作者证明了在加入l2正则化之后,CLD的期望泛化误差以O(1/n)的速度减小,并且该上界可以与训练时间无关。
Spotlight:
1、本文提出了新的Bayes-Stability理论框架,基于此框架可以得到比前人更紧的界;
2、本文提出的SGLD期望泛化上界严格紧于前人工作,同时本文的证明更简单,也能很容易地扩展到其他情况比如mini-batch, 动量加速,非高斯噪音等等变种;
3、本文提出一个CLD的上界,收敛速度为O(1/n),且不随训练时间增加而增长到正无穷。
骆轩源
2
二阶信息在图像分类中的应用
报告题目:二阶信息是否可以在图像分类中发挥作用?
报告摘要:By stacking deeper layers of convolutions and nonlinearity, convolutional networks (ConvNets) effectively learn from low-level to high-level features and discriminative representations. Since the end goal of large-scale recognition is to delineate the complex boundaries of thousands of classes in a large-dimensional space, adequate exploration of feature distributions is important for realizing full potentials of ConvNets. However, state-of-the-art works concentrate only on deeper or wider architecture design, while rarely exploring feature statistics higher than first-order. Actually the second order statistics information contains much information that first order information doesn't have. Therefore the second order information may be helpful for large-scale visual recognition especially for fine-grained classification.
李宏扬
26
元学习和增量学习
报告题目:Incremental Learning in Image Classification
报告摘要:近年来,基于深度卷积神经网络(DCNN)的图像分类方法获得快速的发展,但是在现实场景中类似于Imagenet上样本总数固定、每类样本充足的条件很难满足。在实际应用中,不同任务或者不同类别的数据往往是分批次到来的,当直接把DCNN在新数据上进行训练时,在旧数据上学到的知识很快会被遗忘,这种现象称为灾难性忘记(Catastrophic Forgetting)。增量学习的目标是提供一种学习策略,能够在分批到来的数据上训练得到一个模型(如DCNN)能够不同任务或者不同类别上表现良好。本次分享将分别介绍我们在图像分类中多任务增量学习和多类别增量学习的两个工作,围绕多任务增量学习提出了一种基于知识蒸馏和知识回顾的学习方法,围绕多类别增量学习从新旧样本不均衡的角度提出了一种学习框架,相对现有工作可以带来显著的性能提升。
Spotlight:
1、基于知识蒸馏和知识回顾的多任务增量学习方法;
2、多类别增量学习中新旧类别样本不均衡的分析和解决。
侯赛辉
69
图像分类专题
报告题目:混合连通性的门限卷积网络来进行图像分类
报告摘要:图像分类是计算机视觉中的基础任务,基于图像分类的深度卷积神经网络模型也在不断地被设计和优化,来达到更好的准确率和更低的复杂度。在图像分类的基础模型中,有两大经典高效的模型,分别是ResNet和DenseNet,两者在图像分类任务上具有优秀的表现同时具有较小的复杂度,但是两者都各具有缺陷。为了解决两者的缺陷并同时结合两者的优势,本文提出了一个高效的混合特征连通性模式用于图像分类,此外,本文还结合了现有的注意力机制操作构造了遗忘门和更新门来实现旧特征和新特征的有效混合。基于上述的结构,本文提出了一个全新的图像分类模型,名为HCGNet。
在CIFAR和ImageNet数据集上的实验结果表明我们的模型以更低的复杂度超过了现有的人工设计的图像分类模型,同时在MS-COCO数据集上的实验结果验证了本模型具有优秀的特征迁移能力。
Spotlight:
1、本文提出了一种混合性的特征连通模式来促进特征重用;
2、本文结合注意力机制引入遗忘门和更新门实现特征的有效混合;
3、本文提出的模型不仅在图像分类任务取得卓越的表现,而且在目标检测和分割任务上具有优秀的迁移能力。
杨传广
5
NIPS2018分享会
报告题目:自省变分自编码器理论及其在图像生成上的应用
报告摘要:深度生成模型是无监督学习最有前景的方法之一,一直是学术界研究的热点问题。高分辨率真实图像的生成,一直是机器学习和计算机视觉领域的重要研究目标和前沿方向。针对高清真实图像的生成,我们提出一种新的深度生成模型——自省变分自编码器(Introspective Variational Autoencoder,IntroVAE)。该模型一方面在不引入额外的对抗判别器的情况下,克服了变分自编码器固有的合成图像趋于模糊的问题;另一方面在不使用常用的多阶段多判别器策略下,实现了高分辨率图像合成的稳定训练。实验结果表明,该模型不仅能够稳定生成高分辨率照片级图像(比如1024x1024的人脸图像),而且在生成模型常用的量化指标上取得了目前最好的结果。
黄怀波
16
视频生成介绍及最新进展
报告题目:高分辨率真实视频生成研究
报告摘要:图像和视频等视觉数据的生成在很多领域有着广泛的应用。近年来随着生成对抗网络等生成模型的提出和发展,图像生成领域取得了突飞猛进的发展。由于视频数据比图像维度更高,结构更复杂,视频数据的生成目前仍然是机器学习和计算机视觉领域的重要研究问题和前沿方向。和图像生成类似,视频生成可以分成无条件生成和条件生成两类。本次报告将会对视频生成的研究现状进行简要的介绍,并对视频生成中的难点和可能的解决方法展开讨论。
Spotlight:
1、视频生成研究进展概述;
2、视频生成中的难点和可能的解决方法讨论。
黄怀波
报告题目:“多姿多彩”的人物动作视频生成
报告摘要:合成特定姿态下的人物图像,并进一步让人物动起来,做出逼真,连贯的动作,是多媒体领域颇具趣味的研究方向。近年来,图像生成及图像翻译领域快速发展,为人物动作视频合成问题提供了有效的实现路径。目前学界基本形成利用骨架+纹理特征合成视频帧的研究范式,并在若干方向上取得了显著突破。本次讲座将带大家一同回顾人物动作视频的发展历程,解读若干最新的重要成果,并同大家共同探讨未来的发展趋势。
Spotlight:
1、视频合成领域研究思路简析;
2、视频合成目前面临哪些困难;
3、介绍本人近期工作。
杨凌波
22
SFFAI X MRSA CVPR2019专场
报告题目:Generative model is more than just GANs
报告摘要:近些年来,随着深度学习和对抗生成网络的兴起,图像生成领域取得了巨大的进步。然而,对于计算机视觉领域的生成问题,并非只有生成对抗网络这样唯一的解决途径。在本次演讲中,我们将以两篇工作为例,介绍常见的生成模型,以及对于生成模型中的不同问题我们的解决方案:
1、With GAN: 在肖像编辑的问题中,我们怎么利用GAN同时解决多样性,高质量和可控性的问题。
2、Without GAN: 在图像风格迁移的任务中,我们怎么解决局部信息和全局信息难以同时保留的问题。
Spotlight:
1、深度学习时代生成模型概述;
2、基于条件对抗生成网络的肖像编辑;
3、基于深层特征重排列的图像风格迁移。
古纾旸
26
元学习和增量学习
报告题目:Meta-SR: A Magnification-Arbitrary Network for Super-Resolution
报告摘要:随着深度卷积神经网络(DCNNs)技术的推进,超分辨率(super resolution/SR)的新近研究取得重大突破,但是关于任意缩放因子(arbitrary scale factor)的研究长时间来一直被超分辨社区所忽略。先前绝大多数主流方法把不同缩放因子的超分辨率看作独立的任务:即针对每个缩放因子分别训练一个模型(计算效率低),并且只考虑了若干个整数缩放因子。在本文中,我们提出一种全新方法,称之为 Meta-SR,通过单一模型解决了超分辨率的任意缩放因子问题(包括非整数因子)。Meta-SR 包含一种新的模块——Meta-Upscale Module,以代替传统的放大模块(upscale module)。针对任意缩放因子,这一新模块可通过输入缩放因子动态地预测放大滤波器的权重,进而使用这些权重生成任意大小的 HR 图像。对于一张低分辨率图像,只需一个模型,Meta-SR 就可对其进行任意倍数的放大。
Spotlight:
1、Location Projection 使得基于卷积可以实现任意缩放倍数;
2、Meta-Learning 通过输入缩放因子相关和位置相关的信息可以实现单模型任意缩放倍数。
胡学财
29
人脸图像合成
报告题目:面向高清人脸编辑的双相对抗学习
报告摘要:在人脸图像生成领域,对高清人脸图像进行编辑是一个非常具有挑战性的任务。已有的生成模型很难做到使生成图片兼具逼真的视觉效果和有效的身份信息。在当前阶段,主流的高清图像生成方法沿用多阶段生成的方式,逐级提升合成图像的分辨率,从而提高训练过程的稳定性和生成图像的质量。本次讲座将带大家回顾高清图像合成最近的发展历程,解读若干已有重要成果,并向大家介绍一种面向高清人脸编辑的双相对抗学习方法。
Spotlight:
1、高清图像合成;
2、高清人脸编辑;
3、双相对抗学习。
曹杰
报告题目:Image-to-Image Translation
报告摘要:随着GAN与VAE等生成模型的提出与快速发展,图像生成与转换近几年成为了计算机视觉领域的热门方向,并得到了学术界和工业界的广泛关注。我们知道,年龄与姿态对一个人的外貌有很大的影响,同一个人、不同年龄(姿态)的人脸会有显著的差异,给人脸识别系统带来了严峻地挑战。本次报告将与大家分享一下图像转换在人脸年龄、姿态上的应用,以及如何通过图像转换来缓解年龄(姿态)对人脸识别的影响,并同大家共同探讨未来的发展趋势。
Spotlight:
1、人脸年龄图像合成与转换;
2、人脸年龄估计;
3、人脸旋转。
李佩佩
64
图像生成专场
报告题目:Realistic Face Reenactment via Self-Supervised Disentangling of Identity and Pose
报告摘要:人脸再扮演任务研究的是在不同身份之间迁移脸部的表情、头部的姿态等信息。给定一段驱动视频和一张源人脸图片,再扮演系统期望将驱动视频中的表情、姿态迁移至源人脸,其可以应用于人脸编辑,视频编辑,视频直播等场景。近期,基于人脸关键点的再扮演系统取得了非常逼真的表情/姿态重现效果。但此类方法依赖关键点提供几何信息,而人脸关键点的获取/标注十分昂贵。另一方面,基于自编码器的再扮演方法无须额外的标注数据。但受限于自编码器的结构,往往只能生成模糊、低真实度的图片。为此,本文提出了自监督学习的人脸再现系统,避免了人脸关键点的标注,同时可以得到真实的再现效果。我们将人脸再扮演任务分解成两个任务:特征解耦学习和人脸条件生成。本文利用形变自编码器实现身份、姿态的解耦学习;将解耦后的特征输入条件生成器实现特定姿态的条件生成。整个系统利用视频上下文自监督学习,实现人脸再扮演任务。
Spotlight:
1、自监督的人脸再扮演系统,可实现真实的人脸再现效果,无需额外的人脸标注;
2、身份和姿态的特征解耦子模块,解耦后的特征可实现相似图片检索。
曾仙芳
5
NIPS2018分享会
报告题目:Rotating is Believing
报告摘要:Face frontalization refers to the process of synthesizing the frontal view of a face from a given profile. Due to self-occlusion and appearance distortion in the wild, it is extremely challenging to recover faithful results and preserve texture details in a high-resolution. This paper proposes a High Fidelity Pose Invariant Model (HF-PIM) to produce photographic and identity-preserving results. HF-PIM frontalizes the profiles through a novel texture warping procedure and leverages a dense correspondence field to bind the 2D and 3D surface spaces. We decompose the prerequisite of warping into dense correspondence field estimation and facial texture map recovering, which are both well addressed by deep networks. Different from those reconstruction methods relying on 3D data, we also propose Adversarial Residual Dictionary Learning (ARDL) to supervise facial texture map recovering with only monocular images. Exhaustive experiments on both controlled and uncontrolled environments demonstrate that the proposed method not only boosts the performance of pose-invariant face recognition but also dramatically improves high-resolution frontalization appearances.
曹杰
51
ICCV'19专场 实例分割 & 人脸识别
报告题目:自然环境下的多种族人脸:利用信息最大化自适应网络去减少种族偏差
报告摘要:种族偏见是生物特征识别中的一个重要问题,但在人脸识别领域还没有得到深入的研究。在这篇论文中,我们首先提供了一个名为“自然环境下的多种族人脸”(RFW)的数据库。利用该数据库,我们验证了四个商业API和四个当前最先进算法都存在种族偏见。然后,我们进一步提出利用深度无监督域自适应算法来解决种族偏差,并提出了一个深度信息最大化自适应网络(IMAN)。在算法中,我们以白种人作为源域,其他种族作为目标域来缓解这种偏差。这种无监督的方法一方面在域层面减小源域和目标域的全局分布,另一方面在类别层面学习有区分性的目标域特征。此外,我们还提出了一种新的互信息损失,在没有标签的情况下,进一步提高了网络输出的鉴别性。通过在RFW、GBU和IJB-A数据库上进行的大量实验表明,IMAN学习到的特征在不同种族和不同数据库上有很好的泛化性。
Spotlight:
1、构建并发布了一个新的RFW测试集,用于研究人脸识别中的种族偏差;
2、通过实验验证了现有的人脸识别算法中都普遍存在种族偏差;
3、提出了一个新的信息最大化自适应网络,利用无监督域自适应来缓解种族偏差。
王玫
7
二值化网络 & 基于素描图的图像检索
报告题目:基于素描图的图像检索
报告摘要:Compared to text, the important characteristic of sketches lies with their ability of capturing object structure and appearance. Therefore, as a query modality, sketches are employed on many retrieval applications. With the rapid development of touch-screen devices, fine-grained sketch-based image retrieval(FG-SBIR) has become an increasingly research topic problem recently. Free-hand sketches are used in commercial search scenarios such as searching a specific shoe or chair. Besides, in forensic applications, there are no photo of the suspect for retrieving, which have motivated research on forensic facial sketches matching and sketch re-identification. Common characteristics of these problems lie with challenges, which is cross-domain and instance-level. This report provides a comprehensive introduction of established methods about grained sketch-based image retrieval. Moreover, I will discuss about recent developments on sketch re-identification.
庞璐
8
图像翻译 & 视频多目标跟踪专题
报告题目:生成对抗网络在图像翻译上的应用
报告摘要:在图像处理、计算机图形和计算机视觉中,许多问题都可以表现为将输入图像“转换”成相应的输出图像。 正如我们常见的机器翻译中,同一句话可以用英语或中文表达一样,一副场景图可以用RGB图像、梯度场、边缘图,语义标签图等。与自动语言翻译类似,我们定义自动图像翻译如下:将图像从一种domain转换到另一个domain的任务。 我们在本次分享的目标是回顾一些基于GAN的框架,以解决所有这些问题。
刘冰
8
图像翻译 & 视频多目标跟踪专题
报告题目:视频中的多目标跟踪
报告摘要:目前视频多目标跟踪在智能安防、自动驾驶、医疗等领域都有非常多的应用前景,但同时也是计算机视觉中的比较困难的问题之一,这主要是由于跟踪目标被遮挡、跟踪目标为非刚体、环境光线强度不均等多种原因产生的。这次报告主要介绍视频多目标跟踪的挑战,近几年来的工作以及未来的发展趋势,同时会介绍多目标跟踪常用的Benchmark以及评测指标。
高旭
30
SFFAIxUSTB 视频目标跟踪专题
报告题目:An Introduction to Multiple Object Tracking and Related Topics
报告摘要:随着智能城市监控的普及以及自动驾驶领域的兴起,视频多目标跟踪成为了计算机视觉中的重要问题之一。然而,目标之间常常发生遮挡,天气光照不同,目标外观变化巨大等等,这些也成为了多目标跟踪的挑战。本次Talk主要系统地介绍多目标跟踪近些年来比较典型的方法,并介绍与多目标跟踪相关的一些领域的工作,例如轨迹预测(Trajectory Prediction)、视频行人重识别(Video Re-ID)等问题,最后与大家共同探讨未来的发展趋势。
Spotlight:
1、多目标跟踪;
2、轨迹预测;
3、视频行人重识别。
高旭
报告题目:实时孪生网络目标跟踪研究
报告摘要:在报告中,我们首先回顾基于孪生网络的视觉跟踪发展以及近期的视频目标分割发展。提出统一的实时目标跟踪以及视频分割框架。该方法(SiamMask)在离线过程中将实例分割分支引入孪生网络学习来提升视觉跟踪的表述精度。训练完成后,该方法只需矩形框进行初始化,即可完成视频目标分割任务。该方法在实时目标跟踪领域取得当前最高的精度性能,同时显著提升了视频目标分割的速度。
Spotlight:
1、基于孪生网络算法对比探索;
2、视频目标分割的近期发展。
王强
38
网络结构搜索-单目标跟踪
报告题目:Recent advances and highlights of NAS
报告摘要:近年来网络结构搜索(NAS)在自动化设计神经网络结构方面获得了较大的成功,也成为模型结构优化领域不可忽视的重要研究课题。NAS不仅减轻了人们设计、调优模型结构的重重负担,而且相较于人工设计的网络结构,NAS搜索出的模型性能有了进一步提升。最近NAS取得了巨大的进展,搜索代价从最初的万级GPU hours降低到和普通训练模型同等水平,NAS的算法更能在优化精度的同时提高模型速度,NAS的应用也从分类向分割、检测等领域进一步扩展。本次报告将介绍、讨论最近NAS的一些进展和闪光点,并分享我们在NAS领域所做的相关工作。
Spotlight:
1、NAS算法的发展与创新;
2、NAS的加速方法;
3、搜索空间的探索和进展。
方杰民
报告题目:Deeper and Wider Siamese Network for Real-Time Object Tracking (CVPR2019 Oral)
报告摘要:目标跟踪是计算机视觉的基本任务之一,近年来随着大量跟踪数据库如OTB,VOT,LASOT,GOT10K的提出,以及VOT比赛的推广,单目标跟踪领域迅速发展。而这其中siamese跟踪算法由于其在速度和精度之间很好的平衡而逐渐成为单目标跟踪研究中最火的方向。然而在今年之前,siamese跟踪算法仍然是只是基于浅层的AlexNet,深层网络不但没有帮助反而会使效果下降。在CVPR19中,我们通过对网络结构属性的分析,提出网络padding, 感受野, 特征输出大小,stride是影响加深网络的关键。进而我们提出了适用于跟踪siamese网络的crop-in-residual模块,通过堆积模块加深网络,使深层siamese网络在跟踪上效果有了显著提高。Ps:MSRA组里招实习生,有意向请联系houwen.peng@microsoft.com (不限于跟踪很多方向)。
论文地址: https://arxiv.org/abs/1901.01660
论文代码: https://github.com/researchmm/SiamDW
Spotlight:
1、提出CIR模块结果siamese网络不能加深的问题;
2、用大量实验分析网络属性对siamese跟踪的影响;
3、提出设计siamese跟踪网络的guideline。
张志鹏
65
目标跟踪主题
报告题目:SiamFC++:视觉目标跟踪器设计的指导准则
报告摘要:视觉跟踪问题要求在给定跟踪目标的情况下,完成鲁棒的分类和精确的出框。现有方法提出了多种出框方式,但是很少有人考虑了跟踪问题的任务特点。基于仔细的分析,我们提出了一套实用的指导准则来指导高性能通用目标跟踪器的设计。遵循这些准则,我们设计了我们的SiamFC++跟踪器,同时(G1)引入没有歧义的打分分支(G2)和不依赖目标数据先验的出框分支(G3),并对出框质量进行评估(G4)。详尽的分析和消融实验验证了设计准则的有效性。我们的跟踪器在各大主流数据集上达到甚至超过State-of-the-Art的性能。
Spotlight:
1、本文分析了当时已有跟踪方法,提出了指导跟踪器设计的指导准则;
2、本文基于指导准则设计了跟踪器,并且通过主流数据集上的实验验证了准则的有效性;
3、本文将提出的应用了准则的跟踪器与没有应用准则的跟踪器做了对比和分析,解释了性能提升的来源。
许胤达
9
图像分割检测专题论坛
报告题目:Understand Everything Visible in One View
报告摘要:对图像场景的准确理解和建模是人们一直以来的诉求,这是因为精确的场景模型是后续高层的智能安防及自动驾驶任务的基础。对于场景的像素级理解主要包括了实例分割和语义分割,而今年Kaiming新提出的全景分割则对这两个任务进行了统一。我们在这次分享中主要会介绍语义分割和全景分割任务中的一些新进展,同时也会介绍全景分割任务的Benchmark及评测指标。
李彦玮
23
SFFAI X PKU 计算机视觉图像分割专场
报告题目:GCN and NAS in Semantic Segmentation
报告摘要:图像语义分割是计算机视觉主任务之一,历来备受关注。而近年来,图卷积网络(GCN)和网络结构搜索(NAS)成为一大热点。在本次演讲中,我们将以几篇文章为例,介绍GCN和NAS在语义分割中的应用,以及各自的演进过程和未来预期。
Spotlight:
1、图像语义分割中的图卷积模块;
2、图像语义分割中的网络结构搜索。
李夏
报告题目:Attention based models in semantic segmentation
报告摘要:图像语义分割是计算机视觉主任务之一,有很多应用场景.这次演讲当中我们将首先会从最简单的FCN(全卷积神经网络)开始介绍进行近些年来比较流行的语义分割的方法.我们会重点关注attention思想在语义分割中的应用,最后会简单介绍下我们近期一些的工作。
Spotlight:
1、比较流行的context modeling 方法.(ASPP, PPM);
2、Non-local的网络在语义分割上的应用。
李祥泰
50
ICCV'19专场 场景解析 & CNN架构优化
报告题目:Adaptive Context Network for Scene Parsing
报告摘要:场景解析中需要预测出场景图像中的像素点属于某一目标类或场景类。上下文的利用对于识别每个像素点十分关键。当前的方法主要是基于全卷积神经网络上将不同上下文融合到高层语义部特征中。具体来说,利用全局上下文来改善局部特征的歧义,利用浅层的局部上下文补充空间细节。这些方法在融合全局上下文和局部上下文到每个像素点时都是同等对待的,但是我们认为不同像素点对于全局上下文和局部上下文的需求是不同的。为此,我们提出了自适应上下文网络,通过联合考虑全局和局部上下文在每个像素区域的关联,提出像素感知的上下文捕获策略,自适应地融合全局上下文和局部上下文,从而获得更加有效的场景解析结果。最后实验表明了我们方法的有效性,此外该方法在多个公开的场景解析数据集上(Cityscapes,ADE20k等)均取得同期最好性能。
Spotlight:
1、分享利用不同上下文的经典方法;
2、本文提出像素感知的上下文捕获策略,能自适应地融合全局和局部上下文。
付君
51
ICCV'19专场 实例分割 & 人脸识别
报告题目:基于亲和度金字塔的实例分割
报告摘要:自下而上的实例分割方法通常生成实例无关的语义分割标签和实例感知特征,从而将像素分组为不同的对象实例。先前的方法大多对这两个子任务分别采用单独的模块,在测试阶段需要进行多次前馈,缺乏效率。同时之前的方法在性能上也大大低于自上而下的方法。为此,这项工作提出了一种自下而上的实例分割方法,该方法仅需进行一次前馈就能得到实例分割结果。我们的方法基于像素对亲和度金字塔,层级式地计算了两个像素属于同一实例的概率。此外,结合学习到的亲和度金字塔,我们提出了级联图分割模块,以高效地融合两部分输出并最终实现对实例的分割。该方法在Cityscapes数据集上实现了最先进的性能。
Spotlight:
1、基于亲和度金字塔的自下而上实例分割方法;
2、图分割模块的加速优化方案。
高乃钰
9
图像分割检测专题论坛
报告题目:大尺度图像的目标检测及一些思考
报告摘要:目标检测作为计算机视觉基础任务之一,对其他领域有很重要的启发意义,同时在工业界也广受关注。目标检测作为热门研究领域,近年来取得了很大的进展。此次分享主要围绕我们参加COCO与Mapillary联合主办的基于Mapillary 数据集实例分割比赛所涉及的一些方法和近期进展进行简单介绍。
潘兴甲
11
图像分割专题
报告题目:基于视频的目标检测的发展
报告摘要:随着深度卷积神经网络的迅速发展,基于图片的识别任务包括分类、检测与分割等都得到了极大的进步。然而,我们现实生活面临的都是一些视频流信息,而基于图片的模型参数量大且Inference时间较长,如何将这些模型迁移到视频流上成为了一个研究热点。此次分享主要聚焦于基于视频的目标检测,介绍近几年research community 在视频目标检测的几个比较好的工作。
Spotlight:
1、了解图片检测、tracking和视频检测的主要区别以及视频检测的难点;
2、介绍最近工作针对几个关键问题的解决办法。
郭超旭
报告题目:Self-Attention and It's Application on Computer Vision
报告摘要:Transform在Language Model中取得了很大的成功。与此同时,Non-local Neural Network and Relation Networks都是它在计算机视觉中的很成功的应用。此次分享将介绍Self-Attention在视频检测以及神经网络结构上的应用。
Spotlight:
1、Self-Attention优缺点分析;
2、计算机视觉中的Self-Attention,从目标检测到网络结构。
蒋正锴
15
目标检测专题
报告题目:基于深度学习的通用物体检测算法对比探索
报告摘要:目前基于深度学习的通用物体检测算法大致可以分为两类:一步法检测器和二步法检测器。一步法检测器有较高的检测速度,但检测精度不如二步法检测器。而二步法检测有较高的检测精度,但检测效率不如一步法检测器。为了使得一步法检测器获得二步法检测器的检测精度,同时保持较高的检测效率,我们对一步法和二步法检测器进行了一系列探索,提出了RefineDet、SRN、AlignDet等系列算法。此次分享会将概括地介绍通用物体检测算法,以及我们自己一系列相关的工作。
Spotlight:
1、通用物体检测算法对比探索;
2、一步法检测器的一系列改进工作。
张士峰
报告题目:基于深度学习的目标检测算法剖析与实现
报告摘要:目标检测是计算机视觉和数字图像处理的一个热门方向,广泛应用于机器人导航、智能视频监控、工业检测、航空航天等诸多领域,通过计算机视觉减少对人力资本的消耗,具有重要的现实意义。因此,目标检测也就成为了近年来理论和应用的研究热点,它是图像处理和计算机视觉学科的重要分支,也是智能监控系统的核心部分,同时目标检测也是泛身份识别领域的一个基础性的算法,对后续的人脸识别、步态识别、人群计数、实例分割等任务起着至关重要的作用。由于深度学习的广泛运用,目标检测算法得到了较为快速的发展,此次分享会主要介绍基于深度学习的两种目标检测算法思路与实现细节,分别为One-Stage目标检测算法和Two-Stage目标检测算法。
Spotlight:
1、目标检测算法原理剖析;
2、目标检测算法实现细节讲解。
尤安升
40
SFFAIx旷视 技术圆桌派 for PhDs - 物体检测
报告题目:物体检测的挑战和探索 —— 从工业界的视角
报告摘要:物体检测是计算机视觉中非常重要并且基础的环节,随着深度学习技术的发展,物体检测的性能有了突飞猛进。但是从产品落地角度来讲,目前物体检测算法还是有很多挑战,比如遮挡,尺度变化等。本次分享将讨论我们针对这些挑战的尝试,希望抛砖引玉,共同拓展我们的认知边界,推动物体检测算法的应用和落地。
俞刚
42
SFFAIx旷视 技术圆桌派 for ALL-行人重识别技术的发展与应用
报告题目:行人重识别(Re-Identification)技术的发展与应用
报告摘要:近年来,行人重识别(ReID)技术由于其在安防等领域的巨大潜在价值,而获得越来越多的关注。如今,ReID技术接连取得突破性进展,距离商业实用越来越近。本次讲座主要分享旷视研究院在ReID领域,尤其是Partial ReID,Cross-Domain ReID,Person Search等方向所取得的研究成果,以及ReID技术在产品和项目中的具体落地所遇到的问题和挑战。
张弛
45
NIPS分享会
报告题目:Practical Object Detection with Scale-Aware Network Architecture
报告摘要:目标检测是计算机视觉中最基础且最重要的几个任务之一,不论是学术界还是工业界都受到了极大的重视。目标检测任务的难点主要在于检测器需要能识别各种尺度的目标,过去的方法在处理多尺度能力一般,导致在一些物体尺度方差较大的数据库上表现不佳。后续的方法例如可形变卷积能有效地检测多种尺度的目标,但是对硬件加速很不友好,导致其在工业上的应用十分受限。本次报告将介绍两种方法,通过不同的方式构建能处理多尺度目标检测且对硬件加速友好的网络结构。
Spotlight:
1、本文提出的方法构建出的网络结构能很好地处理多尺度目标检测;
2、我们提出的结构没有任何额外参数量和计算量,且对硬件加速友好。
彭君然
49
ICCV'19专场 目标检测 & 自然语言定位
报告题目:尺度特化的三叉戟目标检测网络
报告摘要:二维图像识别任务中目标尺度的变化一直是一个重要的研究问题。在本中文,我们首先设计了一组受控实验下研究网络感受野与检测器在不同尺度的检测目标上的性能的关系。基于这一基本实验发现,我们提出了一种全新的针对不同尺度物体具有统一表示能力的三叉戟网络。我们利用权重共享的平行网络分支来实现具有不同感受野的特征图。我们针对具有不同感受野的分支采取了尺度特化的训练方式。在三叉戟网络的基础上,我们提出了一种快速三叉戟网络,相比基线检测器,能在不增加计算量的情况下大幅提升检测器的性能。结合 ResNet-101 基础网络,我们的方法在 COCO 测试开发集能取得 48.4 mAP 的性能。我们同时提供基于 Detetron2(PyTorch) 和 SimpleDet(MXNet) 的开源代码。
Spotlight:
1、分析了网络感受野与检测器在不同尺度的检测目标上的性能的关系;
2、提出了一种全新的针对不同尺度物体具有统一表示能力的三叉戟网络以及其快速变种。
陈韫韬
56
目标检测专场
报告题目:基于多锚点学习的目标检测方法
报告摘要:分类和定位是目标检测器的两个主要优化目标。在基于卷积神经网络的检测器中,这两个目标通常是在一组固定的候选框或者锚点上进行优化,获取位置偏差和分类置信度。位置预测准确的锚点置信度不一定高,而置信度最大的锚点位置又不一定准确。这种方式很难真正地对分类和定位进行联合优化。本次报告将介绍发表于CVPR2020上的工作,多锚点学习(Multiple Anchor Learning,MAL),采用一种多实例学习方法来选择锚点并对单阶段目标检测器RetinaNet的两个模块进行联合优化。MAL通过构建锚点袋,并在其中选择最具有代表性的锚点进行网络参数优化。与此同时,采用对抗性选择-抑制的方式,通过扰动锚点的相应特征来压制锚点的置信度,以此增强分类器的鲁棒性。MS-COCO目标检测数据集上的实验表明,MAL在不同基网络的RetinaNet上均有显著的提升,获得了较好的检测结果。
Spotlight:
1、提出多锚点学习的方式联合优化目标检测中的分类问题和定位问题;
2、采用对抗性选择-抑制的方式防止训练过程中陷入局部最优;
3、MS-COCO目标检测数据集上的实验表明,MAL在不同基网络的RetinaNet上均有显著的提升,获得了较好的检测结果。
柯炜
报告题目:弱小目标检测简述与一个弱小人体目标检测Benchmark-TinyPerson
报告摘要:随着深卷积神经网络的兴起,视觉目标检测取得了前所未有的进展。然而,在大尺度图像中检测微小物体(例如小于20x20像素的微小物体)的研究仍不充分。极小的物体对特征表示提出了巨大的挑战,而庞大而复杂的背景聚集了误报的风险。本次报告介绍我们最近做的一个新的工作,一个新的针对弱小人体目标检测的benchamrk:TinyPerson,它为远距离、多背景下的微小目标检测开辟了一个有前途的方向。此外实验发现,网络预训练数据集与检测器学习数据集之间的尺度分布不匹配会影响特征表示和检测器的性能。因此,我们又提出了一种简单而有效的尺度匹配方法来调整预训练数据集的目标尺度分布,以获得更好的初始化。即使如此,TinyPerson在现实场景中仍然具有很大的挑战性,该benchmark将在最近进行公开(https://github.com/ucas-vg/TinyBenchmark )。本次报告有以下几个主要内容,一是对当前弱小目标检测的研究进行简述,二是介绍TinyPerson,一个针对弱小人体目标检测的benchmark,三是介绍Scale Match,一个简单有效的预训练技巧。
Spotlight:
1、对当前弱小目标检测的研究进行简述;
2、介绍TinyPerson,一个针对弱小人体目标检测的benchmark;
3、介绍Scale Match,一个简单有效的预训练技巧。
余学辉
12
行为识别
报告题目:Recent Advances on Skeleton-Based Action Recognition
报告摘要:基于人体骨架的行为识别是计算机视觉中的一个热点问题,相比图像视频,人体骨架视频可以很好地克服光照变化、人体外貌变化等不确定因素的影响,所以基于人体骨架的行为识别受到越来越多的关注。人体骨架序列不仅包含了时序特征,而且还包含了人体的空间结构特征,如何有效地从人体骨架序列中提取具有判别性的空间和时间特征是一个有待解决的问题。我们在这次分享会中主要介绍一下基于人体骨架的行为识别的最新进展。
Spotlight:
了解基于人体骨架的行为识别的最新进展,存在难点分析。
司晨阳
68
行为识别专题
报告题目:从稀疏到稠密的时空行为检测框架
报告摘要:视频序列中的时空行为检测任务从提出到现在,在研究领域取得了一定程度的进展;目前主流的行为检测框架依赖于在短时的输入序列上进行稠密检测来达到行为检测的目标,然而这样的检测框架并没有很好地考虑到视频信号本身较强的时域相关性以及行为识别上对于长时特征的依赖;如何更加高效,准确地对视频序列进行行为检测任然是一个待解决的问题。
本次报告将重点分享我们在AAAI2020上发表的工作,Finding Action Tubes with a Sparse-to-Dense Framework. 这是一个端到端的时空行为检测框架,与以往的检测方法不同,我们在该工作中初步尝试了利用时域相关性进行动态采样,并通过长时注意力机制进行特征增强的方法来实现更加高效,准确的行为检测。
Spotlight:
1、我们的框架能够结合更长的输入序列,提升网络的时域感受野,并且提出长时特征增强的机制提高行为识别的准确率;
2、提出了一种动态调节的采样模块,能够结合目标行为本身的复杂度决定在特征层面上的采样数,从而有效调节后续空间检测的复杂度。
李昱希
12
行为识别
报告题目:图像/人脸补全问题的前世今生
报告摘要:近年来,图像补全问题在应用深度学习技术的条件下已经实现了较好的补全效果,甚至于人眼也难以分辨。故而,该技术也已经成为图像补全问题上的一个研究热点。同时,如何修改对抗生成网络以使其更好的适应图像补全问题以及如何针对人脸补全这一子问题来构造更有效的生成模型已经得到了越来越多的关注。此次分享将简单介绍图像及人脸补全方法的历史发展,并在最后介绍我们在人脸补全问题上的一些工作。
Spotlight:
1、前深度学习时代的图像补全方法;
2、深度学习时代图像补全方法的发展;
3、我们在人脸补全问题上的最近的工作;
4、基于人脸几何信息理解的人脸补全与编辑。
宋林森
22
SFFAI X MRSA CVPR2019专场
报告题目:人体姿态估计中的高分辨率特征学习
报告摘要:人体姿态估计任务是一个对定位精度要求很高的任务,预测关键点的空间位置时所采用的特征图的分辨率对结果影响十分明显。现在主流的网络框架中,都是从低分辨率特征中恢复高分辨特征,极大的造成了空间精度上的损失。
在本次讨论中,我将介绍我们在CVPR2019上发表的题为:”High-Resolution Representation Learning for Human Pose Estimation”的论文。在这个工作中,我们设计了新的网络框架,称为高分辨网络(HRNet)。相比于先前的网络,我们在整个网络中始终保持着高分率特征,并通过不断的多尺度特征融合提升高分辨率特征的表达能力,从而获得更加精准的检测结果。我们所设计的网络在计算量和参数量都小于之前最好的方法的情况下,在多个标准数据集上都取得了最好的效果,并且网络可以很容易拓展到其他的计算机视觉任务中,比如语义分割、物体检测以及人脸关键点检测等等。
Spotlight:
1、人体姿态估计框架的总结和分析;
2、新的网络框架:高分辨网络。
孙可
25
三维视觉之点云识别
报告题目:Robust Feature Learning for Point Cloud Recognition
报告摘要:近些年来来,随着以PointNet为代表的深度点云处理模型的兴起,点云识别领域取得了巨大的进展。然而,点云识别方法仍然面临着旋转鲁棒性不足、难以学习点云局部几何结构等问题。在本次分享中,我们将回顾为3D物体识别设计鲁棒性学习方法,以及我们在CVPR2019上发布的新工作:“Spherical Fractal Convolutional Neural Networks for Point Cloud Recognition”。在这个工作中,我们设计了新的网络框架,成为球面分形卷积神经网络(SFCNN)。我们的设计成功将球面卷积应用于直接处理点云数据,并利用分形结构设计了层次化的网络结构,将图片识别中的空间卷积、池化、残差结构等成功技术应用于点云识别中。同时,旋转对称结构使得我们的方法能够实现旋转鲁棒的特征学习,并实现超过先前工作的旋转不变性和泛化能力。
Spotlight:
1、应用于3D物体识别的鲁棒特征学习的总结和分析;
2、新的框架:球面分形卷积神经网络。
饶永铭
报告题目:Geometric Relation Learning in 3D Point Cloud Analysis
报告摘要:三维点云来自距离度量空间,这意味着每一个点并非孤立存在,相邻的点形成一个有意义的几何形状。因此,对点间几何关系进行建模非常重要。本次分享将回顾近年来使用深度学习进行点间关系学习的经典论文,并介绍我们的CVPR 2019 Oral工作“Relation-Shape Convolutional Neural Network for Point Cloud Analysis”。我们提出了一种几何关系卷积方法,并用该卷积搭建了一个关系形状卷积神经网络,简称RS-CNN。RS-CNN在三个主流的点云分析任务上均取得了SOTA,同时也具有很好的鲁棒性。并且,RS-CNN不仅能够在三维空间中学习几何关系,还能从二维投影空间中推理几何形状。
Spotlight:
1、回顾点间关系学习的经典论文;
2、CVPR 2019 Oral工作:RS-CNN。
刘永成
52
社会计算&点云配准
报告题目:DeepVCP:端到端的点云配准网络
报告摘要:点云配准技术是三维视觉领域的一项基础技术,其目标是将不同视点采集的点云数据通过计算其相对位姿的方式拼接到一起。随着激光雷达在机器人,无人车的领域的推广应用,点云配准技术作为高精地图,高精定位等方向的核心模块越来越受到重视。然而与传统场景相比,自动驾驶场景下,点云配准技术不仅要面临更差的初值(GNSS信号不佳),还需要应对动态地物的干扰,这些问题都对点云配准技术提出了新的挑战。为解决上述问题,提出一种基于深度学习技术的端到端的点云拼接网络DeepVCP,不同于传统方法中仅使用几何特征,DeepVCP在拼接过程中引入了语义特征自动筛选关键点,此外,不同于传统方法中查找几何特征最相似的点作为同名点,DeepVCP仅评估几何特征之间的相似度,并根据相似度生成匹配概率,最后根据匹配概率生成同名点,最后算法仅依赖少量的稳定关键点进行匹配达到了和ICP家族使用全帧点云匹配相等的精度,这提升了匹配的稳定性。
Spotlight:
1、首个端到端的高精度点云配准网络,达到了和传统state-of-art方法同等的精度;
2、提出的Corresponding Point Generation Layer和Loss函数对后续配准网络设计具有启发意义;
3、与传统方向相比,对大误差拥有更好的鲁棒性。
卢维欣
35
生物特征识别
报告题目:The Art of Rays: Light Field Imaging and View Synthesis
报告摘要:自由空间中传播的光线携带着三维立体世界丰富的信息,是人类感知外部世界最重要的介质和载体之一。光场用来描述光线在自由空间中的分布,光场理论发展的同时,过去的二十余年间国内外各种各样的光场成像设备被研制和开发出来。微透镜型光场相机拍摄的光场图像记录了自由空间中光线的角度方向信息,是以牺牲空间位置采样率作为代价的。空间分辨率和角度分辨率互相制约的关系,是光场图像在计算机视觉任务中应用的瓶颈。为了突破这一瓶颈,本次报告基于光场成像理论,对光场视角合成技术进行探索和研究,介绍目前该领域最新的一些研究成果和我们自己的研究工作。
Spotlight:
1、深入浅出介绍光场成像;
2、带来在光场条件下利用深度学习完成生物特征识别任务的精彩分享;
3、来自即将毕业的师兄的独家心得感悟。
王云龙
报告题目:Deep Feature Representation for Iris
报告摘要:Iris recognition is a reliable personal identification method but there is still much room to improve its accuracy especially in less-constrained situations. For example, free movement of head pose may cause large rotation difference between iris images. And illumination variations may cause irregular distortion of iris texture. To match intra-class iris images with head rotation robustly, the existing solutions usually need a precise alignment operation by exhaustive search within a determined range in iris image preprosessing or brute-force searching the minimum Hamming distance in iris feature matching. In the wild environments, iris rotation is of much greater uncertainty than that in constrained situations and exhaustive search within a determined range is impracticable. We propose a unified feature-level solution to both alignment free and distortion robust iris recognition in the wild. A new deep learning based method named Alignment Free Iris Network (AFINet) is proposed, which utilizes a trainable VLAD (Vector of Locally Aggregated Descriptors) encoder called NetVLAD to decouple the correlations between local representations and their spatial positions. And deformable convolution is leveraged to overcome iris texture distortion by dense adaptive sampling.
Spotlight:
1、以虹膜识别为抓手,分享近年来生物特征识别的进展和发展趋势;
2、带来最新虹膜识别算法分享。
任民
36
计算摄影学专场
报告题目:计算摄影学引介
报告摘要:赶超人眼,揭开计算摄影学新篇章 计算的力量,到底为相机成像带来了哪些质的变化?面向端上的计算摄影学又有哪些机遇与挑战?利用最新深度学习的方法,我们将向“人眼”级的成像系统发起新的冲击。
范浩强
报告题目:数字图像前世今生
报告摘要:随着手机及相机的飞速发展,给人们的摄影创作带来了极大的便利和自由。我们每天几乎时时刻刻都在接触着数字图像,包括手机里的照片、网页上的风景等等,我们似乎对数字图像很熟悉。于是渐渐的对什么是数字图像、数字图像从哪里来、数字图像有哪些经典任务这些话题产生了兴趣。本报告主要包括两个部分数字图像的“前世”与“今生”:前世部分主要介绍传感器信号是如何一步一步通过信号处理形成数字图像;而今生部分则包括一些数字图像处理的经典任务,包括图像降噪、图像宽动态、图像超分辨等。
Spotlight:
1、从信号到图像的处理过程;
2、数字图像处理的经典任务及简介。
陈嘉晖
报告题目:手持夜景是如何练成的
报告摘要:当夜幕降临,华灯璀璨的城市夜景是绝佳的摄影创作主题。但整体的光线不足、灯光与黑暗的强烈对比使得手机等设备难以通过常规方法拍摄出令人满意的照片。近年来,不少手机都内置了手持夜景拍摄功能。本报告将介绍手机实现手持夜景拍摄的原理、挑战与关键算法,包括多帧合成、图像降噪等。
Spotlight:
1、多曝光图像合成;
2、图像降噪。
汪彧之
48
面向神经网络GPU集群调度 & 自监督学习视觉里程计
报告题目:Sequential Adversarial Learning for Self-Supervised Deep Visual Odometry
报告摘要:即时定位与地图重建(SLAM)和视觉里程计(VO)是自动驾驶、移动机器人、VR/AR、三维重建等应用的关键技术。基于三维几何的经典SLAM已经有三十多年的研究历史,并在特定场景下取得了不错的效果。但经典SLAM依赖低级特征,无法面对成像模糊、动态物体、光照变化、快速运动等挑战性场景。由于深度学习可提取场景的高维特征表示,对挑战性的场景有更强的鲁棒性,因此近几年出现了许多将经典SLAM/VO和深度学习结合的方法。本文利用自监督学习的方式,将相机位姿和场景深度联合学习,摆脱了训练数据对真值的依赖。本文将自监督VO看作时序的生成和对抗学习的过程。本方法利用长时序的时空关联,显著降低了轨迹误差;将稠密深度用低维特征表示,通过更新低维特征来高效优化多帧的稠密深度;使用对抗学习的方式自动学习损失函数,克服了光度误差函数的局限性。
Spotlight:
1、将深度和位姿估计看作时序的自监督生成和对抗学习的过程;
2、用长序列的时空约束优化历史估计;
3、用神经网络自监督学习图优化。
李顺恺
45
NIPS分享会
报告题目:Domain-Aware Diverse Face Manipulation
报告摘要:跨域人脸图像在现实生活中应用广泛,研究多样的跨域人脸操纵是计算机视觉领域中的热门方向。GAN与VAE等生成模型的蓬勃发展给跨域人脸图像操纵提供了新的解决思路。然而,基于生成模型的跨域人脸操纵面临以下几个主要的问题: (1)缺少配对跨域数据; (2)身份信息难以保持; (3)难以操纵高分辨率图像。本次报告将和大家深入探讨以上问题,并结合我们在跨视角人脸编辑、异质人脸合成等方向的研究工作提出一些解决思路。
Spotlight:
1、生成模型;
2、跨视角人脸操纵;
3、异质人脸合成。
傅朝友
49
ICCV'19专场 目标检测 & 自然语言定位
报告题目:弱监督指示表达定位
报告摘要:弱监督指示表达定位(REG)旨在根据语言查询定位图像中的目标,其中目标和查询之间的映射在训练阶段是未知的。为了解决这个问题,我们提出了一种新颖的端到端自适应重建网络(ARN)。它以自适应方式建立图像区域(proposal)与查询之间的对应关系:自适应定位和协同重建。具体而言,我们首先提取主体,位置和上下文特征以分别表示图像区域和查询。然后,我们设计自适应定位模块,通过分层注意模型计算每个图像区域和查询之间的匹配分数。最后,基于注意力得分和图像区域特征,我们利用语言重建损失,自适应重建损失和属性分类损失的协同损失来重建输入查询。这种自适应机制有助于我们的模型减轻不同类型语言查询的差异。在四个大型数据集上的实验表明,ARN在很大程度上优于现有的最先进方法。可视化结果表明, ARN可以更好地处理同一场景下存在多个同类对象的情况。
Spotlight:
1、首次在弱监督指示表达定位中引入对位置,关系信息的处理;
2、提出了一种端到端的自适应重建网络(ARN),可以更好地应对不同指示表达之间的差异。
刘雪静
58
文字识别专场
报告题目:基于语义强化编码器解码器框架的场景文字识别方法
报告摘要:近年来,主流的场景文本识别方法大多基于注意力机制的编码器解码器框架,并取得了非常好的性能,能够处理任意形状的文本。但是对于一些如模糊,遮挡,有不完整字符的低质量文本图片,现有的方法依旧很难处理。我们认为这是由于基于注意力机制的方法会更加集中于局部特征,而忽略了图片中整个文本的全局信息,从而缺乏一个有效的引导。本次报告将介绍我们小组发表于CVPR2020上的工作,基于语义强化编码器解码器框架(Semantics Enhanced Encoder-Decoder Framework, SEED)的场景文字识别方法。在现有注意力机制的框架下,SEED通过预测一个全局的语义信息来指导解码过程,同时对全局语义信息进行有效的监督。我们将提出的框架应用到现有识别方法ASTER中,在目前公开的数据集上性能都有明显的提升。
Spotlight:
1、对目前将语义信息与文字方面任务结合的工作进行简述;
2、介绍语义强化的编码器解码器框架;
3、介绍提出的框架在现有识别方法ASTER上的应用。
乔峙
报告题目:基于分割的文字识别方法
报告摘要:近年来由于深度学习的兴起和海量数据的驱动,场景文字识别领域取得了快速的发展,现在比较流行的文字识别的方法采用的是RNN attention的结构,取得显著的识别结果的同时这种结构也有一些缺点,比如在长文本,低质量的文本上容易出现attention的累计误差(attention drift),引起识别错误。最近出现了一种使用分割网络来做文字识别的方法,采用的模型很小而且易于训练,但是后处理过程中涉及到取阈值和找连通域的操作,在一些排列紧密,或者较模糊的文字区域容易造成漏字和多字,另外该网络需要字符级别的监督才能正常训练。
我们在AAAI-20的文章中提出了新的识别模型——TextScanner,同样以分割的方法为基础,在此之上加入了一个简单的排序分支,保证文字中的字符以正确的顺序读取,并大大减轻了上述的分割为基础的识别方法中漏字,多字的问题。除此之外,我们引入了一种新的机制——mutual supervision,使得TextScanner在合成数据上预训练之后,可以用弱监督的方式在没有字符级别监督的真实数据上继续训练。
Spotlight:
1、排序分支;
2、弱监督;
3、在各个数据集上都取得了state-of-the-art的结果;
4、对长文本,中文的识别有优势。
何明航
70
文档理解专题
报告题目:LayoutLM:针对图片型文档理解的文本布局预训练
报告摘要:近年来,预训练技术已经在各种NLP任务中得到了验证。虽然预训练模型得到了广泛的应用,但是它们几乎只关注文本层面的操作,而忽视了对文档图像理解至关重要的文本布局和样式信息。本次将介绍我们在KDD 2020中的工作:我们提出了LayoutLM来联合建模图片型或富文本文档的文本与布局信息,从而应用于文档理解任务。此外,我们还利用图像特征将文字的视觉信息引入到LayoutLM中。据我们所知,这是首次在同一框架中进行文档级预训练,联合学习文本和布局表示。LayoutLM成功地在几个下游任务中取得了SOTA结果,包括表单理解(从70.72%到79.27%),票据理解(从94.02%到95.24%)和文档图像分类(从93.07%到94.42%)。
Spotlight:
1、本文首次将图片型/富文本文档中的文本和布局信息在同一框架中进行预训练,同时充分利用图像特征。该框架几乎可以利用现有的所有文档类型作为训练数据;
2、LayoutLM以Mask Vision-Language Model和Multi-Label Document Classification作为训练目标,在文档图像理解任务中显著优于几个SOTA预训练模型;
3、我们将预训练模型和样例代码进行了开源https://aka.ms/layoutlm。
徐毅恒
57
自监督学习专场
报告题目:基于完形填空任务的视频自监督学习方法
报告摘要:在过去的几年中,卷积神经网络推动了计算机视觉领域的发展。在解决视觉任务时,通常以在大规模数据集如ImageNet和Kinetics上经过预训练的神经网络为初始化模型。这些网络具有丰富的特征表示能力,但需要大量人工标注。通过自监督学习的方式,可以在没有数据标注的情况下,学习丰富的特征表示。自监督方法主要通过设计代理(Proxy)任务,鼓励网络学习数据特征。然后以初始化的方式提升目标(Target)任务的性能。现有的视频自监督方法通常是在固定的任务下进行学习,限制了模型的表示能力。此外,由于缺乏模型评估方法,极大地限制了自监督表示学习的针对性。本次报告将介绍发表于AAAI2020(Oral)的工作,一种基于完形填空任务的视频自监督学习方法(Video Cloze Procedure, VCP),通过引导网络完成视频的完形填空任务,从而学习视频特征。基于完形填空的特性,VCP既可以用作代理(Proxy)任务,也可用作目标(Target)任务。作为代理(Proxy)任务, VCP可以针对不同的特征融合多个自监督任务,增加了网络的扩展性。作为目标(Target)任务, VCP可以作为作为一种评测工具,用于评测不同自监督模型在视频特征上的学习效果。
Spotlight:
1、提出基于视频完形填空的自监督学习方法;
2、提出一种自监督模型评测方法;
3、在行为识别数据集(UCF101)和(HMDB 51)上的实验表明,VCP在不同主干的网络上均有显著提升。
罗德昭
报告题目:基于播放速率感知的视频自监督学习方法
报告摘要:近年来,自监督表征学习由于无需人工标注,特征具有较好的泛化性等优势得到了越来越多的关注,不断有研究在计算机视觉、自然语言处理等领域取得进展,例如在图像中通过一些自监督方法进行预训练在某些目标任务中已经逼近甚至超过一般的ImageNet 预训练模型。然而在视频方向,由于数据相比图像更加复杂,相关的自监督方法距离全监督预训模型在性能上仍有较大差距。本次报告将介绍发表于CVPR2020上的工作,一种基于播放速率感知的视频自监督学习方法(Playback Rate Perception,PRP),相比目前视频自监督学习中基于时序排序任务的大部分工作,本工作则是利用视频的时间多分辨率特性设计了一个新的自监督任务。PRP通过多间隔采样得到不同播放速率的快慢视频,而相应的采样间隔类别,相对快进视频的慢放视频自然而然地成为监督信号,指导网络模型从判别感知和生成感知两方面进行特征学习。实验表明通过PRP的自监督任务学习,网络模型能够对前景运动区域有着较好的激活,而在不同的目标任务上,PRP相比之前的自监督方法都有性能上的提升。
Spotlight:
1、提出了一种基于播放速率感知的视频自监督学习任务;
2、从判别感知和生成感知两方面进行视频特征学习;
3、在UCF101和HMDB51两个数据集的动作分类和视频检索任务上,PRP使用三种网络主干都取得了性能的提升。
姚远
63
图像处理专场
报告题目:针对图像处理网络的模型水印
报告摘要:在本工作中,我们提出了第一个用于保护图像处理网络的模型水印框架。为了达成这个目标,我们利用了空域不可见水印机制。具体来说,给定一个黑盒的目标模型,将具有一致性的不可见水印嵌入在其所有输出中。通过这种方式,当攻击者通过使用目标模型的输入输出对进行模型窃取时,隐藏的水印也将被学习到。为了实现从二进制比特水印到高分辨率图像水印,我们尝试了传统方法和深度学习方法。实验证明了我们提出的水印机制可以抵抗使用不同网络结构和目标函数的模型替代攻击。除深度学习模型外,提出的方法还可扩展到数据和传统图像处理算法的版权保护上。
Spotlight:
1、本文是第一篇研究如何保护图像处理网络知识产权的工作,我们希望它可以吸引对此研究领域更多的关注;
2、我们通过利用空域不可见水印机制,提出了第一个保护图像处理网络的模型水印框架;
3、我们设计了一种新颖的深度水印算法,以提高传统空域不可见水印方法的鲁棒性和容量;4、大量实验证明了我们提出的水印机制可以抵抗使用不同网络结构和目标函数的模型替代攻击。另外,提出的方法可以简单地扩展到数据以及传统图像处理算法的版权保护上。
张杰
4
注意力及记忆模块在神经网络中的最新前沿位
报告题目:Seq2Seq模型在语音识别中的应用
报告摘要:Most ASR systems involve separately trained acoustic, pronunciation and language model components which are trained separately. A single end-to-end trained sequence-to-sequence model, which directly outputs words or graphemes, could greatly simplify the speech recognition pipeline. Attention-based sequence-to-sequence model has made significant progress in the filed of Neural Machine Translation. Speech Transcription and Machine Translation have many similarities. And Seq2Seq Model for speech recognition has become a research hotspot.
田正坤
18
语音识别前沿技术
报告题目:语音关键词检测方法综述
报告摘要:随着智能音箱、语音助手等应用的出现,普通人也可以像科幻场景一样使用语音与机器进行交流。语音关键词检测是实现人机语音交互的重要技术,被广泛地应用于各类智能设备、语音检索系统当中。语音关键词检测可以分成两种,一种是用于设备唤醒、设备控制keyword spotting;一种是应用于语音文档检索的spoken term detection,二者虽然名字类似,但从功能侧重和技术路线上都有所区别。本次分享介绍语音关键词检测的主要方法与最新进展。
Spotlight:
1、语音关键词检测介绍;
2、基于隐马尔可夫模型的语音关键词检测;
3、基于样例查询的语音关键词检测;基于大词汇量语音识别系统的语音关键词检测;
4、基于大词汇量语音识别系统的语音关键词检测;
5、总结。
白烨
报告题目:使用RNN-Transducer进行声学建模
报告摘要:基于联结时序分类(CTC)的声学模型不再需要对训练的音频序列和文本序列进行强制对齐,实际上已经初步具备了端到端的声学模型建模能力。但是CTC模型进行声学建模存在着两个严重的瓶颈,一是缺乏语言模型建模能力,不能整合语言模型进行联合优化,二是不能建模模型输出之间的依赖关系。RNN-Transducer针对CTC的不足,进行了改进,使得模型具有了端到端联合优化、具有语言建模能力、便于实现Online语音识别等突出的优点, 更加适合语音任务,值得引起大家的重视。
Spotlight:
1、CTC模型与不足;
2、RNN-Transducer模型;
3、RNN-Transducer模型的改进。
田正坤
43
INTERSPEECH2019 预讲会
会议简介:本次分享会为大家带来中科院自动化研究所智能交互团队在语音识别、语音增强与语音情感等方面的最新成果。
论文一:Learn Spelling from Teachers: Integrating Language Models into Sequence-to-Sequence Models
简介:现有端到端语音识别系统难以有效利用外部文本语料中的语言学知识,针对这一问题,我们提出采用知识迁移的方法,首先对大规模外部文本训练语言模型,然后将该语言模型中的知识迁移到端到端语音识别系统中。这种方法利用了外部语言模型提供词的先验分布软标签,并采用KL散度进行优化,使语音识别系统输出的分布与外部语言模型输出的分布接近,从而有效提高语音识别的准确率。
论文二:A Time Delay Neural Network with Shared WeightSelf-Attention for Small-Footprint Keyword Spotting
简介:语音关键词检测在智能家居、智能车载等场景中有着重要作用。面向终端设备的语音关键词检测对算法的时间复杂度和空间复杂度有着很高的要求。当前主流的基于残差神经网络的语音关键词检测,需要20万以上的参数,难以在终端设备上应用。 为了解决这一问题,我们提出基于共享权值自注意力机制和时延神经网络的轻量级语音关键词检测方法。该方法采用时延神经网络进行降采样,通过自注意力机制捕获时序相关性;并采用共享权值的方法,将自注意力机制中的多个矩阵共享,使其映射到相同的特征空间,从而进一步压缩了模型的尺寸。与目前的性能最好的基于残差神经网络的语音关键词检测模型相比,我们提出方法在识别准确率接近的前提下,模型大小仅为残差网络模型的1/20,有效降低了算法复杂度。
白烨
论文:Self-Attention Transducers for End-to-End Speech Recognition
简介:针对RNN-Transducer模型存在收敛速度慢、难以有效进行并行训练的问题,我们提出了一种Self-attention Transducer (SA-T)模型,主要在以下三个方面实现了改进:
(1)通过自注意力机制替代RNN进行建模,有效提高了模型训练的速度;
(2)为了使SA-T能够进行流式的语音识别和解码,进一步引入了Chunk-Flow机制,通过限制自注意力机制范围对局部依赖信息进行建模,并通过堆叠多层网络对长距离依赖信息进行建模;
(3)受CTC-CE联合优化启发,将交叉熵正则化引入到SA-T模型中,提出Path-Aware Regularization(PAR),通过先验知识引入一条可行的对齐路径,在训练过程中重点优化该路径。 经验证,上述改进有效提高了模型训练速度及识别效果。
田正坤
论文:Discrimination Learning for Monaural Speech Separation Using Deep Embedding Features
简介:语音分离又称为鸡尾酒会问题,其目标是从同时含有多个说话人的混合语音信号中分离出不同说话人的信号。当一段语音中同时含有多个说话人时,会严重影响语音识别和说话人识别的性能。 目前解决这一问题的两种主流方法分别是:深度聚类(DC, deep clustering)算法和排列不变性训练(PIT, permutation invariant training)准则算法。深度聚类算法在训练过程中不能以真实的干净语音作为目标,性能受限于k-means聚类算法;而PIT算法其输入特征区分性不足。针对DC和PIT算法的局限性,我们提出了基于区分性学习和深度嵌入式特征的语音分离方法。首先,利用DC提取一个具有区分性的深度嵌入式特征,然后将该特征输入到PIT算法中进行语音分离。同时,为了增大不同说话人之间的距离,减小相同说话人之间的距离,引入了区分性学习目标准则,进一步提升算法的性能。所提方法在WSJ0-2mix语音分离公开数据库上获得较大的性能提升。
范存航
6
神经机器翻译 & 关系抽取
报告题目:低(无)资源情况下的神经机器翻译
报告摘要:随着神经网络的发展,基于深度学习的机器翻译系统(神经机器翻译)在大量翻译任务上已经取得了(远远)超越传统基于统计的机器翻译系统的性能。神经机器翻译模型的巨大成功,严重依赖于大规模、高质量的双语语料。然而,获取这些大规模的双语语料需要花费大量的人力和财力,甚至在某些极端情况下,双语语料根本无法获得。因此,研究如何在只有少量双语语料(低资源),甚至在没有双语语料情况(无资源)下,如何训练高性能的神经机器翻译模型,成为学术界和工业界广泛关注的问题。
杨振
32
机器翻译
报告题目:Recent advances in Neural Machine Translation
报告摘要:神经网络机器翻译(NMT)模型已经取得卓越的效果。但仍然存在一些问题和挑战:
1. 基于RNN的NMT模型使用RNN对源端序列编码时仅考虑了词语之间的正反顺序信息,忽略了词语与词语之间的关系,而且RNN通常倾向于忘记有用的历史信息,难以捕获语言学中的长距离依赖信息;
2. NMT模型的翻译效率仍然比较低,解码器在测试阶段的柱搜索过程中,通常需要在搜索空间和搜索效率(翻译质量和翻译效率)之间进行权衡,因此模型的优势无法得到充分发挥;
3. NMT模型大多是自回归的,即以源语言句子和目标端的历史序列作为条件逐词生成整个目标译文。在训练阶段,模型以目标端参考译文的历史序列作为上下文进行预测;而在测试阶段,模型只能使用自身预测出来的历史序列作为上下文。这种训练和测试输入目标端上下文的差异会不断地导致错误累积。此外,词级的训练过程要求所生成的序列与参考译文序列之间严格匹配,这导致对不同于参考译文但合理的翻译的过度校正。本次报告将以缓解上述三个问题为出发点,介绍一下近期提出的三种方法。
Spotlight:
1、在基于RNN的编码器上层引入关系网络层,增强模型对源端句子的表示能力;
2、使用立方体剪枝算法优化NMT解码器,在达到相同甚至更好翻译性能的情况下,比传统柱搜索算法提升了搜索效率;
3、在NMT训练阶段,以一定的概率从前一步的参考译文词语和模型自身预测出的1-best词语之间采样,1-best词语的确定包括词语级别和句子级别的最优,从而使模型在训练时尽量考虑测试时的环境。
张文
报告题目:Retrieving Sequential Information for Non-Autoregressive Neural Machine Translation
报告摘要:近些年来,神经机器翻译在翻译效果方面取得了很大的进展。然而,主流的神经机器翻译模型均采用自回归的解码机制、逐词生成翻译结果,因此翻译的延迟较高,应用场景受限。非自回归机器翻译模型采用非自回归的机制对每个词的翻译概率独立建模,能够并行解码出整个译文,将翻译速度提升十倍左右。本次报告将带大家回顾过去一年多里非自回归机器翻译的相关工作,并分享我们在ACL2019上的工作:针对非自回归模型序列信息缺失问题,设计强化学习算法进行序列级训练,或将非自回归模型融入到自回归结构中。
Spotlight:
1、非自回归机器翻译;
2、序列信息缺失;
3、强化学习。
邵晨泽
37
机器翻译专场之同步双向与多语言机器翻译
报告题目:Multilingual Neural Machine Translation
报告摘要:随着神经网络机器翻译的快速发展,为了实现多语言之间的相互翻译,通常需要构建多个一对一的翻译模型。一方面每个翻译模型需要大规模存储和计算资源,从而多语言翻译的存储和计算消耗非常巨大;另一方面多语言翻译在独立模型下无法实现知识共享。近年来,使用一套框架解决多语言机器翻译任务受到人们越来越多的关注。多语言机器翻译不仅可以有效的解决资源消耗和知识共享问题,同时由于参与翻译语言对的扩充,对于低资源和零资源翻译任务上有了一定程度的提升。本次报告将回顾过去一年多里多语言机器翻译的相关工作,并分享我们在ACL2019上提出的一种结构紧凑且语言敏感的多语言机器翻译方法。
Spotlight:
1、多语言神经机器翻译方法介绍;
2、多语言机器翻译在低资源和零资源上面的应用;
3、语言相关的模块对多语言翻译的影响。
王亦宁
6
神经机器翻译 & 关系抽取
报告题目:关系抽取:从“简单”到“复杂”
报告摘要:关系抽取致力于从给定非结构化文本(句子)中识别出两个实体之间的关系。根据给定信息的不同,可以分为关系分类和关系抽取两个子任务。我们从相对简单的关系分类任务开始,介绍该任务的定义和经典的模型。然后介绍更复杂一些的关系抽取任务。主要包括与关系分类任务的不同之处以及该任务中的经典模型。最后介绍关系抽取任务中更复杂的情况,即单个句子包含多个关系事实的情形。这部分会讨论为什么之前的关系抽取模型在这种情形下不适用,以及我们是如何来解决这个问题的。
曾祥荣
14
走进微软亚研:自然语言处理前沿
报告题目:上下文敏感的改写式回复生成模型
报告摘要:近些年来,随着互联网的兴起,我们可以方便快捷的从网络上抓取大规模人与人的对话,并以此训练数据驱动的聊天机器人。已有的数据驱动的聊天机器人分为基于生成的聊天机器人和基于检索的聊天机器人。但他们均有各自的不足:
1、基于生成的聊天机器人有着“万能回复”的问题。所谓的“万能回复”,是指那些看似能够回复任何输入的但却没有实际意义、不利于对话过程持续进行的句子,例如“我不知道”。
2、基于检索的聊天机器人虽然回复信息量充分,但相关性有时不佳,且强依赖索引的数据。
在本次演讲中,我将介绍我们在AAAI-19上发表的题为“上下文敏感的改写式回复生成模型”的工作。在这个工作中,我们提出了一个新的范式:“先检索,后改写”,用于回复生成。在该框架中,我们首先利用检索式聊天机器人检索一个回复(原型),之后根据该回复原本的上下文和当前上下文之间的差异来改写此回复。这种新的范式不仅继承了检索式聊天机器人回复流畅和富有信息量的优势,而且还享有生成式聊天机器人的灵活性和相关性。实验表明,我们的方法在相关性,多样性和原创性方面优于传统模型。
Spotlight:
1、聊天机器人的研究进展,和方法优缺点;
2、基于改写的回复生成模型;
3、基于改写的回复生成模型与传统的检索式聊天机器人和生成式聊天机器人对比。
吴俣
44
对话系统专题
报告题目:Context Modeling for Multi-turn Dialogue Generation
报告摘要:开放域对话生成任务主要包括单轮对话和多轮对话这两种设定。相较于单轮对话,多轮对话更加符合实际应用场景,同时更具有研究挑战性。对话历史信息有如下的特点:
1、词到句,句到片段的层次性结构;
2、很多冗余内容与当前回复无关;
3、词或句存在远距离依赖关系。对话历史信息对于生成内容相关且信息量丰富的回复有很大的作用,因此如何建模历史信息显得尤为重要。本次报告将带大家梳理和回顾在多轮对话历史信息建模和回复生成方面的主要工作。
Spotlight:
1、开放域对话系统;
2、多轮对话历史信息建模;
3、隐变量与CVAE。
申磊
报告题目:Detecting Identity Fraud via Dialogue Interactions
报告摘要:检测出身份欺诈者在诸如金融业等许多现实场景下具有十分重要的意义。然而,目前并没有有效的方法能够很好地解决这一问题。鉴于此,我们提出使用对话系统来判断贷款者的身份状态。具体而言,我们的对话系统包含两个主要的模块:第一个是知识图谱构造器,该模块为每个贷款申请者构造一个和其身份信息相关的知识图谱;第二个是对话管理模块,该模块能够根据贷款申请者的身份信息动态地生成一系列的问题并根据贷款者的回答情况判断其身份状态。此外,我们提出了一种新的用户仿真方法来评估我们的对话系统。实验证明了,和基于规则的系统相比,我们的方法能够在更短的交互轮次内更加准确地判断出贷款者的身份状态。此外,实验分析发现强化学习所探索得到的对话策略是可解释的并且非常的灵活。
Spotlight:
1、提出了一个工业界和学术界都感兴趣的对话任务,即通过对话交互判断用户的身份是否是伪造的;
2、我们指出了该对话系统存在的三个主要挑战并提出了相应的解决方案;
3、实验证明了我们的方法明显优于规则的系统。
王唯康
54
自然语言处理专场
报告题目:对话系统中的自适应参数化方法 (Adaptive Parameterization for Neural Dialogue Generation)
报告摘要:主流的开放域对话系统采用Sequence-to-Sequence 的范式。通常来说,给定上文,这类系统使用单组可学习的参数来产生回复。当面临场景多样的对话时,此类系统的适应性往往受限,并且易于产生通用回复(Generic responses)。本文提出了一种参数自适应的对话模型(Adaptive Neural Dialogue generation model, AdaND),使用样本自适应的参数化方法来应对场景多样的对话建模问题。对于每条对话样本,AdaND 都会根据其上文产生一组Encoder-Decoder参数。具体来说,我们提出了两种自适应参数化机制,分别是上文感知的参数化方法和话题感知的参数化方法。在上文感知的参数化方法中,模型直接从当前上文的局部语义来产生参数;在话题感知的参数化方法中,模型首先推断出该对话样本的话题分布,然后再根据此话题分布来产生参数。话题感知的参数化方法使得模型参数可以在话题相似的对话样本之间共享。在公开数据集上的若干实验也验证了所提出方法的有效性。
Spotlight:
1、提出了一种上文感知的参数化方法。相比于之前仅学习一组静态参数的方法,本文模型学习的是如何产生一组特定于当前上文的参数;
2、引入变分话题推断的方法,并提出一种话题感知的参数化方法,使得模型参数可以在话题相似的对话样本之间共享。
蔡恒毅
61
对话系统专场
报告题目:多领域端到端任务型对话系统
报告摘要:目前端到端任务型对话系统已经取得了一定的成功,但是现有的系统很少关注于多领域场景。在对话数据标注十分困难的情况下,如何有效利用所有领域的数据来提高每一个对话领域(尤其是数据稀少的领域)性能的多领域端到端任务型对话系统是一个值得研究的方向。
本次将重点分享我们在ACL2020的工作,一个基于动态聚合网络的多领域端到端任务型对话系统,该系统不仅取得了目前的SOTA效果,并且在few-shot场景下取得了12.6%的显著提升。
Spotlight:
1、我们在端到端任务型对话系统提出使用shared-private框架去捕获领域共有和领域特定的特征,并进一步提出动态聚合函数取学习不同领域之间的相关性;
2、我们的模型仅取得了目前的SOTA效果,并且在few-shot场景下取得了12.6%的显著提升,能够很快适配到新的领域。
覃立波
14
走进微软亚研:自然语言处理前沿
报告题目:阅读+验证:面向无答案问题的机器阅读理解
报告摘要:理解自然语言文本并回答相关问题是自然语言处理的核心任务之一。然而,当所提问题在当前给定文本下无法被回答时,我们要求系统能够拒绝给出答案。为了解决这一问题,当前工作通常会预测额外的“无答案”概率来检测问题是否可回答。然而,这些方法未能通过进一步验证预测答案的合法性来检测问题的可回答性。在本次演讲中,我将介绍我们在AAAI-19上的最新工作。在该工作中,我们提出一种新颖的阅读+验证系统,该系统不仅利用一个神经网络阅读器来提取候选答案,还使用了一个答案验证器来判断预测答案是否被输入文本所蕴含。此外,我们引入了两个辅助损失来帮助阅读器更好地处理答案提取以及无回答检测这两个任务,并且探索了针对答案验证器的三种不同架构。在SQuAD 2.0数据集上的实验显示,我们的系统在测试集上获得了74.2 F1 ,在提交时取得了顶尖的性能(2018年8月28日)。
Spotlight:
1、面向无答案问题的机器阅读理解研究进展;
2、阅读+验证系统;
3、针对答案提取的辅助损失函数设计和针对答案验证的架构探索。
胡明昊
31
情感语音识别与合成
报告题目:The introduction of speech emotion recognition
报告摘要:语音情感识别能够使人机交互更加和谐自然,近来收到了越来越多的关注。语音情感识别系统主要分为语音情感特征提取和情感建模两个重要的部分。传统的语音情感特征主要是基于手工特征包括韵律、频谱和音质三种,传统的情感模型主要是基于SVM和HMM等方法。随着深度学习的发展,深度神经网络也被成功地应用在了语音情感识别领域,主要是利用神经网络提取更为鲁棒有效地情感特征和基于时序关系建立情感模型,而且其他领域的模型也有效地提升了语音情感识别的性能。
Spotlight:
1、有效地提取鲁棒的有效的情感特征;
2、基于时序上下文的情感建模;
3、自编码与CTC。
黄健
43
INTERSPEECH2019 预讲会
会议简介:本次分享会为大家带来中科院自动化研究所智能交互团队在语音识别、语音增强与语音情感等方面的最新成果。
论文一:Conversational Emotion Analysis via Attention Mechanisms
简介:传统的对话情感识别方法通常从孤立的句子中识别情感状态,未能充分考虑对话中的上下文信息对于当前时刻情感状态的影响。针对这一问题,我们提出了一种融合上下文信息的多模态情感识别方法。在输入层,采用注意力机制对文本特征和声学特征进行融合;在识别层,采用基于自注意力机制的双向循环神经网络对长时上下文信息进行建模;为了能够有效模拟真实场景下的交互模式,引入身份编码向量作为额外的特征输入到模型,用于区分交互过程中的身份信息。在IEMOCAP情感数据集上对算法进行了评估,实验结果表明,该方法相比现有最优基线方法,在情感识别性能上提升了2.42%。
论文二:Unsupervised Representation Learning with Future Observation Prediction for Speech Emotion Recognition
简介:由于情感数据标注困难,语音情感识别面临着数据资源匮乏的问题。虽然采用迁移学习方法,将其他领域知识迁移到语音情感识别,可以在一定程度上缓解低资源的问题,但是这类方法并没有关注到长时信息对语音情感识别的重要作用。针对这一问题,我们等人提出了一种基于未来观测预测(Future Observation Prediction, FOP)的无监督特征学习方法。FOP采用自注意力机制,能够有效捕获长时信息;采用微调(Fine-tuning)和超列(Hypercolumns)两种迁移学习方法,能够将FOP学习到的知识用于语音情感识别。该方法在IEMOCAP情感数据集上的性能超过了基于无监督学习策略的语音情感识别。
连政
55
自然语言处理专场
报告题目:基于胶囊网络的细粒度情感分析
报告摘要:细粒度情感分析旨在分析自然语言中面向特定目标的情感,是情感分析任务中目前最有挑战的任务之一。其主要困难在于一段话中会有多个评论目标,并且很可能表现出多种情感倾向。如何有效地分离这些情感特征成为最大的挑战。常规的基于神经网络的方法通常使用池化或者注意力机制来寻找特定的情感词,但是还不足以聚合这些不同极性的情感词到相应的目标。为了解决这些问题,我们提出使用胶囊网络构建向量化的特征,同时使用EM动态路由算法替代池化操作,动态路由可以通过聚类的方式分离重叠交叉的特征。更进一步地,我们设计了交互式注意力机制在路由算法中,加强目标词与上下文的关系。在三个主流的细粒度情感分析数据库下(SemEval 2014, Twitter),我们的方法均取得了最好的结果。
Spotlight:
1、本文是胶囊网络在自然语言中的探索,是胶囊网络首次在细粒度情感分析中的应用;
2、我们给胶囊网络的动态路由算法融入了交互式注意力机制,加强了目标和文本之间的关系。
杜纯宁
31
情感语音识别与合成
报告题目:End-to-End Speech Synthesis
报告摘要:如何使人机交互中机器的声音更具情感和表现力一直是一个重要的研究热点。不同于传统pipeline式的语音合成系统,端到端的语音合成方法凭借简练的模型结构,突出的性能获得了越来越多的关注,其中以WaveNet, tacotron, tacotron2等最为著名。
Spotlight:
1、传统语音合成方法简介;
2、基于注意力机制的序列模型;
3、神经声码器。
郑艺斌
53
EMNLP-IJCNLP'19专场
报告题目:一种基于拆分与重组的上下文改写方法
报告摘要:对话系统中的语义解析是一项重要而具有挑战性的任务,其中一大挑战就是相关训练语料的不足。而近些年语义解析领域在飞速发展,这启发我们将对话系统中的语义解析任务拆解为两个子任务:上下文重写和语义解析。子任务一旨在改写对话中的语句,从而消解其指代,补充其省略内容;子任务二则可以直接利用一个已经训练好的上下文无关的语义解析器,来生成对话对应的SQL语句。本篇论文主要聚焦在第一个任务上,为了完成这个任务,我们提出了一种新颖的基于拆分与重组两个阶段的强化学习方法。不同于直接利用原始语句生成改写句,这种方法引入span作为改写的基本单位,再利用span间的语义冲突重组生成改写句。在FollowUp数据集上进行的实验表明,我们方法的性能远远超过CopyNet,端到端指代消解网络等强大的基线模型。除此之外,我们还将在SQA数据集上探索了我们提出方法的可扩展性。
Spotlight:
1、提出结合上下文改写与上下文无关的语义解析器完成对话中语义解析的任务;
2、为上下文改写引入一种中间表示,极大地提升了上下文改写的性能;
3、介绍的基于强化学习的方法是普适的,有较大可扩展性。
刘乾
66
诗歌生成专场
报告题目:基于学习可控混合隐空间的多样诗歌自动生成
报告摘要:诗歌的自动生成是构建可计算性创新的重要一步,在商业娱乐、智能文化教育、数字人文研究等领域有广泛的应用价值。目前的神经诗歌生成模型在诗歌质量上取得了较大的提升,然而这些生成的诗歌往往缺乏多样性,即使给定不同的输入(关键词或者标题),生成的内容也多有雷同。相关的文学理论研究表明,诗人的人生经历,所处的时代背景,所属的文学流派等因素能够影响他们的写作风格,进而使得人类创作出来的诗歌丰富多样。基于此,我们提出了MixPoet模型。该模型直接建模这些影响因素,进而构建出多种不同的风格,从而提升生成诗歌的多样性。基于半监督变分自动编码器,我们的模型使用对抗训练将风格隐空间解耦为多个子空间,每个子空间条件依赖到一个影响因素。通过混合不同因素对应的子空间,我们的模型能够构建多样的风格并以此区分生成的诗歌。实验结果表明,我们的模型生成的诗歌在保证质量的同时,成多样性能够超过大部分现有模型。
Spotlight:
1、本文第一次将文学作品的风格解释为不同因素的组合,并在隐空间进行建模,以提升生成诗歌的多样性;
2、本文提出了一个半监督的框架进行风格空间的解耦和学习,仅需要少量的标注数据训练,模型就能在一定程度上控制风格因素的组合;
3、在中文古典诗歌生成任务上的实验结果表明,本文提出的MixPoet模型能够同时提升诗歌的质量和多样性。
矣晓沅
54
自然语言处理专场
报告题目:基于归纳网络的少样本文本分类
报告摘要:深度学习方法在数据稀缺的场景下往往表现很差,在这种挑战性的场景下,近期的工作往往使用meta-learning的方法来模拟少样本学习任务,通过在样本级别把query和支撑集进行比较来完成分类。但是这种样本级别的比较往往会被同一个类中各种不同的表述方式所干扰,因此我们需要为支撑集中的每个类别学习一种泛化的表示,然后去和query进行度量。在本工作中,我们提出了一个新的归纳网络(Induction Networks)来学习这样的一般化的类别表示,通过在meta learning的过程中引入动态路由算法(dynamic routing),我们的模型对于未见过的类别有良好的适应能力。我们在一个通用的英文基准数据集和一个真实场景的中文意图分类数据集上验证我们的模型,均取得了state-of-the-art的结果,证明了在少样本学习场景下学习类级别表示的有效性。
Spotlight:
1、首次基于少量支撑集建模归纳类别特征的能力,从而缓解自然语言中样本多样性问题;
2、将dynamic routing算法与meta-learning 相结合,在unseen 类别上具有良好的适应能力,在中英文少样本分类数据集上取得state-of-the-art的结果。
耿瑞莹
24
SFFAI X ICT 自然语言处理预训练专场
报告题目:From Word Representation to BERT
报告摘要:本次分享主要是通过简要介绍预训练词向量研究历程(word2vec,glove,ELMo等),重点介绍BERT的主要贡献。作为刷新GLUE榜单11项NLP任务(句子关系判断,分类任务,序列标注任务等)成绩的预训练模型,BERT不仅沿袭将词向量和下游任务结合在一起实现上下文相关的优点,并且通过masked语言模型实现了真正的深度双向模型。这使得BERT不仅能更好的处理sentence-level的任务,在token-level的语言任务上也达到了不错的效果。本次分享还将简要介绍BERT的相关应用以及一些近期的相关工作,探讨BERT对NLP任务的影响和未来发展。
Spotlight:
1、分享预训练词向量研究历程;
2、介绍BERT的背景知识,模型思路和重大贡献以及相关应用;
3、介绍近期相关工作,谈谈未来发展和感想。
罗玲
报告题目:Generative Pre-Training in NLP & Its Generalization
报告摘要:本次分享将主要关注OpenAI在自然语言处理领域的两个预训练的工作GPT和GPT-2.0. 通过分析GPT的两个模型,重点探讨基于单向语言模型的NLP预训练过程对序列生成任务的作用以及利用预训练模型进行NLP多种任务无监督测试的方式和效果。GPT-2.0在机器翻译、问答系统、文本摘要等复杂任务上的性能展示出NLP预训练模型的强大功能以及其在自然语言序列生成中性能。本次分享还将简要介绍利用预训练模型在后续任务利用监督信息进行fine-tune的一些近期工作。
Spotlight:
1、分享GPT、GPT-2.0的设计思路和性能分析;
2、介绍GPT系列模型所应用的各种NLP任务定义及示例;
3、介绍NLP领域无监督预训练搭配监督微调的近期工作。
马聪
37
机器翻译专场之同步双向与多语言机器翻译
报告题目:同步双向文本生成 (Synchronous Bidirectional Text Generation)
报告摘要:基于编码器-解码器框架的序列生成模型已经在神经机器翻译,自动摘要,语音识别,图像描述等文本生成任务上取得了显著的效果。现有的文本生成模型通常采用从左到右的方式依次生成输出序列。然而,这种单向解码框架不能充分利用从右向左解码方向产生的目标语言侧的未来上下文信息,因此存在不平衡输出的问题。基于此,我们提出了一种同步双向文本生成模型。该模型使用从左到右和从右到左的解码同时交互地预测其输出,以便同时利用历史和未来的信息。同步双向神经机器翻译模型在汉语到英语和英语到德语翻译任务上获得了当前最好的性能。此外,我们最近进一步实现了一个计算机不太容易实现人类肯定无法完成的事情:同时正向生成和反向生成,到中间点结束!该算法应用于机器翻译和自动摘要,不仅显著提升了文本生成的效率,还改善了生成文本的质量。
Spotlight:
1、提出了一种新颖的同步双向文本生成方法;
2、实现了一个奇妙的事情:同时顺着说和倒着说一句话,到中间点结束;
3、算法在机器翻译,自动摘要等序列产生任务上取得了显著的效果。
周龙
53
EMNLP-IJCNLP'19专场
报告题目:异构知识图谱实体对齐和关系对齐的联合学习
报告摘要:实体对齐是实现异构知识图谱知识融合的有效手段。最近主流的实体对齐方法大都是基于嵌入表示的方法,即利用知识图谱的表示学习模型去建模知识图谱的结构信息,得到实体表示,从而通过计算不同知识图谱的实体表示间的距离来判断是否对齐。然而,目前绝大部分工作都没有尝试显式地利用关系表示去辅助实体对齐,而我们的论文证明这是一个提升实体对齐效果的简单且非常有效的方法。这篇论文提出了一个新颖的实体对齐联合学习框架。我们方法的核心是一个同时学习实体和关系表示的图卷积神经网络框架。我们的方法并不需要预先对齐的关系去学习关系表示,而是首先通过图卷积神经网络学到实体表示,然后利用实体表示去近似关系表示,进一步,我们将关系表示融合进实体表示中,从而迭代地学习两者更好的表示。我们在三个现实世界中的跨语言数据集上测试了我们的模型,实验结果显示我们的方法大幅度地超过了目前的state-of-the-art模型。
Spotlight:
1、提出了一个新颖的针对实体对齐任务的联合学习框架,可以同时实现实体对齐和关系对齐;
2、我们的模型不需要预先对齐关系,仅依赖一小部分种子对齐实体去得到实体和关系表示。且我们的联合学习框架可以灵活地应用于现有的实体对齐模型上;
3、我们的模型效果在实体对齐和关系对齐任务上都超过了现有的state-of-the-art模型。
吴雨婷
55
自然语言处理专场
报告题目:基于会话结构和时序动态建模的用户立场与消息真实性联合预测
报告摘要:现今社会媒体上充斥着大量的真实性有待核实的内容,此类消息的广泛传播产生了极大的社会危害。待查事实(Rumor)指的是发布前未经核实的消息,其真实性存在如下三种情况:真、假、仍无法核实,真实性为假的消息即为我们日常语境下所称的“谣言”。本次报告关注的研究任务为对待查事实消息的真实性进行预测。早期研究发现,社会媒体用户对于待查事实所表达出的立场倾向性(支持、否认、怀疑等)可以作为预测消息真实性的重要线索,因而将预测用户立场作为真实性预测的一个前置步骤,在外部证据不足的情况下利用“群体智慧”(Crowd wisdom)来进行预测。以往的研究工作主要存在以下三点问题:在用户立场预测的建模过程中,将用户回复形成的会话树结构打破为分支序列结构,造成局部上下文丢失;在消息真实性预测的建模过程中,立场信息作为重要的指示性信号却未被充分利用;立场预测与真实性预测这两个呈前后级联关系的任务往往被分开建模。本次报告将回顾相关研究,并介绍发表于EMNLP 2019的工作,试图应对上述三点问题:使用改进的图卷积网络建模会话结构来预测用户立场;基于用户立场随时间推移所呈现的动态演化特点,建模其时序动态性来预测消息真实性;采用层次化多任务学习来对两个级联式的任务进行联合建模。所提出的方法在两个Twitter数据集上均取得了目前最佳的效果。
Spotlight:
1、提出了改进的图卷积网络对用户回复形成的会话结构进行建模,预测用户立场倾向性;
2、根据用户立场的动态演化特性,结合内容特征与立场特征来预测消息真实性,并将该部分与立场预测集成到一个端到端的网络中;
3、两个Twitter数据集上的实验结果表明所提出的方法在立场预测和真实性预测上均取得了目前最佳的效果。
韦鹏辉
21
SFFAI X IEEE 数据挖掘
报告题目:套装搭配推荐在图神经网络上的应用
报告摘要:随着服装时尚市场的快速发展,用户对于流行时尚推荐的需求越发高涨。我们主要针对服装搭配问题,即 “如何为几件选定的服装挑选最适合的衣服?”这个问题展开讨论。本文中,提出NGNN模型改进图神经网络,建模套装商品之间的交互关系,并从图像文本双模态的角度,解决套装搭配问题,获得了很好的效果。
Spotlight:
服装搭配,图神经网络。
崔泽宇
报告题目:深度学习时代的个性化推荐
报告摘要:随着信息时代的发展,人们往往被信息过载的问题所困扰,难以找到自己喜欢或需要的信息,因而个性化推荐的重要性越发凸显。在深度学习蓬勃发展的今天,不同于图像、语音等领域的应用,深度学习在推荐领域的应用面临着不一样的问题,也造成了在某些场景下的难以推广。基于深度学习的个性化推荐技术,核心在于特征的非线性交互表达学习。本讲将着重介绍个性化推荐技术不同层面的特征交互学习,以及现阶段所面临的问题和发展方向。同时,本讲也将介绍其他数据挖掘领域的预测性任务,着重讲述与个性化推荐存在共性的建模方法和问题。
Spotlight:
个性化推荐,数据挖掘中的预测任务。
刘强
59
推荐系统专场
报告题目:个性化推荐系统中的非采样学习 (Non-Sampling Learning for Personalized Recommendation)
报告摘要:近年来,深度学习技术在许多领域展现出非凡的应用效果。然而,现有的将深度学习应用到推荐系统任务的工作主要集中在探索和引入不同的神经网络框架,在模型学习算法方面的研究相对较少。为了优化模型,现有的工作往往使用负采样策略 (Negative Sampling) 进行训练。虽然负采样方便并且易于实现,但是许多最近的研究表明负采样策略的鲁棒性较差,可能会忽略掉重要的训练样例从而导致模型无法收敛到最优的状态。清华大学信息检索课题组 (THUIR) 首次探索了将非采样策略 (Non-Sampling, Whole-data based Learning)应用到基于神经网络的推荐系统中。通过严格的数学推理,我们设计了一系列高效的非采样学习算法,将从整体数据中学习的时间复杂度从理论上降低了一个数量级。基于所设计的高效非采样算法框架,我们分别设计了不同应用场景下的神经网络推荐模型,并在多个现实数据集上相比于已有state-of-the-art方法在训练时间和模型表现上均取得了非常显著的效果。
Spotlight:
1、通过严格的数学推理,我们设计了一系列高效的非采样学习算法,将从整体数据中学习的时间复杂度从理论上降低了数十倍,所设计的高效学习算法可以广泛的应用于多个机器学习任务;
2、基于所设计的高效非采样算法框架,我们分别设计了不同应用场景下的神经网络推荐模型,并在多个现实数据集上相比于已有state-of-the-art方法获得非常显著的提升;
3、所设计的高效非采样算法填补了非采样神经网络推荐模型研究的空白,为基于神经网络的推荐模型的研究开辟了一个新的方向。
陈冲
62
社交网络处理专场
报告题目:大规模社交网络中社交关系解除的分析与预测
报告摘要:在新浪微博等社交媒体平台中,取消关注是一种非常普遍的现象。近年来,有关社交网络演化的研究大多聚焦在关系的建立上,如链接预测问题和好友推荐问题。对于社交关系的解除,由于大规模数据的缺失,很少被研究人员关注。在这项工作中,为了系统性的分析和预测社交网络中关系解除的现象,本工作爬取了包含178万个用户和4亿社交关系的新浪微博数据。基于该数据,本文探究了用户的时间属性(微博历史,取消关注历史)与空间属性(社交网络关系)对社交关系解除的影响,并提出了融合异构信息的联合模型(UMHI)。实验表明,我们的方法在所构建的数据集上取得了远高于基线方法的性能。
Spotlight:
1、构建了一个大规模的记录社交关系解除的数据集,该数据集记录了178万新浪微博用户在一个月内的社交关系动态;
2、基于构建的数据集,本文探究了时空属性对社交关系解除的影响,并提出了融合异构信息的联合模型。
吴昊哲
28
《强化学习》 书籍共读
报告题目:Chapter 2: Multi-armed Bandits
报告摘要:In this chapter we study the evaluative aspect of reinforcement learning in a simplified setting, one that does not involve learning to act in more than one situation. This non-associative setting is the one in which most prior work involving evaluative feedback has been done, and it avoids much of the complexity of the full reinforcement learning problem. Studying this case enables us to see most clearly how evaluative feedback differs from, and yet can be combined with, instructive feedback.
The particular non-associative, evaluative feedback problem that we explore is a simple version of the k-armed bandit problem. We use this problem to introduce a number of basic learning methods which we extend in later chapters to apply to the full reinforcement learning problem. At the end of this chapter, we take a step closer to the full reinforcement learning problem by discussing what happens when the bandit problem becomes associative, that is, when actions are taken in more than one situation.
Spotlight:
1、站在强化学习视角审视Multi-armed Bandits问题;
2、通过这一特定的任务环境,深入浅出,直击强化学习的基本的思想方法。
任民
34
《强化学习》 书籍共读
报告题目:Chapter 3: Finite Markov Decision Processes
报告摘要:In this chapter we introduce the formal problem of finite Markov decision processes, or finite MDPs, which we try to solve in the rest of the book. This problem involves evaluative feedback, as in bandits, but also an associative aspect—choosing different actions in different situations. MDPs are a classical formalization of sequential decision making, where actions influence not just immediate rewards, but also subsequent situations, or states, and through those future rewards. Thus, MDPs involve delayed reward and the need to trade off immediate and delayed reward. Whereas in bandit problems we estimated the value q⇤(a) of each action a, in MDPs we estimate the value q⇤(s, a) of each action a in each states, or we estimate the value v⇤(s) of each state given optimal action selections. These state-dependent quantities are essential to accurately assigning credit for long-term consequences to individual action selections.
Spotlight:
1、从形象走向抽象,给出强化学习的形式化描述;
2、建立基于马尔科夫过程的数学模型。
任民
14
走进微软亚研:自然语言处理前沿
报告题目:走进微软亚洲研究院
报告摘要:介绍微软亚洲研究院的整体情况,进展以及机会。
孙丽君
19
优秀博士经验分享会暨SFFAI 2018 SpeaKing颁奖典礼
报告题目:经验分享之我的科研经历
报告摘要:通过回顾自己从本科保研开始,至今为止的科研经历,分享在每一个阶段自己的一些经验,主要包括硕士与博士的选择、本科毕设的把握、研究方向的确定、科研入门的心得、科研与工程的平衡、论文撰写与投稿等,希望在新的学年里,自己的一些经验能够帮助学弟学妹们更好的科研。
Spotlight:
回顾自身的科研经历,分享不同阶段的经验。
张士峰
报告题目:科研经历和经验分享
报告摘要:通过回顾自己的科研经历,分享一些自己科研过程中的经验。主要包括专业的选择,科研方向的选择,文献的阅读,论文的撰写和投稿。希望自己博士三年的经历,能对学弟学妹们的科研有所帮助。
Spotlight:
回顾自身科研经历,分享科研经验。
黄怀波
20
SFFAI X IEEE WIE 师姐分享会
报告题目:博士生活杂谈
报告摘要:分享个人在自动化所的读博经历与收获的感悟,在读博期间的成长与遗憾,旨在与大家交流学习,共同提高。
Spotlight:
1、读博经历;
2、分享交流。
王少楠
报告题目:科研经历分享与交流
报告摘要:回顾并分享每个重要科研阶段的经历和体会,主要包括科研方向选择、入门知识积累、论文撰写与投稿、科研与生活的平衡等内容。期待能与学弟学妹们进行充分的交流,并共同进步。
Spotlight:
1、分享科研经历;
2、交流科研经验。
李祎
报告题目:科研经历与工作经验分享
报告摘要:通过回顾自己的科研与工作经历,分享一些自己在这些过程中的经验,主要包括硕博的选择,科研方向的确定及入门,论文的撰写与投稿,求职与工作的经历。希望自己五年的求学之路和刚刚踏上的工作征程,能对学弟学妹们有所帮助。
Spotlight:
1、回顾自身经历;
2、分享科研与工作经验。
考月英
41
SFFAIx旷视 技术圆桌派 for PhDs-人工智能在个人终端上的应用会
报告题目:人工智能在个人终端上的应用-以生物安全与影像为例
范浩强
陈嘉晖
报告题目:人工智能在个人终端上的应用——以生物安全与影像为例
报告摘要:本次活动将讨论人工智能技术在生物安全、影像等方面的潜力,以及在个人终端上应用中的机遇与挑战。
戢仁和

合作单位

讲者来自学校及单位
小助手微信号
公众号
直播回看
手机号:18510866934
邮   箱:zechao.li@mustedu.cn
地   址:北京市海淀区中关村大街
京ICP备18046829号