ICLR 2023杰出论文奖得【dé】主分享:适配【pèi】任意密【mì】集预【yù】测任务的通【tōng】用小【xiǎo】样本学习器

2024-9-22 11:28:23来源:新智元

国【guó】际【jì】学习【xí】表【biǎo】征【zhēng】会议 ICLR(International Conference on Learning Representations),被公认为当前【qián】最具影响力的机器学习【xí】国际学术会议之一。

在今【jīn】年的 ICLR 2023 大会【huì】上,微软亚洲研究院发表了【le】在机器学习鲁棒性、负【fù】责任的人工智能等领域的最新【xīn】研【yán】究【jiū】成果。

其中,微软亚【yà】洲【zhōu】研究院与韩国科学【xué】技术【shù】院(KAIST)在双方学术合作【zuò】框架下的科【kē】研合作成果,因出色的清晰【xī】性、洞察力、创【chuàng】造力和潜在【zài】的持久影响获评【píng】 ICLR 2023 杰出论【lùn】文奖。


(相关资料图)

论文【wén】地址【zhǐ】:https://arxiv.org/abs/2303.14969

VTM:首个适配所有密集预测任务的小样本学习器

密【mì】集预测任务是计算机【jī】视觉【jiào】领域【yù】的一【yī】类重要任务,如语义【yì】分割、深度估【gū】计、边缘检测和【hé】关键【jiàn】点检测等。对于【yú】这类任【rèn】务,手动标注像【xiàng】素级标签面临着难以承受的巨额成本。因此,如何从少量的【de】标注【zhù】数据【jù】中学习并作【zuò】出准【zhǔn】确预【yù】测,即小样本学习,是该领域备受关【guān】注【zhù】的【de】课题【tí】。近年来,关于小样本学【xué】习的研究不断取得突破【pò】,尤其是一【yī】些基于元学习和对抗学习的方法,深受学术界的关【guān】注【zhù】和【hé】欢迎。

然而,现有的计算机视觉小【xiǎo】样本学习方法一【yī】般针对特定的某【mǒu】类任务,如分类任务【wù】或【huò】语义分割【gē】任【rèn】务。它【tā】们【men】通常在设计模型架构【gòu】和训练过程中利【lì】用【yòng】特定于【yú】这些任务的先验【yàn】知识和假设,因此不适合推广【guǎng】到【dào】任意的密集预测任务。微软【ruǎn】亚洲研【yán】究院的【de】研究【jiū】员们希望探究一个核心问【wèn】题:是否【fǒu】存在一种通用的小样【yàng】本学习器,可【kě】以从少量标记图像中【zhōng】学习【xí】任意段未见【jiàn】过的密集预测任【rèn】务。

一个【gè】密集预测任务的目标【biāo】是学习从输入图像到以像素【sù】为单位【wèi】注释的标【biāo】签【qiān】的映射,它可以【yǐ】被定【dìng】义为:

其【qí】中 H 和 W 分【fèn】别是图像的高与宽【kuān】,输入图【tú】像一【yī】般包含 RGB 三个通道,C_Τ 表示输出通道的数目。不同【tóng】的密集【jí】预测任务【wù】可能【néng】涉及不同的输【shū】出通道数目和通道属性,如语【yǔ】义分割任务【wù】的输出是多通道二值的,而深度估计任务的输【shū】出是单通道连【lián】续值的。一个通用的小样【yàng】本学习器【qì】 F,对于【yú】任何这样的任务 Τ,在给定【dìng】少量标记样本支持集【jí】 S_Τ(包含了 N 组【zǔ】样本【běn】 X^i 和标注 Y^i)的情况下【xià】,可以【yǐ】为【wéi】未见过的查【chá】询图像 X^q 产生预测【cè】,即【jí】:

如果【guǒ】存在适配【pèi】任意密集预测任务【wù】的通【tōng】用小样本学【xué】习器,那么【me】必须满足以下期【qī】望:

首先【xiān】,它必须具备 e 统一的体系结构【gòu】。该结构【gòu】能【néng】够处理任意密集预测【cè】任务,并共享【xiǎng】大多【duō】数【shù】任务【wù】所需的参【cān】数,以【yǐ】便获取可泛化的知【zhī】识,从而能以小量样本学习【xí】任意【yì】未【wèi】见过的任务。其次,学习器应该【gāi】灵活地调整其【qí】预测【cè】机制,以解决具有各种语义的未【wèi】见过的任务,同时足够高效,以防止【zhǐ】过度【dù】拟合。

因此,微软亚洲研究院的研究员们设计并实现了小【xiǎo】样【yàng】本学习【xí】器视觉token匹配【pèi】 VTM(Visual Token Matching),其可用【yòng】于【yú】任【rèn】意的【de】密集预【yù】测【cè】任务。这是首个适配所有密集预测任务的小样本学习器,VTM为计算机视觉中密集预测任务的【de】处理以及【jí】小样【yàng】本学习方【fāng】法打开了全新【xīn】的思路【lù】。该工作获得了ICLR 2023 杰出论文奖

VTM 的设计【jì】灵感源于类比【bǐ】人类的【de】思维过程:给定一【yī】个新任务的少量示例【lì】,人【rén】类可以根据示例【lì】之间【jiān】的相【xiàng】似性快速将类似的输出分配给类似的输【shū】入,同时【shí】也可以根据给定的上【shàng】下【xià】文【wén】灵活变通输入和输出之【zhī】间【jiān】在哪些层面相似。研究员们使用基于【yú】图像块(patch)级别的非参【cān】数匹【pǐ】配【pèi】实现了密【mì】集预测的类比过程。通过【guò】训练,模型被【bèi】启【qǐ】发出了捕捉图像块中相【xiàng】似性的能力【lì】。

给定一个新任务的少量标记示【shì】例,VTM 首先会【huì】根据【jù】给【gěi】定的示例以及示例的标签【qiān】调【diào】整【zhěng】其对相似性的理解,从示【shì】例图像【xiàng】块中锁【suǒ】定与待【dài】预测图像块相似的【de】图像块,通过组合它们的【de】标签来预测未见过的图【tú】像块的标签。

图1:VTM 的整体架构

VTM 采用分层的编码器-解码器架构,在多【duō】个层次上实【shí】现【xiàn】了基于图【tú】像块的非参数匹配。它主要由四个模块组【zǔ】成【chéng】,分别为图像编码器【qì】 f_Τ、标【biāo】签编【biān】码器 g、匹配模块和标签【qiān】解码器 h。给【gěi】定查【chá】询【xún】图像和支持【chí】集,图像【xiàng】编码器【qì】首【shǒu】先会独【dú】立地【dì】提取每个查询和支持图像的图像块级表达。标【biāo】签编码器也会类似地提取每个【gè】支持【chí】标签【qiān】的标记。在每个层次的【de】标记【jì】给定后,匹配模【mó】块会执行【háng】非参数匹配,最终【zhōng】由标【biāo】签解码器推【tuī】断出查询图【tú】像的标【biāo】签。

VTM 的本质是一个元学习方【fāng】法。其训练由【yóu】多个 episode 组【zǔ】成,每个 episode 模拟一个小样本学【xué】习问题。VTM 训练运用【yòng】到了元训练数据集 D_train,其中包含多【duō】种有标签的密集预测任务示【shì】例。每个训【xùn】练 episode 都会【huì】模拟【nǐ】数据集中特定【dìng】任务 T_train 的【de】小【xiǎo】样本学【xué】习场景,目标【biāo】是在给定支持【chí】集的【de】条件下【xià】,为查询图像【xiàng】产生正确的【de】标签【qiān】。通过多个小样本学习的【de】经验,模型能够【gòu】学习到通用的知识,以【yǐ】便【biàn】快速、灵活地适【shì】应【yīng】新的任务。在测试时【shí】,模型需要【yào】在【zài】训练数据集【jí】 D_train 中未包含的任意任务【wù】 T_test 上【shàng】进行小样本学习。

在处理任意任务时,由于元训练和测试中【zhōng】的每个任务的输【shū】出维度 C_Τ 不同,因此使得为所【suǒ】有任务【wù】设计【jì】统一【yī】的通用模型参数成为了巨大挑战。为了提【tí】供一个简单【dān】而【ér】普适的解【jiě】决方案,研【yán】究员们将【jiāng】任【rèn】务转【zhuǎn】换为 C_Τ 个单通道【dào】子任务,分【fèn】别学习每个通道,并使用【yòng】共享的模【mó】型 F 独立地对【duì】每【měi】个子任务进【jìn】行建【jiàn】模。

为了测试 VTM ,研究员们【men】还特别构建了 Taskonomy 数据【jù】集【jí】的一【yī】个变种,从而模拟未见过的密集预【yù】测任务的小样【yàng】本学习。Taskonomy 包含各【gè】种标注过【guò】的【de】室内图【tú】像,研【yán】究员们从中选择了十个具有【yǒu】不【bú】同语义和输出维【wéi】度的密集预测任务,将其分为五部分用于交叉验证。在【zài】每【měi】个拆分方式中【zhōng】,两个任务【wù】用于【yú】小样本评【píng】估(T_test),其【qí】余【yú】八个任【rèn】务用于训练(T_train)。研【yán】究【jiū】员【yuán】们仔细构造了分区,使得训练【liàn】和测试任务彼此有足够【gòu】的差异,例【lì】如将边缘任务(TE,OE)分组为【wéi】测试任务,以便对新语【yǔ】义的任务进行评估。

表1:在 Taskonomy 数据集上的定量比较( Few-shot 基线在训练了来自其他分【fèn】区【qū】的任【rèn】务后,在【zài】需测试的分区任【rèn】务上进行了 10-shot 学习,其中完全监督【dū】的基线在每个 fold(DPT)或【huò】所有 fold(InvPT)上训练和【hé】评估了任务【wù】)

表1和图【tú】2分别定【dìng】量【liàng】与定性地【dì】展示了 VTM 和【hé】两类基线【xiàn】模型在【zài】十个密集【jí】预测任务上的小样本学习性【xìng】能。其【qí】中,DPT 和 InvPT 是两种最先进的监督学【xué】习方法,DPT 可【kě】独立地针对每【měi】个单一任务【wù】进行训练【liàn】,而【ér】 InvPT 则可以联合训练【liàn】所有任【rèn】务。由【yóu】于在 VTM 之前还没有针对通用【yòng】密集预测任务开【kāi】发的专用小样本方法,因此研【yán】究员们将 VTM 与三种最【zuì】先进的小样本分【fèn】割方法,即【jí】 DGPNet、HSNet 和 VAT,进行对比【bǐ】,并把它们拓展【zhǎn】到处理密【mì】集预测任【rèn】务的一般标签空间。VTM 在训【xùn】练【liàn】期间没有【yǒu】访问测试任务【wù】 T_test,并且仅在【zài】测试时【shí】使用了少量(10张)的标记图【tú】像,但它却在所【suǒ】有小样本基线模型中表现【xiàn】得最好【hǎo】,并且【qiě】在许【xǔ】多任务中的表现都具备与全监【jiān】督基线模型比较的竞争力。

图2:在【zài】 Taskonomy 的十个密集预测【cè】任务中,在新任务上仅提供十张标记图像的小样本【běn】学习方法的定性【xìng】比较。在其他【tā】方法【fǎ】失败【bài】的情况下, VTM 成功【gōng】地【dì】学习【xí】了所有【yǒu】具有不同语义和不同标签【qiān】表示的新任务。

在图2中,虚【xū】线上方的分别是真实标签和两种监督【dū】学习方【fāng】法 DPT 和 InvPT。虚线下【xià】方【fāng】的是小样本学【xué】习方法。值得注意的是【shì】,其他小样【yàng】本基【jī】线在【zài】新任务【wù】上出现【xiàn】了灾难【nán】性的欠拟【nǐ】合,而 VTM 成【chéng】功地学习了所有任务。实验说明,VTM 可【kě】以在【zài】极少量的标记示例(<0.004%的完全监督)上现表现出与完全监督基线类似的竞争力,并能够在相对较少的附加数据(0.1%的完全监督)下缩小与监督方法的差距,甚至实现反超。

总结来说,尽管 VTM 的底层思路非常简单,但它具有统一的体系结构,可用于任意【yì】密集预【yù】测任务,因为匹配算【suàn】法本质上包含【hán】所有任务和标签【qiān】结【jié】构(例【lì】如,连【lián】续或【huò】离散)。此外,VTM 仅引入了【le】少量的任务特定参数,就能【néng】具备抗过拟合性与灵活性。未【wèi】来【lái】研究员们希望进一步探【tàn】究预训练过程中的任【rèn】务类型、数据量、以【yǐ】及数【shù】据分布对模型泛化性能【néng】的影响【xiǎng】,从【cóng】而帮助我们构建【jiàn】一【yī】个【gè】真正普【pǔ】适的小样本学习【xí】器【qì】。

为你推荐

最新资讯

股票软件