AI周报丨微软打造Florence模型打

北京中科白癜风出席健康中国公益盛典 http://nb.ifeng.com/a/20180507/6557031_0.shtml

-热门论文-

题目:ExT5:TowardsExtremeMulti-TaskScalingforTransferLearning

尽管多任务学习和自然语言处理迁移学习(NLP)最近取得了成功,但很少有研究系统地研究在训练前增加任务数量的效果。为了实现这一目标,本文介绍了ExMix即ExtremeMixe:一个跨越不同领域和任务族的个受监督NLP任务的大规模集合。使用ExMix,我们研究了迄今为止规模最大的多任务预训练的效果,并分析了常见任务族之间的共同训练迁移。通过这一分析,我们表明,为多任务预训练手动策划一组理想的任务并不简单,而且多任务缩放本身可以极大地改进模型。最后,我们提出了ExT5:一个使用自监督范围去噪和监督ExMix的多任务目标预训练的模型。通过大量的实验,我们发现ExT5在SuperGLUE、GEM、Rainbow、闭卷QA任务以及ExMix之外的一些任务上优于强大的T5基线。ExT5还显著提高了预训练时的样本效率。

-热门工具-

1.CNTK

它是计算网络工具包ComputationalNetworkToolkit的缩写,CNTK是一个微软的开源人工智能工具。不论是在单个CPU和GPU、多个GPU或拥有多个GPU的多台机器上,它都有优异的表现。微软主要用它做语音识别的研究,但是它在机器翻译、文本处理、图像字幕、图像识别、语言理解和语言建模方面都有着良好的应用。

2.DMTK

DMTK是DistributedMachineLearningToolkit(分布式机器学习工具)的缩写,和CNTK一样,是微软的开源人工智能工具。用于大数据的应用程序,它的目标是更快的训练人工智能系统。

-程序员区-

IntelliJIDEA.3RC发布

新版本的一些亮点更新包括有:支持远程开发(Beta),此功能允许软件工程师连接到运行IDE后端的远程计算机,并像在本地机器上一样处理位于该端的项目。故障排除IDE问题,查看诊断和修IDE问题的新的、更快的方法。Kotlin调试器更新。

PhpStorm.3RC发布

除了即将发布的版本的新功能之外,此版本还介绍了RemoteDevelopment,通过RemoteDevelopment,用户将可以连接到运行IDE后端的远程计算机,并处理位于该后端的项目,

ApacheKafka2.7.2发布

主要更新内容:升级jetty-server以修复CVE--;修复了如果任务在启动期间失败,则失败任务计数JMX指标不会更新;恢复GlobalKTable时的无限循环;修复了FileStreamSourceTask缓冲区可以无限增长的错误等。

ApacheMaven3.8.4发布

此版本更新内容如下:修复了Maven启动脚本(init)调用which(1),这是一个一个外部命令;恢复MNG-和MNG-的ThreadLocal方法;将Jansi升级到2.4.0等。

Django4.0RC1发布

Django4.0主要变化:默认时区实现zoneinfo;支持Python3.8、3.9和3.10;Django3.2.x系列是支持Python3.6和3.7的最后版本;引入新密码哈希函数scrypt,但因为需要更多内存OpenSSL1.1+没有默认启用等。

-大厂动态-

9亿训练集、通用CV任务,微软打造Florence模型打破分类、检索等多项SOTA

来自微软的研究者另辟蹊径,提出了一种新的计算机视觉基础模型Florence。在广泛的视觉和视觉-语言基准测试中,Florence显著优于之前的大规模预训练方法,实现了新的SOTA结果。

面对多样化和开放的现实世界,要实现AI的自动视觉理解,就要求计算机视觉模型能够很好地泛化,最小化对特定任务所需的定制,最终实现类似于人类视觉的人工智能。计算机视觉基础模型在多样化的大规模数据集上进行训练,可以适应各种下游任务,对于现实世界的计算机视觉应用至关重要。

现有的视觉基础模型,如CLIP(Radfordetal.,)、ALIGN(Jiaetal.,)和悟道2.0等,主要侧重于将图像和文本表征映射为跨模态共享表征。近日来自微软的研究另辟蹊径提出了一种新的计算机视觉基础模型Florence,将表征从粗粒度(场景)扩展到细粒度(对象),从静态(图像)扩展到动态(视频),从RGB扩展到多模态。

通过结合来自Web规模图像-文本数据的通用视觉语言表征,Florence模型可以轻松地适应各种计算机视觉任务,包括分类、检索、目标检测、视觉问答(VQA)、图像描述、视频检索和动作识别。此外,Florence在许多迁移学习中也表现出卓越的性能,例如全采样(fullysampled)微调、线性探测(linearprobing)、小样本迁移和零样本迁移,这些对于视觉基础模型用于通用视觉任务至关重要。Florence在44个表征基准测试中多数都取得了新的SOTA结果,例如ImageNet-1K零样本分类任务,top-1准确率为83.74,top-5准确率为97.18;COCO微调任务获得62.4mAP,VQA任务获得80.36mAP。

模型在有噪声的Web规模数据上以同一个目标进行端到端训练,使模型能够在广泛的基准测试中实现同类最佳性能。在广泛的视觉和视觉-语言基准测试中,Florence显著优于之前的大规模预训练方法,实现了新的SOTA结果。

方法

构建Florence生态系统包括数据管护、模型预训练、任务适配和训练基础设施,如图2所示。

数据管护

由于大规模数据多样化对基础模型非常重要,因此该研究提出了一个包含9亿个图像-文本对的新数据集用于训练。由于网络爬取数据通常是具有噪音的自由格式文本(例如,单词、短语或句子),为了获得更有效的学习,该研究使用了UniCL,这是Yang等人最近提出的「统一图像文本对比学习对象」,这种方法已经被证明其比对比和监督学习方法更优越。

模型预训练

为了从图像-文本对中学习良好的表示,该研究使用了包括图像编码器和语言编码器的两塔式(two-tower)架构。对于图像编码器,该研究选择了分层VisionTransformer。该研究所提架构在继承了Transformerself-attention操作性能优势的同时,这些分层架构对图像的尺度不变性进行了建模,并且具有相对于图像大小的线性计算复杂度,这是进行密集预测任务必不可少的属性。

任务适配

该研究使用dynamicheadadapter(Daietal.,a)、提出的videoCoSwinadapter从静态图到视频的时间、METERadapter从图像到语言的模态变化,通过以上该研究将学习到的特征表示沿空间(从场景到对象)进行扩展。Florence旨在通过小样本和零样本迁移学习来有效适配开放世界,并通过很少的epoch训练(例如在检索中)进行有效部署。用户可以根据自己的需求进行定制。

DynamicHead(Daietal.,a)adapter用于对象级视觉表示学习。

图4.METER(Douetal.,)用作FlorenceV+L适配模型,使用图像文本匹配(ITM)损失和掩码语言建模(MLM)损失进行训练。

训练基础设施

从能源和成本方面考虑,以尽可能低的成本构建基础模型是至关重要的。该研究开发了可扩展的训练基础设施,以提高训练效率。Florence训练基础设施由ZeRO、激活检查点、混合精度训练、梯度缓存等多项关键技术组成,从而大大减少了内存消耗,提高了训练吞吐量。

实验结果

该研究进行了多项实验,表明了Florence显著优于之前的大规模预训练方法。

分类中的零样本迁移

该研究在ImageNet-1K数据集和11个下游数据集上评估了Florence模型。表1显示了这12个数据集的结果,比较的模型包括CLIPResNet、CLIPVisionTransformer模型以及FILIP-ViT,结果显示Florence在其中9个数据集上表现出色。该研究在ImageNet-1K上的零样本迁移方面取得了显着的提高,即top-1准确率为83.74%(比SOTA结果高5.6%),top-5准确率为97.18%。

线性评估

线性评估考虑了11个分类基准,这些基准同样也适用于零样本分类迁移。该研究将Florence与具有SOTA性能的模型进行了比较,包括SimCLRv2、ViT、NoisyStudent和CLIP。

结果表明,Florence优于现有的SOTA结果,不过在CIFAR10、CIFAR这两个数据集上性能不如EfficientNet-L2。

ImageNet-1K微调评估

该研究在ImageNetILSVRC-基准(Dengetal.,)上评估了持续微调的性能,Florence与几种模型的比较结果如下表3所示。Florence模型的Top-1和Top-5准确率均优于BiT(Kolesnikovetal.,)和ALIGN(Jia等人,年)。Florence的结果比SOTA模型(Daietal.,c)稍差,但其模型和数据规模都比Florence大了3倍。

声临其境:清华大学和字节跳动提出NeuralDubber神经网络配音器,有望让影视后期效率倍增

影视配音是一项技术含量很高的专业技能。专业配音演员的声音演绎往往让人印象深刻。现在,AI也有望自动实现这种能力。

近期,清华大学和字节跳动智能创作语音团队业内首次提出了神经网络配音器(NeuralDubber)。这项研究能让AI根据配音脚本,自动生成与画面节奏同步的高质量配音。相关论文NeuralDubber:DubbingforVideosAccordingtoScripts已入选机器学习和计算神经科学领域顶级学术会议NeurIPS。

配音(Dubbing)广泛用于电影和视频的后期制作,具体指的是在安静的环境(即录音室)中重新录制演员对话的后期制作过程。配音常见于两大应用场景:第一个是替换拍摄时录制的对话,如拍摄场景下录制的语音音质不佳,又或者出于某种原因演员只是对了口型,声音需要事后配上;第二个是对译制片配音,例如,为了便于中国观众欣赏,将其他语言的视频翻译并配音为中文。

清华大学和字节跳动智能创作语音团队的这项研究主要


转载请注明:http://www.aierlanlan.com/rzfs/4223.html

  • 上一篇文章:
  •   
  • 下一篇文章: 没有了