欧洲杯官网-首页-2021欧洲杯官网

0243-14176826

在线客服| 微信关注
当前位置: 首页 > 企业新闻

Executor和ParallelDistributedDe|欧洲杯官网


本文摘要:欧洲杯官网,2021欧洲杯官网,新版本升级內容以下:关键升级统一Executor和ParallelExecutor插口,客户只需根据CompiledProgram将单卡模型转换多卡模型,并运用Executor开展训练或是预测分析。开发设计Calibration专用工具,确保FP32和INT8的精密度在ResNet-50和MobileNet-V1在ImageNet认证数据上相距在1%内。

PaddlePaddlePArallelDistributedDeepLEarning,并行处理分布式系统深度神经网络是百度搜索产品研发的深度神经网络服务平台,具备实用、高效率、灵便和可伸缩式等特性,为百度搜索內部多种商品出示深度神经网络优化算法支持。PaddlePaddle也是一个易懂、实用的开源系统深度神经网络架构,可以让开发人员和企业安全生产、高效率地完成自身的AI念头。

新版本升级內容以下:关键升级统一Executor和ParallelExecutor插口,客户只需根据CompiledProgram将单卡模型转换多卡模型,并运用Executor开展训练或是预测分析。宣布公布AnalysisConfig预测分析插口,支持计算图剖析、算法结合等提升,并支持运用IntelMKLDNN、NvidiaTensorRT子图模块等第三方库的加快.模型库新增公布PaddlePaddle视頻模型库,出示五个视频在线视频經典模型及其合适视频在线视频每日任务的通用性框架编码,客户可一键式高效率配备模型进行训练和测评。

新增支持NLP词义表明BERT模型,支持多机多卡训练,支持混和精密度训练,训练速率比照流行完成提升50% ,出示详细布署实例。规模性稀少主要参数网络服务器Benchmark公布,CPU多机多线程训练公布明显提升点击量预计每日任务IO吞吐的built-inreader,多机多卡训练性能各个方面提升。基本架构安裝新增Linux和MacOS下的汉语版本号輔助安裝脚本制作,出示互动式安裝方法,帮助客户在繁杂自然环境下迅速进行PaddlePaddle安裝。Windows支持提升:新增cuda8,cudnn7的GPU支持,新增AVX指令系统、MKLDNN、mnist数据支持。

修补Windows载入Linux/Mac相同版本号paddle训练模型的难题。提升动态图片基本作用动态图片tracer、autograd、pythonLayer/PyLayer,动态图片支持MLP、GAN、ptbRNN、Resnet模型,动态图片支持Optimizer、GPU训练。Executor和ParallelExecutor插口提升对Executor和ParallelExecutor插口开展统一,客户只需根据CompiledProgram将单卡模型转换多卡模型,并运用Executor开展训练或是预测分析。ParallelExecutor提升对MultiDevSSAGraphBuilder开展重新构建,促使MultiDevSSAGraphBuilder更加容易拓展。

除去ParallelExecutor中的设备锁,提升ParallelExecutor多卡生产调度性能。正中间表述IR和Pass层面的提升健全C IRgraph的python插口及其C IRpass的python插口。在framework.py中新增IRGraph类,为在Python层撰写IRPass做准备。新增支持互联网无锁升级的Pass。

新增QuantizationTransformPass,其为QuantizationAwareTraining量化分析方式训练前的图改动实际操作一部分。运行内存和显卡内存层面的提升新增支持在编译程序时添加Jemalloc做为动态链接库,提升代码优化的性能,减少基本架构代码优化花销新增memoryoptimize,inplacepass,memorypoolearlydeletion等显卡内存优化策略。新增支持互联网无锁升级的Pass。

模型

新增QuantizationTransformPass,其为QuantizationAwareTraining量化分析方式训练前的图改动实际操作一部分。Operator总体方面的提升每一个op在实行前只做一次scope查看,降低读写锁实际操作原先必须做15次scope查看新增TemporaryAllocator,降低op中的同步控制新增py_funcoperator,支持pythonop连接,客户能够依靠py_funcOperator迅速完成所必须的独有实际操作重新构建DDim,VariableType等,减少基本架构生产调度花销。INTELFP32测算有关提升提升density_prior_boxoperator,单op四进程加速3倍。

提升Stackoperator,单op加速16倍。开发设计Transpose,Concat和Conv3d三个根据MKLDNN的kernel。

修补lrnoperator中MKLDNNkernel精密度bug,另外单op加速1.3倍。修补MKLDNN复位占有5G运行内存的难题,现阶段复位占有500MB。

降低从MKLDNNOPkernel到非MKLDNNOPkernel时多余的reorder。健全CPUJitKernelsequencepooling的jitkernel,纯op提升2倍。

softmax的jitkernel,纯op提升2倍,另外促使Bert模型CPU预测分析提升26%。普遍的基本上逻辑性:空间向量的每一个原素求平方米kVSquare、矩阵乘法kMatMul、空间向量的最高值kHMax、空间向量全部原素的和kHSum。

预测分析模块关键升级统一Executor和ParallelExecutor插口,客户只需根据CompiledProgram将单卡模型转换多卡模型,并运用Executor开展训练或是预测分析。宣布公布AnalysisConfig预测分析插口,支持计算图剖析、算法结合等提升,并支持运用IntelMKLDNN、NvidiaTensorRT子图模块等第三方库的加快.模型库新增公布PaddlePaddle视頻模型库,出示五个视频在线视频經典模型及其合适视频在线视频每日任务的通用性框架编码,客户可一键式高效率配备模型进行训练和测评。

新增支持NLP词义表明BERT模型,支持多机多卡训练,支持混和精密度训练,训练速率比照流行完成提升50% ,出示详细布署实例。规模性稀少主要参数网络服务器Benchmark公布,CPU多机多线程训练公布明显提升点击量预计每日任务IO吞吐的built-inreader,多机多卡训练性能各个方面提升。基本架构安裝新增Linux和MacOS下的汉语版本号輔助安裝脚本制作,出示互动式安裝方法,帮助客户在繁杂自然环境下迅速进行PaddlePaddle安裝。

Windows支持提升:新增cuda8,cudnn7的GPU支持,新增AVX指令系统、MKLDNN、mnist数据支持。修补Windows载入Linux/Mac相同版本号paddle训练模型的难题。

提升动态图片基本作用动态图片tracer、autograd、pythonLayer/PyLayer,动态图片支持MLP、GAN、ptbRNN、Resnet模型,动态图片支持Optimizer、GPU训练。Executor和ParallelExecutor插口提升对Executor和ParallelExecutor插口开展统一,客户只需根据CompiledProgram将单卡模型转换多卡模型,并运用Executor开展训练或是预测分析。ParallelExecutor提升对MultiDevSSAGraphBuilder开展重新构建,促使MultiDevSSAGraphBuilder更加容易拓展。

除去ParallelExecutor中的设备锁,提升ParallelExecutor多卡生产调度性能。正中间表述IR和Pass层面的提升健全C IRgraph的python插口及其C IRpass的python插口。在framework.py中新增IRGraph类,为在Python层撰写IRPass做准备。新增支持互联网无锁升级的Pass。

新增

新增QuantizationTransformPass,其为QuantizationAwareTraining量化分析方式训练前的图改动实际操作一部分。运行内存和显卡内存层面的提升新增支持在编译程序时添加Jemalloc做为动态链接库,提升代码优化的性能,减少基本架构代码优化花销新增memoryoptimize,inplacepass,memorypoolearlydeletion等显卡内存优化策略。

新增支持互联网无锁升级的Pass。新增QuantizationTransformPass,其为QuantizationAwareTraining量化分析方式训练前的图改动实际操作一部分。Operator总体方面的提升每一个op在实行前只做一次scope查看,降低读写锁实际操作原先必须做15次scope查看新增TemporaryAllocator,降低op中的同步控制新增py_funcoperator,支持pythonop连接,客户能够依靠py_funcOperator迅速完成所必须的独有实际操作重新构建DDim,VariableType等,减少基本架构生产调度花销。

INTELFP32测算有关提升提升density_prior_boxoperator,单op四进程加速3倍。提升Stackoperator,单op加速16倍。开发设计Transpose,Concat和Conv3d三个根据MKLDNN的kernel。

修补lrnoperator中MKLDNNkernel精密度bug,另外单op加速1.3倍。修补MKLDNN复位占有5G运行内存的难题,现阶段复位占有500MB。降低从MKLDNNOPkernel到非MKLDNNOPkernel时多余的reorder。

健全CPUJitKernelsequencepooling的jitkernel,纯op提升2倍。softmax的jitkernel,纯op提升2倍,另外促使Bert模型CPU预测分析提升26%。

普遍的基本上逻辑性:空间向量的每一个原素求平方米kVSquare、矩阵乘法kMatMul、空间向量的最高值kHMax、空间向量全部原素的和kHSum。预测分析模块网络服务器预测分析宣布公布AnalysisConfig预测分析插口,支持计算图剖析、算法结合等提升,并支持运用IntelMKLDNN、NvidiaTensorRT子图模块等第三方库的加快。

模型

预公布intelCPU上的预测分析INT8线下量化分析计划方案开发设计Conv3D,Pool2D,Quantize,Dequantize四个根据MKL-DNN的INT9kernel。预公布Calibration的3个关键PythonAPI.Calibrator。开发设计Calibration专用工具,确保FP32和INT8的精密度在ResNet-50和MobileNet-V1在ImageNet认证数据上相距在1%内。支持IntelXeonCascadeLakeServerVNNI命令及IntelXeonSkyLakeServer,性能提升约为1.33倍。

CPU预测分析速率提升fusesequencepoolingconcatop,支持N<200个sequence_poolingopconcat起來构成一个新op,总体促使seqpool模型CPU预测分析提升56%。fuse连续反复的fcop为一个大op,促使seqpool模型CPU预测分析速率提升15%。

fuse逻辑性为X*Y.^2-X.^2*Y.^2.*scalar的op组成,促使seqpool模型CPU预测分析速率提升8.2%。对于键入tensor原素数量为1的状况,提升compare_op的CPUKernel。新增Paddle-TRT对CalibrationINT8的支持,GPU预测分析速率提升模型VGG,Resnet50上预测分析速率做到了Paddle-TRTfloat32的二倍性能。模型VGG,Resnet50在imagenet数据上检测,精密度降低0.3%之内。

算法结合提升fc和con有关2个fuse,功效于conv_opCUDNNkernel。新增Conv AffineChannel的结合pass,FasterRCNN运作的性能提升26.8%。新增Transpose Flatten Concat结合pass,MobilenetSSD模型性能提升15%。完成beam_searchoperator的CUDAKernel,而且将相对的top-k、elementwise_add、reshape、log计算结合到beam_searchoperator中。

功能齐全及便捷性提升新增C IRgraph的Python插口。新增预测分析库的Python插口。服务器端预测分析支持从运行内存载入模型。别的删掉legacyV2编码。

从1.3版本起,不会再支持V1&V2老版本作用。修补Paddle-TRTelementwise-mul实体模型运作发生难题的bug。修补Paddle-TRTtrt_enginestream好几个持续键入状况下实体模型輸出結果出现异常的bug。

手机端预测分析高效率提升,普遍模型预测速率提高int8预测分析支持dequantize和别的opbatchnormalization/relu/elementwiseadd开展全自动kernel结合。transpose2operator针对shufflechannel实际操作开展提升。gruoperator应用neon命令开展提升,并对于batchsize为1时开展提升。

提升和完成pooling,支持随意的padding。提升和完成batchnormalization、softmax、elementwiseadd。增加支持好几个键入和好几个輸出的模型预测。

提升

增加完成prelu6operator、castoperator、top_koperator。修补int8offline量化分析外溢結果错误的难题。修补winograd完成在键入featuremap的height和width不相同时結果很有可能为0的bug。

实体模型基本建设PaddleCV智能化视觉效果增加公布PaddlePaddle视頻模型库,包含五个视频在线视频实体模型:AttentionCluster、NeXtVLAD、LSTM,、stNet、TSN。出示合适视频在线视频每日任务的通用性框架编码,包含数据信息载入和预备处理、训炼和预测分析、网络模型及其指标值测算等好几个控制模块。

客户依据必须加上自身的网络模型,立即多路复用别的控制模块的编码,迅速布署实体模型。增加支持目标检测MaskR-CNN实体模型,实际效果与流行完成平局。语义分割DeepLabV3 实体模型,depthwise_convop结合,显卡内存提升,显卡内存占有比照上一版本号降低50%。PaddleNLP智能化文本检索增加支持NLP词义表明BERT实体模型,支持多机多卡训炼,支持混和精密度训炼,训炼速率比照流行完成提高50% ,出示详细布署实例。

翻译机器Transformer实体模型提升编解码测算,decoder中添加对encoderoutput数值的cache,预测分析速率提高一倍。PaddleRec个性化推荐SequenceSemanticRetrieval增加单机版线程同步、单机版多卡运作实例,加上预测分析作用、数据预处理提升,健全布署实例。

GRU4Rec增加负采样作用,应用bprloss和crossentropyloss的实际效果与原著平局。分布式系统训炼规模性稀少主要参数网络服务器Benchmark公布检测真正业务场景下,特点经营规模百亿元、样版均值特点数1k的点击量预计每日任务,在batch=512状况下,100worker加快比90.5,货运量1.36M/s。

CPU多机多线程训炼公布朝向点击量预计每日任务的built-inreader,Criteo数据下IO总吞吐提高1300%。GPU多机多卡水准拓展特性提高增加并行处理方式:PGParallelGraph、MPMulti-Process,单独GPU卡中间的测算,提高特性另外,不危害实体模型精密度。

在ResNet50实体模型,单机版8卡V一百下,PG,MP方式提高训炼特性30%之上;4机32卡,PG方式加速46%,MP方式加速60%。在BERT实体模型,8卡V一百下,PG,MP方式提高训炼特性26%。Multi-Process方式对比Parallel-Graph方式对Reader速率敏感性不高。

GPU多机多卡竖直拓展特性提高增加作用:fp16和混和精密度训炼Fp16单机版单卡加快状况:ResNet50加速约87%,BERT加速约70%。BERT另外打开PG和混和精密度,单机版8卡下单位时间吞吐提高120%。

ResNet50另外打开混和精密度训炼和MP方式,在V100单机版8卡、4机32卡下,单位时间吞吐提高100%。典型性实体模型收敛性速率提升增加作用:动态性BatchSize,动态性ImageResize方式。Resnet50onImagenet数据:训炼收敛性轮空降低为规范训练法的1/3上下。VisualDLVisualDLgraph支持Paddlefluid储存的实体模型数据可视化展现。

升级表明下载链接:SourcecodezipSourcecodetar.gz。


本文关键词:预测,插口,性能,2021欧洲杯官网,训练,模型

本文来源:欧洲杯官网-www.adultcambabes.com

客户案例Customer case
  • 欧洲议会不承认白俄罗斯大选 俄斥企图干涉别国内政_欧洲杯官网
  • 2021欧洲杯官网:山西省生态环境厅原二级巡视员成钢被提起公诉
  • 欧洲杯官网-九五后国漆匠人 用创业对话非遗
  • 欧洲杯官网:山西“两病”门诊用药保障起付标准降至30元
  • 法巴黎斩首案:4人遭拘留,遇害教师生前曾被威胁【2021欧洲杯官网】
  • 【2021欧洲杯官网】让预约出游成为新风尚:节省排队时长 提升旅游体验
  • 诗人、作家邵燕祥逝世:“反省是作为人的需要”
  • 楼市销售“茶水费”等乱象问题引关注 你中招了吗?
  • 粤港澳大湾区“9+2”城市旅游市场联合监管协作体成立
  • 千余种常用药下月退出医保目录?真相为何?回应来了_2021欧洲杯官网