正式跨入 2.0 时代！OpenMMLab 季度报告请收好

#正式跨入 2.0 时代！OpenMMLab 季度报告请收好| 来源: 网络整理| 查看: 265

时光荏苒，岁月如梭，不知不觉，我们又一起走过了 2023 年的第一季度。在过去的 3 个月里，OpenMMLab 又攒了哪些“瓷器活儿”，做了哪些重大更新呢？现在我们就来向社区的小伙们报告啦！

01 OpenMMLab 正式跨入 2.0 时代

OpenMMLab 2.0 自去年发布测试版以来，备受社区热心反馈的鼓舞。经过数月的精心打磨，终于在春暖花开的 4 月初，迎来了第一个正式版本。自此，OpenMMLab 的主要算法库默认分支切换到了 2.0 架构，并随之带来了一系列功能更新与升级。

支持 PyTorch 2.0

PyTorch 2.0 引入了模型编译技术，即在模型运行之前对其进行编译优化，以达到训练加速的目的。OpenMMLab 系列的算法仓库在接入 PyTorch 2.0 后，也获得了不俗的性能提升：

需要说明的是，表中的训练速度增益是相对于模型前向推理、损失计算、优化器更新参数所消耗的总时间而言的，因此在数值上和 PyTorch 官方宣传的有一些差异。

此外，PyTorch 2.0 的编译功能现在仍处于快速迭代的阶段，目前在功能上还有一些限制，例如当模型输入张量的形状为动态时，其优化效果就非常有限，甚至会出现负优化的情况。受限于此，部分算法在开启编译后，训练速度并不会得到提升。

发布 MMPreTrain

我们很高兴地向大家宣布全新升级的深度学习预训练算法库 MMPreTrain 现已发布。

随着深度学习和计算机视觉的发展，预训练模型在各类视觉任务中的地位越来越重要，我们整合了原 MMClassification 图像分类算法库和 MMSelfSup 自监督学习算法，推出了深度学习预训练算法库 MMPreTrain。

MMPreTrain 将带来一大批激动人心的新特性。未来 MMPreTrain 也将不断升级，旨在提供更全面，丰富，强大的预训练基础模型库。

提供丰富的预训练模型，包括 ViT，ResNet，Swin Transformer，ConvNext，MAE，BEiT，EVA，CLIP 等 470+ 个预训练模型权重。支持多种预训练算法的一键训练，提供了包括图像分类，自监督学习等超过 60 个预训练算法。继承 OpenMMLab 家族设计风格，整体目录结构和原 MMClassification 基本保持一致。提供了易用的模型接口（API）,可以极为方便地查询模型列表，获取模型以及进行图片级别的推理。强大的模型分析工具，支持包括模型复杂度分析，特征可视化，数据可视化等多种功能。

欢迎大家试用体验并反馈意见！

另外，原 MMClassification 和 MMSelfSup 也会持续修复相关 bug，保证大家原有项目的使用体验。

在 Projects 中第一时间上线新算法

我们一直以来始终期盼和鼓励更多社区同学参与 OpenMMLab 项目的开发，但严格的代码规范和审核流程，以及单元测试编写等大家平时不太熟悉的部分，令不少社区开发者颇感头疼。为了让更多社区小伙伴轻松加入 OpenMMLab 贡献者行列，我们在各算法库推出了 Projects—— 一种快速支持新算法、新功能和有趣应用的方式。

在 Projects 中，我们会：

放宽对代码质量的审核要求不再严格要求完善的单元测试让代码更容易被合入

对于优秀的项目，我们会协助完成单元测试的编写，并吸纳进算法库核心代码中。我们希望这样的形式，可以让更多的社区同学有机会参与开源项目，锻炼自身能力，培养开源精神，把自己的代码分享给社区。

02 算法库重要更新MMEngine

我们于去年九月开源了 OpenMMLab 新一代的训练架构 MMEngine，作为 OpenMMLab 全新算法库架构的基础。在 MMEngine 开发过程中，我们归纳总结了 MMCV 开源以来遇到的问题，广泛接纳吸收了社区的意见。从 MMCV 1.0 到 MMEngine，你将会体验到：

“Runner is all you need”。还在苦恼于繁琐的训练启动流程（配置 logger、启动分布式、设置随机种子、注册 Hook ...）？快来体验新版 Runner！只需配配参数，Runner 就会自动帮你完成这些流程。更灵活，也更统一。基于 MMEngine 重构的下游库，代码风格和数据流更加统一，阅读体验更加流畅。MMEngine 中定制化的训练流程和全面升级的消息系统，也让实现更加复杂的训练逻辑成为可能。如果你曾受限于 MMCV 的架构设计而难以实现某些功能，不妨来试试 MMEngine。组件更加丰富、接口更加好用，各种开箱即用的新增组件 ReduceOnPlateauParamScheduler、LionOptimizer、ZeroRedundancyOptimizer、Inferencer 等你来使用。文档全面升级！自顶向下、由浅入深地介绍了 MMEngine 的整体架构，并且更加详细地介绍了每个模块的功能。MMDetection发布工业级实时目标检测算法 RTMDet，为不同算力场景提供最佳的精度-复杂度平衡，并支持实例分割、旋转目标检测等任务。最新检测算法一网打尽：EfficientDet，CrowdDet，ConvNeXt-V2，DiffusionDet，BoxInst，CondInst，SparseInst，Conditional-DETR，DAB-DETR，DINO 和 SoftTeacher。使用 MMDetection 算法进行半自动标注（基于 Label-Studio 搭建），详见：https://mmdetection.readthedocs.io/zh_CN/v3.0.0/user_guides/label_studio.html

MMPreTrain全新升级的 MMPretrain 整合了 MMClassification 和 MMSelfSup 两大算法库，各类预训练模型和训练算法尽收眼底。得益于 MMEngine 架构带来的统一底层设计，无需添加代码即可在下游算法库（如 MMDetection，MMSegmentation 等）中使用 MMPreTrain 支持的预训练骨干网络。最新支持了 RIFormer，XCiT，LeViT，VIG，ConvNeXt-V2 等骨干网络，和 MAE，BEiT，EVA，MoCo 等 18 个自监督预训练算法。MMDetection3D支持前沿 3D 目标检测算法：DFM，PVRCNN，TR3D，PETR3D，DETR3D，CenterFormer 和 BEVFusion。支持室外点云分割任务，支持经典算法 Cylinder3D, MinkUNet 和 SPVCNN。MMPose发布 RTMPose 实时多人姿态估计算法，性能超越 MediaPipe，Paddle Tinypose 等开源方案，支持在 CPU，GPU，Jeston，移动端等多平台进行实时高性能姿态估计。基于 OpenMMLab 2.0 架构的全新设计，新增编解码器（Codec）以统一训练真值编码和模型后处理操作，大幅提升代码可读性和可扩展性。支持 YOLOX-Pose，ViTPose 等学术界前沿姿态估计算法。

MMAction2骨骼行为识别框架全面升级！支持丰富的运动模态，新增 RGB-PoseC3D，MSG3D，CTRGCN 等多个新算法。最新行为识别网络全面支持：Uniformer V1/V2，VideoMAE，Video-Swin，MViT V2，C2D 等。全新升级的 Omni-source 训练框架，利用图像数据集优化视频理解模型，带来显著性能提升。

MMHuman3D

支持了 ExPose，PyMAF-X，CLIFF 等新算法。新增对 MANO，MediaPipe 等关键点定义的支持。

MMEditing经过与原 MMGeneration 算法库合并重构，支持了 50+ 算法和 220+ 模型，全面覆盖图像生成和底层视觉各个领域。新增 DiffuserWrapper，可以在 MMEditing 中方便调用 Diffusers 中的基础模型（如 Unet，AutoEncoderKL）和采样器（如 DPMSolver, PNDM）。支持 ControlNet，Stable Diffusion，Disco Diffusion 等热门算法。

MMOCR与 OpenMMLab 系列全面互通！通过简单修改配置，轻松调用 MMPretrain 提供的预训练 backbone，或 MMDetection/MMRotate 中的各种检测模型。一站式数据准备：准备数据集从未如此简单！使用 Dataset Preparer，一行命令即可让多个数据集准备就绪，现已支持 16 个数据集在 4 个任务上的部署。新增多个算法：ASTER，SVTR，ABCNet v1/v2 和 SPTS。MMSegmentation支持了多种前沿语义分割算法：PIDNet，SegNeXt，PoolFormer, MaskFormer, Mask2Former 和 ISNet。新增 Mapillary Vistas 和 REFUGE 数据集。文档全面升级：丰富了文档的内容和层次，既有上手教程方便大家快速了解语义分割领域，熟悉 MMSegmentation 中各种经典算法；也有进阶文档，深入代码框架和算法逻辑，助力用户进行算法迭代和功能开发。MMDeploy支持 MMRazor 算法库模型转换和部署，从剪枝到部署一键畅行。支持 pip 安装方式，一行指令完成 mmdeploy 和 mmdeploy-runtime 安装。上线硬件模型库：https://platform.openmmlab.com/deploee，海量 onnx 模型和推理引擎模型唾手可得。03 社区组织与活动MMSIG

MMSIG 全称 OpenMMLab Special Interest Group，是 OpenMMLab 贡献者的专属社区，以开放、共享、互助、共进为宗旨，为开发者提供 3 大权益，与 OpenMMLab 全球开发者一起构建更美好的开源生态体系。目前 MMSIG 社群聚集了 330 余名贡献者，首次 MMSIG 专属圆桌会即将开展，集聚智慧，汇聚力量，MMSIG 期待你的加入！

社区开放麦

OpenMMLab 联合将门创投、ReadPaper、白玉兰开源、示说网和学说网，共同开展学术月直播分享。围绕前沿学术进展，邀请顶会一作亲临分享，主题涵盖弱监督、视觉大模型、感知算法等。平均单场直播观看量超 3,000人次，单场视频播放量超 12,000 人次。4 月将持续举办专题研讨会，欢迎关注 OpenMMLab 视频号，不错过任何精彩内容！

AI 实战营

为帮助初学者了解计算机视觉，快速上手开源框架，开发自己的计算机视觉应用，OpenMMLab 于 2 月开展了系列基础课程培训。OpenMMLab 算法研究员和 B 站知名 up 主亲临指导，讲解视觉领域三大主流任务——检测、分类与分割。来自全国 269 所高校，近千名学生参与学习，完成作业 400 余次，产出学习笔记 1300 余篇。

最后，感谢社区小伙伴们一直以来的支持和关注，OpenMMLab 的成长和发展，离不开每一个小伙伴的支持和贡献，谢谢大家！

【本文地址】

公司简介

联系我们