工资「喂饱肚子」，副业「养活灵魂」！
问题反馈可发送邮件到stubbornhuang@qq.com
本站会放置Google广告用于维持域名以及网站服务器费用。
本站由于前段时间遭受到大量临时和国外邮箱注册，所以对可注册的邮箱类型进行了限制！
感谢大家访问本站，希望本站的内容可以帮助到大家！
在本站开通年度VIP，无限制下载本站资源和阅读本站文章
欢迎大家交换友链，可在https://www.stubbornhuang.com/申请友情链接进行友链交换申请！
如果觉得本站的内容有帮助，可以考虑打赏博主哦！
计算机图形学与计算几何经典必备书单整理，下载链接可参考：https://www.stubbornhuang.com/1256/

当前位置：首页 › AI › 正文

如何正确的选择深度学习模型工业化部署的方式

StubbornHuang AI 发布于2021-09-10 阅读 4,113次 0次评论 0次点赞本文共1367个字，阅读需要4分钟。

1 如何正确的选择深度学习模型 工业化 部署的方式

转自知乎高赞回答：https://www.zhihu.com/question/329372124/answer/743251971

最近在做深度学习模型的工业化部署，无意中看到了这篇高赞回答，觉得写得很好，有必要备份一下。这篇回答对我如何选择部署方式有很大的帮助。

1.1 需求1：简单的demo演示

caffe、tf、pytorch等框架随便选一个，切到test模式，拿python跑一跑就好，顺手写个简单的GUI展示结果

高级一点，可以用CPython包一层接口，然后用C++工程去调用

1.2 需求2：要放到服务器上去跑，但一不要求吞吐二不要求时延的那种

caffe、tf、pytorch等框架随便选一个，按照官方的部署教程，老老实实用C++部署，例如pytorch模型用工具导到libtorch下跑（官方有教程，很简单）

这种还是没有脱离框架，有很多为训练方便保留的特性没有去除，性能并不是最优的；

另外，这些框架要么CPU，要么NVIDIA GPU，对硬件平台有要求，不灵活；

还有，框架是真心大，占内存（tf还占显存），占磁盘

1.3 需求3：放到服务器上跑，要求吞吐和时延（重点是吞吐）

这种应用在互联网企业居多，一般是互联网产品的后端AI计算，例如人脸验证、语音服务、应用了深度学习的智能推荐等。

由于一般是大规模部署，这时不仅仅要考虑吞吐和时延，还要考虑功耗和成本。所以除了软件外，硬件也会下功夫，比如使用推理专用的NVIDIA P4、寒武纪MLU100等。这些推理卡比桌面级显卡功耗低，单位能耗下计算效率更高，且硬件结构更适合高吞吐量的情况

软件上，一般都不会直接上深度学习框架。对于NVIDIA的产品，一般都会使用TensorRT来加速（我记得NVIDIA好像还有TensorRT inference server什么的，名字记不清了，反正是不仅可以加速前传，还顺手帮忙调度了）。TensorRT用了CUDA、CUDNN，而且还有图优化、fp16、int8量化等。反正用NVIDIA的一套硬软件就对了

1.4 放在NVIDIA嵌入式平台上跑，注重时延

比如PX2、TX2、Xavier等，参考上面（用全家桶就对了），也就是贵一点嘛

1.5 放在其他嵌入式平台上跑，注重时延

硬件方面，要根据模型计算量和时延要求，结合成本和功耗要求，选合适的嵌入式平台。

比如模型计算量大的，可能就要选择带GPU的SoC，用opencl/opengl/vulkan编程；也可以试试NPU，不过现在NPU支持的算子不多，一些自定义Op多的网络可能部署不上去

对于小模型，或者帧率要求不高的，可能用CPU就够了，不过一般需要做点优化（剪枝、量化、SIMD、汇编、Winograd等）

顺带一提，在手机上部署深度学习模型也可以归在此列，只不过硬件没得选，用户用什么手机你就得部署在什么手机上23333。为老旧手机部署才是最为头疼的

上述部署和优化的软件工作，在一些移动端开源框架都有人做掉了，一般拿来改改就可以用了，性能都不错。

1.6 上述部署方案不满足我的需求

比如开源移动端框架速度不够——自己写一套。比如像商汤、旷世、Momenta都有自己的前传框架，性能应该都比开源框架好。只不过自己写一套比较费时费力，且如果没有经验的话，很有可能费半天劲写不好

欢迎扫码关注我的微信公众号，及时获取文章更新

本文作者：StubbornHuang

原文标题：如何正确的选择深度学习模型工业化部署的方式

原文链接：https://www.stubbornhuang.com/1675/

发布于：2021年09月10日 10:37:22

修改于：2023年06月26日 21:17:18

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

关键字：

工业化方式深度学习模型部署

文章末尾

资源分享 - Real-Time 3D Character Animation with Visual C++ 英文PDF下载

计算几何与计算机图形学资源

CUDA 安装报错 could not create file "...\chrome_elf.dll"

发表评论点击这里取消回复。

您必须 [ 登录 ] 才能发表留言！

如何正确的选择深度学习模型工业化部署的方式

1 如何正确的选择深度学习模型 工业化 部署的方式

1.1 需求1：简单的demo演示

1.2 需求2：要放到服务器上去跑，但一不要求吞吐二不要求时延的那种

1.3 需求3：放到服务器上跑，要求吞吐和时延（重点是吞吐）

1.4 放在NVIDIA嵌入式平台上跑，注重时延

1.5 放在其他嵌入式平台上跑，注重时延

1.6 上述部署方案不满足我的需求

发表评论点击这里取消回复。

联系我

资助我们

随机推荐

资源分享 – Augmented Reality – Principles and Practice 英文PDF下载

Blender – 为模型贴法线贴图

常见的三维点云数据下载链接，自己整理+网上收集

WordPress – count_user_posts函数，获取某个用户发表的文章数量

资源分享 – Learn OpenGL – Learn modern OpenGL graphics programming in a step-by-step fashion 英文PDF下载

WordPress – 后台登录成功/失败发送邮件给网站管理员

最新评论

如何正确的选择深度学习模型工业化部署的方式

1 如何正确的选择深度学习模型工业化部署的方式

1.1 需求1：简单的demo演示

1.2 需求2：要放到服务器上去跑，但一不要求吞吐二不要求时延的那种

1.3 需求3：放到服务器上跑，要求吞吐和时延（重点是吞吐）

1.4 放在NVIDIA嵌入式平台上跑，注重时延

1.5 放在其他嵌入式平台上跑，注重时延

1.6 上述部署方案不满足我的需求

发表评论 点击这里取消回复。

联系我

资助我们

随机推荐

资源分享 – Augmented Reality – Principles and Practice 英文PDF下载

Blender – 为模型贴法线贴图

常见的三维点云数据下载链接，自己整理+网上收集

WordPress – count_user_posts函数，获取某个用户发表的文章数量

资源分享 – Learn OpenGL – Learn modern OpenGL graphics programming in a step-by-step fashion 英文PDF下载

WordPress – 后台登录成功/失败发送邮件给网站管理员

最新评论

大家都在搜

关注我们的公众号

发表评论点击这里取消回复。