位置：文档库 > 求职简历 > 深度学习平台架构师简历模板

深度学习平台架构师简历模板

惧君不识察上传于 2020-05-18 23:18

《深度学习平台架构师简历模板》

一、个人信息

姓名：张明

性别：男

年龄：32岁

联系方式：138xxxx1234

电子邮箱：zhangming@example.com

现居地：北京市海淀区

求职意向：深度学习平台架构师

期望薪资：40K-60K/月

到岗时间：1个月内

二、教育背景

2010.09-2014.06 清华大学计算机科学与技术专业本科

主修课程：数据结构、算法设计、操作系统、计算机网络、机器学习基础

毕业设计：基于GPU的并行计算框架优化，获校级优秀毕业设计

2014.09-2017.06 中国科学院计算技术研究所计算机应用技术专业硕士

研究方向：分布式深度学习系统架构

硕士论文：面向大规模数据集的分布式训练框架设计与实现，发表在ICDM 2017会议

学术成果：参与国家自然科学基金项目“异构计算环境下的深度学习优化”，负责子模块开发

三、工作经历

2017.07-2019.12 百度深度学习研究院高级研发工程师

职责描述：

1. 主导PaddlePaddle框架的分布式训练模块重构，支持千亿参数模型训练，训练效率提升40%

2. 设计并实现混合精度训练方案，在保持模型精度的前提下，显存占用降低50%

3. 优化框架与NVIDIA DGX-1集群的适配，使单节点训练速度达到行业领先水平

4. 开发自动化模型压缩工具链，支持量化、剪枝、知识蒸馏等策略组合，模型体积缩小90%

5. 带领3人团队完成框架与国产寒武纪芯片的适配，通过信创认证

项目成果：

• 申请发明专利3项，其中1项已授权

• 相关技术应用于百度智能云AI平台，服务超过100家企业客户

• 获得百度技术先锋奖（2018年度）

2020.01-2022.06 阿里巴巴达摩院深度学习平台架构师

职责描述：

1. 规划并构建新一代分布式训练平台“灵积”，支持万亿参数模型训练，吞吐量提升3倍

2. 设计多级存储架构，结合SSD与内存池化技术，解决I/O瓶颈问题，训练时间缩短60%

3. 开发自适应通信优化器，动态调整AllReduce策略，在千卡集群上实现98%的通信效率

4. 构建模型服务化框架，支持动态图与静态图的统一部署，推理延迟降低至2ms以内

5. 制定平台技术标准，推动内部10+业务线统一使用，降低研发成本40%

项目成果：

• 发表顶会论文2篇（NeurIPS 2021, OSDI 2022）

• 平台支撑达摩院多个AI实验室的研发工作，包括多模态大模型、自动驾驶等方向

• 获得阿里巴巴集团技术突破奖（2021年度）

2022.07-至今腾讯优图实验室首席深度学习架构师

职责描述：

1. 领导团队开发混合云深度学习平台，支持公有云、私有云及边缘设备的无缝迁移

2. 设计异构计算调度系统，兼容NVIDIA、AMD、华为昇腾等多品牌加速卡，资源利用率提升35%

3. 构建自动化模型优化流水线，集成量化感知训练、动态网络架构搜索等功能，模型部署效率提升5倍

4. 开发可视化训练监控系统，实时展示损失函数、梯度分布等20+关键指标，问题定位时间缩短80%

5. 制定平台安全规范，实现数据加密、模型水印、差分隐私等防护机制，通过等保三级认证

项目成果：

• 申请发明专利5项，其中2项进入实质审查阶段

• 平台支撑腾讯云AI产品矩阵，服务超过500万开发者

• 获得腾讯技术卓越奖（2023年度）

四、专业技能

1. 深度学习框架：

• 精通PyTorch、TensorFlow、PaddlePaddle核心架构

• 熟悉MXNet、OneFlow、JAX等框架实现原理

• 具备框架二次开发能力，包括自定义算子、分布式通信优化等

2. 分布式系统：

• 精通参数服务器、Ring AllReduce、Hierarchical AllReduce等分布式训练策略

• 熟悉Kubernetes、Docker、Slurm等容器化与资源调度技术

• 了解HDFS、Ceph、Lustre等分布式存储系统

3. 硬件加速：

• 深入理解GPU架构（CUDA、TensorCore）、TPU工作原理

• 熟悉NPU、ASIC等专用加速器的编程模型

• 具备硬件选型与性能调优经验

4. 编程语言：

• 精通C++（5年+开发经验），熟悉Python、Go语言

• 掌握Shell脚本、Makefile等自动化工具

5. 其他技能：

• 熟悉Linux内核原理，具备系统级性能优化能力

• 了解CI/CD流程，熟悉Jenkins、GitLab CI等工具

• 具备英文技术文档撰写能力，CET-6（620分）

五、项目经验

项目一：万亿参数模型训练平台（2021.03-2022.06）

项目背景：为支持达摩院大模型研发，需构建可扩展至万卡规模的训练平台

个人贡献：

1. 设计3D并行策略（数据并行、模型并行、流水线并行），解决单卡显存不足问题

2. 实现梯度压缩与稀疏通信，将网络带宽需求降低70%

3. 开发故障自动恢复机制，在千卡集群上实现99.9%的训练可用性

项目成果：成功训练出1.2万亿参数的多模态大模型，在CLUE榜单上刷新SOTA

项目二：轻量化模型部署方案（2020.07-2020.12）

项目背景：为满足边缘设备部署需求，需将模型体积压缩至10MB以内

个人贡献：

1. 提出动态通道剪枝算法，在保持95%准确率的前提下，模型体积缩小90%

2. 设计量化感知训练流程，支持INT8精度推理，延迟降低60%

3. 开发模型转换工具，兼容TensorFlow Lite、ONNX Runtime等多种推理引擎

项目成果：相关技术应用于腾讯云物联网平台，服务超过10万边缘节点

项目三：跨平台深度学习框架（2019.03-2019.09）

项目背景：为支持百度智能云多芯片架构，需实现框架与国产AI芯片的适配

个人贡献：

1. 设计抽象计算图层，隔离硬件差异，降低适配成本80%

2. 实现自动算子融合，优化计算密集型操作的执行效率

3. 开发性能分析工具，定位并解决寒武纪芯片上的数值精度问题

项目成果：框架通过信创认证，在政务、金融等领域实现落地

六、开源贡献

1. PyTorch核心贡献者（2018-至今）：

• 提交PR 15+，包括分布式数据加载优化、混合精度训练改进等

• 维护torch.distributed.rpc模块，修复3个关键bug

2. OneFlow框架开发者（2020-2021）：

• 实现自动混合精度训练功能，被纳入v0.6.0正式版

• 优化静态图编译流程，提升编译速度30%

3. 个人项目：

• 开发DLProfiler性能分析工具（GitHub 500+星标），支持PyTorch/TensorFlow

• 维护DeepLearningExamples代码库，提供生产级模型实现

七、证书与荣誉

• 全国软件设计大赛一等奖（2013）

• ACM-ICPC亚洲区银牌（2014）

• 谷歌夏季代码贡献奖（GSoC 2015）

• 华为“天才少年”计划入选者（2017）

• 中国计算机学会（CCF）高级会员

• 持有PMP项目管理专业人士资格认证

八、自我评价

1. 技术深度：具备从算法到系统的全栈能力，深入理解深度学习框架底层实现

2. 工程能力：主导过多个千万级用户规模的AI平台建设，具备大规模系统设计经验

3. 创新能力：在分布式训练、模型压缩等领域提出多项创新方案，发表多篇顶会论文

4. 团队协作：擅长跨部门沟通，曾同时管理5个技术团队，确保项目按时交付

5. 学习能力：快速掌握新技术，3个月内从零开始掌握寒武纪芯片编程模型

关键词：深度学习平台架构师、分布式训练、模型压缩、异构计算、PyTorch、TensorFlow、PaddlePaddle、Kubernetes、GPU加速、大模型训练

简介：本文是一份深度学习平台架构师的求职简历，涵盖了教育背景、工作经历、专业技能、项目经验、开源贡献等多个方面。申请人拥有清华大学计算机本科和中科院计算所硕士学历，曾在百度、阿里巴巴、腾讯等顶尖科技公司担任高级研发和架构师职位，主导过多个千万级用户规模的AI平台建设，在分布式训练、模型压缩、异构计算等领域有深厚积累，具备从算法到系统的全栈能力。

立即下载

求职简历相关