位置: 文档库 > 求职简历 > 高性能计算研发工程师简历模板

高性能计算研发工程师简历模板

PropagandaDragon 上传于 2024-02-21 04:49

《高性能计算研发工程师简历模板》

【个人信息】

姓名:张XX

性别:男

年龄:32岁

联系方式:+86-138-XXXX-XXXX

电子邮箱:zhangxx@hpc-dev.com

求职意向:高性能计算研发工程师

期望薪资:35-50K/月

期望城市:北京/上海/深圳

【教育背景】

2010.09-2014.06 清华大学 计算机科学与技术专业 本科

主修课程:计算机体系结构、并行计算、算法设计与分析、高性能网络协议

GPA:3.8/4.0(专业前5%)

2014.09-2017.06 中国科学院计算技术研究所 计算机应用技术专业 硕士

研究方向:异构计算系统优化与并行算法设计

硕士论文:《基于GPU的深度学习模型并行训练优化研究》

学术成果:发表SCI论文2篇(CCF-B类),EI会议论文3篇

【技术能力】

编程语言:C/C++(5年+)、Python(4年+)、CUDA(3年+)、OpenMP/MPI(3年+)

并行计算框架:熟悉OpenCL、ROCm、SYCL等异构计算框架

深度学习框架:PyTorch(优化经验)、TensorFlow(模型部署经验)

性能分析工具:NVIDIA Nsight、Intel VTune、Perf、gprof

系统开发:Linux内核模块开发、分布式系统设计、HPC集群管理

数学基础:线性代数、数值优化、概率统计(GPA 4.0/4.0)

英语能力:CET-6(625分),可熟练阅读英文技术文档

【工作经历】

2017.07-2020.12 华为技术有限公司 计算产品线 高级研发工程师

项目1:昇腾AI处理器并行计算库开发(2018.03-2020.06)

- 负责昇腾910芯片的并行计算库(ACL)核心模块开发,优化矩阵乘法、卷积等算子性能

- 通过内存复用、指令调度优化,使ResNet-50训练吞吐量提升27%

- 设计动态负载均衡算法,解决多核间计算不均衡问题,整体性能提升19%

- 主导与寒武纪、英伟达库的兼容性测试,通过ASIL-D级功能安全认证

项目2:分布式训练框架优化(2017.07-2018.02)

- 开发基于MPI的参数服务器通信优化模块,通信延迟降低42%

- 实现混合精度训练的梯度压缩算法,通信数据量减少68%

- 搭建千卡级训练集群,完成BERT模型预训练,达到业界领先水平

2021.01-至今 阿里巴巴集团 达摩院 资深高性能计算工程师

项目1:含光800芯片AI加速库开发(2021.03-2022.12)

- 设计面向NPU的算子融合策略,将YOLOv5推理延迟从8.2ms降至3.1ms

- 开发自动调优工具链,通过遗传算法生成最优算子实现,性能提升35%

- 构建持续集成系统,实现每日百万次算子测试,故障定位效率提升5倍

项目2:超大规模分布式推理系统(2022.01-至今)

- 设计分层调度架构,支持10万+节点弹性伸缩,资源利用率提升40%

- 开发容错恢复机制,实现秒级故障检测与自动迁移,系统可用性达99.99%

- 优化通信拓扑,使AllReduce操作带宽利用率从65%提升至92%

【项目经验】

项目名称:基于RDMA的高性能分布式键值存储系统(2019.09-2020.05)

技术栈:C++、RDMA、InfiniBand、gRPC

项目职责:

- 设计无锁数据结构,实现单节点百万QPS写入能力

- 开发基于RDMA的远程内存访问协议,延迟降低至1.2μs

- 实现动态负载均衡算法,集群吞吐量随节点数线性增长

项目成果:

- 在16节点集群上达到1.2亿QPS,延迟P99

- 代码被Apache Pulsar项目采纳为存储层实现

项目名称:量子化学模拟软件并行化(2016.03-2016.12)

技术栈:Fortran、MPI、OpenMP、CUDA

项目职责:

- 将Hartree-Fock算法并行化,在256节点GPU集群上实现92%并行效率

- 开发混合精度计算模块,使单次迭代时间从4.2秒降至1.8秒

- 优化内存访问模式,L1缓存命中率提升37%

项目成果:

- 计算规模从100原子扩展至1000原子,精度保持不变

- 相关优化技术发表于SC'2017国际超算大会

【专利与论文】

专利:

- 一种基于动态负载均衡的分布式训练方法(ZL202010123456.7)

- 面向异构计算设备的算子自动生成系统(ZL202110234567.8)

论文:

- "Optimizing Convolutional Neural Networks on Huawei Ascend AI Processors"(IEEE TPDS 2020)

- "RDMA-based Distributed Key-Value Store with Fine-grained Locking"(SC'2021)

- "Auto-tuning Framework for High-Performance Computing Kernels"(IPDPS'2022)

【获奖情况】

2020年 华为技术发明奖一等奖(前5%)

2019年 全国高性能计算学术年会优秀论文奖

2018年 中国计算机学会优秀博士生论文提名奖

2017年 ACM-ICPC亚洲区域赛银牌

【专业技能认证】

NVIDIA CUDA Certified Engineer(2020)

AWS Certified Solutions Architect - Professional(2021)

Linux Foundation Certified Engineer(LFCE)(2019)

【自我评价】

具备5年+高性能计算系统研发经验,精通异构计算架构与并行编程模型。在华为期间主导开发昇腾AI处理器计算库,性能达到业界领先水平;在阿里达摩院负责含光800芯片生态建设,推动AI算力成本下降60%。擅长从算法到硬件的全栈优化,对计算密集型应用的性能瓶颈有深刻理解。具备优秀的跨团队协作能力,曾同时管理3个技术团队完成超大规模分布式系统开发。持续关注量子计算、光计算等前沿领域,保持技术敏锐度。

关键词:高性能计算异构计算、并行编程、CUDA、OpenMPMPI深度学习优化、分布式系统、RDMA、性能调优、昇腾AI、含光800、专利发明SCI论文

简介:该简历详细展示了求职者在高性能计算领域的全栈能力,涵盖教育背景、技术专长、项目经验、专利论文等核心要素。通过华为、阿里等头部企业的实战案例,突出其在异构计算优化、分布式系统设计、AI加速库开发等方面的卓越成就,适合寻求资深高性能计算研发岗位的技术人才参考。