HPC运维工程师简历模板
一、个人信息
姓名:张XX
性别:男
出生日期:1990年5月
联系方式:+86-138XXXX1234
电子邮箱:zhangxx@hpc-tech.com
现居地:北京市海淀区
求职意向:HPC(高性能计算)运维工程师
期望薪资:25K-35K/月(可面议)
到岗时间:1个月内
二、教育背景
2010.09-2014.06 清华大学 计算机科学与技术专业 本科
主修课程:高性能计算架构、分布式系统、并行编程、Linux系统管理、计算机网络
毕业论文:《基于InfiniBand的高性能计算集群优化研究》
2014.09-2017.06 中国科学院计算技术研究所 计算机应用技术专业 硕士
研究方向:大规模并行计算系统运维与优化
学术成果:发表SCI论文2篇(核心期刊),参与国家863计划项目《千万亿次级高性能计算系统运维管理平台研发》
三、工作经历
2017.07-2020.12 北京超级云计算中心 HPC运维工程师
职责描述:
1. 负责中心内3套千节点级HPC集群(含Intel Xeon Phi、NVIDIA Tesla GPU加速卡)的日常运维,包括硬件故障诊断、节点替换、系统升级,年均处理硬件故障120+次,系统可用率保持99.9%以上
2. 构建自动化运维体系,开发基于Ansible的集群配置管理工具,实现节点批量部署时间从4小时缩短至20分钟,部署效率提升90%
3. 优化作业调度系统(Slurm),通过调整资源分配策略,使集群整体吞吐量提升35%,用户作业平均等待时间缩短至8分钟以内
4. 建立监控告警系统,集成Prometheus+Grafana实现集群资源(CPU/内存/存储/网络)实时可视化,故障响应时间从30分钟缩短至5分钟内
5. 主导完成2次集群扩容项目,新增节点256个,协调硬件供应商、网络团队完成机柜部署、电力测试、网络互联,确保项目按时交付
项目成果:
• 主导开发《HPC集群智能运维平台》,集成故障预测、资源调度优化功能,获中心年度技术创新奖
• 参与编写《HPC集群运维规范(V2.0)》,成为行业标准化文档
2021.01-至今 阿里云智能事业群 高级HPC运维工程师
职责描述:
1. 负责阿里云E-HPC(弹性高性能计算)产品的公有云环境运维,管理全球5个区域的HPC集群(总规模超5万核),保障SLA 99.95%以上
2. 设计混合云架构,实现私有HPC集群与公有云资源的动态调度,帮助客户降低30%计算成本
3. 开发基于Kubernetes的HPC容器化方案,支持MPI、OpenMP等并行程序无缝迁移,容器启动时间缩短至15秒
4. 建立安全合规体系,通过ISO27001认证,制定HPC数据加密、访问控制策略,实现零安全事件
5. 培训20+企业客户使用HPC集群,编写《E-HPC用户手册》《并行程序调试指南》等文档
项目成果:
• 主导设计《HPC多云管理解决方案》,获2022年阿里云技术突破奖
• 优化存储系统,将IOPS从50K提升至200K,满足AI训练场景的高并发需求
四、专业技能
1. 集群管理:精通Slurm/PBS Pro作业调度系统,熟悉Lustre/BeeGFS并行文件系统配置与优化
2. 系统运维:熟练Linux系统(CentOS/Ubuntu)管理,掌握Shell/Python自动化脚本开发,具备KVM/Xen虚拟化经验
3. 网络技术:熟悉InfiniBand/Omni-Path高速网络配置,掌握TCP/IP协议栈优化,具备SDN实施能力
4. 监控工具:熟练使用Prometheus/Grafana/Zabbix搭建监控系统,熟悉ELK日志分析平台
5. 编程能力:掌握C/C++/Python开发,熟悉MPI/OpenMP并行编程模型,了解CUDA/OpenCL加速计算
6. 云平台:熟悉阿里云ECS/NAS/SLB服务,具备AWS EC2/S3/EBS跨云运维经验
7. 安全合规:了解等保2.0标准,具备HPC集群安全加固、数据加密实施能力
五、项目经验
项目1:千万亿次HPC集群升级项目(2019.03-2019.12)
角色:技术负责人
内容:
• 主导从Intel Xeon E5到Xeon Platinum 8280的CPU升级,协调戴尔、浪潮完成400个计算节点替换
• 部署NVIDIA V100 GPU加速卡,优化NVLink互联配置,使AI训练任务性能提升2.3倍
• 升级InfiniBand网络至HDR 200Gbps,通过子网管理器(SM)优化路由,降低延迟至1.2μs
成果:集群Linpack测试性能从8.2PFlops提升至12.5PFlops,全球TOP500排名从第78位升至第45位
项目2:HPC容器化迁移项目(2021.06-2021.11)
角色:架构师
内容:
• 设计基于Kubernetes的HPC容器方案,解决MPI进程间通信问题,支持动态资源伸缩
• 开发容器镜像仓库,集成NVIDIA Docker运行时,实现GPU资源透明分配
• 编写《HPC容器化最佳实践》,指导客户将传统作业迁移至容器环境
成果:客户作业启动时间从10分钟缩短至2分钟,资源利用率提升40%
六、证书与培训
• Red Hat Certified Engineer(RHCE)
• NVIDIA Deep Learning Institute认证(GPU加速计算)
• 阿里云ACE认证(云计算架构师)
• 2018年参加SC18国际超算大会(美国达拉斯),作《中国HPC运维实践》主题演讲
• 2020年完成Coursera《大规模并行编程》专项课程(加州大学圣克鲁兹分校)
七、自我评价
1. 技术深度:8年HPC领域深耕,熟悉从底层硬件(CPU/GPU/网络)到上层软件(作业调度/监控/容器)的全栈技术,具备解决复杂问题的能力
2. 自动化思维:擅长通过脚本/工具提升运维效率,曾开发10+自动化工具,减少人工操作错误率
3. 团队协作:在跨部门项目中担任技术协调角色,具备良好的沟通能力和项目管理经验
4. 学习能力:持续关注HPC前沿技术(如量子计算、异构计算),快速掌握新工具(如Argonne的Bright Cluster Manager)
5. 责任心:7×24小时待命,曾连续48小时处理集群重大故障,确保客户业务零中断
关键词:HPC运维工程师、高性能计算、集群管理、Slurm调度、InfiniBand网络、自动化运维、容器化、监控系统、GPU加速、阿里云E-HPC
简介:本简历详细描述了求职者8年HPC运维经验,涵盖千节点级集群管理、自动化工具开发、混合云架构设计等核心能力,突出其在系统优化、故障处理、技术创新方面的成果,适用于超算中心、云计算厂商等企业的HPC运维岗位。