位置：文档库 > 求职简历 > 文档下载预览

1. 下载的文档为doc格式,下载后可用word或者wps进行编辑;

2. 将本文以doc文档格式下载到电脑，方便收藏和打印;

3. 下载后的文档,内容与下面显示的完全一致,下载之前请确认下面内容是否您想要的,是否完整.

点击下载文档

hpc运维工程师简历模板.doc

HPC运维工程师简历模板

一、个人信息

姓名：张XX

性别：男

出生日期：1990年5月

联系方式：+86-138XXXX1234

电子邮箱：zhangxx@hpc-tech.com

现居地：北京市海淀区

求职意向：HPC（高性能计算）运维工程师

期望薪资：25K-35K/月（可面议）

到岗时间：1个月内

二、教育背景

2010.09-2014.06 清华大学计算机科学与技术专业本科

主修课程：高性能计算架构、分布式系统、并行编程、Linux系统管理、计算机网络

毕业论文：《基于InfiniBand的高性能计算集群优化研究》

2014.09-2017.06 中国科学院计算技术研究所计算机应用技术专业硕士

研究方向：大规模并行计算系统运维与优化

学术成果：发表SCI论文2篇（核心期刊），参与国家863计划项目《千万亿次级高性能计算系统运维管理平台研发》

三、工作经历

2017.07-2020.12 北京超级云计算中心 HPC运维工程师

职责描述：

1. 负责中心内3套千节点级HPC集群（含Intel Xeon Phi、NVIDIA Tesla GPU加速卡）的日常运维，包括硬件故障诊断、节点替换、系统升级，年均处理硬件故障120+次，系统可用率保持99.9%以上

2. 构建自动化运维体系，开发基于Ansible的集群配置管理工具，实现节点批量部署时间从4小时缩短至20分钟，部署效率提升90%

3. 优化作业调度系统（Slurm），通过调整资源分配策略，使集群整体吞吐量提升35%，用户作业平均等待时间缩短至8分钟以内

4. 建立监控告警系统，集成Prometheus+Grafana实现集群资源（CPU/内存/存储/网络）实时可视化，故障响应时间从30分钟缩短至5分钟内

5. 主导完成2次集群扩容项目，新增节点256个，协调硬件供应商、网络团队完成机柜部署、电力测试、网络互联，确保项目按时交付

项目成果：

• 主导开发《HPC集群智能运维平台》，集成故障预测、资源调度优化功能，获中心年度技术创新奖

• 参与编写《HPC集群运维规范（V2.0）》，成为行业标准化文档

2021.01-至今阿里云智能事业群高级HPC运维工程师

职责描述：

1. 负责阿里云E-HPC（弹性高性能计算）产品的公有云环境运维，管理全球5个区域的HPC集群（总规模超5万核），保障SLA 99.95%以上

2. 设计混合云架构，实现私有HPC集群与公有云资源的动态调度，帮助客户降低30%计算成本

3. 开发基于Kubernetes的HPC容器化方案，支持MPI、OpenMP等并行程序无缝迁移，容器启动时间缩短至15秒

4. 建立安全合规体系，通过ISO27001认证，制定HPC数据加密、访问控制策略，实现零安全事件

5. 培训20+企业客户使用HPC集群，编写《E-HPC用户手册》《并行程序调试指南》等文档

项目成果：

• 主导设计《HPC多云管理解决方案》，获2022年阿里云技术突破奖

• 优化存储系统，将IOPS从50K提升至200K，满足AI训练场景的高并发需求

四、专业技能

1. 集群管理：精通Slurm/PBS Pro作业调度系统，熟悉Lustre/BeeGFS并行文件系统配置与优化

2. 系统运维：熟练Linux系统（CentOS/Ubuntu）管理，掌握Shell/Python自动化脚本开发，具备KVM/Xen虚拟化经验

3. 网络技术：熟悉InfiniBand/Omni-Path高速网络配置，掌握TCP/IP协议栈优化，具备SDN实施能力

4. 监控工具：熟练使用Prometheus/Grafana/Zabbix搭建监控系统，熟悉ELK日志分析平台

5. 编程能力：掌握C/C++/Python开发，熟悉MPI/OpenMP并行编程模型，了解CUDA/OpenCL加速计算

6. 云平台：熟悉阿里云ECS/NAS/SLB服务，具备AWS EC2/S3/EBS跨云运维经验

7. 安全合规：了解等保2.0标准，具备HPC集群安全加固、数据加密实施能力

五、项目经验

项目1：千万亿次HPC集群升级项目（2019.03-2019.12）

角色：技术负责人

内容：

• 主导从Intel Xeon E5到Xeon Platinum 8280的CPU升级，协调戴尔、浪潮完成400个计算节点替换

• 部署NVIDIA V100 GPU加速卡，优化NVLink互联配置，使AI训练任务性能提升2.3倍

• 升级InfiniBand网络至HDR 200Gbps，通过子网管理器（SM）优化路由，降低延迟至1.2μs

成果：集群Linpack测试性能从8.2PFlops提升至12.5PFlops，全球TOP500排名从第78位升至第45位

项目2：HPC容器化迁移项目（2021.06-2021.11）

角色：架构师

内容：

• 设计基于Kubernetes的HPC容器方案，解决MPI进程间通信问题，支持动态资源伸缩

• 开发容器镜像仓库，集成NVIDIA Docker运行时，实现GPU资源透明分配

• 编写《HPC容器化最佳实践》，指导客户将传统作业迁移至容器环境

成果：客户作业启动时间从10分钟缩短至2分钟，资源利用率提升40%

六、证书与培训

• Red Hat Certified Engineer（RHCE）

• NVIDIA Deep Learning Institute认证（GPU加速计算）

• 阿里云ACE认证（云计算架构师）

• 2018年参加SC18国际超算大会（美国达拉斯），作《中国HPC运维实践》主题演讲

• 2020年完成Coursera《大规模并行编程》专项课程（加州大学圣克鲁兹分校）

七、自我评价

1. 技术深度：8年HPC领域深耕，熟悉从底层硬件（CPU/GPU/网络）到上层软件（作业调度/监控/容器）的全栈技术，具备解决复杂问题的能力

2. 自动化思维：擅长通过脚本/工具提升运维效率，曾开发10+自动化工具，减少人工操作错误率

3. 团队协作：在跨部门项目中担任技术协调角色，具备良好的沟通能力和项目管理经验

4. 学习能力：持续关注HPC前沿技术（如量子计算、异构计算），快速掌握新工具（如Argonne的Bright Cluster Manager）

5. 责任心：7×24小时待命，曾连续48小时处理集群重大故障，确保客户业务零中断

关键词：HPC运维工程师、高性能计算、集群管理、Slurm调度、InfiniBand网络、自动化运维、容器化、监控系统、GPU加速、阿里云E-HPC

简介：本简历详细描述了求职者8年HPC运维经验，涵盖千节点级集群管理、自动化工具开发、混合云架构设计等核心能力，突出其在系统优化、故障处理、技术创新方面的成果，适用于超算中心、云计算厂商等企业的HPC运维岗位。

《hpc运维工程师简历模板.doc》

将本文以doc文档格式下载到电脑，方便收藏和打印

推荐度：

点击下载文档