各大行业职位任你选
首次验证通过即注册BOSS直聘账号职位描述
- Python
- 分布式技术
1、负责智算中心大模型业务系统架构设计,业务技术选型等工作;
2、负责模型上云方案的制定,推动平台/产品的稳定性、性能、开放性和扩展性建设;
3、负责模型上云过程中的重难点问题技术支撑工作
任职资格
1. 计算机基础扎实,熟悉计算机体系结构以及并行计算基本技术,熟悉 C/C++ 和 Python,具备系统软件开发架构能力;
2. 有Pytorch、TensorFlow或任意一种大模型训练、微调的经验,熟悉Deepspeed 或 Megatron-LM 等大模型分布式训练框架;
3. 具备在多机多卡环境下快速部署、启动模型训练任务以及模型启动、运行过程中的故障快速定位解决能力;
4. 熟悉云系统或智算中心基础设施部署和优化,熟悉GPU集群部署的性能优化工作,了解GPU互联,IB、RoCE网络;
5. 熟练掌握深度学习分布式优化方法,有大模型训练优化经验者优先;
6. 熟悉多种硬件架构,并有实际开发经验的优先。
7. 富有事业心和团队合作精神,有很强的技术沟通和技术文档编辑能力;有强烈的求知欲、好奇心和进取心 ,能及时关注和学习业界新技术进展。
认证资质
![](https://img.bosszhipin.com/beijin/upload/avatar/20231229/607f1f3d68754fd044f60b1adfea59b16342b0d7897fb901f38d0264d71d334b90b7787c5a844f5_b.jpg?x-oss-process=image/resize,w_100,limit_0)
田先生
竞争力分析
![](https://img.bosszhipin.com/static/file/2022/4jo15bijai1661828091546.png)
![](https://img.bosszhipin.com/static/file/2022/4jo15bijai1661828091546.png)
BOSS 安全提示
BOSS直聘严禁用人单位和招聘者用户做出任何损害求职者合法权益的违法违规行为,包括但不限于扣押求职者证件、收取求职者财物、向求职者集资、让求职者入股、诱导求职者异地入职、异地参加培训、违法违规使用求职者简历等,您一旦发现此类行为, 请立即举报
了解更多职场安全防范知识精选职位
更新于:2024-06-14