运维开发工程师(异构计算AI训练及框架)

6 months ago


Shenzhen, China Tencent Full time
运维开发工程师(异构计算AI训练及框架) 深圳 分享

分享岗位

方式1:复制岗位链接

方式2:分享岗位海报

手机扫描二维码分享

收藏 CSIG 点击了解更多BG信息 技术 五年以上工作经验 更新于年06月06日 岗位职责 1.支持客户的AI训练和推理方案设计和相关的技术支持,给出合理的产品方案建议;2.协助客户解决在大规模集群训练中遇到的问题,例如软硬件版本兼容问题导致的模型加载异常、模型训练相率降低等;3.熟悉RDMA网络通信技术,梳理当前的网络架构,推动网络架构的优化,完善故障诊断和快速恢复的运维能力;4.熟悉训练的中各环节设计的相关指标,推动内部监控运维体系能力的优化建设,通过分析相关性能指标能提前分析训练中的隐患、主动给与客户优化建议;5.梳理客户的核心需求,提炼为普适性的产品能力,推动研发团队提升产品体验。 岗位要求 1.熟悉大规模分布式训练,熟练掌握不同分布式训练框架,如Megatron-LM, DeepSpeed;2.熟悉不同分布式并行策略(DP, TP, PP等),具备并行调优经验;3.熟悉一个或多个垂直业务场景(优先AIGC、LLM);4.深入了解GPU原理,掌握CUDA或Triton编程能力,及GPU性能profiling;5.熟练使用或参与开发算子库、优化库、社区项目,包括但不限于Faster Transformer, TensorRT, cuDNN, cuBLAS, sass, oneDNN, ZenDNN, ROCm等;6.熟练掌握并深入了解DL框架实现原理(优先Tensorflow、Pytorch、DDP);7.熟练掌握Python和C++,有社区开发经验者优先;8.熟悉RDMA网络通信技术,有RDMA高性能网络设计及运营经验者优先;9.熟悉NCCL实现源码者优先,对集合通信要有深入了解,包括但不限于Allreduce,AlltoALL等,并且有丰富的问题排查经验;10.对基础网络架构相关技术有深入了解,掌握主流网络相关协议如BGP、QOS、PFC、ECN、ROCE等;11.对云网络相关技术有深入了解,包括但不限于VPC、负责均衡、NAT、Bare Metal Server、K8S等。

  • Shenzhen, Guangdong, China Tencent Full time

    岗位职责1.支持客户的AI训练和推理方案设计,提供高质量的技术支持,为客户推荐合理的产品方案;2.协助客户解决在大规模集群训练中遇到的问题,例如软硬件版本兼容问题导致的模型加载异常、模型训练速度降低等;3.熟悉RDMA网络通信技术,梳理当前的网络架构,优化网络架构,...


  • Shenzhen, Guangdong, China Tencent Full time

    腾讯云高性能计算集群研发工程师负责平台开发和建设,构建业界领先的集群算力调度能力、集群网络管理监控能力、集群故障发现和迁移自愈等能力。该岗位还负责主流 AI 框架的云平台适配和性能调优工作,打造具备差异化竞争力的 AI 加速平台产品能力。 岗位职责: li>...


  • Shenzhen, China Tencent Full time

    腾讯云异构计算研发工程师(深圳、北京、上海) 深圳 分享 分享岗位 方式1:复制岗位链接 方式2:分享岗位海报 手机扫描二维码分享 收藏 CSIG 点击了解更多BG信息 技术 五年以上工作经验 更新于年06月02日 岗位职责 ...


  • Shenzhen, China Tencent Full time

    推理和训练研发工程师 深圳 分享 分享岗位 方式1:复制岗位链接 方式2:分享岗位海报 手机扫描二维码分享 收藏 TEG 点击了解更多BG信息 技术 三年以上工作经验 更新于年05月20日 岗位职责 1.1.负责推理和训练平台的研发与优化,支撑AI...


  • Shenzhen, China Tencent Full time

    微信生态 AI 训练与部署系统高级工程师 深圳 分享 分享岗位 方式1:复制岗位链接 方式2:分享岗位海报 手机扫描二维码分享 收藏 WXG 点击了解更多BG信息 技术 两年以上工作经验 更新于年03月22日 岗位职责 ...


  • Shenzhen, China Tencent Full time

    机器学习后台开发专家工程师 深圳 分享 分享岗位 方式1:复制岗位链接 方式2:分享岗位海报 手机扫描二维码分享 收藏 IEG 点击了解更多BG信息 技术 三年以上工作经验 更新于年03月26日 岗位职责 ...


  • Shenzhen, Guangdong, China Tencent Full time

    岗位职责负责面向AI推理场景的异构计算产品定义和规划,制定AI推理场景下的模型调优和业务部署应用平台规划,助力业务推理效率提升;负责高性能训练集群产品规划工作,提升大规模AI分布式训练场景的平台加速、易用性和可观测性等产品能力;负责公有云异构计算平台AI方...


  • Shenzhen, China Tencent Full time

    云计算后台开发工程师 深圳 分享 分享岗位 方式1:复制岗位链接 方式2:分享岗位海报 手机扫描二维码分享 收藏 CSIG 点击了解更多BG信息 技术 五年以上工作经验 更新于年06月11日 岗位职责 ...


  • Shenzhen, Guangdong, China Tencent Full time

    岗位职责负责推理和训练平台的研发与优化,支撑AI...


  • Shenzhen, China Tencent Full time

    边缘AI推理研发工程师 深圳 分享 分享岗位 方式1:复制岗位链接 方式2:分享岗位海报 手机扫描二维码分享 收藏 TEG 点击了解更多BG信息 技术 五年以上工作经验 更新于年06月11日 岗位职责 1.设计建设一站式 Serverless AI...


  • Shenzhen, China Tencent Full time

    AI Bot算法开发工程师 深圳 分享 分享岗位 方式1:复制岗位链接 方式2:分享岗位海报 手机扫描二维码分享 收藏 IEG 点击了解更多BG信息 技术 三年以上工作经验 更新于年05月13日 岗位职责 ...


  • Shenzhen, China Tencent Full time

    游戏AI后台开发工程师 深圳 分享 分享岗位 方式1:复制岗位链接 方式2:分享岗位海报 手机扫描二维码分享 收藏 TEG 点击了解更多BG信息 技术 两年以上工作经验 更新于年05月21日 岗位职责 ...


  • Shenzhen, China Tencent Full time

    大数据平台研发工程师-应用架构专家 深圳 分享 分享岗位 方式1:复制岗位链接 方式2:分享岗位海报 手机扫描二维码分享 收藏 TEG 点击了解更多BG信息 技术 五年以上工作经验 更新于年05月17日 岗位职责 ...


  • Shenzhen, Guangdong, China Tencent Full time

    工作概述Tencent是一家领先的游戏公司,我们致力于创造出世界级游戏和移动应用程序。我们的团队正在寻找一位经验丰富的游戏 AI...


  • Shenzhen, China Tencent Full time

    S2Java应用开发工程师 深圳 分享 分享岗位 方式1:复制岗位链接 方式2:分享岗位海报 手机扫描二维码分享 收藏 S2 点击了解更多BG信息 技术 五年以上工作经验 更新于年05月08日 岗位职责 ...


  • Shenzhen, China Tencent Full time

    S2高级java开发工程师 深圳 分享 分享岗位 方式1:复制岗位链接 方式2:分享岗位海报 手机扫描二维码分享 收藏 S2 点击了解更多BG信息 技术 五年以上工作经验 更新于年05月28日 岗位职责 ...


  • Shenzhen, China Tencent Full time

    腾讯云异构计算产品经理(深圳、北京、上海) 深圳 分享 分享岗位 方式1:复制岗位链接 方式2:分享岗位海报 手机扫描二维码分享 收藏 CSIG 点击了解更多BG信息 产品 五年以上工作经验 更新于年06月02日 岗位职责 ...


  • Shenzhen, China Tencent Full time

    #研发安全工程师# 深圳 分享 分享岗位 方式1:复制岗位链接 方式2:分享岗位海报 手机扫描二维码分享 收藏 PCG 点击了解更多BG信息 技术 一年以上工作经验 更新于年06月06日 岗位职责 ...


  • Shenzhen, China Tencent Full time

    微信并行计算高级工程师 深圳 分享 分享岗位 方式1:复制岗位链接 方式2:分享岗位海报 手机扫描二维码分享 收藏 WXG 点击了解更多BG信息 技术 两年以上工作经验 更新于年05月12日 岗位职责 1.负责 AI 异构计算平台研发,打造 NLP/视觉/语音...

  • 数据开发工程师

    6 months ago


    Shenzhen, China Tencent Full time

    数据开发工程师 深圳 分享 分享岗位 方式1:复制岗位链接 方式2:分享岗位海报 手机扫描二维码分享 收藏 CDG 点击了解更多BG信息 技术 三年以上工作经验 更新于年06月11日 岗位职责 ...