大模型训练系统优化高级研究员

5 months ago


Beijing, China Lenovo Full time

Description and Requirements

岗位职责:

1. 负责设计高可用大模型训练容错系统,支持千亿大模型预训练

2. 负责大模型训练容错checkpoint优化,提升大模型checkpoint读写与恢复性能

3. 负责大模型弹性训练框架的研发

岗位要求:

1. 全日制硕士以上学历,计算机科学与技术、人工智能等相关专业;

2. 熟练C++/Python语言、数据结构以及计算机系统结构,有AI模型性能调优经验,以及良好的工程实现能力;

3.熟悉 AI 领域常见的分布式训练技术,包括但不限于:数据并行、流水线并行和张量并行等,具有相应的项目经验;

4. 至少熟悉一种AI框架(PyTorch/TensorFlow/Paddle/DeepSpeed等),能够熟练使用和调试;

5. 熟悉 GPU 硬件结构和 CUDA 计算原理,有 CUDA 相关算子开发、调试经验,对 NCCL/cuDNN等有一定了解;

6. 对大规模预训练模型有较好的了解,熟悉常见的预训练模型(如GPT、BERT等)结构、训练方法和优化技巧。

7. 具备出色的问题解决能力和创新思维,能够分析和解决复杂的训练问题,并提出改进和优化的方案;

8. 具有良好的团队合作精神,能够与跨部门的团队紧密合作,共同推动项目的成功。

加分项:

1. 有大模型研发和分布式训练经验

2. 熟悉Kubernetes架构以及大模型训练容错系统

3. 在AI或者HPC领域发表过高水平论文

Additional Locations : * China - Beijing - 北京(Beijing) * China * China - Beijing * China - Beijing - 北京(Beijing)

  • Beijing, China Lenovo Full time

    Description and Requirements ...


  • Beijing, Beijing, China Lenovo Full time

    系统要求1. 全日制硕士以上学历,计算机科学与技术、人工智能等相关专业;2. 熟练C++/Python语言、数据结构以及计算机系统结构,有AI模型性能调优经验,以及良好的工程实现能力;3.熟悉 AI...

  • 高级研究员

    1 month ago


    Beijing, Beijing, China Lenovo Full time

    岗位职责:1. 负责设计高可用大模型训练容错系统,支持千亿大模型预训练2. 负责大模型训练容错checkpoint优化,提升大模型checkpoint读写与恢复性能3. 负责大模型弹性训练框架的研发岗位要求:1. 全日制硕士以上学历,计算机科学与技术、人工智能等相关专业;2....


  • Beijing, Beijing, China Cummins Inc. Full time

    工作概要:康明斯数据科学和人工智能部正在寻求本科生或研究生的深入研究机会。这些机会会涵盖大语言模型在汽车和工业等垂直领域的应用探索和实践。主要职责:收集和整理领域数据:...


  • Beijing, Beijing, China Lenovo Full time

    Job Title: 高级编译优化研究员Job Description:Job Responsibilities:1. 设计和实现高效的编译器和工具链;2. 设计高层编译优化方案,在计算图级、算子级和指令级等多层次进行优化,提升AI编译器效能;Job Requirements:1....


  • Beijing, Beijing, China Lenovo Full time

    高级编译优化研究员信息岗位职责: 1. 负责设计并实现高效的编译器和工具链,以优化计算图、算子和指令级性能; 2. 设计并实施高效的编译优化方案,以提高AI编译器的效能; 职位要求: 1. 精通C/C++语言开发,有3年以上系统软件开发经验,熟悉Clang/LLVM开发和常见编译器优化技术;...


  • Beijing, Beijing, China Lenovo Full time

    Job Title: AI编译优化高级研究员Job Description:Job Responsibilities:1. 设计和实现智算平台中的编译器和工具链,并进行优化;2. 设计高层编译优化方案,在计算图级、算子级和指令级等多层次进行优化,提升AI编译器效能;Job Requirements:1....


  • Beijing, Beijing, China Lenovo Full time

    岗位职责我们正在寻找一名经验丰富的AI系统互连仿真研究员来加入我们的团队。作为一名分布式AI训练和推理系统架构设计专家,您将负责大规模AI互连网络的架构设计和仿真场景设计。您的工作将包括设计和开发大规模AI互连网络的仿真系统,测试和验证这些系统的性能...


  • Beijing, China Tencent Full time

    混元深度学习框架高级研发工程师(大模型预训练) 北京 分享 分享岗位 方式1:复制岗位链接 方式2:分享岗位海报 手机扫描二维码分享 收藏 TEG 点击了解更多BG信息 技术 五年以上工作经验 更新于年05月07日 岗位职责 ...


  • Beijing, Beijing, China Lenovo Full time

    工作职责我们正在寻找一名高级编译优化研究员来加入我们的团队,负责设计、实现和优化智算平台中的编译器和工具链。工作要求我们要求候选人精通C/C++语言开发,具有3年以上系统软件开发经验,熟悉Clang/LLVM开发和常见编译器优化技术。同时,候选人应精通至少一项...


  • Beijing, China Tencent Full time

    QQ#多模态内容理解高级算法研究员# 北京 分享 分享岗位 方式1:复制岗位链接 方式2:分享岗位海报 手机扫描二维码分享 收藏 PCG 点击了解更多BG信息 技术 不限 更新于年06月02日 岗位职责 ...


  • Beijing, China Tencent Full time

    微信NLP算法研究员(北京/深圳/上海) 北京 分享 分享岗位 方式1:复制岗位链接 方式2:分享岗位海报 手机扫描二维码分享 收藏 WXG 点击了解更多BG信息 技术 两年以上工作经验 更新于年05月17日 岗位职责 1.参与大规模 AI...


  • Beijing, Beijing, China Cummins Inc. Full time

    职位概述 康明斯公司数据科学与人工智能部门正在寻找本科生或研究生,以参与深入的研究项目。这些项目将聚焦于大型语言模型(LLM)在汽车及工业领域的应用与实践。 主要职责: 探索大型语言模型在汽车及工业领域的应用场景,识别潜在的使用案例。 ...


  • Beijing, China Cummins Inc. Full time

    This position is not available in GPP database. Talent Acquisition team member will fill in the Posting description after intake meeting. Qualifications The Cummins Data Science and Artificial Intelligence Department is seeking undergraduate or graduate students for in-depth research opportunities. These opportunities will cover the exploration and...


  • Beijing, China Cummins Inc. Full time

    DESCRIPTION This position is not available in GPP database. Talent Acquisition team member will fill in the Posting description after intake meeting. RESPONSIBILITIES This position is not available in GPP database. Talent Acquisition team member will fill in the Posting description after intake meeting. QUALIFICATIONS The Cummins Data Science...


  • Beijing, China Lenovo Full time

    Description and Requirements 岗位职责: 1. 负责智算平台中编译器和工具链的设计,实现和优化; 2. 设计高层编译优化方案,在计算图级、算子级和指令级等多层次进行优化,提升AI编译器效能 职位要求: 1....


  • Beijing, China Lenovo Full time

    Description and Requirements 岗位职责: 1、负责分布式AI训练和推理系统的大规模互连网络架构设计; 2、负责大规模AI互连网络的仿真场景、性能评价指标设计; 3、负责大规模AI互连网络仿真系统的搭建、测试和验证工作   岗位要求: ...


  • Beijing, China Tencent Full time

    机器学习高级后台研发工程师(推理平台方向) 北京 分享 分享岗位 方式1:复制岗位链接 方式2:分享岗位海报 手机扫描二维码分享 收藏 TEG 点击了解更多BG信息 技术 三年以上工作经验 更新于年05月24日 岗位职责 ...


  • Beijing, Beijing, China Tencent Full time

    岗位职责1.负责大模型微调相关工作,包括但不限于数据样本准备,高效训练等;2.探索研究如何从经典IP小说原文中高效的构造SFT训练样本,提升模型对话能力;3.提升大模型对复杂prompt的遵循能力,充分挖掘大模型潜力;4.提升大模型结合检索的能力,探索高效的模型知识嵌入方法以...


  • Beijing, Beijing, China Lenovo Full time

    岗位职责1.基于大模型相关技术,负责构建垂直领域的行业大模型及上层平台应用,主动探索业界领先的大模型架构落地实现方案2.负责推动建设基于大模型技术的 AI Agent...