过去二十年,CUDA几乎定义了GPU编程的主流路径,开发者可以在其框架内充分挖掘GPU性能。随着国产AI芯片进入训练与推理主战场,这套长期依赖CUDA的开发模式也面临新的工程挑战:算子如何高效编写、性能如何精细调优、同一套代码能否在不同硬件上长期迭代,成为核心课题。在这种背景下,Triton作为新兴高性能算子编程模型,正受到越来越多团队关注。它在提供底层性能调优能力的同时,通过合理抽象,也为跨硬件部署和长期维护提供了可行方案。
围绕这一正在发生的工程转变,由众智FlagOS社区、北京智源人工智能研究院、CSDN联合主办的「TritonNext 技术大会(TritonNext 2026)」,将于2026年1月9日在北京海淀区中关村国家自主创新示范区展示中心拉开帷幕。作为国内首个聚焦Triton的技术盛会,本次大会将聚焦于国产芯片与算子实践这一核心战场。
来自智源、摩尔线程、华为、中国科学院计算技术研究所、百度、先进编译实验室、蚂蚁集团、上海苦芽科技有限公司、湖南卡姆派乐信息科技有限公司等深耕GPU编译、算子优化与芯片软件栈的一线资深专家,将围绕Triton在真实业务中的落地成效,以及在国产AI芯片上的适配经验,展开一场场紧扣工程实战的深度分享。
话不多,大会报名通道现已开启。扫描下方二维码,抢先注册参会:
同时,首波嘉宾已经就位,精彩议题同步揭晓,快来看看有哪些行业大咖——
首批嘉宾阵容和议题
林咏华
北京智源人工智能研究院副院长兼总工程师
简介:现任北京智源人工智能研究院副院长兼总工程师,主管大模型研究中心、人工智能系统及基础软件研究、产业生态合作等重要方向。IEEE女工程师亚太区领导组成员,IEEE女工程师协会北京分会的创始人。曾任IBM中国研究院院长,同时也是IBM全球杰出工程师,在IBM内部引领全球人工智能系统的创新。从事近20年的系统架构、云计算、AI系统, 计算机视觉等领域的研究。本人有超过50个全球专利,并多次获得ACM/IEEE最佳论文奖。获评2019年福布斯中国50位科技领导女性。
演讲议题:开源统一AI系统软件栈FlagOS新技术特性
崔慧敏
中国科学院计算技术研究所研究员、博士生导师,中科加禾创始人兼CEO
简介:崔慧敏,中国科学院计算技术研究所研究员,博士生导师,中科加禾创始人,任中科院计算所编译与编程实验室主任。曾主持过多项自然科学基金、973项目、科技部重点研发计划等国家级科研项目与课题,是2030新一代人工智能某编程项目的首席科学家。发表包括ASLPOS、MICRO、PLDI、PPoPP、OSDI、SC、TOCS、TPDS、TACO等编译和系统领域的顶级国际会议和期刊论文60余篇。
演讲议题:AI编译器学术报告:面向快速演进计算架构的自适应编译器构建与优化技术
议题介绍:随着计算架构向异构化与定制化方向演进,人工智能正在驱动编译技术新范式的发展。本报告旨在系统探讨大模型在编译领域的潜力,重点研究如何基于长期积累的编译技术演进,实现编译流程的自动化与智能化,从而使编译器能够高效适配新兴硬件平台,进行深度资源优化,并最终构建面向领域特定计算的高效编译与架构协同生态体系。
门春雷
北京智源人工智能研究院AI系统研究团队负责人
简介:高级工程师,主要负责智能算力调度平台、AI编译器和AI芯片研究。先后在多家互联网公司担任技术主管/专家,从事人工智能研发工作,包括基础技术研发和应用落地。代表成果:京东物流无人机/无人车规模化落地,快手大模型在短视频场景应用落地。已授权发明专利13篇。
演讲议题:Triton多芯片统一编译器FlagTree新特性介绍
郑思泽
字节跳动工程师
简介:郑思泽博士现任字节跳动机器学习系统研究员,主要负责Triton-distributed 项目。他在北京大学获得计算机博士学位;此前,他曾于华盛顿大学访学。他的研究聚焦于编译器设计与代码优化、CPU/GPU高效训练与推理的算法及框架设计,相关成果发表于MICRO、ASPLOS、ISCA等顶级会议。同时,他活跃于学术社区,担任ChinaSys PC成员及ICLR、TPDS等多个国际会议与期刊的审稿人。
演讲议题:基于Triton-Distributed的推理与训练实践
议题介绍:在单芯片摩尔定律失效,多芯片系统成为主流的今天,如何在分布式系统中面向多芯片编程成为当前机器学习系统发展的一个重要问题。为了解决这个问题,本报告介绍Triton-distributed。通过拓展Tile编程语义,Triton-distributed提供了大量分布式编程语义,支持单机、跨机多种场景的多种训练推理算子。实验证明,Triton-distributed可以取得和底层编程一致的性能,同时极大降低开发门槛。
甄羿
蚂蚁集团技术专家
简介:蚂蚁集团技术专家,在基础技术、编译、编程语言等方面有多年经验。
演讲议题:DeepSeek V3.2 DSA算子Triton开发实践
议题介绍:概述DSA算子基于Triton适配和优化的实践。 同时聊一聊FlagOS、FlagGems生态软件在蚂蚁应用的情况。
马永强
百度资深工程师
简介:负责飞桨框架多硬件适配技术体系构建,研发面向大模型的高性能计算和融合优化技术,强化大模型在多硬件下的训练效率与推理性能。
演讲议题:飞桨原生Triton支持方案详解——大模型软硬件适配技术分享
议题介绍:本次分享将围绕以下三部分展开:
1、triton/flagtree的支持方案
2、triton算子在训推中的使用
3、paddle适配方案相关内容
海纳
摩尔线程编译器负责人
简介:摩尔线程编译器负责人,编译器资深专家,长期从事系统性能优化等工作。著有图书《从零开始写Linux内核》,《自己动手写Python虚拟机》,以及极客专栏《高手必学的内存知识》等。
演讲议题:摩尔线程在FlagTree中的优化实践
议题介绍:摩尔线程编译团队在Triton中适配Tensor Core,同时开启了pipeline、warp specialize、split k等优化方案。本次演讲会重点介绍这些优化工作。
刘广
北京智源人工智能研究院系统智能研究组负责人
简介:刘广,智源人工智能研究院系统智能研究组的负责人,领导OpenSeek等开源项目,主导开发了悟道天鹰(Aquila)系列语言大模型,构建并开源Infinity-Instruct/-MM 以及CCI4.0等系列等数据集,目前正专注于KernelGen项目来提升算子开发的效率,致力于推动系统领域的的AI技术应用和创新。
演讲议题:Triton算子自动生成探索和实践
议题介绍:围绕大模型训练与推理的高性能需求,我们基于KernelGen开展了Triton算子自动生成的探索与实践。通过构建覆盖算子描述、自动代码生成、性能搜索与验证的一体化流程,KernelGen显著降低了算子开发门槛与工程成本,并在多种核心算子上实现接近甚至优于手写Triton/CUDA的性能表现,同时具备良好的跨芯片适配能力,为算子自动化生成与AI for System的工程化落地提供了可行路径。
邵恩
中国科学院计算技术研究所高级工程师
简介:邵恩,中国科学院计算技术研究所,高级工程师,主要研究方向为高性能计算与系统软件。入选北京市科技新星计划和中国科学院青年创新促进会,主持国家重点研发计划(青年科学家项目)、国家自然科学基金(青年基金)、CCF-百度松果基金、CCF-蚂蚁软硬件协同专项基金等。带领科研团队完成百度飞桨、Apache TVM、oneAPI、光合开发者在内多个开源社区对SYCL的编译支持。
演讲议题:面向异构硬件的系统软件共性优化
议题介绍:伴随着计算机产业的不断发展,种类多样化的处理器和加速器芯片的微体系结构,正朝着异构、领域专有化的方向发展。与此同时,面向跨异构硬件的并行编程模型(SYCL),也逐渐在高性能计算的系统软件中发挥重要作用。系统软件是否能够同时适用于来自不同芯片厂商的处理器和加速器,将直接限制集成异构处理器的高性能计算机的应用研制与生态发展。本次报告将结合面向跨异构硬件的现状展开,结合对国产高性能计算机的适配现状,讨论系统软件的共性优化问题与机遇。
朱天阳
北京中科加禾智能科技有限公司研发总监
简介:中科加禾研发总监,主要负责Triton编译器和大模型端侧推理引擎的研发工作,曾先后就职于Intel、华为和阿里的编译器和模型部署团队,负责相关研发和管理工作。
演讲议题:Triton语言扩展TLE的架构感知层的设计和实现
议题介绍:TLE是针对Triton的语言的扩展,它需要充分暴露硬件特性供算子开发者编写针对某种硬件架构的高性能算子,本议题针对DSA和GPU硬件架构特性进行语言层面的抽象和实现。
郭依蓬
华为昇腾CANN生态技术专家
简介:昇腾CANN生态技术专家,对昇腾开发工具链有较为深刻的理解。深耕编译器与编程语言领域,积累了丰富的MLIR/LLVM编译优化相关经验,深度参与毕昇编译器开发。
演讲议题:AscendNPU IR完备表达昇腾,开源开放支持多语言接入
议题介绍:昇腾CANN毕昇编译器组件AscendNPU IR已达成全面开源。AscendNPU IR作为面向三方框架的MLIR接入层,提供灵活对接、完备表达与昇腾亲和编译优化能力,可支撑多前端DSL实现算子性能提升。
柴赟达
先进编译实验室基础编译部部长
简介:柴赟达,主研方向为 AI 编译器、基础编译器以及编译优化技术。精通LLVM编译器前端设计、中间代码级编译优化及后端代码生成等,精通MLIR 语法, triton - shared 编译器、以及 Linalg IR 中间表示设计等编译系统的研发工作。
演讲议题:面向 Triton 编译器的编译优化实践
议题介绍:本次分享将剖析 Triton 的生态与发展,分析 triton - shared 编译器, linalg IR 中间表示设计。结合 FlagTree 编译器生态,讲解Triton算子生成,以及面向不同架构的triton编译器优化实践。
郭晖
北京智源人工智能研究院AI编译器研究员
简介:郭晖,7 年端/云 AI 推理芯片软硬件协同设计经验,曾于嘉楠科技担任 AI 编译部经理,负责全自研开源 AI 编译器 nncase 的研发。目前于智源人工智能研究院担任 AI 编译器研究员,主要研究方向为 AI 编程语言和编译器。
演讲议题:TLE: 一种为各层次用户设计的Triton语言扩展
议题介绍:Triton是一种Python DSL形式的算子编程语言,它基于Block的编程理念屏蔽了存储层级、Layout、流水线、同步等硬件细节,通过编译器优化实现较高性能的算子。Triton的这些优点吸引了大量的开发者,形成了庞大的社区和生态。
但近年来Triton的进一步发展遇到一些困难,一方面在DSA和新GPU架构上的适配进展比较缓慢,另一方面相比一些新兴语言如TileLang因为在细粒度控制存储层级和并行粒度上缺少抽象,在性能上表现出一些劣势。
针对Triton发展的困境,我们提出了TLE(Triton Language Extentions),它从三个层级扩展了Triton,从而满足不同层次用户对算子编程语言的迫切需求。
张先轶
澎峰科技创始人&CEO
简介:北理工本硕,中科院博士, UT Austin和MIT博后,CCF高性能计算专委常委,OpenBLAS开源项目发起人,曾荣获中国计算机学会科技进步二等奖、中国科学院杰出科技成就奖、北京市自然科学二等奖。
演讲议题:基于FlagGems Triton的运行时调优与算子优化
议题介绍:本报告将介绍针对FlagGems算子库的性能优化工作,包括Triton运行时多后端对接和调优,以及Triton算子优化等。
吴伟
上海苦芽科技有限公司联合创始人
简介:吴伟是苦芽科技联合创始人,在开源编译器和RISC-V社区有着多年的经验。目前担任LLVM基金会理事、RISC-V国际基金会技术委员会委员、CCF系统软件专委RISC-V基础软件工作组组长等职务。在加入苦芽科技之前,吴伟于2019年创建并领导着PLCT实验室,推动了全球RISC-V的软件生态的发展。2024年出席,吴伟联合多家机构联合发起“甲辰计划”,致力于在2036年之前,实现RISC-V软件生态的全面繁荣。
演讲议题:FlagOS on RISC-V:现状及规划
议题介绍:RISC-V已经成为世界三大主流ISA架构之一,并且有希望在十年内成为国际ISA开放标准。RISC-V在中国受到了广泛的重视,在多个领域落地应用;同时中国也已经成为RISC-V开源软硬件生态的重要推动力量,取得了一系列重要的成果。智算场景RISC-V生态蓬勃发展的领域,而FlagOS致力于为国产智算芯片提供统一、全面的AI软件栈。
在本次演讲中,吴伟将会介绍FlagOS在RISC-V架构的最新适配进展,并展示2026年的工作规划。欢迎广大开发者参与进来,共同为FlagOS社区添砖加瓦。
王锋
湖南卡姆派乐信息科技有限公司总经理
简介:湖南卡姆派乐信息科技有限公司总经理,湖南大学特聘研究员,博士生导师,湖南大学编译技术研究中心主任。长期从事高性能计算、编程语言与编译优化、并行编程模型及AI编译框架研究,面向多种体系结构开展数据预取、Cache优化、自动向量化等关键技术研究,熟悉PGAS等并行模型以及TVM等机器学习编译器。率先在千万亿次异构超算系统中引入MPI/OpenMP/Streaming混合编程模型并实现全系统扩展,成果应用于天河系列超级计算机,为其取得世界领先性能做出重要贡献。
演讲议题:基于Triton的高性能分布式算子实现及编译优化
议题介绍:Transformer Engine、Triton Distributed等高性能分布式算子实现及性能对比;基于Triton编译器,对矩阵乘(MM)算子进行系统性优化,通过引入shared memory hint机制,显式控制张量在寄存器、共享内存与全局内存之间的分配策略;采用TMA(Tensor Memory Accelerator)异步拷贝优化重写矩阵乘算子;扩展Autotune配置空间,优化矩阵乘算子的block形状与执行参数选择;支持在K维度上进行更细粒度的切分(split-K),实现粗粒度数据搬移,细粒度矩阵计算等优化手段减少内存访问次数、隐藏访问延迟、提升计算密度与整体性能。
李先铎
北京智源人工智能研究院AI框架研发工程师
简介:李先铎,北京智源人工智能研究院研发工程师,曾就职于百度PaddlePaddle,南开大学硕士。目前负责大模型分布式训练、性能优化等方向。
演讲议题:基于FlagOS软件栈的多芯片统一后端插件设计与实践
议题介绍:随着AI芯片架构日益多样化,如何在异构硬件上实现高效、统一的模型训练与推理,已成为大模型落地的关键挑战。FlagOS是由北京智源人工智能研究院牵头推出的开源智算系统软件栈,致力于通过统一软件层解耦AI模型与异构硬件,打破不同架构芯片之间的软件生态壁垒,实现“一次开发,处处运行”。
本议题将围绕FlagOS软件栈下的多芯片统一后端插件设计与实践展开,重点介绍如何通过插件化架构,实现对多种AI芯片的统一支持。议题内容涵盖:
1)统一后端插件架构设计:基于FlagTree编译器与FlagGems算子库,构建可扩展的插件机制,实现多芯片后端的快速接入与适配;
2)插件生命周期管理:从插件注册、加载、调度到卸载,构建完整的插件管理机制,保障系统的稳定性与可维护性;
3)典型芯片适配案例:分享国产芯片在FlagOS中的适配经验,展示插件化设计在实际工程中的落地效果;
4)未来演进方向:探讨统一后端插件在支持新芯片架构、自动化适配工具链等方面的拓展潜力。
更多重磅嘉宾以及热门议题正在陆续确认中!敬请期待。
不止于「听」,三大工作坊同步开启!
除了精彩纷呈的主题演讲,本次大会还精心安排了三场深度技术工作坊,让参会开发者可以近距离接触最前沿的工具与技术实践:
“人机协作”的Triton算子开发培训班
本工作坊将围绕KernelGen v1.0展开,聚焦真实算子开发流程与工程实践。
值得注意的是,KernelGen v1.0这款工具面向多元芯片场景,通过“自然语言提示+AI 生成+验证+循环修正”的人机协同工作流,降低算子开发中大量低层细节的编写成本,并在过程中持续对比与优化性能。
届时,智源研究团队将于大会现场结合不同类型算子进行示例讲解,从需求分析到高性能实现,全流程演示算子开发过程,带领开发者完整走一遍算子从设计到落地的实践路径,帮助参会者掌握KernelGen v1.0在实际项目中的应用方法。
当然,为确保现场实操效果,大会组委会也特别建议参会者提前准备一台性能充足的笔记本电脑(推荐不少于 16GB 内存,具备 GPU 的设备可用于实际调试),并预先配置好开发环境,包括 Python、Triton 相关依赖以及 PyTorch、FlagGems 等常用库,同时安装好常用代码编辑器(如 VS Code 或 PyCharm)以及正常的网络访问权限,以便获取教程资源和示例代码。
FlagOS-AI编译器培训班
针对AI模型编译与优化,FlagOS-AI编译器培训班将带领参会者深入理解AI编译器在实际算子和系统开发中的应用与潜力。
这一工作坊内容覆盖FlagOS/Triton基本原理、从前端到硬件的完整技术栈、个性化手写算子,以及传统编译技术与AI编译技术的对比和典型优化方法。通过实际动手示例,开发者将从“会用框架”逐步进阶到“能造引擎”,掌握从算子设计到硬件执行的全链路编译流程,打通框架与底层硬件的认知断层。
如果你也想在现场直接动手操作?同样建议提前准备好性能充足的笔记本电脑(x86_64架构,16GB内存起,32GB更佳)。操作系统则推荐Ubuntu 20.04/22.04或Windows WSL,并预装PyTorch、Triton、FlagTree,以及 CUDA(如有NVIDIA GPU更佳)。
基于FlagOS的具身一站式平台/FlagOS-Robot培训班
面向具身智能研发与工程落地场景,本工作坊系统讲解了从多本体真机任务设计、真实机器人数据采集与标注,到基于FlagOS-Robo与RoboBrainX0的具身模型训练全流程。
大会现场,将会有资深技术专家精彩演示如何在国产算力环境下,利用智源具身一站式平台和FlagOS-Robo完成具身模型训练,让与会者掌握“真机数据 → 国产算力→具身模型”的完整工程闭环,紧贴科研、产业与工程团队的实际需求,帮助开发者快速落地具身智能系统。
报名参会
如果说主题演讲和技术工作坊解决的是“怎么看、怎么学”,那么这次TritonNext 2026更希望开发者真正“动手参与”。围绕大型算子库、统一AI编译器、并行训推框架、统一通信库等核心开源项目,大会现场还将正式启动FlagOS全球大赛。
无论你是想了解Triton的最新实践,还是希望在国产芯片、AI生态中找到展示和落地的机会,这里都是一个不可多得的起点。
大会时间:2026年1月9日
大会地点:北京海淀区中关村国家自主创新示范区展示中心
「TritonNext 技术大会(TritonNext 2026)」现已经开放报名!
与一线工程师面对面,听真实案例、看真实代码、聊真实问题
扫描下方二维码或点击「链接」
立即加入这场面向未来 GPU 编程的技术现场