技术盛会,高光时刻!LIC·2025圆满收官,文心大模型实力铸就产学硕果!
组成,基于百度文心大模型,针对多源异构医疗数据(视频、图文、疾病库等)设计差异化处理与QA构建方法,生成7万余条高质量医疗QA与推理数据集,并据此基于ERNIE-4.5B-21B-A3B训练出性能领先的医疗大模型 MedERNIE。,实现了从长视频到短视频的自动化生产,成功将经典IP资源转化为全新的数字资产,期待后续与TVB的长线合作,为AIGC在传媒领域的应用树立标杆。,搭建了AgenticRA

8月10日,由中国计算机学会(CCF)和中国中文信息学会(CIPS)主办的NLPCC和第十届语言与智能高峰论坛在美丽的新疆乌鲁木齐圆满落幕,LIC·2025语言与智能技术竞赛成果汇报及颁奖典礼在高峰论坛成功举行,这是一场属于开发者的技术盛会,也是依托文心大模型,将前沿AI技术转化为真实产学研价值的Show Time!
作为中文自然语言处理(NLP)领域内最权威、最热门的赛事之一,LIC·2025由中国计算机学会、中国中文信息学会联合主办,百度公司承办,大赛围绕文心4.5系列开源模型,联合人民日报健康客户端、智源研究院、TVB三个行业引领者,开放高价值真实场景数据集,共同探索大模型的无限可能,推动AI技术在关键领域的深度应用。
作为本届赛事的基座模型,文心4.5开源系列模型的强大能力贯穿始终。来自获奖团队北京大学的蔡奇栩同学在PPT里写到:
我们摒弃了“从海量语料库中自动提取数据”的粗放模式,
追求“像从咖啡豆中萃取出咖啡液一样,从数据中萃取出智能”的精细工艺。
而我们选择的基石——强大的开源基座模型ERNIE 4.5,
如同最优质的咖啡豆品种和种植土壤,是高品质输出的根本保证。
接下来就让我们来看看来自不同领域、不同技术背景的开发者如何在真实产业、学术研究场景中淬炼真金,涌现出由文心大模型驱动的高价值创新应用与解决方案。后续赛事相关开源项目、模型、数据集会陆续发布至Github、HuggingFace、飞桨星河社区,敬请期待~


成果巡礼:文心大模型赋能三大产学研赛道,探索价值落地!
赛道一:智慧医疗领域·文心驱动高价值医疗数据与Agent应用构建
赛题挑战:旨在利用大模型技术,基于人民日报健康客户端提供的海量权威医疗音视频、文本语料,构建高质量的标准化医疗知识数据体系,搭建智慧医疗Agent应用。



(人民日报健康客户端数据语料示例)
赛事成果:参赛选手充分利用文心大模型卓越的语义理解、信息抽取与知识结构化能力,将“人民名医”等权威医疗内容,转化为高质量的医疗问答(QA)数据集。更基于此,通过对文心大模型进行微调及RAG知识库搭建,开发出多个智慧医疗Agent,应用在智能导诊、用药咨询等真实场景。
获奖作品一览


一等奖获奖选手周瑞哲、陈浩铭、周宏儒,团队成员由澳门理工大学硕博生/协和医学院博士组成,基于百度文心大模型,针对多源异构医疗数据(视频、图文、疾病库等)设计差异化处理与QA构建方法,生成7万余条高质量医疗QA与推理数据集,并据此基于ERNIE-4.5B-21B-A3B训练出性能领先的医疗大模型 MedERNIE(医疗领域评分超越QWQ-32B、UltraMedical-70B等一系列开源模型),推动可信医疗问答与外部验证应用进步。

二等奖获奖选手龙俊、许泽宇来自软通动力,搭建了AgenticRAG架构,通过多智能体协作,让微调小模型处理核心检索与推理,大模型保障最终输出质量,在保证专业性的同时,将AI问诊的token消耗大幅削减70%,让模型落地更具性价比。


三等奖获奖选手许伟栋、汪涵潇、蔡铠蔚,是来自中移(苏州)软件技术有限公司的算法工程师和软件工程师,结合语音、文本和视频视觉信息的联合解析与知识抽取算法,实现医学知识的结构化表达。同时,通过引入临床权威知识对语言模型进行持续微调,结合动态检索机制,突破传统生成模型的事实准确性瓶颈。该系统具备对话意图推演能力,实现复杂医疗咨询场景下的多智能体节点协同,完成医疗诊断服务。
赛道二:前沿科研领域·文心增强大模型复杂推理能力
赛题挑战:旨在通过对智源研究院的公开数据集OpenSeek进行CoT改造和模型微调,探索增强大模型逻辑推理能力的前沿方法,为科研领域贡献更强大的微调数据集和大模型工具。
赛事成果:本赛道充分印证了文心4.5系列开源模型强大的生成与理解能力。选手们利用文心大模型,对指定的Openseek公开数据集进行思维链(CoT)改造,高效生成了包含完整、清晰逻辑推理步骤的结构化增强数据集。基于此数据集对文心4.5系列开源模型进行微调后,产出的衍生模型在数学、代码等任务上性能获得显著提升,为大模型核心能力的研究贡献了宝贵的实践范本。

一等奖获奖选手蔡奇栩、范西莎、关浩轩,主要来自北京大学计算语言所与信息管理学院、北京航空航天大学,使用ERNIE-4.5基座模型,模块化控制每一步思维链数据的生成与验证,仅用14%高质量精选OpenSeek-Math数据微调ERNIE-4.5-21B-A3B,来带23个Math benchmark的性能提升,诠释了“数据质量远胜于数量”的核心理念。


二等奖获奖选手范思钦、赵家慧,由北京大学和中国科学院大学博士生组成,设计了基于思维链增强的智能模型优化系统,可对数据进行自动化思维链增强和筛选,经过该团队微调的模型,逻辑完整率提升70%,推理结果正确率提升约30%。

三等奖获奖选手李政、罗兴⽉,⻜桨开发者技术专家,利用ERNIE-4.5大模型对OpenSeek数据进行多路径推理增强,生成包含反思和纠错的COT数据,并通过小规模模型多维度评估推理质量,提升模型推理能力。
赛道三:传媒领域·文心大模型激活AIGC创新,打造粤语应用标杆
赛题挑战:旨在联合百度AI技术,激活TVB海量珍贵的粤语影视资源,打造粤语AI应用的标杆典范,探索AIGC在传媒领域的创新应用。
赛事成果:依托文心4.5系列开源模型强大的多模态理解与指令微调能力,选手们不仅成功构建了理解与生成能力俱佳的粤语大语言模型,还面向智能化生产场景,开发出高效的AI驱动短视频生成工具,实现了从长视频到短视频的自动化生产,成功将经典IP资源转化为全新的数字资产,期待后续与TVB的长线合作,为AIGC在传媒领域的应用树立标杆。
获奖作品一览

一等奖获奖成员李志军,百度PFCC成员、算法工程师,成功构建了一个端到端的AI视频自动化生产线。该系统能够将任意TVB长视频,全自动地转化为带AI粤语解说与配音的、风格专业的竖屏短视频,可交互应用完整地展示了从“素材输入”到“成品输出”的全链路AIGC能力。“该成果不仅展示了文心大模型在AIGC视频领域的强大落地能力,更为探索‘长剧转短剧’乃至‘AI原生短剧’的自动化生成新范式,提供了技术验证与想象空间。”


二等奖获奖成员谢志聪、郑锦辉,暨南大学人工智能专业硕士研究生,基于开源项目NarratoAI进行二次开发,深度重构其数据处理流程,引入基于文心4.5的多模态理解机制,融合字幕与关键帧信息,实现对视频剧情的更精准分析,并新增对粤语长视频剪辑及配音的全流程处理能力。

三等奖获奖选手陈荣杰,来自福州炉⽕科技有限公司,开发“炉火粤剪”智能剪辑应用,可自动筛选高光片段并生成粤语解说。再以CosyVoice(TTS)合成王祖蓝音色配音,将长视频一键转化为特色鲜明的竖屏短片。

高光时刻:高峰论坛现场直击
在备受瞩目的语言与智能高峰竞赛论坛上,来自产业一线的深度解析与冠军团队的精彩分享交相辉映。
百度杰出架构师胡晓光分享“飞桨+文心”双开源生态:
飞桨框架3.0正式版具备五大新特性:动静统一自动并行、大模型训推一体、科学计算高阶微分、神经网络编译器、异构多芯适配。实现了从底层硬件适配到顶层开发体验的全面进化,在训练效率、性能、兼容性等关键指标上建立新标杆,为大模型时代的技术创新与产业应用提供了强大支撑,为开发者打造了一站式、高性能的深度学习开发体验。
文心4.5系列模型均使用飞桨深度学习框架进行高效训练、推理和部署。在大语言模型的预训练中,模型FLOPs利用率(MFU)达到47%。实验结果显示,该系列模型在多个文本和多模态基准测试中达到SOTA水平,在指令遵循、世界知识记忆、视觉理解和多模态推理任务上效果尤为突出。模型按照Apache 2.0协议开源,支持开展学术研究和产业应用。此外,基于飞桨提供开源的产业级大模型开发套件ERNIEKit和FastDeploy,提供了模型开发、训练、压缩、推理部署等功能,降低大模型技术创新和产业应用门槛。

百度AI技术生态数据生态运营负责人张叔夏介绍了文心大模型数据生态的相关情况。文心大模型数据生态的核心目标在于激发数据要素价值,加速AI+应用构建。基于高质量数据供给,张叔夏分享了本次LIC2025语言与智能技术竞赛产业思考&命题立意,汇报了获奖团队成果,期待百度能够与合作方共同打造从数据要素到行业赋能案例。


“半世纪粤语文化枢纽,构建AI时代语料基石。” TVB MyTV Super Limited 原创内容主管林肯,在分享中描绘了粤语AI商业化的战略规划。期待TVB语料库在文心+飞桨助力下,涌现更多的开发者解决方案,带动AIGC产业场景落地。

紧随其后,本届赛事冠军代表登上舞台,分享他们的思路与心得。
医疗领域赛道,冠军团队代表陈浩铭(来自计成科技团队,澳门理工大学在读博士)分享基于“文心大模型的多源异构医疗QA数据构建与医疗大模型MedERNIE开发”。

科研领域赛道,冠军团队代表蔡奇栩(来自喵里士多德团队,北京大学计算语言学)分享“Modularize Reasoning Chain Synthesis”。

传媒领域赛道,冠军团队代表李志军 (冲冲冲团队、百度PFCC成员、算法工程师)分享“重塑经典,声动人心,基于文心大模型的TVB粤语短视频AIGC工作流”。

第十届语言与智能高峰论坛与LIC·2025就此落幕,但我们对技术的热爱与探索永不落幕。期待明年再会,共创AI新篇章!

关注【飞桨PaddlePaddle】公众号
获取更多技术内容~
更多推荐




所有评论(0)