【拔尖创新人才培养】人工智能与自动化学院“文行者”团队：在国产文字大模型的“取经”路上砥砺前行

作者：时间：2024-11-21 浏览：

记者范千记者团牛彤郝家辉

一只猴子，三般变化，十余师徒，行走在国产大模型的漫漫“取经”路上……他们就是我校人工智能与自动化学院“文行者”团队，这只猴子就是多模态大模型Monkey。

在10月中旬举办的中国国际大学生创新大赛（2024）总决赛中，“文行者”团队凭借基于多模态大模型的文档智能处理系统脱颖而出，获得产业命题赛道金奖。

多模态大模型是一类可以同时处理和整合多种感知数据（例如文本、图像、音频等）的AI架构，凭借其丰富的世界知识和出色的对话能力，多模态大模型能够如同人类一样深入理解和感知世界。

2022年，ChatGPT横空出世，多模态大模型热潮席卷全国，各大互联网科技公司纷纷涌入该赛道，而各类大模型也在众多场景中展现了惊人的能力。

事实上，在多模态大模型还没有成为行业“风口”之前，“文行者”团队就已经在为文字大模型厉兵秣马。从2011年到2020年，团队十年埋首传统文字视觉任务；而在2021年至2024年，团队转向大模型领域，持续攻关并取得技术创新突破。

深耕文字领域14年，兑现的是团队在国产文字大模型领域的厚积薄发。

2024年1月，在白翔、刘禹良两位教授的指导下，团队正式发布多模态大模型Monkey。它具有一种多层级的描述生成方法，通过依次对图片进行整体简述、空间定位、模块化识别、描述赋分选取和最终总结，可大幅提升图片描述的准确性和丰富程度。Monkey也因此入选了CVPR 2024 亮点论文和最具影响力论文Top20。

接下来的几个月里，Monkey如同孙悟空，变换出三个分身——TextMonkey、PdfMonkey和MathMonkey。这三个分身，是团队利用Monkey在文字信息处理领域取得的重大突破。三款产品各自精准聚焦办公信息智能处理、专业文档智能理解和K12教育智能解题三个垂直场景，能够实现一个模型解决多场景多任务问题，通过差异化竞争领先市场。

从数量上说，目前国内基础大模型研发机构已超过全球其他国家的总和。但在质量上，“学得少”“看不清”“看不长”和“解不透”四大痛点仍在制约现有大模型的文字处理性能。

针对难题，团队交出了一份令人满意的答卷。这份答卷用四大核心技术分别回应了四大痛点，全方位提高项目的文字处理性能。

传统大模型容易忽略细节，而人工图文数据标注成本高，导致大模型“学得少”。针对这个问题，团队提出了多粒度数据自动生成技术。团队用“无中生有”来形容这项技术，即零人工成本生成细粒度、多模态、多样化的高质量数据。

面对密集细小文字，许多大模型很难清楚识别，这就是“看不清”。于是，团队提出了动态增量高分辨率裁剪技术。“就是将一个完整的高分辨率图像切分为多个小块，然后将每个小块依次输入到模型中。”这项技术在不增加计算量的情况下，大幅提升了输入图片的分辨率，让Monkey真正意义上拥有了“火眼金睛”。

现有大模型输入长度受限，长一点的文献就无法理解，面向“看不长”的问题，团队提出了长文档稀疏采样技术。在用户输入超多长页文档之后，Monkey会根据用户提出的问题进行大规模相似性度量搜索，从而获取与问题相关的重要信息块。“删繁就简”的创新点，打破了传统模型对输入长度的限制，实现了对无限长文档的高效处理。

传统的解题大模型通常依赖大量题库数据进行解题，对于题库之外的几何推理等复杂问题，大模型也“解不透”。基于此，团队提出了多步思维链推理矫正技术，将Monkey打造成了一只“明思善辩”的“猴子”。在解题过程中，Monkey不再机械地输出，而是会实时进行自我反思、多步推理，大幅提升决策的准确性。

团队成员模拟项目路演

团队成员与命题企业对接

团队成员实地考察百度飞浆（武汉）中心

学院为参赛团队提供专家指导

参加中国国际大学生创新大赛、接下百度公司的产业命题、打造Monkey的三个分身、站在决赛的舞台上……每一步，团队都“做了充分的准备”。他们日复一日发现问题、查阅资料、询问专家、尝试求解，失败了就换个方法重新再来、成功了就继续寻找下一个问题。与此同时，人工智能与自动化学院和启明学院也在持续提供支持和指导。小到项目说明中的文字细节、比赛中的后勤保障，大到实验室资源、行业赞助，“学院可以说是有求必应”。

“文行者”团队是人工智能与自动化学院拔尖创新创业人才培养的缩影。近年来，人工智能与自动化学院始终秉持着培养学生创新意识、创业精神和实践能力的初心，将创新创业教育贯穿人才培养全过程。未来，学院也将持续优化创新创业管理机制，持续整合优势资源，建立专家库，搭建创新创业更高平台，为学生提供良好的创新和竞赛平台。

孙悟空历经九九八十一难最终修成正果，而对于躬耕文字大模型的“文行者”团队来说，“正果”仍然在路上。未来，在大模型领域的角斗场上，团队将要持续开源高质量项目，突破国际闭源技术壁垒，把这条取经路走得更宽、更远、更长。

上一篇：启明书院—专题研讨班（第三期）聚焦医学机器人

下一篇：我校获批2024年度国家教材建设重点研究基地

新闻动态

新闻动态

【拔尖创新人才培养】人工智能与自动化学院“文行者”团队：在国产文字大模型的“取经”路上砥砺前行