记者 范千 记者团 牛彤 郝家辉
一只猴子,三般变化,十余师徒,行走在国产大模型的漫漫“取经”路上……他们就是我校人工智能与自动化学院“文行者”团队,这只猴子就是多模态大模型Monkey。
在10月中旬举办的中国国际大学生创新大赛(2024)总决赛中,“文行者”团队凭借基于多模态大模型的文档智能处理系统脱颖而出,获得产业命题赛道金奖。
多模态大模型是一类可以同时处理和整合多种感知数据(例如文本、图像、音频等)的AI架构,凭借其丰富的世界知识和出色的对话能力,多模态大模型能够如同人类一样深入理解和感知世界。
2022年,ChatGPT横空出世,多模态大模型热潮席卷全国,各大互联网科技公司纷纷涌入该赛道,而各类大模型也在众多场景中展现了惊人的能力。
事实上,在多模态大模型还没有成为行业“风口”之前,“文行者”团队就已经在为文字大模型厉兵秣马。从2011年到2020年,团队十年埋首传统文字视觉任务;而在2021年至2024年,团队转向大模型领域,持续攻关并取得技术创新突破。
深耕文字领域14年,兑现的是团队在国产文字大模型领域的厚积薄发。
2024年1月,在白翔、刘禹良两位教授的指导下,团队正式发布多模态大模型Monkey。它具有一种多层级的描述生成方法,通过依次对图片进行整体简述、空间定位、模块化识别、描述赋分选取和最终总结,可大幅提升图片描述的准确性和丰富程度。Monkey也因此入选了CVPR 2024 亮点论文和最具影响力论文Top20。
接下来的几个月里,Monkey如同孙悟空,变换出三个分身——TextMonkey、PdfMonkey和MathMonkey。这三个分身,是团队利用Monkey在文字信息处理领域取得的重大突破。三款产品各自精准聚焦办公信息智能处理、专业文档智能理解和K12教育智能解题三个垂直场景,能够实现一个模型解决多场景多任务问题,通过差异化竞争领先市场。
从数量上说,目前国内基础大模型研发机构已超过全球其他国家的总和。但在质量上,“学得少”“看不清”“看不长”和“解不透”四大痛点仍在制约现有大模型的文字处理性能。
针对难题,团队交出了一份令人满意的答卷。这份答卷用四大核心技术分别回应了四大痛点,全方位提高项目的文字处理性能。
传统大模型容易忽略细节,而人工图文数据标注成本高,导致大模型“学得少”。针对这个问题,团队提出了多粒度数据自动生成技术。团队用“无中生有”来形容这项技术,即零人工成本生成细粒度、多模态、多样化的高质量数据。
面对密集细小文字,许多大模型很难清楚识别,这就是“看不清”。于是,团队提出了动态增量高分辨率裁剪技术。“就是将一个完整的高分辨率图像切分为多个小块,然后将每个小块依次输入到模型中。”这项技术在不增加计算量的情况下,大幅提升了输入图片的分辨率,让Monkey真正意义上拥有了“火眼金睛”。
现有大模型输入长度受限,长一点的文献就无法理解,面向“看不长”的问题,团队提出了长文档稀疏采样技术。在用户输入超多长页文档之后,Monkey会根据用户提出的问题进行大规模相似性度量搜索,从而获取与问题相关的重要信息块。“删繁就简”的创新点,打破了传统模型对输入长度的限制,实现了对无限长文档的高效处理。
传统的解题大模型通常依赖大量题库数据进行解题,对于题库之外的几何推理等复杂问题,大模型也“解不透”。基于此,团队提出了多步思维链推理矫正技术,将Monkey打造成了一只“明思善辩”的“猴子”。在解题过程中,Monkey不再机械地输出,而是会实时进行自我反思、多步推理,大幅提升决策的准确性。
团队成员模拟项目路演
团队成员与命题企业对接
团队成员实地考察百度飞浆(武汉)中心
学院为参赛团队提供专家指导
参加中国国际大学生创新大赛、接下百度公司的产业命题、打造Monkey的三个分身、站在决赛的舞台上……每一步,团队都“做了充分的准备”。他们日复一日发现问题、查阅资料、询问专家、尝试求解,失败了就换个方法重新再来、成功了就继续寻找下一个问题。与此同时,人工智能与自动化学院和启明学院也在持续提供支持和指导。小到项目说明中的文字细节、比赛中的后勤保障,大到实验室资源、行业赞助,“学院可以说是有求必应”。
“文行者”团队是人工智能与自动化学院拔尖创新创业人才培养的缩影。近年来,人工智能与自动化学院始终秉持着培养学生创新意识、创业精神和实践能力的初心,将创新创业教育贯穿人才培养全过程。未来,学院也将持续优化创新创业管理机制,持续整合优势资源,建立专家库,搭建创新创业更高平台,为学生提供良好的创新和竞赛平台。
孙悟空历经九九八十一难最终修成正果,而对于躬耕文字大模型的“文行者”团队来说,“正果”仍然在路上。未来,在大模型领域的角斗场上,团队将要持续开源高质量项目,突破国际闭源技术壁垒,把这条取经路走得更宽、更远、更长。