近日,计算机学院本科生的4篇论文被国际顶级会议录用。其中,2021级本科生陈东平、2023级本科生张辰皓的论文被国际机器学习顶级会议NeurIPS录用,2021级本科生官巴图、童维希的论文被国际自然语言处理顶级会议EMNLP录用。
NeurIPS作为机器学习领域的三大顶级会议之一,是中国计算机学会CCF认定的A类会议,在人工智能及机器学习领域享有较高学术声誉。EMNLP是中国计算机学会CCF推荐的B类国际学术会议,中国人工智能学会和清华大学计算机学院推荐的A类会议,在人工智能及自然语言处理领域享有较高学术声誉。
陈东平在万瑶副教授的指导下,合作撰写的研究论文“The Best of Both Worlds:Toward an Honest and Helpful Large Language Model”围绕如何在大语言模型的实际应用中同时保持“诚实性”与“有用性”展开深入研究,并提出了一系列创新的评估基准与模型改进方法,提出了推理增强方法和两阶段微调方法两种改进大语言模型诚实性与有用性的关键方法,实验表明,该方法在不同LLM上都表现出显著的效果。值得一提的是,这也是陈东平同学自今年5月份以第一作者身份的一篇论文被ICML 2024(Oral,录用率1.44%)录用后,再次以共同第一作者的身份在人工智能顶级会议上发表论文。
张辰皓作为共同第一作者合作撰写的研究论文“II-Bench:An Image Implication Understanding Benchmark for Multimodal Large Language Models”首次提出并开发了评估MLLMs图像隐喻理解能力的综合性基准测试II-Bench。II-Bench包含了精心构建的1222张图片和1434个问题,覆盖了生活、艺术、社会、心理、环境等六大领域,图片类型包括插画、梗图、海报、漫画、Logo和绘画等。
官巴图在万瑶副教授指导下撰写的研究论文“CodeIP:AGrammar-Guided Multi-Bit Watermark for Large Language Models of Code”在大语言模型在代码生成方面取得了显著进展。现在,识别代码是否由人工智能生成以及确定使用的特定模型变得至关重要,特别是在保护工业中的知识产权等方面。文中介绍了一种新颖的多比特水印技术——CodeIP,它能够加入额外的水印信息以保留关键的来源细节,从而保护代码生成中大语言模型的知识产权。在五个编程语言的真实世界数据集上进行的实验表明,CodeIP可以有效地向大语言模型生成的代码中添加水印,同时保持代码的语法正确性。
童维希的研究论文“CodeJudge:Evaluating Code Generation with Large Language Models”提出了全新的代码生成评估框架——CodeJudge,利用大语言模型(LLMs)对代码生成的语义正确性进行评估,突破了传统依赖测试用例的评估方法限制。CodeJudge通过引导LLM进行“慢思考”,从而提高评估的深度与可靠性。在多个数据集和五种编程语言的评估中,CodeJudge 在绝大多数设置下显著优于现有方法,即便使用较小模型 Llama-3-8B-Instruct,其表现依然优于基于GPT-3.5的最先进方法。