帝国理工学院人工智能与数据科学寒假项目海外交流总结
新闻学院 崔梦昕
本次参与帝国理工学院人工智能与数据科学寒假项目,是我第一次以较系统的方式在海外一流学术环境中接受密集式科研训练。短短数周的学习虽然紧凑,却为我带来了远超预期的收获:知识体系的拓展、科研方法的提升、跨文化交流能力的增强,以及对未来学术路径更清晰的定位。以下从课程学习、项目实践、国际视野、个人成长等方面进行总结。

一、课程学习:从“学技术”到“以问题为中心”
在人工智能与数据科学模块中,我们系统学习了统计学习基础、自然语言处理的核心任务、机器学习模型构建方法、深度学习框架的基本使用,以及数据可视化与结果解释等内容。相较于单纯讲解算法原理或代码实现,课程给我留下最深刻印象的,是授课教师对“问题意识”的反复强调
在课堂中,教师往往并不直接从模型或方法切入,而是先提出一个具体而现实的问题,例如“如何从大规模医学文献中自动抽取关键症状信息?”或“同义词和语境差异为何会显著影响模型判断结果?”在此基础上,再引导学生思考应当如何选择合适的数据表示方式、建模策略与评估标准。这种从问题出发、倒推技术路径的教学方式,使我逐渐意识到,数据科学并非简单的技术叠加,而是一种围绕问题展开的结构化思考过程。
这一认知在后续的小组项目中对我产生了直接影响。我开始更加关注研究问题本身是否被清晰界定、方案设计是否与问题匹配,以及模型选择背后的合理性,而不再仅仅以性能指标作为唯一导向。

二、科研项目实践:完整科研流程的真实体验
在科研项目实践环节,我所在团队围绕Word Representation in Biomedical Domain 这一主题展开研究,目标是针对生物医学文本构建领域词向量模型,并探索其在特定语义任务中的表现。我在项目中主要负责文本解析、分词处理、词向量训练以及结果可视化等工作,具体包括语料预处理、停用词过滤、Word2Vec 模型训练、t-SNE 降维可视化,以及对嵌入结果的定性分析与解释。
这是我第一次完整参与从语料构建、模型训练到结果呈现与解释的科研流程。在处理生物医学文本的过程中,我明显感受到领域知识缺失所带来的困难,也逐步理解了为何领域模型往往需要高质量术语词典、子词建模策略以及更加细粒度的标注体系。针对专业术语歧义和词形变化频繁的问题,我在实验中引入了更精细的分词与词汇标准化策略,并在最终报告中对模型在高频词、低频词及专业术语上的表现差异进行了对比分析。
这一过程不仅提升了我的技术操作能力,更重要的是培养了我对科研问题的敏感度。例如,如何界定“模型效果较好”究竟意味着什么,如何从可视化结果中谨慎地解读语义结构,以及在时间和资源受限的情况下如何做出相对合理的模型选择。这些经验对我今后继续开展跨语种文本分析与语言模型相关研究具有直接而现实的参考价值。

三、国际学术环境与科研表达能力的锻炼
帝国理工学院整体科研氛围开放而平等,课堂讨论中师生之间的互动频繁而直接,学生可以随时提出质疑或延伸性问题,教师也鼓励来自不同学科背景的同学结合自身经验参与讨论。这种学术环境让我更加主动地参与交流,也逐渐适应了以讨论与反思为核心的学习方式。
在跨文化背景下进行科研汇报同样是一项重要锻炼。为了让不同专业背景的听众理解复杂的模型训练过程,我不断尝试通过更直观的可视化方式、更简洁的语言来讲清技术逻辑与研究动机。这一过程显著提升了我的科研表达与学术沟通能力,也增强了我在未来参与国会议或跨国合作项目时的信心。


四、个人成长:能力提升与未来方向的明确
从整体体验来看,本次海外交流带给我的最大收获,并不局限于某一项具体技能的提升,而是一种研究视角与学术心态的转变。在高强度的课程学习与项目推进过程中,我逐渐形成了对自然语言处理研究更为整体的认知:从文本预处理、模型构建到结果呈现与解释,各个环节并非彼此割裂,而是共同服务于研究问题本身。这种对研究流程的整体把握,使我在面对技术选择时不再停留于“使用什么模型”,而是开始思考“这一选择是否真正回应了问题”。
在帝国理工学院的学习环境中,我也切身感受到一种以讨论和表达为核心的学术文化。无论是在课堂提问还是项目汇报中,清晰阐明研究动机与逻辑结构往往比技术细节本身更受重视。为了让来自不同背景的同学理解我们的研究,我不断尝试用更简洁的语言和更直观的可视化方式解释模型思路。这一过程促使我反思自身的表达方式,也让我意识到,科研不仅是“做出结果”,更是“把结果讲清楚”。
此外,多元文化背景下的团队协作也让我对科研合作有了更现实的认识。在英国的学习与交流中,不同成员在学科背景、思维方式与表达习惯上的差异十分明显,但正是在不断的讨论、修正与协商中,研究方案逐步趋于清晰和成熟。这种合作经验让我学会在保持学术判断力的同时,更加耐心地倾听他人观点,并在交流中推动问题的解决。
更为深刻的感悟,来自于我对未来研究方向的重新确认。通过近距离观察海外一流高校真实而日常化的科研运作方式,我逐渐意识到,真正具有生命力的研究,往往源于对问题的持续追问,而非对技术的短期追逐。基于这一认识,我希望在今后的学习与研究中,继续围绕大语言模型、跨语种文本处理以及 AI 与国际传播的交叉议题展开探索,将数据科学的方法引入社会科学研究之中,进一步理解算法如何在全球语境下重塑信息表达、文化流动与舆论结构。

