随着大语言模型在代码领域的广泛应用,研究者们常常试图分清一个方法在大语言模型上的出色表现究竟是由于大语言模型学习过该代码(数据泄漏),还是因为方法切实可行。为了近一步理解代码泄漏对代码任务方法评估的影响,我们尝试了现在常用来解决代码泄漏的多种方法(如使用训练截止日期之后的数据,或对代码进行重构)等,对比模型在代码改变前后的表现变化,从而探索现有的解决数据泄露问题方法的效果差异。
Jialun’s research interests lie in SE4AI and AI4SE, trustworthy AI, LLM4SE.