编辑推荐:
自我承认技术债务(SATD)自动化偿还面临数据集代表性不足、过滤标准不统一及评估指标片面等问题。本文构建Python(58,722条)和Java(97,347条)SATD偿还数据集,提出基于代码差异的BLEU-diff、CrystalBLEU-diff及细粒度Line-Level Exact Match on Diff(LEMOD)评估指标。实验表明GPT-4omini和Llama-3.1-70B-Instruct在改进指标下表现最优,传统BLEU指标相关性仅0.01-0.08,而新指标与EM相关系数达0.65-0.84,为SATD自动化提供可靠基准。
要查看此由 AI 生成的简洁语言摘要,您必须具有高级访问权限。
生物通 版权所有