Posted 2021-04-15Updated 2022-01-05nlp12 minutes read (About 1808 words)0 visits

《Beyond Accuracy: Behavioral Testing of NLP Models with CheckList》

这篇是ACL2020的最佳论文。论文指出现有的模型效果评估方案的问题，同时借鉴软件测试的方法，提出了一种全新的NLP模型测试方法（个人认为迁移到CV领域也不麻烦）CheckList。这种测试方案可以帮助人们更清晰、系统地了模型各个方面的优缺点。

目标问题

对于NLP任务，传统的测评方案是在测试集中计算Metrics(Accuracy, F1…)，这种测试方法有如下缺陷：

借鉴软件工程中的黑盒测试思想，用不同的测试方法测试模型的不同方面的性能。将结果输出成一个表格形式的checklist。

测试目标是与目标模型无关的，NLP模型都应该具备的一些基础能力，包括：

对于不同的测试目标，有不同的与之适配的测试方法，本文提出3中测试方法，包括：

MFT(Minimum Functionality Test)
- 最小功能测试，类似软件工程中的单元测试
- 针对某个测试目标，设计一个最简单的针对那个目标的测试用例
- 需要测试用例设计者知道正确的label
- 例：对情感分类任务测试Vocabulary+POS能力。This is as great flight -> positive (测试识别”great”)
INV(INVariance Test)
- 不变性测试, 验证模型对于变化后的测试用例是否输出结果不变
- 测试人员不需要提前知道正确的label
- 需要模型前后两次输出结果的label不变且probability 变化不超过0.1
- 例：对情感分类任务测试Named entites能力
  - 输入1：AmericanAir thank you we got on different flight to Chicago
  - 输入2：AmericanAir thank you we got on different flight to Dallas
  - 前后两次输入只变化了城市实体Chicago -> Dallas。不应该对情感分类模型的结果产生变化
DIR(DiRectional Expetcation Test)
- 定向期望测试，期待对样本变化后，模型输出结果的probability往某个方向变化
- 测试人员不需要提前知道正确的label
- 例：对情感分类任务，测试Nagation能力
  - 输入1：JetBlue, why won’t you help me?! Ugh
  - 输入2：JetBlue, why won’t you help me?! Ugh. I dread you.
  - 期待模型能识别出否定词dread, 进而模型输出negative的probability增大

在情感分类和重复问题检测两项任务上，对商业模型(微软、谷歌、亚马逊)以及学术界SOTA模型（Bert、Roberta）做check list测试
在很多测试任务上，这些模型的failure rate都很高，这是传统的测试集Metrics没能发现的问题
一些值得注意的测试结果
- 对于情感在时态上的变化识别不好: I used to hage this airline, although now I like it -> pos
- 对于句子结尾的否定识别不好: I thought the plane would be awful, but it wasn’t. -> pos/neutral
- 作者的情感比其他人的重要：Some people think you are ecellent, but I think you are nasty. -> neg
- 一些语料中的偏见（男性是医生）：John is not a doctor, Mary is. Who is a doctor? -> Mary
check list对于那些商业用途的，非纯模型的api一样有效
利用测试集构建工具，非领域专家人员也能快速构建checklist的测试集。比传统的测试方法更加高效

测试集上的指标可能会让人高估模型的效果（模型走了捷径）。上线之后对于模型预测结果的抽检是非常有必要的质量监控手段
checklist的测试可以从不同维度评估模型的能力。从而发现模型在某个NLP通用能力上的缺失。但是如何修复这些问题呢？模型对于我们来说是黑盒的，不能像软件工程测试出程序bug之后改代码来修复。或许只能添加规则，做pipeline来解决这些问题。
checklist证明了模型学习的时候是急功近利的，尽可能找到一些训练集/测试集上的捷径来降低loss/提高指标。将checklist中列出的NLP模型通用的基础能力(Taxonomy/Temproal…)做成与训练任务，或者加入到目标任务的联合训练中去，是否能提高模型在checklist评估中的效果？