这款“阴魂不散”的AI，已批改1亿中国用户作业…-观察者网

你被机器批改过作业么？《南华早报》28日报道称，有一亿多中国人，已经被AI批改过作文。

但是，这个“一亿”从何而来，报道并未提及。观察者网为此向详细关注此事的AI领域新媒体“量子位”求证，得知这一数据出自“2018年国家科学技术进步奖项目提名公示——语言智能评测关键技术及应用”，文章去年12月就公布在北京航空航天大学官方网站，其中提到“项目成果在教育领域得到大规模应用，累计服务6万多所学校，1.2亿用户”。

点击查看原文

该技术还转化成了具体评测的产品。目前，对照国家科学进步奖授奖条件，项目已提名申报2018年国家科学技术进步奖二等奖。

虽然楼下已有观网读者想起了被这款“阴魂不散”AI支配的恐惧，小编的同事却意外地一脸淡定，“大一大二也用过，一想到不用面对老师改作业，轻松多了……”

当然，是机器就有漏洞，AI批作业还有很多不完善的地方，在实际应用中也被人钻过空子，或是改出驴唇不对马嘴的“高分文章”。

目前，它的定位只是一种辅助工具，老师们对作文批改AI的信任度并不是很高，只是在日常作业和小测验中使用AI来批改打分，真正的考试，还不敢交给它。

以下是量子位（公众号 ID: QbitAI）的文章全文，观察者网受权转载。

最近，老外特别关注AI在中国教育界的进展，例如人脸识别进课堂、高中AI教材出版等等，这一次关注的焦点是：AI代替老师批作业。

起因是，英文媒体《南华早报》最近有篇报道说，中国有大约6万所学校都在用人工智能来批改学生的作业，每四所学校中就有一所在用。

这些学校分布在各地，四川、山东、安徽、北京……

学生们提交的英文作业，打分交由机器完成，而不是人类教师。作文批改系统，要比Word的拼写检查复杂得多。它能够理解文字的一般逻辑和意思，对作文的整体质量做出像人一样合理的评判，还要在写作风格、结构、主题等方面给出改进建议。

据说，92%的情况下，AI和人类教师对一篇作文的评分是一致的。

这个笼罩6万所学校的人工智能，就是批改网。在它的背后，是一个多所高校和公司共同推进了近10年的项目：语言智能评测关键技术及应用。

数据显示，这个机器教师的学生已经达到1.2亿，还覆盖了北京90％高校，以及所有区县的中学。但它也像一道分水岭，有些人压根没听过。这一点也不奇怪。要知道2016年底，这个服务覆盖的学校才6000多所。

也就是说，一年之间，它覆盖的学校数量增长了900%。

公示文件中提到的一些应用单位

“高分秘籍”

学生对机器批改作业，感受如何？

一个可见的情况是，你能轻松从微博上找到各种吐槽。

比如：

“生活所有的痛苦都来自英语批改网和老师的公邮”

“受了批改网一肚子气”

“就像相信批改网是垃圾。即使在批改网的排名是倒数也不影响就是这样坚定地上交的决心”

说起这些，量子位的一枚同事，默默地贴出她被批改网“支配”的往事：100多字的英语短文，修改了40多次。

当人把命运交到机器手里，心中总是有点不服气。

于是不断有人试图证明，机器评分这套系统，不过尔尔。比如此前未来网就在报道中提及此事。

网友“TroyS”反映：

一次专门到网上查到批改网各种高分表达并且用到作文里，提交后得了86分，修改语法错误后分数变为91.5分。此后，该网友把“高分表达”删除，试着用普通表达后，评分还是91.5分。再后来，试着删掉最后一段、试着删掉最后两段，提交后的分数也都仍然是91.5分。但更令其吃惊的是，当该网友把最后两段又贴回去后，分数变成了90分，并且此后修改了17次之多，但分数没变过。

知乎网友“猴赛雷”也提到：

通过使劲重复题目要求中的词和句子、贯穿全文，结构以“首先、其次”这类“八股文模式”照搬，文内多加六级高级词汇和句式等，再加上批改网推荐替换的词汇都用上，最后就能得到高分，但是内容驴唇不对马嘴。

未来网记者将网上找的《假如给我三天光明》的英文节选粘贴到批改网上，提交后得分85.5分，并提示标题“假如给我三天光明”的英文表达“疑似谓语缺失”。根据文后的按句点评修改两处提交后，得分仍为85.5分。然而，当记者删掉最后一段后，得分变为了86分。接着，记者又删除第一段，提交后得分变成了86.5分。当记者再将第二段删除后，分数又变成了86分。

总而言之一句话，机器批改作业，确实还有很多不完善的地方。

一位自称曾经是批改网研发的用户也表示，“批改网的批改原理是用多维度加权平均来给你打分。如果一个维度权重很重，你刚好改了之后这个维度的值降了，一加权自然就分数低了”。

“同学们加油，是机器就有漏洞，就看你们能不能总结出规律了。”

背后原理

机器到底是如何批改作业的？

在批改网的官方页面上，对于背后技术的阐释如下。

批改网的原理通过对比学生作文和标准语料库之间的距离，并通过一定的算法将之映射成分数和点评。

2014年多知网的一篇报道中，批改网创始人讲述了更多的细节。我们摘录如下。

批改网修改作文的原理是，作文提交后，网站将作文从“词汇”、“句子”、“篇章结构”、“内容相关度”4个大类192个维度进行拆分，每个维度都会与批改网建立的英语本族语语料库(即国外英语文章的素材)作对比。语料库越丰富，对比的客观性就越高，机器批改与人工批改的一致率就越高。

比如，在作文中经常出现“learn knowledge”这样的中式英语。将这样的语言搭配与语料库资料对比后发现，以英语为母语的国家中，使用“learn knowledge”的频率为0次，使用频率最高的是“have knowledge”。所以，会建议学生使用“have knowledge”。

再提供点新信息，根据《2018年国家科学技术进步奖项目提名公示》中披露的内容显示，批改网背后的技术“历经近10年的潜心研究”。

其中列出的五个主要的创新点包括：

1、首次提出全信息语言评测模型

2、构建大规模评测本体知识库

3、构建大规模评测语料库和规则库

4、提出篇章主题聚合度模型

5、提出文档自动编辑和转换模型。

大概就这样吧。

不管细节怎样，总有质疑说机器批改打分的价值不大，目前仍有一些不足云云。但是，这套系统可能真的击中了老师的痛点。官方也把这个作为宣传的重点：

老师们为什么要使用批改网呢？

上海交通大学的胡开宝教授说，批改网可以减轻老师负担，提高学生学习积极性；清华大学杨芳老师：“以前学生追着我问 ‘ 老师你改了没有？ ‘ ，在使用批改网后我追着学生问 ‘ 作文交了没有？’ ”。

系统的开发者们把它定位成一种辅助工具。对于缺乏教育资源的偏远地区学生来说，一个批改作文的AI能为他们带来不错的写作训练；对于一般的学校来说，它能帮老师们搞定堆积如山的作业，加快批改的速度。

然而根据《南华早报》的报道，老师们对作文批改AI的信任度并不是很高。老师们依然认为，这个系统还不能算完美，有些很好的作文得不到高分。

其实，在作文批改AI出现更早的美国，机器打分早已有了更大胆的应用。

测试机构ETS的作文评分系统e-rater，从2010年开始，就开始正式参与托福考试作文的打分，一个人类评分员和e-rater给出的分数一平均，就成了托福作文的得分。

而这次被英文媒体关注的中国批作业AI，老师们也只是在日常作业和小测验中使用AI来批改打分，真正的考试，还不敢交给它。

就酱。

（夏乙舒石发自凹非寺）

参考资料：

[1] SCMP：China’s schools are quietly using AI to mark students’ essays … but do the robots make the grade?

http://www.scmp.com/news/china/society/article/2147833/chinas-schools-are-quietly-using-ai-mark-students-essays-do

[2] 未来网：批改网让学生不再质疑分数？英文原著“打脸”智能批改实力

http://m.edu.k618.cn/ycbd/201801/t20180130_15146364.html

[3] 多知网：句酷批改网：用机器批改作文的创业故事

http://www.duozhi.com/company/20141124/2412.shtml

[4] 2018年国家科学技术进步奖项目提名公示——语言智能评测关键技术及应用

http://bhkj.buaa.edu.cn/info/1015/2825.htm（完）