教学教研
高中研训
大数据背景下的外语测评——发展与挑战
阅读次数:[]次
广外副校长刘建达教授:大数据背景下的外语测评——发展与挑战
广东外语外贸大学副校长、原教育部考试中心副主任刘建达教授,参加2015年7月在北京举办的第二界语言智能大会上发表了《大数据背景下的外语测评》主题演讲。刘校长认为口语中的方言识别、写作测评技术如何与标准紧密结合是语言智能技术需要突破的重点和难点。(视频链接:http://v.qq.com/boke/page/e/0/r/e0164qr04jr.html)
今天的主题是中国智能,语言的智能。开始在这讲的时候,还有点诚惶诚恐,李院士(中国人工智能学会理事长李德毅院士)的一席话把我给解脱出来了,他说我们不要去玩那种通用的,你就玩专业的、专门的。所以我今天这里讲,大数据下的语言测评,是一种专用的,所以我就不那么怕了。
周校长(首都师范大学副校长周建设教授)说我一直在“害人”,其实我不害人的,考试确实是害人,我们考试还有一句话是“Testing is a necessary evil .”它首先是evil ,但是它是 necessary ,有必要的 evil ,今天我们不谈evil ,我们谈谈大数据背景下的外语测评怎么做。
大家知道,我们现在传统上的外语教学和外语测评是有很多特点的。外语教学是以教师为中心,测评也是以教师为中心,后来有计算机去辅助我们,我们到Lab去上课,去测试,我们有听力考试,口语考试面对面等等这些,这是我们传统的方式。现在口语考试开始已经开始改革了,所以随着现在信息技术的发展,我们现有的技术有这几个:一个是计算机,一个是云计算,一个是大数据,有这几项技术来支撑我们的语言学习,语言教学和语言测评。
我们都知道计算机已经涉及我们生活的方方面面,从小孩子一出生,几个月只要他拿起计算机就开始喜欢这些东西,再到我们九十岁的老人,他们也天天玩计算机、玩手机。那么有了技术,我们的外语测评怎么去适应现在信息时代的发展呢?我觉得是我们需要去深思的。
我们现在又各种各样的网络,云网络、云计算。云计算对我们的外语测评也提供了很多方便,便利。我们还有什么?无线网络。现在因为考试的时候,我们总是要跑到Lab里去,现在有了无线网络,我们随时随刻都可以测试。大家可能会问,随便测试怎么行呢?我们说有些测试,测评就是应该随时随地,随时随刻,随便去进行的。有了无线网络,4G网络,我们的LiFi时代马上到来,我们怎么利用它去做测评,还有我们现在很时髦的一个词-互联网+,怎么去开展这些活动,怎么去利用这些技术,我觉得是我们要去考虑的。还有一个就是大数据,我们天天讲大数据,那到底大数据为我们的外语教学,外语学习,外语测评能带来什么呢?所以今天我们利用十几分钟时间来跟大家分享一下,在大数据背景下,我们的外语考试怎么考,怎么去做。
大家知道我们现在的教学一个比较大的特点就是:Computer Assisted Language Learning——就是我们的计算机辅助教学。随着现在技术的发展,有了Pad,所以出现了Pad Assisted Language Learning 。我们也有Mobile Phone ,就有了Mobile Phone Assisted。所以Mobile Phone和Pad我们统称为MALL——Mobile Assisted Language Learning。有了CALL,有了MALL,我们教学解决了很多问题,运用现代技术来辅助我们的教学。面对这个形式,我们的测评应该怎么做呢?基于现在技术的外语测评应该怎么做?我们现在谈的比较多的当然是利用计算机的考试,我这里也不多说了,每个人基本都有亲身体验。还有一个利用网络,大家也都知道Web Based,现在用的最多的就是Internet Based ,就是IBT ,托福就是用IBT , Internet Based LanguageTesting .
那基于互联网的我们怎么考,比如我们很多人会问高考可不可以用互联网呢?理论上是可以的,“Theoretically possible but practically impossible.”现在互联网考试是大家最不放心的一点就是舞弊,是一个技术问题,这些其实也都可以解决,但是因为高考太high states,所以不能去做。可是互联网的考试是越来越流行了,现在也有很多公司在开发这个技术产品。当然我们还有基于移动设备的,随便你什么时候都可以考,假如现在我们在做慕课,翻转课堂等等。那么慕课现在技术是很简单的,大家拿个录像机就可以把整个过程录下来,但是翻转课堂跟慕课最难的一部分就是测评部分和老师的辅导,那么我们有了移动设备,有了移动的测评方法,我们就可以帮助慕课的发展,比如你可以随时随地帮助学生,随时随地可以测评,学生随时随地可以参加你的考试,那么就解决了很多问题,所以基于移动互联网的测评现在也很流行了。
还有一个就是计算机自动适应的叫“Adapted Test”那种考试,计算机自适应大家现在还在努力的地方,这个技术其实不难,但是难的是什么,难的是建题库。大家知道我们建一个题库要花费巨大的精力,当你把题库建好的时候也基本没什么用了,社会发展了,所以建题库是一个耗时费力,什么都费的一个活动。但是题库我们还是要建,有了题库,我们才能自适应,没有题库是没法自适应的。
所以到目前为止,计算机自适应的考试自适应的评测现在还不是很流行。现在我们用的最多的就是计算机自动评分,批改网就是一个例子,我们改写作就是计算机自动评的。但是由于现在自动评分还有很多需要改进的地方,multiple-choice等等那些客观题很简单,机器就自动评掉了。我们面临的就是主观题,口试,口语怎么评,作文怎么评。现在又很多技术人员,很多公司在研究这个,在大数据的背景下,语言测评用的最多的就是Data Base ,那么Corpus 能做什么?大家都知道我们可以查词汇,我想批改网可能就是基于这个大数据来对比词汇,还有句法,这些都没问题。通过这个我还想多说两句,就是错误集,我们的语料库不光是提供给我们语料,还提供一些我们犯的错误。批改网会给你指出哪些地方不对,但是不知道有没有把学生提交的几亿篇作文这些错误收集起来,就是我们中国学生常犯哪些错误。比如我改了300次,你不能光给我指出哪里犯了错,还要把我犯的错误总结起来,告诉我应该怎么做,给我归类,比如你的虚拟语气不会用,要告诉我需要抓紧训练虚拟语气之类的,这些才是我们基于语料库,基于大数据要给我们做的,不仅仅是给我打多少分,分数是没有意义的,重要的是要告诉我应该怎么提升英语写作能力。利用大数据我们可以做很多试题集,可以做很多语言活动,还可以去验证试卷,可以做课题研究,这是语料库可以带我们的价值。
那么语料库对于我们外语评测来说,应该做什么呢?我想我们必须了解两个概念:我们所说的外语测试,其实不是我们所说的考试,四六级,高考等这类考试。我们测试跟学习有三种关系:第一种关系就是Assessment of Learning ,就是我们的期末考试,四六级。还有一种就是Assessmentfor Learning,就是以评促学,测试的目的是为了要促进学习,不是为了看你得了多少分。还有一种就是Assessmentas Learning,这三个我们都要处理。基于大数据对于外语评测来说,我们要从这三方面去服务,既有OfLearning,也有For Learning和AsLearning。
首先我想先谈一谈Assessment of Learning,大数据可以做一些什么,我们知道ComputerBased Language Test,基于计算机,基于互联网,我们可以做开发试卷,卷子可以基于现代技术去开发,我们还可以批改试卷,比如我们现在的听、说、读、写、译这些考试,基于现代技术我们怎么去帮助它?考试的翻译我们正在做,这是一个比较难的,机器现在基本还对付不了翻译。阅读跟听力没问题,一般可以机器改,主要还是口语和写作。广东的高考口语现在就是用机器来改了,相关度非常高,就是说改的非常准。机器的Realibility 是非常好的,就得益于现在的语音识别技术。我们再来说写作,批改网一直在努力,也确实做了很大贡献,但是要做的还有很多。
接下来我们重点说一说Assessment for Learning。就是做我们现代技术大数据怎么来为我们的大学英语老师服务,怎么为我们的英语学习和英语教学服务。我想从教学角度来说,在语料库的角度上,我们有两种语料库,我们可以自己去收集,当然这个收集必须依靠现代技术,用纸笔是没办法进行的。第一个就是Learning Corpus,我们学习者语料库,就是我们学生在学习过程中所犯的所有错误,所取得的所有成就,把他的优缺点都总结出来,然后组成一个学习者语料库,有了这个学习者语料库我们干什么都是可以的。我想批改网是收集了很多数据,比如学生提价了多少次,百万人同写一个题目等等,有了Learning Corpus,这些数据是极其宝贵的,批改网目前应该只收集写作,将来我希望他们还可以收集更多的学习过程。
还有一个是Learning Corpus,我们学习过程中所建立的那些语料库。比如我们老师备课的材料,学生贡献的材料等等,这些都是我们外语学习中要去收集的,要去分析的宝贵财富。有了这些Course Corpora我们可以做很多事情,那么从测评的角度来说可以做什么呢?第一个,我们可以用它来建Portfolios,从以评促学的Assessment for Learning,我们叫形成性评价,形成性评价中最重要的一点就是收集大家的Portfolios。Portfolios以前是很难收集的,现在又了技术,有了e-Portfolios收集起来是非常简单的。怎么去收集Portfolios呢,现代技术可以帮助我们,所以我们的批改网就是在收集Portfolios,但是目前收集的有些窄,其实我们学习中的点点滴滴都是可以收集的。
现在的Big Data、idata,我一直推崇两个概念,其实我们天天说大数据,但是我们要更注意“小数据“,”小数据“对于外语学习来说更重要。我们每个学生学习英语都是有他的行为、特点的。他在学习过程中的行为我们可以通过软件全部收集起来,之后要做的就是Data Mining去数据挖掘,数据归纳,提取出他的学习特征,在之后我们老师帮助他学习时就是轻而易举的事了。
现代技术信息大数据对于外语测评来说面临很多挑战。第一个挑战就是对于口语考试中的语音识别,简单的语音识别很多公司都已经做了,难的是方言,用方言说英语。考试的学生是分布天南海北的,比如广东,就有很多方言,普通话说的都不标准,说英语有时候我都听不懂,更不要说机器了,把这个问题解决了,那么英语口语就可以用机器评分了。第二个挑战就是写作,难在人工智能,你怎么去用Artificial Intelligence去模仿我们的写作行为。我们知道批改网已经改了很多作文,但是有一点是改不出来的,就是我们的评分标准,批改网有几百个维度,但是最后起关键作用的就只有那几个。还有一个维度现在谁都没有考虑,就是语义,语义我们有一个理论叫LSA,现在基本都用这个来解释语义,当然据说还有更先进的理论,但是现在用LSA来评作文还不是很好。所以我们现在要努力的是考虑语义,还有情感,认知能力,让机器学会去评我的情感。还有一个难点是社会语言和语用问题,就是社会语言和语用能力。语境,语用现在是不好解决的,很多话让机器来评就是零分,但是如果让老师看,就写的不错,所以机器对于语用是无法理解的。
大数据很重要,大数据也非常好,非常诱人,但是我们还要集中起来,研究一些真正能解决问题的问题,这就是我的期望,也是一个挑战!