内容摘要:2017年 2月 12日,由语言学同好微信平台“语英坊”(EngLing Workshop)主办的系列学术讲座首场活动——浙江大学外国语学院刘海涛教授主讲的“大数据时代的语言研究:距离与方向”在北京社科书店举行。二、基于依存语法的计量研究从2008年到现在,刘海涛教授作为第一(通讯)作者发表的文章,已被SCI(科学引文索引)收录17篇, SSCI(社会科学引文索引)收录43篇, A&HCI(人文艺术引文索引)收录41篇,这有力地证明:语言学研究也可以国际化,语言学家可以被科学家所认可。刘海涛教授及其团队在语言与认知和语言类型方面展开了突破性的研究,并取得了国际领先的研究成果,包括:用依存距离将语言与认知联系在了一起,可以通过文本的计量来进行语言与认知的研究。
关键词:语言;依存距离;刘海涛教授;分布;讲座;认知;计量;研究方法;网络;学术
作者简介:
2017年2月12日,由语言学同好微信平台“语英坊”(EngLing Workshop)主办的系列学术讲座首场活动——浙江大学外国语学院刘海涛教授主讲的“大数据时代的语言研究:距离与方向”在北京社科书店举行。
刘海涛教授是国际计量语言学的领军人物之一,是近十年来被WOS核心库(SSCI、A&HCI、SCI)收录语言学论文最多的大中华区学者,还名列爱思唯尔2014、2015“中国高被引学者”(Most Cited Chinese Researchers)。
在为时三个小时的讲座中,刘海涛教授就大数据的研究方法和基于依存语法的计量研究进行了详细介绍,并对语言学如何国际化和科学化表达了自己的见解。
一、关于大数据与研究方法
1. 大数据时代的转变
舍恩伯格《大数据时代:生活、工作与思维的大变革》一书指出:大数据开启了一次重大的时代转型。大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源泉,而更多的改变正蓄势待发。
大数据时代最大的转变就是放弃追求因果关系,转而探求相关关系。大数据的核心就是预测。大数据将为人类的生活创造前所未有的可量化的维度。
应用大数据对语言进行研究的典型案例,是2007年Liebeman等人在《自然》杂志(Nature)上发表的有关英语不规则动词的规则变化规律的研究。他们通过对200年间的文本中出现的数百个动词的变化情况进行考察,发现常用的不规则动词不容易被规则化,而不常用的则易被规则化。该研究开创性地用大数据揭示了使用频率对语言发展变化的影响。
2. 数字人文的真谛
相较于以往内省式的研究方法,计量语言学使用的是数据驱动的科学研究方法。任何一门学科,包括经济学、金融学、物理学、历史学等等,都有数据和理论的问题。数字人文的真谛是:把数字(数据)与知识、社会、文化、行为、人联系在一起,而不是简单地把一本书、一幅画数字化后保存在计算机里;通过可视化的方法,更直观地展现这种联系;通过数理统计方法,更科学地解释数据背后隐藏的有关人类认知、行为的模式以及人与社会、自然交互的规律。
一项对1901-2012年间诺贝尔奖获得者信息的可视化分析显示,百年间获奖者的学科、年龄、出生地、学位及所在学校等都有显著的倾向与变化。
这些研究都表明,我们离数据并不遥远,数据可以揭示日常生活中的规律性模式。
3. 基于真实语料的研究
语言学是研究语言结构与演化规律的学科。语言学家的任务是思考并回答以下问题:线性结构与网络结构之间的转换是如何及何时进行的?字同现、词同现、句法、语义、概念等层面有什么区别?这其中有什么规律存在?这些问题引出了讲座的主题:基于真实语料的语言研究。
为什么要用真实语料?语言学研究语言,而语言是民众实际所讲的语言。语言数据应该来自于语言实践。语言学家的数据在哪儿?是在自己的脑子里吗?当然不是,汉语不是一个人的汉语,语言的规律在语言的使用中。但是只有数据是不够的,数据只是描写、解释和预测的基础。语言学要从传统的人文学科转向到认知与生命科学。如果语言学能够成为认知生命科学的一部分,它才算是真正的科学。而转变只改名字是不行的,研究范式和方法都需要发生变化。







