留学生汉语中介语语料库的建立与研究——以昆

  留学生汉语中介语语料库的建立与研究——以昆明理工大学为例

  摘要:留学生汉语口中介语语料库的口建立与研究☆□☆,有三口个意义:第一□□☆☆,有利于口口对外汉语教学的多方面口研究☆☆□□。第二□□☆,有利于全方位探索口口汉语学口习者的语言特征□□☆。第三□□□☆☆,有利于对口外汉语的学科建设□□☆□。汉语中介语语料库建设的基本思路如下:1.搜集各阶段留学生汉语学习口者的语料□□□,同时完整记录每份语料的背景口信息□☆☆□,以及语料提供者的详细信息□□☆□☆。2.对语料口进口行口加工□☆□□,包括偏误标口注口口和基础标注□□☆。3.将加工后的语料分别存入错别字语料库和语句语料库这两个子库☆□☆□。每个子库包括生语料库☆☆☆、熟语料库□☆□、背景信息口口库三个部分□☆□。汉语中介语语料库建设的构成原则有三个:第一☆☆□□☆,语料的真口实性原则;第二□□☆,语料的平衡性口原则;第三□☆☆□□,信息的完备性口原则□☆□☆。

  教育期刊网 http://www.jyqkw.com关键词:汉语 中介语 语料库

  中介语(interlanguage)概念由美国学者Selinke口r于1969年提出□☆☆,并于1972年在论文《中介语》中进行了详细论述□☆☆□☆。Selinker认为中介语是由不同心理过程生成的规则构成的一个单一语言系统□□☆□。中介语理论在20世纪80年代引入我国□□☆☆□,对对外汉语教学及相关研究领域发展产生了极大的促进作口用☆□□。1984年□☆☆,鲁健骥先口生发口表论文首口次引进“偏误”与“中介语”两个概念☆☆☆,并分析口了外国人学习口汉语过程中产生口语音口偏误的五个原因☆☆☆☆□。鲁先生认为☆□□,中介语是学习外语口的人在学习过程中对于目的语规律所做的不正确的归纳和推论而产生的一个语言系统☆☆□□□,这个语言系统既口不同于学习者的母语□☆□☆☆,也区别于他所学的目的语(鲁健骥□☆□□□,1984)□☆☆□。[1]鲁先生的文章在国内学术界产生了巨大影口响☆□☆,此后越来越多的学者开始这方面的研究☆□☆□☆,使得偏误分析和中介语研究成为第二语言习得研究领域的主要课题☆☆□□。

  一□☆☆☆、汉语中介语语料库建立与研究的现口状

  语料是中介语研究的基本口材料□☆☆。而语料的搜口集与整理是很繁琐费时的工作□☆□☆□,因此☆□□☆,中介语语料库的建设就成了研究者迫切所需□☆☆☆。针对留学生汉语学习的语料库是汉语中介语语料库□☆□☆,它是为研究母语非汉语的学生在学习汉语过程中的中介语现象而制作的专门用途语料库☆☆☆。按照口国家标准术语的口界定,语料库是“……文本口的有序集口合☆□☆。各种分类□☆□□☆、检索☆□□☆、综合□☆□、比较口的基口础☆□□☆。”[2]

  随着计算机技术的发展□☆☆,我国在20世纪90年代开始有了汉语中介语语料库的建设☆☆☆□□。第一个建成的是北京语言学院的汉语中介语语料库检索系统☆□☆□☆,该语料库对语料进口行了分词和词性标注(储诚志☆☆□☆、陈小荷☆□□☆,1993)☆□☆,收入经口过处口理的语料约104万字☆□□□,内容为成篇成段的汉口语口作文口口或练习材料□☆□。随后有暨南大学留学生汉语中介语语料库☆□☆□☆,规模达300万字;中山大学留学口口生中口介语语料库☆☆□□☆,初期收口入语料近70万字(张舸☆□□,2008)☆□☆,该语料库收口录2003年以来留学生的字句练习和作文资料☆□□☆,前期主要进口行字□☆☆☆、词□□☆□☆、句加口口口工标注☆☆□,后期重点建设汉字偏误标注的语料库□□□,目前口语料总数达到约200万字(张瑞朋□☆□☆☆,2013);南京师范大学外国学生汉语中介语偏误信息语料库☆☆□□,收入作文☆☆□□☆、练习90万字(周文华☆☆☆、肖奚强□☆□,2009);北京语言大学的HSK动态作文语料库☆☆□☆□,2006年口建成□□☆□,该语料库口从1992年至2005年期间两万多份留学生HSK考试试卷中选取了11569名考生的HSK作文答卷☆□☆☆,总计424万字☆□☆□□,并从字☆☆□、词□☆☆□☆、句□□☆☆、篇以口及口标点符口号等角度进行全面标注□□☆☆,是目前汉语中介语语料库中规模最大的语料库□☆□。上述语料库除北京语言大学的HS口K动态作文语料库面向全社会开放口外☆☆☆,其他都只供内部人员使用☆□☆□,外人难以口了解实情☆□☆☆□,因而造口成了这样的口局面:一方面许多人想用却没法用☆☆□□,另一方面语料库的使用率并不高(任海波☆□□☆,2010)☆□□□□。而面口对日益增长的对外汉语教学的多方面研究需求□□□,口☆口口☆口已建成的五个汉语口中介语语料库数量相对较少(张宝林☆□☆,2010)☆□☆☆,远远不能满足口口需求☆☆☆□□。

  目前我们能见到并且可以使用的仅有北京语言大学的HSK动态作文口语料库□□☆□。该语料库只收入参加高等考试的考生作文(初☆□□☆、中等没有写作考试)□☆□,因而只能对高级阶段口学习者口的习得情况进行横向的断面考察□☆☆,而无法对初级和中级学习者的情况进行考察□☆☆,更无法对学习者的整个学习过程进行纵向的全面研究☆□☆□☆。其次□□☆□,HSK动态作文语料库只收入文本语料□☆☆,偏重的是口词汇和句法的偏误标注□☆□,对汉字偏误处理较简单☆☆☆□□,对于汉字习得的研究也缺乏足够的语料支持□☆□□。再次□□☆☆,HSK口动态作文语料口库虽然从字□□☆☆□、词□□☆□□、句☆□☆、篇以及标点符号等角度对全部语料中存在的偏误现象进口行了标注□☆□,但对语料中正确的语言现象并未标口注☆□☆,也就是只有偏误标注而没口有基础标注□☆☆□,这就会导口致研究中出现某些尴尬的现象□□☆,比如查到了学生的偏误□☆□□,却查不到学生相应口的正确语言表达☆☆□,从而使得全面考察学习口者的口语言习得口情况受到较大限制☆□☆□。上述问题都给基于语料库的相关研究造成了诸多困难□□☆□。

  鉴于此☆☆☆,口☆口口☆口我们设想建立昆明理工大学的留学生汉语中介语语料库□☆□。首先□□☆,本语料库基口于本口校教育在线网络教育平台建立□☆☆☆□,面向全社会开放□☆□□,以便资口源共享☆□☆□☆。其次☆□□☆☆,本语料库将口收入零口起点☆□☆☆□、初级☆☆□、中级□☆☆□、高级各阶口口段汉口语学口习者的语料□□☆☆。再次☆□☆□☆,本语料库将分设错别字语料库和语句语料库□□☆☆☆。虽然目前我校留口学生规模尚不足以支持建立大型语料库□☆☆☆,但我们可以先建立一口个语料种类齐全□☆□□☆,样本较多☆□☆□,标注内口口容较全面□□□,能够反映各阶段汉语学习者的学习过程与口特征的小型语料库□□☆□☆。将来如口果条件成熟□□□☆,本语料库可以与其他兄弟院校或国家大型语料库实行对接☆□□☆,甚至共建语口料库网□□☆□,充分实现口资源共享□□☆。

  二□□☆☆、汉语中介语语料库建立与研究的意义

  汉语中介语的研究离不开大量口真实的中介语语料□□☆□☆。而真实的留学生汉语中介语语料的收集□□☆□,必须依口据口中介语理论和语料库语言学理论☆☆□,建立专门针对留学生的汉语中介语语料库□☆☆☆☆。基于昆明理工大学留学生的口规口模☆□☆□☆,我们考虑建立针对本校留学生的小型汉语中介语语料库☆□□☆。汉语中介语语料库的建立与研究☆☆☆□,有如口下几点意义:

  第一□□□□☆,有利于对外汉语教学口的多方面研究□□□☆。本语料库是母语非汉语的汉语学习者学习汉语的中介语语料库□☆☆□□,依据本语料库可以对留学生汉语学习者的大量语言样本进行量化分析□□☆□,为汉语口中介语研究☆□☆□☆、汉语二语习得研究口以及偏误分析提供真实可靠的语言数据☆□☆☆□。运用本语料库中的错口别字☆□□、语句等语料来考察汉语学习者在汉字☆□☆□、词汇□☆☆□、语法等方面的习得情口况☆□☆☆□,可以进行对外汉语教口学的多方面研究☆□☆□□,例如汉语中介语研究□☆☆☆☆、第二语言习得研究☆☆□□☆、对外口汉语教学理论研究☆□☆、对外汉语教口材研究☆☆☆□、汉语水平考试研究以及从中介语的角度来进行汉语本体研究等等□☆□☆☆。

  第二☆□□☆☆,有利口于口全方位探索汉语口学习者的语口言特征☆☆☆。汉语中口介语语料库将比较全面地搜集能反映汉语学习者的各种语言属性□☆□☆、个体特征口等信息☆□□☆☆,如姓名□☆☆、性别☆☆☆□、年龄☆☆□□、国籍□□☆、是否华裔□□☆☆、第一语言□☆☆、文化程度□☆☆、入校时间☆☆□□、年级□□□、学习阶段☆□□□、学习口口汉语口口口年口口口口限☆□☆□□、语料口口提供时间□□☆□、口☆口口口☆口语料来源☆☆☆□、语料类别等☆□☆□,为全方位探索汉语学习者的语言特征提供参考依据☆□☆。

  第三□☆□☆,有利于对外汉语的口学科建设☆□□。汉语中介语语料库的建设可以为用口户提供一个考察和研究的基础平台☆☆□□,为对外汉语教学口和研究服口务☆☆□。将汉语中介语语料库引入对外汉语教学课堂□☆□☆,可以使学生和教口师得到丰富的语料资源和在线帮助☆□☆□,增加了汉语口学习中的“真实材料”和真实口交口际□□☆☆,提高了学习的交互性□□□☆□。基于昆明理工大学教育在线网络教育平台□☆☆□,我们还能口够以此口平台为依托☆□☆□,加强与外界的沟通☆□☆□☆,促进昆明理口工大学对外汉语学科建设的发展□□□。

  三☆□□、汉语中介语语料库建设思路与构成原则

  汉语中介语语料库建设的主要应用是为对外汉语教学的一线教师提供教学和研究服务☆☆☆,以及为外国留学生的口汉语学习提供辅助□□☆☆,因此语料口库的建设主要注重以上两类服务对象的应用需求☆□□☆□。基于此口种要求□□□,我们对汉语中介语语料库的建设做了以下几点考虑:

  第一□☆□□☆,汉语中介语语料库是为研究母语非汉语的学生在学习汉语过程中的中介口口语现象而制作的专门用途语料口库☆□☆☆☆。

  第二□□☆☆□,中介语语料包口括书面语料和口口语语料☆□□□☆,由于技术口层面的原因☆□☆□,口语语料的搜集与加口工操作比较困难☆☆□,我们现阶段口只搜集书口面语料☆□□□□。

  第三□□□☆☆,对语料的加工口采取人工为主☆□☆□□,计算机为辅的方式☆□□。具体操作是☆☆□☆☆,在语料分词和词性标注上采用人机互助标注方式☆□☆,其他语言学方口面的口标注则采用人工口标注方式☆☆□。

  汉语中介语语料库建设的基本思路如下:

  (口一)搜集零起点☆□□□、初级□☆□□、中级☆☆□、高级☆☆□□□、本科各阶段留口学生汉语学习者的语料☆☆□□☆,包括来自平时作业☆☆□□□、练习□☆☆☆□、测试和学期口课程考试☆□□□☆、汉语水平考试口的不同语料□☆☆☆。同时完整记口录每份语料的背景信息☆☆□,以及语料提供者的详口细信息☆□□,如姓名☆☆☆、性别□□□☆、年龄☆□□□□、国籍☆☆□□□、是否华裔□□☆、第一语言□☆☆、文化程度☆□☆、入校时间☆☆☆、年级□☆☆□、学习阶段□☆□□□、学习汉口口语口口年口限☆☆☆、语料提供时间☆☆□、语料来源□□☆☆、语料类别等□☆□☆□。

  (二)对语料口进行加工□☆□☆☆,包括偏误标注和基础标注☆☆☆□。

  (三)将加工后口的语料分别存入错别字语料库和语句语料库这两个子库☆☆□☆☆。每个子库包括生语料库☆□□☆、熟语料库□□☆☆□、背景信口息库口三口口个部分☆□☆□。生语料库用于存放口扫描的原始图片或语音材料□□☆☆☆,熟语料库用于存放经过各种加工处理的语料☆☆□☆,背景信息库用于存放学习者背景信息和语料信息□□☆□☆。

  汉语中介语口语料库建设的构成原则有如下三个:

  第一□□☆,语料的真实性原口则☆□☆☆。语料的真实口性主要包含两个层面的意义☆☆□,第一个方面是指语言水平的真实口性☆☆☆□,即收入的语料必须是外国留学生真实语言能力的产物□☆☆☆,是留学生汉语学习过程中的原始语料☆□□☆,能真正反映留学生的语言水平状况☆☆□□□。因此☆□☆□☆,我们选取的语料主要是留学生在课堂上的随堂练习☆☆□、课后作业☆☆☆□□、平时测验和口期末考试□□□☆、汉语水平考试的口材口料☆□☆□□。语料的真实性第二个方面是指语料口的口忠实性□□☆□□,即收入口的语料必须不经任何篡改☆□□☆☆,要忠于语料的原始面貌☆☆□☆□,并且对字□□☆☆☆、词□□☆、标点☆□☆、格式等错口口口误均原样录入□□□☆,后期对语料的标口注也要尽量忠实于其本来面貌☆□☆☆,对错误的保存和口呈现要口能体现出错口误特征☆☆☆□。

  第二☆□☆☆☆,语料的平衡性原口则□☆☆☆☆。语料的平衡性主要包含两个层面的意义☆☆□,第一个方面是指语料来源国别的平衡性☆☆□□☆,即提供语料口的留学生国别比例要尽量平衡☆□☆☆。目前来华留学生中学习汉语的韩国□☆☆、日本学生数口量远超其他国家☆□□□,因而☆□□□□,国内最口大规模的语料库□□□☆,北京语言大学HSK动态作文语料库收录韩□□□☆□、日学生语料数最多☆□☆。尽管如此☆☆□☆,语料库收口录口语料仍然要确保在一定规模下达到口一种分布的平衡☆□□□。昆明理工大学留学生以东南亚国家□☆□☆,如泰国☆□☆、老挝□☆☆☆□、越南口口等口国口居多☆☆□,欧美和非洲国口家相对较少□□☆☆。因此□□□□,我们在选取语料时口要口尽量考虑保持口语料来源国别的平衡性□□☆。语料的平衡性第二个方面是指层级的口平衡性□☆□☆,即提供语料的留学生汉语水平分类要合适☆□□、比例要尽量平衡□□☆☆。我们对留学生汉语水平的分类口按学生自然班级进行□□□□☆,包括“零起点□☆☆□☆、初级Ⅰ☆☆□□☆、初级Ⅱ□☆☆、中级Ⅰ□☆☆☆、中级Ⅱ□□☆、高级Ⅰ☆□□□、高级Ⅱ☆☆☆、本科上☆☆□□、本科下”这九口口口个层口口口级☆□☆。尽管随着学生的汉语水平不同口和语言产出能力不同□☆□,所能口提供的语料数量肯定不等☆□☆,但在选取语料时我们也要尽量考虑保持各层级比例的平衡性□□□。

  第三□□☆☆,信息的完备口口性口原则□□☆☆。信息的完备性主要包含两个层面的意义□☆☆,一方面是指提供语料的留学生背景信息要全面完整☆□□☆。我们在语料库建设过程中□☆□☆□,注重搜集能反映汉语学习者的各种语言属性□☆☆□□、个体特征等信息□□☆□,包括口如姓名☆☆☆□☆、性别☆☆□□□、年龄□☆☆□、国籍☆□□☆□、是否华裔☆□□、第一语言☆☆☆□、文化程度□☆☆、入校时间□□☆、年级□☆□□□、学习阶段☆☆☆、学习口口口口汉语口口年限☆□□☆、语料提供时口口间☆□□、语料来源☆□☆□□、语料口类口口别等□☆□☆☆,力求能全面覆盖语料提供者背景各方面细节□☆□☆。另一方面是指搜集的语料信息要全面完整□□□☆□,即保口证每一篇语料能和学生背景信息一一对应□□□,并且最好能随着学生阶段和水平的提升采集跟踪信息□☆□☆□,使语料信息能覆盖语料提供者的各个学习阶口段和不同水平层次□☆□☆□。

  四□☆□、结 语

  留学生汉语中介语语料库的建口立是个复口杂的工程□□☆□☆,要建成大规模的语料库□☆☆,需要一个大型团队的力量和各方面技术的支撑□□□□☆。限于人员和技术的因素□□□☆☆,目前我口们仅能建设小型的汉语中介语语料库□☆☆☆☆。但是在口语料库口的建设过程中□☆□,我们积累了宝贵的经验☆☆□,对于整个语料库的建设流程有了深切的亲身体验☆□□□□,对于语料库建设过程中的一些困难口与问题也有了体会和克服的经验☆□☆☆□,尽管由于能力所限☆☆□☆□,我们只能说是在语料库建设方面做了一些尝试□☆☆☆,但这些有益的尝试为今后的进一步研究打下口了良好的基础□☆☆□□。

  (本文为昆明理工大学人才培养基金项目□□☆,项目编号[KKZ3201253001]□☆☆。)

  口教育期口刊口网 http://w口w口口w.jyqkw.com口参考文献:

  [1]鲁健骥.中介语理论与外国人学习汉语的语音偏误分析[J].语言教口口学口与研究□☆☆☆☆,1984□□☆,(3).

  [2]口国家口标准总局.汉语信息处理词口汇01部分:基本术语[口M].北京:中国标准出版社□☆□☆,1997.

  [3]储诚口口志□☆□☆□,陈小荷.建立“汉语口中介口语语料库系统”的基本设想口[J].世界口汉语口教学☆□□□,1993☆☆☆□,(3).

  [口4]口口张舸.程度副词结构作状口语☆☆□☆☆、谓语和补语的语义及句口法差异[A].“第二届口中青年学者汉语教学国际学术研讨口会”资料汇编口[口C].北京□□□,2008.

  [口口口5]口口张瑞朋.三个汉语中介语语料库若干问题的比较研究[J].语言文字应用,2013☆☆□□☆,(3).

  [口6]周文口口华.基于语料库的外国学生兼语句习得研口究[J].语言教学与研究□☆□,2009☆□□☆,(3).

  [口7]任海波.关于中介语语料库建设的几点思考——口口以“HSK动态作文语料库”为例[J].语言教学与研究□☆☆☆☆,2010□□□,(6).

  [口8]张口宝口林.汉语中介语口语料库建设的现状与对策[J].语言口口文字应用☆□☆□,2010□☆□☆,(3).

  (口口王兰 云南昆明 昆明理工大学国际文化交口流学院 650093)

本文由雨桐论文网发布于文学论文,转载请注明出处:留学生汉语中介语语料库的建立与研究——以昆

您可能还会对下面的文章感兴趣: