首页 - 网校 - 万题库 - 美好明天 - 直播 - 导航 -
首页考试吧网校万题库直播美好明天实用文档作文大全宝宝起名
2020中考
法律硕士
2020高考
MBA考试
2020考研
MPA考试
考研培训
专升本
在职研 自学考试 成人高考
四 六 级
雅思考试
申硕英语
英语四级
GRE考试
GMAT考试
英语六级
口译笔译
商务英语
日语等级
公共英语
博思考试
专四专八
托业考试
托福考试
成人英语三级
公 务 员
社会工作者
跟 单 员
事业单位
保险从业
单 证 员
教师资格
出版资格
驾 驶 员
教师招聘
报关水平
特岗教师
报检水平
普 通 话
导游考试
人力资源管理师
国际货运代理人
一级建造师
监理工程师
城乡规划师
化工工程师
二级建造师
房产经纪
结构工程师
安全评价师
一级消防师
安全工程师
注册计量师
土地代理人
二级消防师
招标师考试
环境评价
设备监理师
一级造价师
电气工程师
岩土工程师
暖通工程师
二级造价师
建筑师考试
环保工程师
注册给排水
咨询工程师
房地产估价
注册测绘师
执业药师 执业医师 执业护士 卫生资格 初级护师 主管护师 乡村医师
基金从业 证券从业 银行从业 期货从业 保荐代表人
初级会计
高级经济
统计师
中级会计
审计师
ACCA考试
会计职称
美国注会
CMA考试
注会CPA
精算师
经济师
国际内审师
初级经济师
高级会计师
中级经济师
注册税务师
等级考试 水平考试 职称计算机 计算机一级 计算机二级 计算机三级 计算机四级
实用文档
宝宝起名
作文大全
求职招聘
职业技能
论文下载
英语学习 入党申请 思想汇报 工作总结
您现在的位置: 考试吧 > 论文 > 英语论文 > 英美文学论文 > 正文

   论文关键词:修辞结构理论 篇章结构 标注
   论文摘要:语篇结构标注起步较晚,但以修辞结构理论(RST)为指导的篇章修辞结构标注最近取得了令人瞩目的成绩。目前,已经建成并公布的篇章结构标注语料库是由美国南加州大学信息科学学院的一个课题小组完成的,由385篇文章组成,是一个大规模、高质量、高一致性的带多层语言学标注信息的参照篇章语料库。语料库建设的主要成就为:确立了如何将语篇切分为基本语篇单位的理论,扩展了修辞关系集,为RST理论的运用提供了广阔的前景。本文综述该语料库建设的研究成果。
   0.概述
   随着计算机技术的普及和发展,语料为机器可读成为语料库建设的最基本的要求之一。要达到语料机读化这一目的,关键在于语料的标注。所谓标注,就是对语料库中的原始语料进行加工,把各种表示语言特征的附码标注在相应的语言成分上,以便计算机的识读。
   语料标注的类型主要包括语篇背景信息、词性、词形、句法分析、语义、语篇结构等。从当前的研究现状来看,虽然语篇结构标注起步较晚,但以修辞结构理论(RST)为指导的篇章修辞结构标注最近取得了令人瞩目的成绩。目前,已经建成并已公布的篇章结构标注语料库是由美国南加州大学信息科学学院的一个课题小组完成的,由385篇文章组成,是一个大规模、高质量、高一致性的带多层语言学标注信息的参照篇章语料库。在这基础上研究小组还进行了自动篇章标注算法、自动文摘、机器翻译等具体应用工程方面的研究。
   该参照篇章语料库的建成不但为篇章结构标注建立了理论体系,而且为语篇结构的应用研究开辟了新的领域。本文将综述该参照篇章语料库建设的研究成果。
   1.理论支撑的建立
   根据Carlson(2001)的介绍,用于话语分析的理论有很多,如Groz和Sidner(1986)Mann和Thompson(1987)等都提出了自己的篇章分析理论,但这些理论主要用于单个的文本分析,往往着眼于语篇的某一个方面,如指代关系、语篇的风格、语篇的多维性以及某一理论在语篇中的体现等,很少被用于大规模的语料分析或语料标注。在建立参照语料库时,Carlson(2001)等研究者将Mann和 Thompson (1987)提出的修辞结构理论(RST)用于大批量的语篇标注和语篇分析。他们认为用修辞结构理论(RST)对语篇进行标注有三点优势:可以同时捕捉到特定文本的交际意图、语义信息和文本本身的特征;先前的研究表明该理论可以使不同的标注者在标注不同的文本时达到一定的统一;用该理论标注的语篇树形图对构建自然语篇生成系统、自动文摘系统、文本测评系统起着关键的作用,也可以用来增强机器翻译的自然性。参照篇章语料库的建成确立了篇章结构标注的理论基础。
   2.基本语篇单位的确定
   语篇结构标注的另一成就是确定了英语基本语篇单位。在确定基本语篇单位时,不同的研究者往往运用不同的理论。Givon(1983)认为从句应该成为语篇的基本单位,Sacks(1974)认为谈话的话轮应该成为语篇的基本单位,Polanyi(1988)坚持语篇应该以自然句为切分单位,Grosz 和Sindner(1986)认为语篇的基本单位应该从语篇的上下文中获取,它是由一定的符号所反映的信息载体,能反映事物的单个状态或部分状态,最有影响的修辞结构理论认为从句应该是语篇的基本单位,不管从句有没有语法标记或词汇标记。
   然而,在具体标注时,Marcu等研究者对基本语篇单位有了新的规定:所有有词汇或句法标记的起状语作用的从句都属于基本语篇单位,包括起状语作用的非谓语动词词组;充当主语、宾语、补语的从句不属于基本语篇单位;定语从句、后置的名词修饰短语或将其他基本语篇单位割裂开的从句或非谓语动词短语为内置语篇单位;除此而外,还有一定数量的有明显语篇标记的短语作为基本语篇单位,如 由in spite of(尽管),according to(根据)等引导的短语。
   Marcu的切分方法综合了Grosz和Sindner(1986)和Mann(1987)和Thompson(1987)的理论,在确定基本语篇单位时考虑到词汇、句法、语义和在句中的位置等因素。
   3.修辞关系的扩展
   当初,Mann和Thompson(1987)提出修辞结构理论时只给出20多种修辞关系,但他们明确指出这是一个开放关系集,既然是开放性的,就意味着读者在给定话语的内部可以定义出其他的关系类型。Marcu(2000)根据标注的语料库总结出53种单层核心关系和25种多层核心关系,78种定义关系又分成16个组别,每组都具有相同的修辞功能。
   就如同当初的定义关系集一样,这些关系覆盖了基本语篇单位、语段乃至整个语篇。通过这些关系,不同层级的语言片段被连接起来,构成一定的抽象形式。
   4.标注标准和方法的制定
   为了建立高质量的前后一致的标注标准和方法,Carlson(2001)等研究者采用人工标注的方法。他们所选用的标注者都是有过标注经历的、从事语篇分析和新闻报道的专业人员。在正式标注之前,他们都接受专门的语篇结构标注培训,培训包括3个阶段。
   在第一阶段,向标注者介绍修辞结构理论和语篇分析工具。在培训的第二阶段,标注者开始探索语篇结构的特征。在培训的最后一个阶段,标注小组谋求在构建语篇总结构图时保持一致,尽量减少分歧。
   最终,标注小组研制出两个基本策略用于文献分析并建立相关的语篇结构图。策略之一是对文本的直接分析,可以在页边空白处标出记号,也可以将文献切分成一定的语段并标出记号,根据这些标注建立语篇结构图。以这种方式建立树型结构图,标注者必须预测到随后的语篇结构。然而,其后语段的修辞关系,尤其是较大的语段,可能不是太明显,这就是为什么这一标注策略更适用于短篇文献的标注。
   另一策略是将文本分析与建立语篇结构两项任务同时进行,很可能是成块地标注而不是循序渐进地一步一步地增加。以这种策略进行标注,标注者一次可以切分很多语篇单位,并为每个自然句建立结构图,然后将相邻的自然句连接起来,构成较大的语段结构树。最终的语篇结构树是通过连接语篇结构中主要语块而建成的。
   5.标注质量的检验
   标注质量的控制是通过标注者对标注结果的反复修改和局部随机的自动交叉核实来实现的。为了确保标注语料库的质量,研究小组采取了很多措施,这些措施主要涉及到两个方面,即检验语篇结构树的效度和保持标注者内部的一致性。
   5.1 效度检验
   效度检验从两个方面进行,即句法和语义。句法检验确保每棵树只有一个根结,并将树与文献进行对比以防句子或语段被遗漏。语义检验主要是关系到核心语段的指派、修辞关系的选择以及语篇结构树的层次。为了保证检验质量,研究小组研制出语篇分析器以及图形扫描仪。所谓图形扫描仪,就是指,在图形环境下,自左而右渐进地为各个篇章单元给出一种最有可能的修辞关系和篇章结构地位。分析器和图形扫描仪经常可以确认出人工检验无法觉察的错误,都可以成功地作用于所有语篇结构树。
   5.2 标注一致性
   在整个语料库的建设过程中,研究者一直设法保证标注者之间内部的一致性。首先,他们研制出一种算法,该算法可以计算出语篇层级结构的Kappa数据。(Kappa算法曾被广泛地运用于语篇实证研究中,该算法可以测算出研究者在作出分类决策、预测可能性方面的一致性。)如果Kappa数据大于0.8,就意味着具有较高的一致性;如果数据值在0.6和0.8之间,就意味着较好的一致性。

0
收藏该文章
返回论文频道首页 日论文频道头条

论文| 毕业论文大全 论文发表 论文代发

[中国经济论文] [国际贸易论文] [发展战略论文] [国际经济论文]
[管理学基本理论论文] [人力资源管理论文] [行政管理论文集锦]
[经管类论文] [行业经济论文] [地方战略论文] [财务管理论文]
[成本管理论文] [市场营销论文] [公共管理论文] [工商管理论文]

教育论文 证券金融论文 财政税收论文

[基础教育论文] [高等教育论文] [中等教育论文] [英语教学论文]
[证券投资论文] [会计审计论文] [财政研究论文] [财政理论论文]
[财政政策论文] [金融研究论文] [期货市场论文] [银行管理论文]
[公司研究论文] [保险学论文] [教育理论论文] [债务市场论文]

英语论文 工学论文 文学论文 法学论文

理学论文 | 物理学论文 统计学论文 数学论文 地理地质论文
[通信学论文] [工程建筑论文] [环境工程论文] [水利工程论文]
[现当代文学论文] [新闻传播论文] [电子机械论文] [民法论文]
[刑法论文] [法学理论论文] [经济法论文] [宪法、国家法论文]

医药学论文 政治论文 社会学论文 哲学论文

[医学论文] [药学论文] [临床医学论文] [马克思主义论文]
[农村研究论文] [伦理道德论文] [台湾问题论文] [民族主义论文]
[民主制度论文] [社会主义论文] [资本主义论文] [人口问题论文]
[文化论文集锦] [当代中国文化论文] [西方文化论文] [艺术论文]

0
收藏该文章
文章责编:gaoxiaoliang  
看了本文的网友还看了
文章搜索
论文栏目导航
版权声明:如果论文网所转载内容不慎侵犯了您的权益,请与我们联系800@exam8.com,我们将会及时处理。如转载本论文网内容,请注明出处。
Copyright © 2004- 考试吧论文网 出版物经营许可证新出发京批字第直170033号 
中国科学院研究生院权威支持(北京)