语言智能与技术

发布者：实习测试发布时间：2019-03-16浏览次数：949

语言智能与技术

韵律信息处理

文法（Grammar）是文本文字的结构规则，韵律则是语音语句的结构规则。研究表明，在第二语言的语音习得中，韵律习得对于习得结果是否“洋腔洋调”起着较大的影响，甚至大于音段的影响。

本课程的目标旨在介绍当代韵律研究的主要代表学术流派，增进学生对于相关前沿领域的了解，拓宽视野，培养学术修养。具体内容包括:

1.韵律研究概论

2.基于感知的Titlt语调模型

3.基于sequence tone model的ToBI模型

4.基于不同层次知识的叠加模型Fujisaki模型

5.各种韵律的计算模型等等。

6.汉语的声调信息处理等.

形式语言与自动机

任何信息处理与计算问题都可归结为对语言的处理。形式语言与自动机理论从语言处理的角度揭示计算的本质，在计算机科学领域有着重要的地位与作用，对于计算机专业学生的知识结构及其发展潜力有深刻的影响。本课程是计算机相关专业基础课，主要讲授理论和应用中的常用语言类及其相应的计算模型，以及计算模型之间的联系。课程旨在培养计算机科学理论方面的素养，提高逻辑思维和解决相关问题的能力，为学生今后从事科学研究或技术开发工作打下扎实的基础。

自然语言处理的统计方法

本课程主要讲授自然语言处理和计算语言学中的统计方法、关键技术和最新进展。主要内容包括语言处理的统计学基础和语言模型、因马尔科夫模型、最大熵模型以及NLP中常用的机器学习方法等等。

通过本课程的学习，希望学生能了解语言信息处理中基于统计的学术思想，掌握解决实际语言任务的能力，了解相关的最新研究成果，培养学生在语言信息处理领域和相关领域的科研能力。

授课内容：

第1周：自然语言处理综述

第2周：汉字编码

第3-4周：汉字统计和汉字处理

第5-6周：基于单字的输入法实现

第7-8周：音字转换的基本原理和实现

第9-10周：语言模型的基本原理和CMU工具包

第11-13周：汉语分词的理论和实践

第14-15周：词性标注与隐马尔可夫模型

第16-17周：全文检索的方法和实现

第18周：答疑与习题课

语料库语言学

教学目标：了解语料库语言学的基本理念——了解语料库语言学的学科位置、历史、研究状况、研究重点和发展趋势（实时）；了解用语料库研究语言的意义和作用；掌握语料库语言学的基本概念；掌握语料库建设的基本原则和一般方法；掌握使用语料库的方法、技能、工具；了解语料库在语言信息处理研究和语言研究中的应用，最终能够独立的利用语料库，提出自己进行语言信息处理或语言学领域的研究问题。作为语言信息处理方向的研究生，重点要全面熟悉已有的中文语料库及其功能，掌握中文语料库建设、开发、利用的工程性和技术性的方法、手段。

授课内容：

1．绪论。包括语料库、语料库语言学概念；语料库语言学的位置、性质、学科基础；语料库语言学的发展历史（流派）、发展方向、研究内容等。（6学时）

2．语料库的应用。介绍基于语料库的语言学研究成果、研究方面。以实例展现基于语料库语言学的研究过程（3~4学时）

3．语料库的设计、开发、管理。包括语料库设计原则、建库方法(包括开源的数据下载工具、检索、管理系统)、语料库类型、经典语料库介绍。（9~10学时）

4．语料库使用及加工技术。包括从计算的角度考虑语言的思维方式、语料库使用及相关工具、基本的统计量、语料库标注（原则、标注中涉及的问题、自动标注的方法、标注的检查方法等）（12学时）

5．基于语料库的语言学研究。包括词汇计量研究、句型统计、词典学研究、语言的多维特征分析方法、词语的自动语义分类方法、词汇-语法调查、Register Variation研究、语篇分析、故事库构建等。（9学时）

6．语料库方法在计算语言学中的应用。包括语言数据资源开发（LDC）、经典的词法分析算法。（6~7学时）

7．讨论：语言监测与语言教学。（6~9学时）

黄昌宁，李涓子，语料库语言学，商务印书馆，2002

梁茂成、李文忠、许家金、语料库应用教程，外语教学与研究出版社，2010

Sinclair, J. （1999） Corpus, Concordance, Collocation （语料库、检索与搭配），上海外语教育出版社。Oxford university Press，1991

Ulla Connor, Thomas A. Upton, Applied Corpus LInguistices, 世界图书出版公司，2009

语音信息处理

计算语言学

针对文科学生特点，采用实例化教学，仅需高中数学起点，无需编程基础。文科学生在学习本课程以后会觉得“概率统计学入门原来如此简单”，“编程就像堆积木”，“好吧，我随便写个程序帮你你统计下语料库”...

将使同学初步了解计算语言学各研究方向，了解基于统计的自然语言处理、语言模型、自动分类、云计算基本原理、Google网页排名基本原理等。将利用Python语言及相关工具来实现语料库字词频统计、中文自动分词、搭配抽取、朴素贝叶斯分类器。课程涉猎的范围较广，囿于学时，难以面面俱到。

课程进度（随大家掌握程度动态调整）：

1-6周学习相关基础理论

6-12周实现语料库统计、分词及一个简单的研究应用

12-18周实现朴素贝叶斯分类器

期间穿插计算语言学各方面的知识与方法讲授

本课程是首个自行设立课程奖学金的研究生课程

本课程亮点-----微信群答疑

别急，还有个最亮点----课程结束后全体会餐合影。

喜大普奔------求点赞收藏转发扩散！谢谢！

数字墨水识别

内容：

以数字墨水为对象，研究文本、表达式、图形、表格和流程图的分割与识别，包括自动方法、可视化和人机交互等。

目标：

掌握数字墨水识别的发展历史、基本原理、主要方法、典型算法，了解相关开发工具使用，开发有代表性演示软件，对数字墨水识别所面临主要问题和未来发展方向有一定认识。

方式：

课堂讲授，上机实习。

地址：中国北京市海淀区学院路15号，
北京语言大学国际学生招生处（100083）