语言智能与技术
韵律信息处理
文法(Grammar)是文本文字的结构规则,韵律则是语音语句的结构规则。研究表明,在第二语言的语音习得中,韵律习得对于习得结果是否“洋腔洋调”起着较大的影响,甚至大于音段的影响。
本课程的目标旨在介绍当代韵律研究的主要代表学术流派,增进学生对于相关前沿领域的了解,拓宽视野,培养学术修养。具体内容包括:
1.韵律研究概论
2.基于感知的Titlt语调模型
3.基于sequence tone model的ToBI模型
4.基于不同层次知识的叠加模型Fujisaki模型
5.各种韵律的计算模型等等。
6.汉语的声调信息处理等.
形式语言与自动机
任何信息处理与计算问题都可归结为对语言的处理。形式语言与自动机理论从语言处理的角度揭示计算的本质,在计算机科学领域有着重要的地位与作用,对于计算机专业学生的知识结构及其发展潜力有深刻的影响。本课程是计算机相关专业基础课,主要讲授理论和应用中的常用语言类及其相应的计算模型,以及计算模型之间的联系。课程旨在培养计算机科学理论方面的素养,提高逻辑思维和解决相关问题的能力,为学生今后从事科学研究或技术开发工作打下扎实的基础。
自然语言处理的统计方法
本课程主要讲授自然语言处理和计算语言学中的统计方法、关键技术和最新进展。主要内容包括语言处理的统计学基础和语言模型、因马尔科夫模型、最大熵模型以及NLP中常用的机器学习方法等等。
通过本课程的学习,希望学生能了解语言信息处理中基于统计的学术思想,掌握解决实际语言任务的能力,了解相关的最新研究成果,培养学生在语言信息处理领域和相关领域的科研能力。
授课内容:
第1周:自然语言处理综述
第2周:汉字编码
第3-4周:汉字统计和汉字处理
第5-6周:基于单字的输入法实现
第7-8周:音字转换的基本原理和实现
第9-10周:语言模型的基本原理和CMU工具包
第11-13周:汉语分词的理论和实践
第14-15周:词性标注与隐马尔可夫模型
第16-17周:全文检索的方法和实现
第18周:答疑与习题课
语料库语言学
教学目标:了解语料库语言学的基本理念——了解语料库语言学的学科位置、历史、研究状况、研究重点和发展趋势(实时);了解用语料库研究语言的意义和作用;掌握语料库语言学的基本概念;掌握语料库建设的基本原则和一般方法;掌握使用语料库的方法、技能、工具;了解语料库在语言信息处理研究和语言研究中的应用,最终能够独立的利用语料库,提出自己进行语言信息处理或语言学领域的研究问题。作为语言信息处理方向的研究生,重点要全面熟悉已有的中文语料库及其功能,掌握中文语料库建设、开发、利用的工程性和技术性的方法、手段。
授课内容:
1.绪论。包括语料库、语料库语言学概念;语料库语言学的位置、性质、学科基础;语料库语言学的发展历史(流派)、发展方向、研究内容等。 (6学时)
2.语料库的应用。介绍基于语料库的语言学研究成果、研究方面。以实例展现基于语料库语言学的研究过程(3~4学时)
3.语料库的设计、开发、管理。包括语料库设计原则、建库方法(包括开源的数据下载工具、检索、管理系统)、语料库类型、经典语料库介绍。(9~10学时)
4.语料库使用及加工技术。包括从计算的角度考虑语言的思维方式、语料库使用及相关工具、基本的统计量、语料库标注(原则、标注中涉及的问题、自动标注的方法、标注的检查方法等)(12学时)
5.基于语料库的语言学研究。包括词汇计量研究、句型统计、词典学研究、语言的多维特征分析方法、词语的自动语义分类方法、词汇-语法调查、Register Variation研究、语篇分析、故事库构建等。(9学时)
6.语料库方法在计算语言学中的应用。包括语言数据资源开发(LDC)、经典的词法分析算法。(6~7学时)
7.讨论:语言监测与语言教学。(6~9学时)
黄昌宁,李涓子,语料库语言学,商务印书馆,2002
梁茂成、李文忠、许家金、语料库应用教程,外语教学与研究出版社,2010
Sinclair, J. (1999) Corpus, Concordance, Collocation (语料库、检索与搭配),上海外语教育出版社。Oxford university Press,1991
Ulla Connor, Thomas A. Upton, Applied Corpus LInguistices, 世界图书出版公司,2009
语音信息处理
计算语言学
针对文科学生特点,采用实例化教学,仅需高中数学起点,无需编程基础。文科学生在学习本课程以后会觉得“概率统计学入门原来如此简单”,“编程就像堆积木”,“好吧,我随便写个程序帮你你统计下语料库”...
将使同学初步了解计算语言学各研究方向,了解基于统计的自然语言处理、语言模型、自动分类、云计算基本原理、Google网页排名基本原理等。将利用Python语言及相关工具来实现语料库字词频统计、中文自动分词、搭配抽取、朴素贝叶斯分类器。课程涉猎的范围较广,囿于学时,难以面面俱到。
课程进度(随大家掌握程度动态调整):
1-6周学习相关基础理论
6-12周实现语料库统计、分词及一个简单的研究应用
12-18周实现朴素贝叶斯分类器
期间穿插计算语言学各方面的知识与方法讲授
本课程是首个自行设立课程奖学金的研究生课程
本课程亮点-----微信群答疑
别急,还有个最亮点----课程结束后全体会餐合影。
喜大普奔------求点赞收藏转发扩散!谢谢!
数字墨水识别
内容:
以数字墨水为对象,研究文本、表达式、图形、表格和流程图的分割与识别,包括自动方法、可视化和人机交互等。
目标:
掌握数字墨水识别的发展历史、基本原理、主要方法、典型算法,了解相关开发工具使用,开发有代表性演示软件,对数字墨水识别所面临主要问题和未来发展方向有一定认识。
方式:
课堂讲授,上机实习。