当前语言:中文

专业详情

软件工程

  

数理逻辑

授课目标:
通过数理逻辑的学习,使得学生能够掌握命题逻辑、一阶逻辑的语法与语义,并能够基于数理逻辑,对语言(程序语言或自然语言)的语义进行分析。
授课内容及进度:
1-3周:学习数理逻辑的历史发展和命题逻辑。
4-6周:学习一阶逻辑的语法和语义。
7-12周:学习形式化语义技术,了解Isabelle、Haskell等开发工具。
11-18周:形式化技术在语言语法中的应用。

  

  

机器语言学

计算语言学,也称自然语言处理或自然语言理解,主要研究如何用计算机来分析处理自然语言,它是语言学、计算机科学、数学等多门学科的交叉学科。因此这门课程可以在语言学及应用语言学和计算机应用技术这两个专业下开设。该课程旨在将学生的语言学相关知识同计算机技术相结合,使学生掌握计算语言学的基本理论和方法,包括词法、句法、语义理论,同时结合一些具体应用掌握相关的计算机分析方法。使文科生在掌握语言学知识的同时懂得一些计算方法,使理工科学生能掌握些语言学知识,并将计算技术应用于对语言的处理,从而为从事自然语言处理研究打下坚实的基础。

  

  

数字墨水识别

内容:
以数字墨水为对象,研究文本、表达式、图形、表格和流程图的分割与识别,包括自动方法、可视化和人机交互等。
目标:
掌握数字墨水识别的发展历史、基本原理、主要方法、典型算法,了解相关开发工具使用,开发有代表性演示软件,对数字墨水识别所面临主要问题和未来发展方向有一定认识。
方式:课堂讲授,上机实习。

  

  

语料库语言学

教学目标:了解语料库语言学的基本理念——了解语料库语言学的学科位置、历史、研究状况、研究重点和发展趋势(实时);了解用语料库研究语言的意义和作用;掌握语料库语言学的基本概念;掌握语料库建设的基本原则和一般方法;掌握使用语料库的方法、技能、工具;了解语料库在语言信息处理研究和语言研究中的应用,最终能够独立的利用语料库,提出自己进行语言信息处理或语言学领域的研究问题。作为语言信息处理方向的研究生,重点要全面熟悉已有的中文语料库及其功能,掌握中文语料库建设、开发、利用的工程性和技术性的方法、手段。
授课内容:
1.绪论。包括语料库、语料库语言学概念;语料库语言学的位置、性质、学科基础;语料库语言学的发展历史(流派)、发展方向、研究内容等。 (6学时)
2.语料库的应用。介绍基于语料库的语言学研究成果、研究方面。以实例展现基于语料库语言学的研究过程(3~4学时)
3.语料库的设计、开发、管理。包括语料库设计原则、建库方法(包括开源的数据下载工具、检索、管理系统)、语料库类型、经典语料库介绍。(9~10学时)
4.语料库使用及加工技术。包括从计算的角度考虑语言的思维方式、语料库使用及相关工具、基本的统计量、语料库标注(原则、标注中涉及的问题、自动标注的方法、标注的检查方法等)(12学时)
5.基于语料库的语言学研究。包括词汇计量研究、句型统计、词典学研究、语言的多维特征分析方法、词语的自动语义分类方法、词汇-语法调查、Register Variation研究、语篇分析、故事库构建等。(9学时)
6.语料库方法在计算语言学中的应用。包括语言数据资源开发(LDC)、经典的词法分析算法。(6~7学时)
7.讨论:语言监测与语言教学。(6~9学时)
黄昌宁,李涓子,语料库语言学,商务印书馆,2002
梁茂成、李文忠、许家金、语料库应用教程,外语教学与研究出版社,2010
Sinclair, J. (1999) Corpus, Concordance, Collocation (语料库、检索与搭配),上海外语教育出版社。Oxford university Press,1991
Ulla Connor, Thomas A. Upton, Applied Corpus LInguistices, 世界图书出版公司,2009

  

  

自然语言处理的统计方法

本课程主要讲授自然语言处理和计算语言学中的统计方法、关键技术和最新进展。主要内容包括语言处理的统计学基础和语言模型、因马尔科夫模型、最大熵模型以及NLP中常用的机器学习方法等等。
 通过本课程的学习,希望学生能了解语言信息处理中基于统计的学术思想,掌握解决实际语言任务的能力,了解相关的最新研究成果,培养学生在语言信息处理领域和相关领域的科研能力。
授课内容:
1周:自然语言处理综述
2周:汉字编码
3-4周:汉字统计和汉字处理
5-6周:基于单字的输入法实现
7-8周:音字转换的基本原理和实现
9-10周:语言模型的基本原理和CMU工具包
11-13周:汉语分词的理论和实践
14-15周:词性标注与隐马尔可夫模型
16-17周:全文检索的方法和实现
18周:答疑与习题课

  


返回原图
/