タイトル
     2017 年度   総合国際学研究科
  
言語情報学研究1   
時間割コード
500821
担当教員(ローマ字表記)
  望月 源 [MOCHIZUKI Hajime]
授業開講形態 授業形態 単位数 学期 曜日・時限 実務経験のある教員による授業
  講義 2 春学期 火2 -
授業題目(和文)   
コーパス収集と分析のための言語処理技法
 
Title(English)   
Fundamental Processing Techniques of Corpus
 
授業の目標   
有力な言語資源であるコーパスは,今日では,数千万語以上の規模で集めることができる.
どのようにすれば収集できるか,またどう料理すれば自分の欲しい情報が得られるか,
理解して実行するための知識と技能を習得する.
Excelだけでは扱いきれない大規模な言語データを対象に講義,実習する.
コンピュータに不慣れな受講者については,言語処理におけるコンピュータ利用に慣れることも目的とする.
 
Goals of the course   
In this course, I have two main goals - to teach you the skill of corpus collecting and the art of processing corpus
 
授業の概要   
代表的な言語資源である大規模コーパスを言語処理や言語研究のデータとして活用できるようになるための言語処理の基礎的知識や技術,ツールの理解のための講義,実習を行なう.
 
Overview of the course   
Introduces the basic principles and concepts of corpus as language resources through a study of collecting corpus, html and css formats, data structures, and programming development methods in Ruby.
 
キーワード   
自然言語処理,大規模コーパス
 
Keywords   
natural language processing, very large corpus
 
授業の計画   
おおよそ以下の内容で講義する.

1. 概要
コーパスを知る.
今,利用できる言語資源として何が存在するのかを知る.

2, 3 コーパスデータの収集,取得
単一テキストを例に,実際に取得し,形態素解析,単語の数え上げを行う.

4, 5 新聞記事を例にした実習
複数テキストをまとめて,2,3と同様に処理し,全体を一つにまとめる.
単語だけでなく複数単語の連続であるn-gramでの数え上げも行う.

6, 7 文字列処理のためのプログラミング入門
必要不可欠な部分に絞り込んで,Ruby言語による文字列処理を学ぶ

8, 9 Webデータのためのhtml入門
webページを作成する基本であるhtmlを理解する.

10, 11 Webデータを対象としたデータ収集,加工
blogなどを対象にwebデータを収集,加工する.

12, 13, 14 加工した言語データを使った言語分析演習
新聞記事,もしくは,webデータに基づいて言語分析を行う

15 成果発表
最終課題として,演習の成果を発表しあい議論する.

最終的にコーパスを使った分析を行なって最終レポートを仕上げる

9回,14回はelearningシステム上で行なう.
 
Plan   
1. Introduction
2. Corpus as linguistic resources
3, 4. Collecting and constructing corpus
5, 6. Formats and data structures of corpus
7, 8. Processing of annotation data
9, 10, 11. Tools for natural language processing
12, 13, 14, 15. Language analysis using corpus

 
成績評価の方法・基準   
授業での課題達成状況とレポートにより評価する.
評価は主として以下の基準によって行う.
(1)授業中に取り上げた課題に取り組み,内容を理解しているか.
(2)最終課題に深く取り組んだか.最後までやり遂げて動く形にできたか.
自分の考えを持って発表すること,データを正しく理解した上で分析,考察をすること,ができたか.
 
Grading system for assessment   
Attendance and participation in course, homework and final assignment.
 
事前・事後学習【要する時間の目安】   
自然言語処理分野は,Wikipediaの記事が信用できますので,一通り参照してみて下さい.
宿題が出た場合はきっちりと行ってきてください.
復習として,授業で扱ったプログラムやデータを授業前に確認してから出席してください.
 
Preview/review   
 
履修上の注意   
コンピュータ教室で実施する.総合情報コラボレーションセンターのアカウントが利用できる状態にしておくこと.
コンピュータやプログラミングについての十分な知識がなくてもかまわない.

 
Notes   
 
教科書  
 
参考書  
 
使用言語  
日本語(J)
 
ページの先頭へ