英語学研究2012 のバックアップの現在との差分(No.16)

追加された行はこの色です。
削除された行はこの色です。
[[FrontPage]]

*英語学研究（2012年度後期）／外国語教育学研究 [#g19a5ab3]

**目標 [#w82b587c]

-自然言語処理の技法を応用して，学習者データのテキスト処理を試してみる
-機械学習のアプローチの基礎を学ぶ
-各自でテーマを決めてデータ処理＆分析を行い，発表する

**テキスト [#e79c1c34]

-前期に読んできた Manning & Schutze(1999)を引き続き利用し，そこで紹介されている主要なデータ処理方法を学びつつ，学習者データでその処理を一緒にしてみることに主眼を置く。

**予定 [#of12c39c]

 2012/10/02	１　オリエンテーション　分担決め
 2012/10/09	Leech 先生講義に合流（立教大学）
 2012/10/16	２　n-gram model (M&S Chap. 6)　レポート　（　佐竹・三浦　　）
 2012/10/23	３  演習：n-gram model の学習者データへの応用
 2012/10/30	４　lexical acquisition (M&S Chap. 7) レポート（　浅野・迎町　　）
 2012/11/06	５　演習：collocation pattern の切り出し
 2012/11/13	６　part-of-speech tagging (M&S Chap. 10) レポート（　高村・石山　）
 2012/11/20	外語祭　休講
 2012/11/27	７　演習：学習者データのタグ付けと品詞情報の切り出し
 2012/12/04	出張　この間に少し学習者データの特徴分析のポイントを考える
 2012/12/11	出張　　　　　　　　　　同上
 2012/12/18	８　probabilistic parsing （M&S Chap.12）レポート（　　　　　）
 2013/01/15	９　演習：parsed data からの構文情報切り出し
 2013/01/22	１０　Clustering (M&S Chap.14) レポート（　　　　　）
 2013/01/29	１１　演習：クラスタリングを用いた学習者データ分析
 2013/02/05	１２　Text categorization (M&S Chap. 16)　レポート（　　　　　）
 2013/02/12	１３　演習：分類器を用いた学習者データ分析
 もし必要であれば1-2回補講を実施する

**リンク [#df3b6802]

***Clustering [#d6352ec2]

◎ クラスター分析の実際

-Rの場合

--コマンド実行の様子

#ref(http://www.tufs.ac.jp/ts/personal/corpuskun/img/r_01.JPG)

--デンドログラム１

#ref(http://www.tufs.ac.jp/ts/personal/corpuskun/img/r_02.JPG)

--デンドログラム２
---rect.hclust(lc.clust, k=3, border="red") とすると3クラスタを赤で囲む

#ref(http://www.tufs.ac.jp/ts/personal/corpuskun/img/r_03.JPG)


-SPSS の場合

--データはこんな感じ（異なる学習者コーパス×動詞構文の頻度）

#ref(http://www.tufs.ac.jp/ts/personal/corpuskun/img/spss01.JPG)

--[分析] - [分類] - [階層クラスタ]を選択

#ref(http://www.tufs.ac.jp/ts/personal/corpuskun/img/spss02.JPG)

--作図でデンドログラムを選択

#ref(http://www.tufs.ac.jp/ts/personal/corpuskun/img/spss03.JPG)

--方法でウォード法を選択

#ref(http://www.tufs.ac.jp/ts/personal/corpuskun/img/spss04.JPG)

--OKを押すと出力結果のデンドログラムはこんな感じ：

#ref(http://www.tufs.ac.jp/ts/personal/corpuskun/img/spss05.JPG)


クラスタリングを行うソフトウェアは SPSS, R, Statistica などいろいろありますが，今回はPC教室でその場でインストールすることができる下記のソフトで試してみます：

-[[Cluster 3.0>http://bonsai.hgc.jp/~mdehoon/software/cluster/software.htm#ctv]]
--Michael Eisen (Stanford University) の Cluster をポートしたもの
--Windows version : [[Here>http://bonsai.hgc.jp/~mdehoon/software/cluster/clustersetup.exe]]

-[[Java TreeView>http://jtreeview.sourceforge.net/]]
--Alok Saldanha の JAVA のビューワー，Cluster 3.0 の出力を図示します。
--[[ソフトのダウンロードはここから>http://sourceforge.net/projects/jtreeview/files/]]


時間があれば次のデータマイニング・ソフトも試してみます：

-[[Tanagra>http://chirouble.univ-lyon2.fr/~ricco/tanagra/en/tanagra.html]]



***Syntactic Parsing [#y7caa613]

◎ 比較的PC教室で作動させやすいプログラムでパーザーを動かしてみる

-[[Apple Pie Parser>http://nlp.cs.nyu.edu/app/]]
--[[binary をゲット>ftp://cs.nyu.edu/pub/local/sekine/APP5.9.tar.gz]]
--cygwin のホームディレクトリに置いて以下のコマンドで解凍

 > gzip -d APP5.9.tar.gz
 > tar xvf APP5.9.tar
 ---- This create files under directoy APP5.9
 ---- Please read "README" file

--[[次に Windows の実行ファイルをゲット>http://nlp.cs.nyu.edu/app/app.exe]]
--これを先ほどの ホームディレクトリ下の APP5.9/bin　の下に置く

-ダブルクリックすれば DOS 窓で APP が起動

#ref(http://www.tufs.ac.jp/ts/personal/corpuskun/img/app.JPG)

-コマンドラインは cygwin 上からは

 $ ./app < INFILE > OUTFILE



◎ parsed data を検索する方法を Tregex で試してみる

-[[Tregex version 2.0.5>http://nlp.stanford.edu/software/stanford-tregex-2012-11-11.zip]] をダウンロードして解凍
-JAVA がインストールされている環境

-Sample parsed data (ICCI RASP A1 data)
--当日配布します

-操作方法は当日説明します



***POS tagger [#vaaa7e6b]

◎タグ付けソフトのアウトプットの比較をしてみよう

学習者データを任意に選んでタグ付、２０語で誤りを何語ミスがあるかで計算

-[[Part of Speech Tagging Using a Network of Linear Separators>http://cogcomp.cs.illinois.edu/demo/pos/?id=4]] 95% 90% 80% 
-[[CLAWS>http://ucrel.lancs.ac.uk/claws/trial.html]] 95% 100% 100% 100% 95%
-[[Brill's Tagger>http://cst.dk/online/pos_tagger/uk/]] 90% 95% 90% 85%
-[[Jiayun Han's POS Tagger>http://nlpdotnet.com/Services/Tagger.aspx]] 95% 95% 90% 80%

◎ICCIデータを使って、学年の推移ごとにある構造がどんな風に使われるか調べてみよう
-取り出したい構造は「品詞＋品詞」または「単語＋品詞」で抽出すること
-あまり量が多いと大変なので、構造を上手にしぼること
-本日中に query の式を確定してテストし、データ出しまで完了すること
-終わらなかった人は持って帰って作業し、レポートをメールで送ること




**データ [#f21bdfae]

-[[ICCI>http://www.tufs.ac.jp/ts/personal/tonolab/data/icci-archive.zip]]
--パスワードは授業で教えます

-[[ICCI n-gram>http://www.tufs.ac.jp/ts/personal/tonolab/data/icci_all.xlsx]]

-N-gramの観察
--[[迎町沙織>MukaemachiSaori]]
--[[山崎史香>YamazakiFumika]]
--[[高村栄人>TakaMura]]
--[[石山俊太>IshiyamaShunta]]
--[[浅野藍>AsanoAi]]
--[[三浦愛香>MiuraAika]]



*英語学研究（2012年度前期）／外国語教育学研究 [#g19a5ab3]

**授業の目標 [#xc08ead4]

-コーパス言語学の隣接分野である自然言語処理の基礎的な概念を学び，コーパス処理のより高度な技法を学ぶ基礎とする。

-実データの処理を組み合わせて，単に理論だけでなく実践的な処理方法も学ぶ。

**テキスト [#h4703558]

-Manning, C. & Shutze, H. (1999) Foundations of Statistical Natural Language Processing. MIT Press.

**授業形式 [#y7e16e0b]

-実際は5時限目の博士課程の授業と合体して，3-4時間かけて行う。
-特に問題がない限り，修士・博士の学生とも4/5時限を両方とも連続受講すること。
-テキストの読みこなしとデータ解析の実地訓練を組み合わせて行う予定。

***授業日程 [#oe2a88e6]

-4/17
--授業ガイダンス

-4/24
--1.1 - 1.3　佐竹

-5/8
-5/15

--1.4 - 1.5　三浦
---[[Handout>http://www.tufs.ac.jp/ts/personal/tonolab/class/2012/Chap1-B_Handout_Miura.pdf]]

-5/22・29
--2.1　Mathematical foundations テオリン

-6/5
--2.2　Essential Information Theory 山崎

-6/12
--3.1  Linguistic Essentials  石山
--3.2  Phrase Structure  高村

-6/19
--3.3  Semantics and Pragmatics 高村
--4    Corpus-Based Work 浅野

-6/26
--4    つづき　浅野

--5    Collocations 迎町
---[[Web Corpus Data>http://www.tufs.ac.jp/ts/personal/tonolab/class/2012/web-corpus.zip]]
---[[Bigram Data>http://www.tufs.ac.jp/ts/personal/tonolab/class/2012/bigram.txt]]

***参考資料 [#ec4202c9]

-T-score, MI-score の計算
--[[杉浦先生のサイト>http://oscar.gsid.nagoya-u.ac.jp/program/perl/collocation/]]












-Zipf's Law
--[[Tom Sawyer の頻度ファイル>http://corpuscobo.net/class2012/tom_sawyer_wc.csv]]
--[[Tom Sawyer の頻度Xランクの分析用エクセルファイル>http://corpuscobo.net/class2012/tom_sawyer_wc.xlsx]]
--[[頻度とランクのプロットを出す R スクリプト>http://corpuscobo.net/class2012/zipf_lm.R]]
--[[Tom Sawyer の両対数グラフ>http://corpuscobo.net/class2012/Zipf_lm_tom.pdf]]