[[FrontPage]] *英語学研究(2012年度後期)/外国語教育学研究 [#g19a5ab3] **目標 [#w82b587c] -自然言語処理の技法を応用して,学習者データのテキスト処理を試してみる -機械学習のアプローチの基礎を学ぶ -各自でテーマを決めてデータ処理&分析を行い,発表する **テキスト [#e79c1c34] -前期に読んできた Manning & Schutze(1999)を引き続き利用し,そこで紹介されている主要なデータ処理方法を学びつつ,学習者データでその処理を一緒にしてみることに主眼を置く。 **予定 [#of12c39c] 2012/10/02 1 オリエンテーション 分担決め 2012/10/09 Leech 先生講義に合流(立教大学) 2012/10/16 2 n-gram model (M&S Chap. 6) レポート ( 佐竹・三浦 ) 2012/10/23 3 演習:n-gram model の学習者データへの応用 2012/10/30 4 lexical acquisition (M&S Chap. 7) レポート( 浅野・迎町 ) 2012/11/06 5 演習:collocation pattern の切り出し 2012/11/13 6 part-of-speech tagging (M&S Chap. 10) レポート( 高村・石山 ) 2012/11/20 外語祭 休講 2012/11/27 7 演習:学習者データのタグ付けと品詞情報の切り出し 2012/12/04 出張 この間に少し学習者データの特徴分析のポイントを考える 2012/12/11 出張 同上 2012/12/18 8 probabilistic parsing (M&S Chap.12)レポート( ) 2013/01/15 9 演習:parsed data からの構文情報切り出し 2013/01/22 10 Clustering (M&S Chap.14) レポート( ) 2013/01/29 11 演習:クラスタリングを用いた学習者データ分析 2013/02/05 12 Text categorization (M&S Chap. 16) レポート( ) 2013/02/12 13 演習:分類器を用いた学習者データ分析 もし必要であれば1-2回補講を実施する **リンク [#df3b6802] ***Clustering [#d6352ec2] ◎ クラスター分析の実際 -Rの場合 --コマンド実行の様子 #ref(http://www.tufs.ac.jp/ts/personal/corpuskun/img/r_01.JPG) --デンドログラム1 #ref(http://www.tufs.ac.jp/ts/personal/corpuskun/img/r_02.JPG) --デンドログラム2 ---rect.hclust(lc.clust, k=3, border="red") とすると3クラスタを赤で囲む #ref(http://www.tufs.ac.jp/ts/personal/corpuskun/img/r_03.JPG) -SPSS の場合 --データはこんな感じ(異なる学習者コーパス×動詞構文の頻度) #ref(http://www.tufs.ac.jp/ts/personal/corpuskun/img/spss01.JPG) --[分析] - [分類] - [階層クラスタ]を選択 #ref(http://www.tufs.ac.jp/ts/personal/corpuskun/img/spss02.JPG) --作図でデンドログラムを選択 #ref(http://www.tufs.ac.jp/ts/personal/corpuskun/img/spss03.JPG) --方法でウォード法を選択 #ref(http://www.tufs.ac.jp/ts/personal/corpuskun/img/spss04.JPG) --OKを押すと出力結果のデンドログラムはこんな感じ: #ref(http://www.tufs.ac.jp/ts/personal/corpuskun/img/spss05.JPG) クラスタリングを行うソフトウェアは SPSS, R, Statistica などいろいろありますが,今回はPC教室でその場でインストールすることができる下記のソフトで試してみます: -[[Cluster 3.0>http://bonsai.hgc.jp/~mdehoon/software/cluster/software.htm#ctv]] --Michael Eisen (Stanford University) の Cluster をポートしたもの --Windows version : [[Here>http://bonsai.hgc.jp/~mdehoon/software/cluster/clustersetup.exe]] -[[Java TreeView>http://jtreeview.sourceforge.net/]] --Alok Saldanha の JAVA のビューワー,Cluster 3.0 の出力を図示します。 --[[ソフトのダウンロードはここから>http://sourceforge.net/projects/jtreeview/files/]] 時間があれば次のデータマイニング・ソフトも試してみます: -[[Tanagra>http://chirouble.univ-lyon2.fr/~ricco/tanagra/en/tanagra.html]] ***Syntactic Parsing [#y7caa613] ◎ 比較的PC教室で作動させやすいプログラムでパーザーを動かしてみる -[[Apple Pie Parser>http://nlp.cs.nyu.edu/app/]] --[[binary をゲット>ftp://cs.nyu.edu/pub/local/sekine/APP5.9.tar.gz]] --cygwin のホームディレクトリに置いて以下のコマンドで解凍 > gzip -d APP5.9.tar.gz > tar xvf APP5.9.tar ---- This create files under directoy APP5.9 ---- Please read "README" file --[[次に Windows の実行ファイルをゲット>http://nlp.cs.nyu.edu/app/app.exe]] --これを先ほどの ホームディレクトリ下の APP5.9/bin の下に置く -ダブルクリックすれば DOS 窓で APP が起動 #ref(http://www.tufs.ac.jp/ts/personal/corpuskun/img/app.JPG) -コマンドラインは cygwin 上からは $ ./app < INFILE > OUTFILE ◎ parsed data を検索する方法を Tregex で試してみる -[[Tregex version 2.0.5>http://nlp.stanford.edu/software/stanford-tregex-2012-11-11.zip]] をダウンロードして解凍 -JAVA がインストールされている環境 -Sample parsed data (ICCI RASP A1 data) --当日配布します -操作方法は当日説明します ***POS tagger [#vaaa7e6b] ◎タグ付けソフトのアウトプットの比較をしてみよう 学習者データを任意に選んでタグ付、20語で誤りを何語ミスがあるかで計算 -[[Part of Speech Tagging Using a Network of Linear Separators>http://cogcomp.cs.illinois.edu/demo/pos/?id=4]] 95% 90% 80% -[[CLAWS>http://ucrel.lancs.ac.uk/claws/trial.html]] 95% 100% 100% 100% 95% -[[Brill's Tagger>http://cst.dk/online/pos_tagger/uk/]] 90% 95% 90% 85% -[[Jiayun Han's POS Tagger>http://nlpdotnet.com/Services/Tagger.aspx]] 95% 95% 90% 80% ◎ICCIデータを使って、学年の推移ごとにある構造がどんな風に使われるか調べてみよう -取り出したい構造は「品詞+品詞」または「単語+品詞」で抽出すること -あまり量が多いと大変なので、構造を上手にしぼること -本日中に query の式を確定してテストし、データ出しまで完了すること -終わらなかった人は持って帰って作業し、レポートをメールで送ること **データ [#f21bdfae] -[[ICCI>http://www.tufs.ac.jp/ts/personal/tonolab/data/icci-archive.zip]] --パスワードは授業で教えます -[[ICCI n-gram>http://www.tufs.ac.jp/ts/personal/tonolab/data/icci_all.xlsx]] -N-gramの観察 --[[迎町沙織>MukaemachiSaori]] --[[山崎史香>YamazakiFumika]] --[[高村栄人>TakaMura]] --[[石山俊太>IshiyamaShunta]] --[[浅野藍>AsanoAi]] --[[三浦愛香>MiuraAika]] *英語学研究(2012年度前期)/外国語教育学研究 [#g19a5ab3] **授業の目標 [#xc08ead4] -コーパス言語学の隣接分野である自然言語処理の基礎的な概念を学び,コーパス処理のより高度な技法を学ぶ基礎とする。 -実データの処理を組み合わせて,単に理論だけでなく実践的な処理方法も学ぶ。 **テキスト [#h4703558] -Manning, C. & Shutze, H. (1999) Foundations of Statistical Natural Language Processing. MIT Press. **授業形式 [#y7e16e0b] -実際は5時限目の博士課程の授業と合体して,3-4時間かけて行う。 -特に問題がない限り,修士・博士の学生とも4/5時限を両方とも連続受講すること。 -テキストの読みこなしとデータ解析の実地訓練を組み合わせて行う予定。 ***授業日程 [#oe2a88e6] -4/17 --授業ガイダンス -4/24 --1.1 - 1.3 佐竹 -5/8 -5/15 --1.4 - 1.5 三浦 ---[[Handout>http://www.tufs.ac.jp/ts/personal/tonolab/class/2012/Chap1-B_Handout_Miura.pdf]] -5/22・29 --2.1 Mathematical foundations テオリン -6/5 --2.2 Essential Information Theory 山崎 -6/12 --3.1 Linguistic Essentials 石山 --3.2 Phrase Structure 高村 -6/19 --3.3 Semantics and Pragmatics 高村 --4 Corpus-Based Work 浅野 -6/26 --4 つづき 浅野 --5 Collocations 迎町 ---[[Web Corpus Data>http://www.tufs.ac.jp/ts/personal/tonolab/class/2012/web-corpus.zip]] ---[[Bigram Data>http://www.tufs.ac.jp/ts/personal/tonolab/class/2012/bigram.txt]] ***参考資料 [#ec4202c9] -T-score, MI-score の計算 --[[杉浦先生のサイト>http://oscar.gsid.nagoya-u.ac.jp/program/perl/collocation/]] -Zipf's Law --[[Tom Sawyer の頻度ファイル>http://corpuscobo.net/class2012/tom_sawyer_wc.csv]] --[[Tom Sawyer の頻度Xランクの分析用エクセルファイル>http://corpuscobo.net/class2012/tom_sawyer_wc.xlsx]] --[[頻度とランクのプロットを出す R スクリプト>http://corpuscobo.net/class2012/zipf_lm.R]] --[[Tom Sawyer の両対数グラフ>http://corpuscobo.net/class2012/Zipf_lm_tom.pdf]]