英語学研究2012
をテンプレートにして作成
[
トップ
] [
新規
|
一覧
|
単語検索
|
最終更新
|
ヘルプ
]
開始行:
[[FrontPage]]
*英語学研究(2012年度後期)/外国語教育学研究 [#g19a5ab3]
**目標 [#w82b587c]
-自然言語処理の技法を応用して,学習者データのテキスト処理...
-機械学習のアプローチの基礎を学ぶ
-各自でテーマを決めてデータ処理&分析を行い,発表する
**テキスト [#e79c1c34]
-前期に読んできた Manning & Schutze(1999)を引き続き利用し...
**予定 [#of12c39c]
2012/10/02 1 オリエンテーション 分担決め
2012/10/09 Leech 先生講義に合流(立教大学)
2012/10/16 2 n-gram model (M&S Chap. 6) レポート (...
2012/10/23 3 演習:n-gram model の学習者データへの応用
2012/10/30 4 lexical acquisition (M&S Chap. 7) レポー...
2012/11/06 5 演習:collocation pattern の切り出し
2012/11/13 6 part-of-speech tagging (M&S Chap. 10) レ...
2012/11/20 外語祭 休講
2012/11/27 7 演習:学習者データのタグ付けと品詞情報の...
2012/12/04 出張 この間に少し学習者データの特徴分析のポ...
2012/12/11 出張 同上
2012/12/18 8 probabilistic parsing (M&S Chap.12)レポ...
2013/01/15 9 演習:parsed data からの構文情報切り出し
2013/01/22 10 Clustering (M&S Chap.14) レポート( ...
2013/01/29 11 演習:クラスタリングを用いた学習者デー...
2013/02/05 12 Text categorization (M&S Chap. 16) レ...
2013/02/12 13 演習:分類器を用いた学習者データ分析
もし必要であれば1-2回補講を実施する
**リンク [#df3b6802]
***Clustering [#d6352ec2]
◎ クラスター分析の実際
-Rの場合
--コマンド実行の様子
#ref(http://www.tufs.ac.jp/ts/personal/corpuskun/img/r_01...
--デンドログラム1
#ref(http://www.tufs.ac.jp/ts/personal/corpuskun/img/r_02...
--デンドログラム2
---rect.hclust(lc.clust, k=3, border="red") とすると3クラ...
#ref(http://www.tufs.ac.jp/ts/personal/corpuskun/img/r_03...
-SPSS の場合
--データはこんな感じ(異なる学習者コーパス×動詞構文の頻度)
#ref(http://www.tufs.ac.jp/ts/personal/corpuskun/img/spss...
--[分析] - [分類] - [階層クラスタ]を選択
#ref(http://www.tufs.ac.jp/ts/personal/corpuskun/img/spss...
--作図でデンドログラムを選択
#ref(http://www.tufs.ac.jp/ts/personal/corpuskun/img/spss...
--方法でウォード法を選択
#ref(http://www.tufs.ac.jp/ts/personal/corpuskun/img/spss...
--OKを押すと出力結果のデンドログラムはこんな感じ:
#ref(http://www.tufs.ac.jp/ts/personal/corpuskun/img/spss...
クラスタリングを行うソフトウェアは SPSS, R, Statistica な...
-[[Cluster 3.0>http://bonsai.hgc.jp/~mdehoon/software/clu...
--Michael Eisen (Stanford University) の Cluster をポート...
--Windows version : [[Here>http://bonsai.hgc.jp/~mdehoon/...
-[[Java TreeView>http://jtreeview.sourceforge.net/]]
--Alok Saldanha の JAVA のビューワー,Cluster 3.0 の出力...
--[[ソフトのダウンロードはここから>http://sourceforge.net...
時間があれば次のデータマイニング・ソフトも試してみます:
-[[Tanagra>http://chirouble.univ-lyon2.fr/~ricco/tanagra/...
***Syntactic Parsing [#y7caa613]
◎ 比較的PC教室で作動させやすいプログラムでパーザーを動か...
-[[Apple Pie Parser>http://nlp.cs.nyu.edu/app/]]
--[[binary をゲット>ftp://cs.nyu.edu/pub/local/sekine/APP...
--cygwin のホームディレクトリに置いて以下のコマンドで解凍
> gzip -d APP5.9.tar.gz
> tar xvf APP5.9.tar
---- This create files under directoy APP5.9
---- Please read "README" file
--[[次に Windows の実行ファイルをゲット>http://nlp.cs.nyu...
--これを先ほどの ホームディレクトリ下の APP5.9/bin の下...
-ダブルクリックすれば DOS 窓で APP が起動
#ref(http://www.tufs.ac.jp/ts/personal/corpuskun/img/app....
-コマンドラインは cygwin 上からは
$ ./app < INFILE > OUTFILE
◎ parsed data を検索する方法を Tregex で試してみる
-[[Tregex version 2.0.5>http://nlp.stanford.edu/software/...
-JAVA がインストールされている環境
-Sample parsed data (ICCI RASP A1 data)
--当日配布します
-操作方法は当日説明します
***POS tagger [#vaaa7e6b]
◎タグ付けソフトのアウトプットの比較をしてみよう
学習者データを任意に選んでタグ付、20語で誤りを何語ミス...
-[[Part of Speech Tagging Using a Network of Linear Separ...
-[[CLAWS>http://ucrel.lancs.ac.uk/claws/trial.html]] 95% ...
-[[Brill's Tagger>http://cst.dk/online/pos_tagger/uk/]] 9...
-[[Jiayun Han's POS Tagger>http://nlpdotnet.com/Services/...
◎ICCIデータを使って、学年の推移ごとにある構造がどんな風に...
-取り出したい構造は「品詞+品詞」または「単語+品詞」で抽...
-あまり量が多いと大変なので、構造を上手にしぼること
-本日中に query の式を確定してテストし、データ出しまで完...
-終わらなかった人は持って帰って作業し、レポートをメールで...
**データ [#f21bdfae]
-[[ICCI>http://www.tufs.ac.jp/ts/personal/tonolab/data/ic...
--パスワードは授業で教えます
-[[ICCI n-gram>http://www.tufs.ac.jp/ts/personal/tonolab/...
-N-gramの観察
--[[迎町沙織>MukaemachiSaori]]
--[[山崎史香>YamazakiFumika]]
--[[高村栄人>TakaMura]]
--[[石山俊太>IshiyamaShunta]]
--[[浅野藍>AsanoAi]]
--[[三浦愛香>MiuraAika]]
*英語学研究(2012年度前期)/外国語教育学研究 [#g19a5ab3]
**授業の目標 [#xc08ead4]
-コーパス言語学の隣接分野である自然言語処理の基礎的な概念...
-実データの処理を組み合わせて,単に理論だけでなく実践的な...
**テキスト [#h4703558]
-Manning, C. & Shutze, H. (1999) Foundations of Statistic...
**授業形式 [#y7e16e0b]
-実際は5時限目の博士課程の授業と合体して,3-4時間かけて行...
-特に問題がない限り,修士・博士の学生とも4/5時限を両方と...
-テキストの読みこなしとデータ解析の実地訓練を組み合わせて...
***授業日程 [#oe2a88e6]
-4/17
--授業ガイダンス
-4/24
--1.1 - 1.3 佐竹
-5/8
-5/15
--1.4 - 1.5 三浦
---[[Handout>http://www.tufs.ac.jp/ts/personal/tonolab/cl...
-5/22・29
--2.1 Mathematical foundations テオリン
-6/5
--2.2 Essential Information Theory 山崎
-6/12
--3.1 Linguistic Essentials 石山
--3.2 Phrase Structure 高村
-6/19
--3.3 Semantics and Pragmatics 高村
--4 Corpus-Based Work 浅野
-6/26
--4 つづき 浅野
--5 Collocations 迎町
---[[Web Corpus Data>http://www.tufs.ac.jp/ts/personal/to...
---[[Bigram Data>http://www.tufs.ac.jp/ts/personal/tonola...
***参考資料 [#ec4202c9]
-T-score, MI-score の計算
--[[杉浦先生のサイト>http://oscar.gsid.nagoya-u.ac.jp/pro...
-Zipf's Law
--[[Tom Sawyer の頻度ファイル>http://corpuscobo.net/class...
--[[Tom Sawyer の頻度Xランクの分析用エクセルファイル>http...
--[[頻度とランクのプロットを出す R スクリプト>http://corp...
--[[Tom Sawyer の両対数グラフ>http://corpuscobo.net/class...
終了行:
[[FrontPage]]
*英語学研究(2012年度後期)/外国語教育学研究 [#g19a5ab3]
**目標 [#w82b587c]
-自然言語処理の技法を応用して,学習者データのテキスト処理...
-機械学習のアプローチの基礎を学ぶ
-各自でテーマを決めてデータ処理&分析を行い,発表する
**テキスト [#e79c1c34]
-前期に読んできた Manning & Schutze(1999)を引き続き利用し...
**予定 [#of12c39c]
2012/10/02 1 オリエンテーション 分担決め
2012/10/09 Leech 先生講義に合流(立教大学)
2012/10/16 2 n-gram model (M&S Chap. 6) レポート (...
2012/10/23 3 演習:n-gram model の学習者データへの応用
2012/10/30 4 lexical acquisition (M&S Chap. 7) レポー...
2012/11/06 5 演習:collocation pattern の切り出し
2012/11/13 6 part-of-speech tagging (M&S Chap. 10) レ...
2012/11/20 外語祭 休講
2012/11/27 7 演習:学習者データのタグ付けと品詞情報の...
2012/12/04 出張 この間に少し学習者データの特徴分析のポ...
2012/12/11 出張 同上
2012/12/18 8 probabilistic parsing (M&S Chap.12)レポ...
2013/01/15 9 演習:parsed data からの構文情報切り出し
2013/01/22 10 Clustering (M&S Chap.14) レポート( ...
2013/01/29 11 演習:クラスタリングを用いた学習者デー...
2013/02/05 12 Text categorization (M&S Chap. 16) レ...
2013/02/12 13 演習:分類器を用いた学習者データ分析
もし必要であれば1-2回補講を実施する
**リンク [#df3b6802]
***Clustering [#d6352ec2]
◎ クラスター分析の実際
-Rの場合
--コマンド実行の様子
#ref(http://www.tufs.ac.jp/ts/personal/corpuskun/img/r_01...
--デンドログラム1
#ref(http://www.tufs.ac.jp/ts/personal/corpuskun/img/r_02...
--デンドログラム2
---rect.hclust(lc.clust, k=3, border="red") とすると3クラ...
#ref(http://www.tufs.ac.jp/ts/personal/corpuskun/img/r_03...
-SPSS の場合
--データはこんな感じ(異なる学習者コーパス×動詞構文の頻度)
#ref(http://www.tufs.ac.jp/ts/personal/corpuskun/img/spss...
--[分析] - [分類] - [階層クラスタ]を選択
#ref(http://www.tufs.ac.jp/ts/personal/corpuskun/img/spss...
--作図でデンドログラムを選択
#ref(http://www.tufs.ac.jp/ts/personal/corpuskun/img/spss...
--方法でウォード法を選択
#ref(http://www.tufs.ac.jp/ts/personal/corpuskun/img/spss...
--OKを押すと出力結果のデンドログラムはこんな感じ:
#ref(http://www.tufs.ac.jp/ts/personal/corpuskun/img/spss...
クラスタリングを行うソフトウェアは SPSS, R, Statistica な...
-[[Cluster 3.0>http://bonsai.hgc.jp/~mdehoon/software/clu...
--Michael Eisen (Stanford University) の Cluster をポート...
--Windows version : [[Here>http://bonsai.hgc.jp/~mdehoon/...
-[[Java TreeView>http://jtreeview.sourceforge.net/]]
--Alok Saldanha の JAVA のビューワー,Cluster 3.0 の出力...
--[[ソフトのダウンロードはここから>http://sourceforge.net...
時間があれば次のデータマイニング・ソフトも試してみます:
-[[Tanagra>http://chirouble.univ-lyon2.fr/~ricco/tanagra/...
***Syntactic Parsing [#y7caa613]
◎ 比較的PC教室で作動させやすいプログラムでパーザーを動か...
-[[Apple Pie Parser>http://nlp.cs.nyu.edu/app/]]
--[[binary をゲット>ftp://cs.nyu.edu/pub/local/sekine/APP...
--cygwin のホームディレクトリに置いて以下のコマンドで解凍
> gzip -d APP5.9.tar.gz
> tar xvf APP5.9.tar
---- This create files under directoy APP5.9
---- Please read "README" file
--[[次に Windows の実行ファイルをゲット>http://nlp.cs.nyu...
--これを先ほどの ホームディレクトリ下の APP5.9/bin の下...
-ダブルクリックすれば DOS 窓で APP が起動
#ref(http://www.tufs.ac.jp/ts/personal/corpuskun/img/app....
-コマンドラインは cygwin 上からは
$ ./app < INFILE > OUTFILE
◎ parsed data を検索する方法を Tregex で試してみる
-[[Tregex version 2.0.5>http://nlp.stanford.edu/software/...
-JAVA がインストールされている環境
-Sample parsed data (ICCI RASP A1 data)
--当日配布します
-操作方法は当日説明します
***POS tagger [#vaaa7e6b]
◎タグ付けソフトのアウトプットの比較をしてみよう
学習者データを任意に選んでタグ付、20語で誤りを何語ミス...
-[[Part of Speech Tagging Using a Network of Linear Separ...
-[[CLAWS>http://ucrel.lancs.ac.uk/claws/trial.html]] 95% ...
-[[Brill's Tagger>http://cst.dk/online/pos_tagger/uk/]] 9...
-[[Jiayun Han's POS Tagger>http://nlpdotnet.com/Services/...
◎ICCIデータを使って、学年の推移ごとにある構造がどんな風に...
-取り出したい構造は「品詞+品詞」または「単語+品詞」で抽...
-あまり量が多いと大変なので、構造を上手にしぼること
-本日中に query の式を確定してテストし、データ出しまで完...
-終わらなかった人は持って帰って作業し、レポートをメールで...
**データ [#f21bdfae]
-[[ICCI>http://www.tufs.ac.jp/ts/personal/tonolab/data/ic...
--パスワードは授業で教えます
-[[ICCI n-gram>http://www.tufs.ac.jp/ts/personal/tonolab/...
-N-gramの観察
--[[迎町沙織>MukaemachiSaori]]
--[[山崎史香>YamazakiFumika]]
--[[高村栄人>TakaMura]]
--[[石山俊太>IshiyamaShunta]]
--[[浅野藍>AsanoAi]]
--[[三浦愛香>MiuraAika]]
*英語学研究(2012年度前期)/外国語教育学研究 [#g19a5ab3]
**授業の目標 [#xc08ead4]
-コーパス言語学の隣接分野である自然言語処理の基礎的な概念...
-実データの処理を組み合わせて,単に理論だけでなく実践的な...
**テキスト [#h4703558]
-Manning, C. & Shutze, H. (1999) Foundations of Statistic...
**授業形式 [#y7e16e0b]
-実際は5時限目の博士課程の授業と合体して,3-4時間かけて行...
-特に問題がない限り,修士・博士の学生とも4/5時限を両方と...
-テキストの読みこなしとデータ解析の実地訓練を組み合わせて...
***授業日程 [#oe2a88e6]
-4/17
--授業ガイダンス
-4/24
--1.1 - 1.3 佐竹
-5/8
-5/15
--1.4 - 1.5 三浦
---[[Handout>http://www.tufs.ac.jp/ts/personal/tonolab/cl...
-5/22・29
--2.1 Mathematical foundations テオリン
-6/5
--2.2 Essential Information Theory 山崎
-6/12
--3.1 Linguistic Essentials 石山
--3.2 Phrase Structure 高村
-6/19
--3.3 Semantics and Pragmatics 高村
--4 Corpus-Based Work 浅野
-6/26
--4 つづき 浅野
--5 Collocations 迎町
---[[Web Corpus Data>http://www.tufs.ac.jp/ts/personal/to...
---[[Bigram Data>http://www.tufs.ac.jp/ts/personal/tonola...
***参考資料 [#ec4202c9]
-T-score, MI-score の計算
--[[杉浦先生のサイト>http://oscar.gsid.nagoya-u.ac.jp/pro...
-Zipf's Law
--[[Tom Sawyer の頻度ファイル>http://corpuscobo.net/class...
--[[Tom Sawyer の頻度Xランクの分析用エクセルファイル>http...
--[[頻度とランクのプロットを出す R スクリプト>http://corp...
--[[Tom Sawyer の両対数グラフ>http://corpuscobo.net/class...
ページ名: