FrontPage

英語学研究(2012年度後期)/外国語教育学研究

目標

  • 自然言語処理の技法を応用して,学習者データのテキスト処理を試してみる
  • 機械学習のアプローチの基礎を学ぶ
  • 各自でテーマを決めてデータ処理&分析を行い,発表する

テキスト

  • 前期に読んできた Manning & Schutze(1999)を引き続き利用し,そこで紹介されている主要なデータ処理方法を学びつつ,学習者データでその処理を一緒にしてみることに主眼を置く。

予定

2012/10/02	1 オリエンテーション 分担決め
2012/10/09	Leech 先生講義に合流(立教大学)
2012/10/16	2 n-gram model (M&S Chap. 6) レポート ( 佐竹・三浦  )
2012/10/23	3  演習:n-gram model の学習者データへの応用
2012/10/30	4 lexical acquisition (M&S Chap. 7) レポート( 浅野・迎町  )
2012/11/06	5 演習:collocation pattern の切り出し
2012/11/13	6 part-of-speech tagging (M&S Chap. 10) レポート( 高村・石山 )
2012/11/20	外語祭 休講
2012/11/27	7 演習:学習者データのタグ付けと品詞情報の切り出し
2012/12/04	出張 この間に少し学習者データの特徴分析のポイントを考える
2012/12/11	出張          同上
2012/12/18	8 probabilistic parsing (M&S Chap.12)レポート(     )
2013/01/15	9 演習:parsed data からの構文情報切り出し
2013/01/22	10 Clustering (M&S Chap.14) レポート(     )
2013/01/29	11 演習:クラスタリングを用いた学習者データ分析
2013/02/05	12 Text categorization (M&S Chap. 16) レポート(     )
2013/02/12	13 演習:分類器を用いた学習者データ分析
もし必要であれば1-2回補講を実施する

リンク

Clustering

◎ クラスター分析の実際

  • Rの場合
  • コマンド実行の様子
r_01.JPG
  • デンドログラム1
r_02.JPG
  • デンドログラム2
    • rect.hclust(lc.clust, k=3, border="red") とすると3クラスタを赤で囲む
r_03.JPG
  • SPSS の場合
  • データはこんな感じ(異なる学習者コーパス×動詞構文の頻度)
spss01.JPG
  • [分析] - [分類] - [階層クラスタ]を選択
spss02.JPG
  • 作図でデンドログラムを選択
spss03.JPG
  • 方法でウォード法を選択
spss04.JPG
  • OKを押すと出力結果のデンドログラムはこんな感じ:
spss05.JPG

クラスタリングを行うソフトウェアは SPSS, R, Statistica などいろいろありますが,今回はPC教室でその場でインストールすることができる下記のソフトで試してみます:

  • Cluster 3.0
    • Michael Eisen (Stanford University) の Cluster をポートしたもの
    • Windows version : Here

時間があれば次のデータマイニング・ソフトも試してみます:

Syntactic Parsing

◎ 比較的PC教室で作動させやすいプログラムでパーザーを動かしてみる

> gzip -d APP5.9.tar.gz
> tar xvf APP5.9.tar
---- This create files under directoy APP5.9
---- Please read "README" file
  • ダブルクリックすれば DOS 窓で APP が起動
app.JPG
  • コマンドラインは cygwin 上からは
$ ./app < INFILE > OUTFILE

◎ parsed data を検索する方法を Tregex で試してみる

  • Tregex version 2.0.5 をダウンロードして解凍
  • JAVA がインストールされている環境
  • Sample parsed data (ICCI RASP A1 data)
    • 当日配布します
  • 操作方法は当日説明します

POS tagger

◎タグ付けソフトのアウトプットの比較をしてみよう

学習者データを任意に選んでタグ付、20語で誤りを何語ミスがあるかで計算

◎ICCIデータを使って、学年の推移ごとにある構造がどんな風に使われるか調べてみよう

  • 取り出したい構造は「品詞+品詞」または「単語+品詞」で抽出すること
  • あまり量が多いと大変なので、構造を上手にしぼること
  • 本日中に query の式を確定してテストし、データ出しまで完了すること
  • 終わらなかった人は持って帰って作業し、レポートをメールで送ること

データ

  • ICCI
    • パスワードは授業で教えます

英語学研究(2012年度前期)/外国語教育学研究

授業の目標

  • コーパス言語学の隣接分野である自然言語処理の基礎的な概念を学び,コーパス処理のより高度な技法を学ぶ基礎とする。
  • 実データの処理を組み合わせて,単に理論だけでなく実践的な処理方法も学ぶ。

テキスト

  • Manning, C. & Shutze, H. (1999) Foundations of Statistical Natural Language Processing. MIT Press.

授業形式

  • 実際は5時限目の博士課程の授業と合体して,3-4時間かけて行う。
  • 特に問題がない限り,修士・博士の学生とも4/5時限を両方とも連続受講すること。
  • テキストの読みこなしとデータ解析の実地訓練を組み合わせて行う予定。

授業日程

  • 4/17
    • 授業ガイダンス
  • 4/24
    • 1.1 - 1.3 佐竹
  • 5/8
  • 5/15
  • 5/22・29
    • 2.1 Mathematical foundations テオリン
  • 6/5
    • 2.2 Essential Information Theory 山崎
  • 6/12
    • 3.1 Linguistic Essentials 石山
    • 3.2 Phrase Structure 高村
  • 6/19
    • 3.3 Semantics and Pragmatics 高村
    • 4 Corpus-Based Work 浅野
  • 6/26
    • 4 つづき 浅野

参考資料


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2013-01-28 (月) 11:08:00 (4249d)