英語学研究2012 - 投野由紀夫授業用ホームページ

[ トップ ] [ 編集 | 凍結 | 差分 | バックアップ | 添付 | リロード ] [ 新規 | 一覧 | 単語検索 | 最終更新 | ヘルプ ]

最新の20件

2025-06-12

TonoPaper

2025-05-06

TonoSpeech

2025-05-04

FrontPage

2025-04-06

2025-03-30

論文リスト

2024-12-23

過去のお知らせ

2024-09-01

CEFR-J Members

2024-07-20

CEFR-Jx28

2024-07-16

RecentDeleted

2024-04-14

DictionaryCanDo

2023-09-02

ChatGPT

2023-08-24

RTutorial2023

2022-12-29

UsefulUnix

2022-10-16

CEFR-J RLD

2022-04-30

投野研究室メンバー2022

2022-03-29

TreeTaggerMemo

2022-01-31

岩研コーパス部会

2021-11-16

UdPipe

2021-11-01

UsefulLinks

英語学研究（2012年度後期）／外国語教育学研究 †

目標 †

自然言語処理の技法を応用して，学習者データのテキスト処理を試してみる
機械学習のアプローチの基礎を学ぶ
各自でテーマを決めてデータ処理＆分析を行い，発表する

テキスト †

前期に読んできた Manning & Schutze(1999)を引き続き利用し，そこで紹介されている主要なデータ処理方法を学びつつ，学習者データでその処理を一緒にしてみることに主眼を置く。

予定 †

2012/10/02	１　オリエンテーション　分担決め
2012/10/09	Leech 先生講義に合流（立教大学）
2012/10/16	２　n-gram model (M&S Chap. 6)　レポート　（　佐竹・三浦　　）
2012/10/23	３  演習：n-gram model の学習者データへの応用
2012/10/30	４　lexical acquisition (M&S Chap. 7) レポート（　浅野・迎町　　）
2012/11/06	５　演習：collocation pattern の切り出し
2012/11/13	６　part-of-speech tagging (M&S Chap. 10) レポート（　高村・石山　）
2012/11/20	外語祭　休講
2012/11/27	７　演習：学習者データのタグ付けと品詞情報の切り出し
2012/12/04	出張　この間に少し学習者データの特徴分析のポイントを考える
2012/12/11	出張　　　　　　　　　　同上
2012/12/18	８　probabilistic parsing （M&S Chap.12）レポート（　　　　　）
2013/01/15	９　演習：parsed data からの構文情報切り出し
2013/01/22	１０　Clustering (M&S Chap.14) レポート（　　　　　）
2013/01/29	１１　演習：クラスタリングを用いた学習者データ分析
2013/02/05	１２　Text categorization (M&S Chap. 16)　レポート（　　　　　）
2013/02/12	１３　演習：分類器を用いた学習者データ分析
もし必要であれば1-2回補講を実施する

リンク †

Clustering †

◎ クラスター分析の実際

Rの場合

コマンド実行の様子

デンドログラム１

デンドログラム２
- rect.hclust(lc.clust, k=3, border="red") とすると3クラスタを赤で囲む

SPSS の場合

データはこんな感じ（異なる学習者コーパス×動詞構文の頻度）

[分析] - [分類] - [階層クラスタ]を選択

作図でデンドログラムを選択

方法でウォード法を選択

OKを押すと出力結果のデンドログラムはこんな感じ：

クラスタリングを行うソフトウェアは SPSS, R, Statistica などいろいろありますが，今回はPC教室でその場でインストールすることができる下記のソフトで試してみます：

Cluster 3.0
- Michael Eisen (Stanford University) の Cluster をポートしたもの
- Windows version : Here

Java TreeView
- Alok Saldanha の JAVA のビューワー，Cluster 3.0 の出力を図示します。
- ソフトのダウンロードはここから

時間があれば次のデータマイニング・ソフトも試してみます：

Tanagra

Syntactic Parsing †

◎ 比較的PC教室で作動させやすいプログラムでパーザーを動かしてみる

Apple Pie Parser
- binary をゲット
- cygwin のホームディレクトリに置いて以下のコマンドで解凍

> gzip -d APP5.9.tar.gz
> tar xvf APP5.9.tar
---- This create files under directoy APP5.9
---- Please read "README" file

次に Windows の実行ファイルをゲット
これを先ほどのホームディレクトリ下の APP5.9/bin　の下に置く

ダブルクリックすれば DOS 窓で APP が起動

コマンドラインは cygwin 上からは

$ ./app < INFILE > OUTFILE

◎ parsed data を検索する方法を Tregex で試してみる

Tregex version 2.0.5 をダウンロードして解凍
JAVA がインストールされている環境

Sample parsed data (ICCI RASP A1 data)
- 当日配布します

操作方法は当日説明します

POS tagger †

◎タグ付けソフトのアウトプットの比較をしてみよう

学習者データを任意に選んでタグ付、２０語で誤りを何語ミスがあるかで計算

Part of Speech Tagging Using a Network of Linear Separators 95% 90% 80%
CLAWS 95% 100% 100% 100% 95%
Brill's Tagger 90% 95% 90% 85%
Jiayun Han's POS Tagger 95% 95% 90% 80%

◎ICCIデータを使って、学年の推移ごとにある構造がどんな風に使われるか調べてみよう

取り出したい構造は「品詞＋品詞」または「単語＋品詞」で抽出すること
あまり量が多いと大変なので、構造を上手にしぼること
本日中に query の式を確定してテストし、データ出しまで完了すること
終わらなかった人は持って帰って作業し、レポートをメールで送ること

データ †

ICCI
- パスワードは授業で教えます

ICCI n-gram

N-gramの観察

英語学研究（2012年度前期）／外国語教育学研究 †

授業の目標 †

コーパス言語学の隣接分野である自然言語処理の基礎的な概念を学び，コーパス処理のより高度な技法を学ぶ基礎とする。

実データの処理を組み合わせて，単に理論だけでなく実践的な処理方法も学ぶ。

テキスト †

Manning, C. & Shutze, H. (1999) Foundations of Statistical Natural Language Processing. MIT Press.

授業形式 †

実際は5時限目の博士課程の授業と合体して，3-4時間かけて行う。
特に問題がない限り，修士・博士の学生とも4/5時限を両方とも連続受講すること。
テキストの読みこなしとデータ解析の実地訓練を組み合わせて行う予定。

授業日程 †

4/17
- 授業ガイダンス

4/24
- 1.1 - 1.3　佐竹

5/8
5/15

1.4 - 1.5　三浦
- Handout

5/22・29
- 2.1　Mathematical foundations テオリン

6/5
- 2.2　Essential Information Theory 山崎

6/12
- 3.1 Linguistic Essentials 石山
- 3.2 Phrase Structure 高村

6/19
- 3.3 Semantics and Pragmatics 高村
- 4 Corpus-Based Work 浅野

6/26
- 4 つづき　浅野

5 Collocations 迎町
- Web Corpus Data
- Bigram Data

参考資料 †

T-score, MI-score の計算
- 杉浦先生のサイト

Zipf's Law

Last-modified: 2013-01-28 (月) 11:08:00 (4554d)