T-score の出し方のバックアップ(No.2) - 投野由紀夫授業用ホームページ

[ トップ ] [ 新規 | 一覧 | 単語検索 | 最終更新 | ヘルプ ]

バックアップ一覧
差分を表示
現在との差分を表示
ソースを表示
T-score の出し方へ行く。
- 1 (2007-11-08 (木) 14:39:20)
- 2 (2007-11-08 (木) 14:39:53)

英語学研究

基本的な考え方 †

T-score の算出方法は、一般的な t-検定の方法を利用したもの
Church, Gale, Hanks & Hindle (1991)によると、算出例として次の２つのケースがある：
- 有意度検定（test of significance )
  - あるコーパスから抽出された連鎖（たとえば"powerful support"）が有意味なコロケーションかどうかを検定する
- ２つのコロケーションの差の検定（test of differences)
  - ２つのコロケーション、powerful support とstrong support のどちらが有意なコロケーションかを検定する

有意度検定 †

powerful support に関して、以下のように考える

コーパスを単語の連鎖ととらえ、そこからランダムに2語のbigram抽出タスクを考える
このbigram を取り出した場合、自分が興味のある連鎖（この場合 powerful support）であれば１を、それ以外であれば０を割り当てる
これはコインの裏表をn 回試行する「ベルヌイ試行（Bernoulli trial）と同じ現象である
その確率分布をもとに、実際に抽出されるコロケーションが単なる偶然か否かを検定する際に t-分布を用いる（母集団の平均、分散が未知のため？）

具体的に以下のような計算のための数値が必要：
- コーパスの総語数
- powerful 単体の頻度
- support 単体の頻度
- powerful support の頻度

計算手順：
- 基本的には t の値を出すための式にどの数値が一致するのかを理解すればよい