英語学研究
基本的な考え方 †
- T-score の算出方法は、一般的な t-検定の方法を利用したもの
- Church, Gale, Hanks & Hindle (1991)によると、算出例として次の2つのケースがある:
- 有意度検定(test of significance )
- あるコーパスから抽出された連鎖(たとえば"powerful support")が有意味なコロケーションかどうかを検定する
- 2つのコロケーションの差の検定(test of differences)
- 2つのコロケーション、powerful support とstrong support のどちらが有意なコロケーションかを検定する
有意度検定 †
- powerful support に関して、以下のように考える
- コーパスを単語の連鎖ととらえ、そこからランダムに2語のbigram抽出タスクを考える
- このbigram を取り出した場合、自分が興味のある連鎖(この場合 powerful support)であれば1を、それ以外であれば0を割り当てる
- これはコインの裏表をn 回試行する「ベルヌイ試行(Bernoulli trial)と同じ現象である
- その確率分布をもとに、実際に抽出されるコロケーションが単なる偶然か否かを検定する際に t-分布を用いる(母集団の平均、分散が未知のため?)
- 具体的に以下のような計算のための数値が必要:
- コーパスの総語数
- powerful 単体の頻度
- support 単体の頻度
- powerful support の頻度
- 計算手順:
- 基本的には t の値を出すための式にどの数値が一致するのかを理解すればよい