- 追加された行はこの色です。
- 削除された行はこの色です。
[[英語学研究]]
*基本的な考え方 [#jcd626ab]
-T-score の算出方法は、一般的な t-検定の方法を利用したもの
-Church, Gale, Hanks & Hindle (1991)によると、算出例として次の2つのケースがある:
--有意度検定(test of significance )
---あるコーパスから抽出された連鎖 powerful support が有意味なコロケーションかどうかを検定する
---あるコーパスから抽出された連鎖(たとえば"powerful support")が有意味なコロケーションかどうかを検定する
--2つのコロケーションの差の検定(test of differences)
---2つのコロケーション、powerful support とstrong support のどちらが有意なコロケーションかを検定する
*有意度検定 [#n5614047]
-powerful support に関して、以下のように考える
--コーパスを単語の連鎖ととらえ、そこからランダムに2語のbigram抽出タスクを考える
--このbigram を取り出した場合、自分が興味のある連鎖(この場合 powerful support)であれば1を、それ以外であれば0を割り当てる
--これはコインの裏表をn 回試行する「ベルヌイ試行(Bernoulli trial)と同じ現象である
--その確率分布をもとに、実際に抽出されるコロケーションが単なる偶然か否かを検定する際に t-分布を用いる(母集団の平均、分散が未知のため?)
-具体的に以下のような計算のための数値が必要:
--コーパスの総語数
--powerful 単体の頻度
--support 単体の頻度
--powerful support の頻度
-計算手順:
--基本的には t の値を出すための式にどの数値が一致するのかを理解すればよい