[[英語学研究]]

*基本的な考え方 [#jcd626ab]

-T-score の算出方法は、一般的な t-検定の方法を利用したもの
-Church, Gale, Hanks & Hindle (1991)によると、算出例として次の2つのケースがある:
--有意度検定(test of significance )
---あるコーパスから抽出された連鎖 powerful support が有意味なコロケーションかどうかを検定する
---あるコーパスから抽出された連鎖(たとえば"powerful support")が有意味なコロケーションかどうかを検定する
--2つのコロケーションの差の検定(test of differences)
---2つのコロケーション、powerful support とstrong support のどちらが有意なコロケーションかを検定する

*有意度検定 [#n5614047]

-powerful support に関して、以下のように考える

--コーパスを単語の連鎖ととらえ、そこからランダムに2語のbigram抽出タスクを考える
--このbigram を取り出した場合、自分が興味のある連鎖(この場合 powerful support)であれば1を、それ以外であれば0を割り当てる
--これはコインの裏表をn 回試行する「ベルヌイ試行(Bernoulli trial)と同じ現象である
--その確率分布をもとに、実際に抽出されるコロケーションが単なる偶然か否かを検定する際に t-分布を用いる(母集団の平均、分散が未知のため?)

-具体的に以下のような計算のための数値が必要:
--コーパスの総語数
--powerful 単体の頻度
--support 単体の頻度
--powerful support の頻度

-計算手順:
--基本的には t の値を出すための式にどの数値が一致するのかを理解すればよい



トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS