[[英語学研究]]

文責:投野

*基本的な考え方 [#jcd626ab]

-T-score の算出方法は、一般的な t-検定の方法を利用したもの
-Church, Gale, Hanks & Hindle (1991)によると、算出例として次の2つのケースがある:
--有意度検定(test of significance )
---あるコーパスから抽出された連鎖 powerful support が有意味なコロケーションかどうかを検定する
--2つのコロケーションの差の検定(test of differences)
--有意度検定(''test of significance'' )
---あるコーパスから抽出された w1 と w2 の連鎖(たとえば"powerful support")が有意味なコロケーションかどうかを検定する
--2つのコロケーションの差の検定(''test of differences'')
---2つのコロケーション、powerful support とstrong support のどちらが有意なコロケーションかを検定する

*有意度検定 [#n5614047]

-powerful support に関して、以下のように考える

--コーパスを単語の連鎖ととらえ、そこからランダムに2語のbigram抽出タスクを考える
--このbigram を取り出した場合、自分が興味のある連鎖(この場合 powerful support)であれば1を、それ以外であれば0を割り当てる
--これはコインの裏表をn 回試行する「ベルヌイ試行(Bernoulli trial)と同じ現象である
--その確率分布をもとに、実際に抽出されるコロケーションが単なる偶然か否かを検定する際に t-分布を用いる(母集団の平均、分散が未知のため?)

-具体的に以下のような計算のための数値が必要:
--コーパスの総語数
--powerful 単体の頻度
--support 単体の頻度
--powerful support の頻度
--コーパスの総語数 (=N)
--powerful 単体の頻度 (=f(w1))
--support 単体の頻度 (=f(w2))
--powerful support の頻度 (=f(w1 w2))

-計算手順:
--基本的には t の値を出すための式にどの数値が一致するのかを理解すればよい

 基本的には t の値を出すための式にどの数値が一致するのかを理解すればよい
 
    t = ((標本平均)ー(母平均))÷((母分散÷標本数)の平方根))
 
 ここでいくつか調整が必要。ふつうのt-testだと、標本平均や標本の分散で 
 近似するのだが、ここではベルヌイ試行という現象を検定するために、 
 二項分布の確率分布としての分散を用いる。
 
    二項分布の分散 σ2 = np(1-p)
 
 ここで n の試行回数は1,p は w1, w2 が同時に共起する確率、すなわち
 
     P(w1 w2) = P(w1) * P(w2)
 
 であるから、 pはコーパスサイズにもよるが一般に限りなく小さい値となり、
 ほぼ
 
 p(1-p) = p
 
 と考えられる。よって、ここでは分散の値も p(w1 w2) とほぼ一致する。
 
 そこで以下のような計算式のあてはめをおこなえばよい:
 
 
 1) 標本平均= p(w1 w2) 
 2) 母平均=w1, w2 が単なる偶然で起こった場合= p(w1)*p(w2)
 3) 母分散= p(w1 w2) で近似
 
 これで計算式にあてはめるべき数字はすべて明らかになる。


トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS