T-score の出し方

英語学研究

文責：投野

基本的な考え方 †

T-score の算出方法は、一般的な t-検定の方法を利用したもの
Church, Gale, Hanks & Hindle (1991)によると、算出例として次の２つのケースがある：
- 有意度検定（test of significance )
  - あるコーパスから抽出された w1 と w2 の連鎖（たとえば"powerful support"）が有意味なコロケーションかどうかを検定する
- ２つのコロケーションの差の検定（test of differences)
  - ２つのコロケーション、powerful support とstrong support のどちらが有意なコロケーションかを検定する

↑

有意度検定 †

powerful support に関して、以下のように考える

コーパスを単語の連鎖ととらえ、そこからランダムに2語のbigram抽出タスクを考える
このbigram を取り出した場合、自分が興味のある連鎖（この場合 powerful support）であれば１を、それ以外であれば０を割り当てる
これはコインの裏表をn 回試行する「ベルヌイ試行（Bernoulli trial）と同じ現象である
その確率分布をもとに、実際に抽出されるコロケーションが単なる偶然か否かを検定する際に t-分布を用いる（母集団の平均、分散が未知のため？）

具体的に以下のような計算のための数値が必要：
- コーパスの総語数 (=N)
- powerful 単体の頻度 (=f(w1))
- support 単体の頻度 (=f(w2))
- powerful support の頻度 (=f(w1 w2))

計算手順：

基本的には t の値を出すための式にどの数値が一致するのかを理解すればよい

   t = （（標本平均）ー（母平均））÷（（母分散÷標本数）の平方根））

ここでいくつか調整が必要。ふつうのt-testだと、標本平均や標本の分散で 
近似するのだが、ここではベルヌイ試行という現象を検定するために、 
二項分布の確率分布としての分散を用いる。

   二項分布の分散 σ2 = np(1-p)

ここで n の試行回数は１，p　は w1, w2 が同時に共起する確率、すなわち

    P(w1 w2) = P(w1) * P(w2)

であるから、　ｐはコーパスサイズにもよるが一般に限りなく小さい値となり、
ほぼ

p(1-p) = p

と考えられる。よって、ここでは分散の値も p(w1 w2) とほぼ一致する。

そこで以下のような計算式のあてはめをおこなえばよい：


1) 標本平均＝ p(w1 w2) 
2) 母平均＝w1, w2 が単なる偶然で起こった場合= p(w1)*p(w2)
3) 母分散＝ p(w1 w2) で近似

これで計算式にあてはめるべき数字はすべて明らかになる。

最新の20件

基本的な考え方 †

有意度検定 †