英語学研究

文責:投野

基本的な考え方

  • T-score の算出方法は、一般的な t-検定の方法を利用したもの
  • Church, Gale, Hanks & Hindle (1991)によると、算出例として次の2つのケースがある:
    • 有意度検定(test of significance )
      • あるコーパスから抽出された w1 と w2 の連鎖(たとえば"powerful support")が有意味なコロケーションかどうかを検定する
    • 2つのコロケーションの差の検定(test of differences)
      • 2つのコロケーション、powerful support とstrong support のどちらが有意なコロケーションかを検定する

有意度検定

  • powerful support に関して、以下のように考える
  • コーパスを単語の連鎖ととらえ、そこからランダムに2語のbigram抽出タスクを考える
  • このbigram を取り出した場合、自分が興味のある連鎖(この場合 powerful support)であれば1を、それ以外であれば0を割り当てる
  • これはコインの裏表をn 回試行する「ベルヌイ試行(Bernoulli trial)と同じ現象である
  • その確率分布をもとに、実際に抽出されるコロケーションが単なる偶然か否かを検定する際に t-分布を用いる(母集団の平均、分散が未知のため?)
  • 具体的に以下のような計算のための数値が必要:
    • コーパスの総語数 (=N)
    • powerful 単体の頻度 (=f(w1))
    • support 単体の頻度 (=f(w2))
    • powerful support の頻度 (=f(w1 w2))
  • 計算手順:
基本的には t の値を出すための式にどの数値が一致するのかを理解すればよい

   t = ((標本平均)ー(母平均))÷((母分散÷標本数)の平方根))

ここでいくつか調整が必要。ふつうのt-testだと、標本平均や標本の分散で 
近似するのだが、ここではベルヌイ試行という現象を検定するために、 
二項分布の確率分布としての分散を用いる。

   二項分布の分散 σ2 = np(1-p)

ここで n の試行回数は1,p は w1, w2 が同時に共起する確率、すなわち

    P(w1 w2) = P(w1) * P(w2)

であるから、 pはコーパスサイズにもよるが一般に限りなく小さい値となり、
ほぼ

p(1-p) = p

と考えられる。よって、ここでは分散の値も p(w1 w2) とほぼ一致する。

そこで以下のような計算式のあてはめをおこなえばよい:


1) 標本平均= p(w1 w2) 
2) 母平均=w1, w2 が単なる偶然で起こった場合= p(w1)*p(w2)
3) 母分散= p(w1 w2) で近似

これで計算式にあてはめるべき数字はすべて明らかになる。

トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2007-11-14 (水) 15:36:37 (3629d)