T-score の出し方
をテンプレートにして作成
[
トップ
] [
新規
|
一覧
|
単語検索
|
最終更新
|
ヘルプ
]
開始行:
[[英語学研究]]
文責:投野
*基本的な考え方 [#jcd626ab]
-T-score の算出方法は、一般的な t-検定の方法を利用したもの
-Church, Gale, Hanks & Hindle (1991)によると、算出例とし...
--有意度検定(''test of significance'' )
---あるコーパスから抽出された w1 と w2 の連鎖(たとえば"p...
--2つのコロケーションの差の検定(''test of differences'')
---2つのコロケーション、powerful support とstrong suppor...
*有意度検定 [#n5614047]
-powerful support に関して、以下のように考える
--コーパスを単語の連鎖ととらえ、そこからランダムに2語のbi...
--このbigram を取り出した場合、自分が興味のある連鎖(この...
--これはコインの裏表をn 回試行する「ベルヌイ試行(Bernoul...
--その確率分布をもとに、実際に抽出されるコロケーションが...
-具体的に以下のような計算のための数値が必要:
--コーパスの総語数 (=N)
--powerful 単体の頻度 (=f(w1))
--support 単体の頻度 (=f(w2))
--powerful support の頻度 (=f(w1 w2))
-計算手順:
基本的には t の値を出すための式にどの数値が一致するのか...
t = ((標本平均)ー(母平均))÷((母分散÷標本数)...
ここでいくつか調整が必要。ふつうのt-testだと、標本平均や...
近似するのだが、ここではベルヌイ試行という現象を検定する...
二項分布の確率分布としての分散を用いる。
二項分布の分散 σ2 = np(1-p)
ここで n の試行回数は1,p は w1, w2 が同時に共起する確...
P(w1 w2) = P(w1) * P(w2)
であるから、 pはコーパスサイズにもよるが一般に限りなく...
ほぼ
p(1-p) = p
と考えられる。よって、ここでは分散の値も p(w1 w2) とほぼ...
そこで以下のような計算式のあてはめをおこなえばよい:
1) 標本平均= p(w1 w2)
2) 母平均=w1, w2 が単なる偶然で起こった場合= p(w1)*p(w2)
3) 母分散= p(w1 w2) で近似
これで計算式にあてはめるべき数字はすべて明らかになる。
終了行:
[[英語学研究]]
文責:投野
*基本的な考え方 [#jcd626ab]
-T-score の算出方法は、一般的な t-検定の方法を利用したもの
-Church, Gale, Hanks & Hindle (1991)によると、算出例とし...
--有意度検定(''test of significance'' )
---あるコーパスから抽出された w1 と w2 の連鎖(たとえば"p...
--2つのコロケーションの差の検定(''test of differences'')
---2つのコロケーション、powerful support とstrong suppor...
*有意度検定 [#n5614047]
-powerful support に関して、以下のように考える
--コーパスを単語の連鎖ととらえ、そこからランダムに2語のbi...
--このbigram を取り出した場合、自分が興味のある連鎖(この...
--これはコインの裏表をn 回試行する「ベルヌイ試行(Bernoul...
--その確率分布をもとに、実際に抽出されるコロケーションが...
-具体的に以下のような計算のための数値が必要:
--コーパスの総語数 (=N)
--powerful 単体の頻度 (=f(w1))
--support 単体の頻度 (=f(w2))
--powerful support の頻度 (=f(w1 w2))
-計算手順:
基本的には t の値を出すための式にどの数値が一致するのか...
t = ((標本平均)ー(母平均))÷((母分散÷標本数)...
ここでいくつか調整が必要。ふつうのt-testだと、標本平均や...
近似するのだが、ここではベルヌイ試行という現象を検定する...
二項分布の確率分布としての分散を用いる。
二項分布の分散 σ2 = np(1-p)
ここで n の試行回数は1,p は w1, w2 が同時に共起する確...
P(w1 w2) = P(w1) * P(w2)
であるから、 pはコーパスサイズにもよるが一般に限りなく...
ほぼ
p(1-p) = p
と考えられる。よって、ここでは分散の値も p(w1 w2) とほぼ...
そこで以下のような計算式のあてはめをおこなえばよい:
1) 標本平均= p(w1 w2)
2) 母平均=w1, w2 が単なる偶然で起こった場合= p(w1)*p(w2)
3) 母分散= p(w1 w2) で近似
これで計算式にあてはめるべき数字はすべて明らかになる。
ページ名: