レポートまとめ

2007/10/19

Probablistic Linguistics (pp. 1-4)

Chapter 1 Introduction

  • 1.1 Probablistic Linguistics
    • “Lnguage is categorical.”→近代言語学の考えのひとつ

      performance = fuzzy, gradient, continua

      linguistic competence ≠ fuzzy, gradient, continua

      ↓一方で他の考え方もある

      “Real language can be highly variable, gradient, and rich in continua.”

      *gradientイメージ(0か1かではない)

      最近の研究では、言語能力はcategoricalやdiscreteではなく、continuaでありgradientであると徐々に明らかになってきた。

        Generative approachesがgradientな中央部分に関心を持ち始めてきたが、そのために今までの端の部分を捨てる必要は無い。Probabilistic approachはその言語理論の境界を推し進めることができる。

  • 1.2 Motivating Probabilities

    “Human cognition is based on probabilistic processing.”という一致した意見があり、認知科学の分野ではprobability theoryが重要なものとなっているが、それを言語のモデル化にそれを自動的に適用させるというわけにはいかない。その証拠が必要。以下でその証拠についての概略を述べていく。

    1.2.1 Variation

    • “Language changes over time.”

      聞き手の推測によって言語変化は起こる(Zuaw)

      言語のproduction patternはアイデンティティによって個人間でも異なる。

      1.2.2 Frequency

    • Frequencyがlanguage perceptionやproduction、representationに影響を与える。  ---頻度の高い語は低い語より速く認識される(Jurafsky)  ---頻度の高い語は軟音の変化を引き起こす(Zuraw)    など
    •  研究者はProbability theoryによっては事象の頻度だけでなく、事象の組み合わせの頻度をも研究の対象とするようになった。

2007/11/30

Probablistic Linguistics (pp. 26-32)

  • A Data-Oriented Parsing (DOP) model
    • ひとつのbank treeを分解したsubtreeで構成される
    • 固定されたフレーズ、イディオム・チャンクもとらえられる
    • DOP modelはPCFGにも分解できる
    • Figure 2.6のふたつのtreeをFigure 2.7の34種類のsubtreeにからなるtreebankに分解できる
    • Figure 2.8:“a node substitution operation”(“○”を使ってsubtreeを組み合わせること)
    • Table 2.5 派生の確率   (1)の確率×(2)の確率×(3)の確率 = 1/20×1/4×1/4 = 1/320
    • “spurious ambiguity”:同一のtreeが異なる派生からできる(Figure 2.9)。この場合の確率(1/160)はFigure 2.8(1/320)と異なる。また、PCFG派生の場合の確率は1/1,280。(Figure 2.10)
    • DOPは派生とtreeが一対一で一致しない
    • 派生が多いtreeほどsubtreeも多くなる

      →大きいsubtreeの方がより高い

    • DOP modelによって作られるすべての文の可能性の合計は1になる
    • Bod (1992) DOP approachの特徴

      (1)文のfragmentを直接文法として使用する (2) fragmentのサイズに制約を与えない

  • DOP modelの疑問
    • 言語使用者はsentence fragmentを記憶しているのか?

      そうなら、DOP modelが提案するように不定で莫大なfragmentを記憶しているのか?

      A. 言語使用者はsentence fragment を記憶しており、two-word unitsから1文まで様々な形でfragmentを記憶している。

      →文法規則を使用して文を作る必要がなく、聞いたものから作れるのではないか

      *すべてのfragmentを記憶しているという証拠は無い

    • DOP modelsは包括的すぎないか?

      A. Manningの章で扱う

    • DOP modelsは限定的すぎないか?context-free languagesの生成力を持つという

      A. Context-free powerはphonologyとmorphologyに関しては十分だが、syntaxに関しては不十分


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2007-12-12 (水) 00:43:52 (5971d)