マレー語・インドネシア語コンコーダンサーMALINDO Concの開発について

野元 裕樹 (nomoto@tufs.ac.jp)

2019/4/24, Luncheon Linguistics

MALINDO Concとは

なぜ作ることになったか

  1. コーパスを使って、現代マレー語の統語論の研究がしたい
    既存のコーパスで主にできるのは、
  2. コーパス言語学・自然言語処理における言語格差 cf. 野元 (2016)
    = マレー語でも同じレベルの研究ができるようにしたい
    • BNC(英語), COCA(米語), BCCWJ(日本語)のように、みんなが使える共通のデータをマレー語にも作りたい
    • アノテーション付きコーパス
  3. 頭脳循環を加速する戦略的国際研究ネットワーク推進プログラム (2016.10-2018.3)、国際的な活躍が期待できる研究者の育成事業 (2018.4-2019.3)
    塩原さん
    「インドネシア語のコーパス作らない?ヒンディー語でも最近作ったみたいだし。」
    大阪大学のCorpus of Spoken Hindi (COSH) http://www.cosh.site

第1回ミーティング(2016年)

MALINDO Concの概略

実演

  1. マレー語「ウェーイ」
  2. マレー語とインドネシア語の違い:lakiの派生語(「男」など)
  3. おかしなコントロール (Nomoto 2011)
    Pintu harap di- tutup.
    door hope PASS-close
    「ドアは閉められたい。」
    ガルーダで撮った写真
    • 本当に2つの解釈は存在するか? cf. Jeuong (2018)
    • 統語構造と解釈の関係
      • 主節の述語が補文(CP)を取ると、曖昧性は生じない
      • どのような補文標識(C)を取るか?
    • ingin「欲する」で調べてみる

形態情報による検索が実現するまで

形態情報辞書MALINDO Morph (Nomoto et al. 2018b)

コーパスへの形態情報付与

今後の展望

参考文献