Nlp2021Memo のバックアップ(No.4) - 投野由紀夫授業用ホームページ

[ トップ ] [ 新規 | 一覧 | 単語検索 | 最終更新 | ヘルプ ]

バックアップ一覧
差分を表示
現在との差分を表示
ソースを表示
Nlp2021Memo へ行く。
- 1 (2021-03-15 (月) 16:02:25)
- 2 (2021-03-15 (月) 16:53:00)
- 3 (2021-03-16 (火) 13:48:28)
- 4 (2021-03-17 (水) 11:48:52)

川崎先生（東大）チュートリアル †

スペイン語の著者・年代・地点推定 †

PCA + t-SNE （次元縮約）の手法
- t-SNE

時空間埋め込み関連： †

年代を10年ごとに区切る
単語の前後の３語で、単語の分散表現の平均値を年代ごとに出して、時間埋め込みを学習させる？
71年代、次元数25、窓幅{0,1,2}
地点{0,1}
Label smoothing
- one hot ベクトルの平滑化　↔　正則化
- sigma: hyper-parameter
softmax 関数: ニューラルネットワークで出力が x1,x2で出てきてそれをソフトマックス関数によって確率におきかえることによって各ラベルの可能性として出力するもの
マルチタスク学習（Goldberg, 2019）

言語変異 †

方言間接触
- Multi-agent simulation
系列変換モデル：語順学習と世代間伝搬のモデリング
- 頻度100倍、規則化の速度 1/10

アノテーション： Brat

水本先生の講演 †

YAKE: keyword extraction
- TF/IDF などより精度がよい!
NWLC: JACET8000/CEFR-J Wordlist/etc.
AWSUM: academic word suggesting machine
- Move analysis -> n-gram
- 選んだ n-gram から次次とフレーズを提案
Corpus linguistics & applied linguistics

DDL: †

not "corpus-driven" --> it could be broader than simple concordancing
Soft DDL = paper-based
SCoRE: 著作権フリー

Gilquin & Granger (2010): DDLを阻害する要因
- 教員のビリーフ
- Communicative なアプローチとの gap
自律的な学習者を育てる：自分でコーパスを使うような
明示的な辞書指導トレーニングと似ている（Boulton, 2009）
発見学習の効果（記憶保持，動機付け）
気付き，エラー訂正，自律学習
- 語彙・文法の学習に効果がある
- 使い方を教えておいて損はない
- Q: いつ，どんな時に？？

NLPを用いた L2 studies †

Intelligence CALL
- Ward (2017) / adaptivity / speaking & listening (Hassani et al. 2016) / writing (Chen & Meurers, 2019)
- Intelligent language tutor
- Multilingual applications in ICALL (Liou et al. 2013; Nagata 2018; Ziegler et al. 2017; Divekar et al. 2021)

Automated writing evaluation (Stevenson, 2016; Jiang et al. 2020; Cotos et al. 2015) †

Criterion : TOEFL で求められている essay のパタンに縛られすぎているので，教室内では使うべきではないという意見もある（Condon 2013)(Ranalli et al. 2017)
決め打ちの text type の練習に特化したものが複数利用可能になればいいかも（YT)
Grammarly
Zhang (2017)
Write & Improve
Error annotation (Hamel et al. 2016) MyAnnotator?

Speech recognition †

SpeechRater? (ETS): 本番では使われていない
Versant: Pearson
Echo (smart speaker)
面接官が知的エージェントでも違いがない
向上が見られる，という報告ばかりだが，難しい部分を明確にしないといけない（YT）

Linguistic features †

Coh-Metrix, TAALES, SCA (Polio & Yoon, 2018; Kyle and Crossley, 2014)
TAALES: n-gram は書かれているがどういう風に出しているか，理解するのが難しい
語彙指標は ICALL,

Machine translation †

DeepL / GoogleTranslate?
MT の学習効果（Garcia & Pena, 2011; Lee, 2019; Stapleton & Leung Ka Kin, 2019; Tsai, 2019) L1 -> L2 + MT で L2 とMT を比べてみる（母語と外国語の気付き）
Lee and Briggs (2021)
Lee (2019): low anxiety/ motivating/ autonomous learning
２１世期型スキル（Ducar & Schocket, 2018) 違いやエラーに気づかせる方法，教師がMTの限界を認識し適切なサポートをする必要性

期待すること †

コラボレーション
CALL でできることはCALLで
人間が必要なものは人間で
指導法を再考するべき
MAXQDA

教育応用の研究発表より †

項目採点技術に基づいた和文英訳答案の自動採点　○菊地正弥, 尾中大介, 舟山弘晃, 松林優一郎, 乾健太郎 (東北大/理研) †

Mizumoto et al. (2019)：和文英訳部分採点モデル
- 〇△×の付与
- 採点根拠の単語のスパン

文法誤り訂正モデルは訂正に必要な文法を学習しているか ○三田雅人 (理研/東北大), 谷中瞳 (理研) †

Grammatical Error Correction (GEC)
- 文法規則に基づく誤り　（文法規則が分かればいい）
  - Linzen+2016; Gulordava+2018
- 文法規則に基づかない誤り（listen to を listen in とするなど）

ERRANT (Bryant+, 2017)：27の誤りタイプ
- VERB:SVA
- VERB:FORM 他　５種類

Transformer-big (Vaswani+, 2017) 標準的な architechture
評価尺度: ERRANT
各誤りタイプごとに 50K文

結果：検出はできているのだが、訂正がうまくいかない　↔　汎化は失敗
- Word order については言語モデルは頑健
- 周辺に誤りがあると、動詞、形態エラー、名詞の数のエラーなどは影響を受ける

松本裕次先生の講演 †

LOGIC の研究
- Winston (1977)
- Nilsson (1976)

Prolog
- DCG (Pereira, Warren 1980)
- BUP (1983)

90年代以降のアプローチ
- データから学ぶ
- 説明がうまくできない

シンボルに基づく知識表現
- 意味ネットワーク
知識に基づく推論
- FOL（第一階述語論理）

Prolog：論理型言語の代表

途中で難しすぎて挫折・・・

Neural Theorem Prover (NTP)
NLProlog
- 自然言語分から関係を獲得
- だんだん論理式を書かなくなってきてるようだ

Greedy NTP

学習すべきこと　＋　分野固有の知識や規則を書いて与えた方がいい
変わるものは手で書かない
その分野で変わらないものは書いてしまえば良い
- 概念の上位下位関係
自動で学習しようとすると案外難しい。能力はあるが、生のテキストに学習するネタがないことがある。
- 知識をより完全にさせていくことで、書かれていないものが推論できる可能性が高まる

知識の記述の方向がしっかりしており、自動学習と知識を与えることを棲み分けて、段階発展的にうまくいけるのではないか。
一般常識は難しいが、特定のドメインに関してはこれが可能ではないかと思い追求中