Nlp2021Memo のバックアップの現在との差分(No.4) - 投野由紀夫授業用ホームページ

バックアップ一覧
差分を表示
ソースを表示
バックアップを表示
Nlp2021Memo へ行く。
- 1 (2021-03-15 (月) 16:02:25)
- 2 (2021-03-15 (月) 16:53:00)
- 3 (2021-03-16 (火) 13:48:28)
- 4 (2021-03-17 (水) 11:48:52)
追加された行はこの色です。
削除された行はこの色です。
[[TonoPaper]]

*川崎先生（東大）チュートリアル [#r721ee0b]

** スペイン語の著者・年代・地点推定 [#e8342b8c]
- PCA + t-SNE （次元縮約）の手法
--[[t-SNE>https://qiita.com/warawa_abnormal/items/cad4f9bc2d2408dd69f6]]

**時空間埋め込み関連： [#ia9de649]
--年代を10年ごとに区切る
--単語の前後の３語で、単語の分散表現の平均値を年代ごとに出して、時間埋め込みを学習させる？
--71年代、次元数25、窓幅{0,1,2}
--地点{0,1}
--Label smoothing
---one hot ベクトルの平滑化　&#8596;　正則化
---sigma: hyper-parameter
--softmax 関数: ニューラルネットワークで出力が x1,x2で出てきてそれをソフトマックス関数によって確率におきかえることによって各ラベルの可能性として出力するもの
--マルチタスク学習（Goldberg, 2019）

**言語変異 [#m6613b8f]
--方言間接触
--- Multi-agent simulation
--系列変換モデル：語順学習と世代間伝搬のモデリング
---頻度100倍、規則化の速度 1/10

-アノテーション： [[Brat>http://brat.nlplab.org/index.html]]

*水本先生の講演 [#y860e49a]

-YAKE: keyword extraction
-- TF/IDF などより精度がよい!
-NWLC: JACET8000/CEFR-J Wordlist/etc.
-AWSUM: academic word suggesting machine
--Move analysis -> n-gram
--選んだ n-gram から次次とフレーズを提案
-Corpus linguistics & applied linguistics

**DDL: [#w1c5aa8a]
---not "corpus-driven" --> it could be broader than simple concordancing
---Soft DDL = paper-based
---SCoRE: 著作権フリー
--Gilquin & Granger (2010): DDLを阻害する要因
---教員のビリーフ
---Communicative なアプローチとの gap
--自律的な学習者を育てる：自分でコーパスを使うような
--明示的な辞書指導トレーニングと似ている（Boulton, 2009）
--発見学習の効果（記憶保持，動機付け）
--気付き，エラー訂正，自律学習
---語彙・文法の学習に効果がある
---使い方を教えておいて損はない
---Q: いつ，どんな時に？？

**NLPを用いた L2 studies [#e0f10168]
--Intelligence CALL
---Ward (2017) / adaptivity / speaking & listening (Hassani et al. 2016) / writing (Chen & Meurers, 2019)
---Intelligent language tutor
---Multilingual applications in ICALL (Liou et al. 2013; Nagata 2018; Ziegler et al. 2017; Divekar et al. 2021)

**Automated writing evaluation (Stevenson, 2016; Jiang et al. 2020; Cotos et al. 2015) [#yd2e77d4]
---Criterion : TOEFL で求められている essay のパタンに縛られすぎているので，教室内では使うべきではないという意見もある（Condon 2013)(Ranalli et al. 2017)
---決め打ちの text type の練習に特化したものが複数利用可能になればいいかも（YT)
---Grammarly
---Zhang (2017)
---Write & Improve
---Error annotation (Hamel et al. 2016) MyAnnotator

**Speech recognition [#i28a3916]
---SpeechRater (ETS): 本番では使われていない
---Versant: Pearson
---Echo (smart speaker)
---面接官が知的エージェントでも違いがない
---向上が見られる，という報告ばかりだが，難しい部分を明確にしないといけない（YT）

**Linguistic features [#v8262dac]
---Coh-Metrix, TAALES, SCA (Polio & Yoon, 2018; Kyle and Crossley, 2014)
---TAALES: n-gram は書かれているがどういう風に出しているか，理解するのが難しい
---語彙指標は ICALL, 

**Machine translation [#x8a03b1d]
---DeepL / GoogleTranslate
---MT の学習効果（Garcia & Pena, 2011; Lee, 2019; Stapleton & Leung Ka Kin, 2019; Tsai, 2019) L1 -> L2 + MT で L2 とMT を比べてみる（母語と外国語の気付き）
---Lee and Briggs (2021)
---Lee (2019): low anxiety/ motivating/ autonomous learning
---２１世期型スキル（Ducar & Schocket, 2018) 違いやエラーに気づかせる方法， 教師がMTの限界を認識し適切なサポートをする必要性

**期待すること [#vef1ab04]
--コラボレーション
--CALL でできることはCALLで
--人間が必要なものは人間で
--指導法を再考するべき
--MAXQDA

*教育応用の研究発表より [#o26e8307]

**項目採点技術に基づいた和文英訳答案の自動採点　○菊地正弥, 尾中大介, 舟山弘晃, 松林優一郎, 乾健太郎 (東北大/理研) [#z33064e4]

-Mizumoto et al. (2019)：和文英訳部分採点モデル
--〇△×の付与
--採点根拠の単語のスパン

**文法誤り訂正モデルは訂正に必要な文法を学習しているか ○三田雅人 (理研/東北大), 谷中瞳 (理研) [#m16680d1]

-Grammatical Error Correction (GEC)
--文法規則に基づく誤り　（文法規則が分かればいい）
--- Linzen+2016; Gulordava+2018
--文法規則に基づかない誤り（listen to を listen in とするなど）

--ERRANT (Bryant+, 2017)：27の誤りタイプ
---VERB:SVA
---VERB:FORM 他　５種類

--Transformer-big (Vaswani+, 2017) 標準的な architechture
--評価尺度: ERRANT
--各誤りタイプごとに 50K文

-結果：検出はできているのだが、訂正がうまくいかない　&#8596;　汎化は失敗
--Word order については言語モデルは頑健
--周辺に誤りがあると、動詞、形態エラー、名詞の数のエラーなどは影響を受ける

**アノテータのバイアスを考慮した記述・論述式自動採点手法 	○岡野将士, 宇都雅輝 (電通大) [#s074eeae]
-自動採点：複数評価者の採点のずれを項目応答理論で評価者のバイアスを考慮してθ値を求め、それを自動採点手法に組み込むと精度向上を見込める

**L1-aware Grammatical Error Correction via Multitasking with Native Language Estimation ○Yuehao Yuan, Naoki Yoshinaga (東大) [#ocd12c6d]

-学習者の L1 を同定して、文法誤り訂正を行う手法
-LSTM
-M2 scorer (Dahlmeier+, 2012)
-14 L1, 1400 sentences from Lang8




*松本裕次先生の講演 [#g819f0dd]

-LOGIC の研究
--Winston (1977)
--Nilsson (1976)

-Prolog
--DCG (Pereira, Warren 1980)
--BUP (1983)

-90年代以降のアプローチ
--データから学ぶ
--説明がうまくできない

-シンボルに基づく知識表現
--意味ネットワーク
-知識に基づく推論
--FOL（第一階述語論理）　

-Prolog：論理型言語の代表

-途中で難しすぎて挫折・・・

-Neural Theorem Prover (NTP)
-NLProlog
--自然言語分から関係を獲得
--だんだん論理式を書かなくなってきてるようだ

-Greedy NTP

-学習すべきこと　＋　分野固有の知識や規則を書いて与えた方がいい
-変わるものは手で書かない
-その分野で変わらないものは書いてしまえば良い
--概念の上位下位関係
-自動で学習しようとすると案外難しい。能力はあるが、生のテキストに学習するネタがないことがある。
--知識をより完全にさせていくことで、書かれていないものが推論できる可能性が高まる

-知識の記述の方向がしっかりしており、自動学習と知識を与えることを棲み分けて、段階発展的にうまくいけるのではないか。
-一般常識は難しいが、特定のドメインに関してはこれが可能ではないかと思い追求中