英語学研究2014 のバックアップの現在との差分(No.29)

追加された行はこの色です。
削除された行はこの色です。
[[FrontPage]]


*英語学研究2014（火曜4時限　春・秋） [#y529c052]

#contents


**秋学期 [#g4387947]

-後期は Stefan Gries の Statistics for Linguistics with R (version 2） をテキストとして再度使います。
-統計の特に1変量，2変量によく使う統計手法と回帰モデルを中心に学習します。

***スケジュール [#vc49da66]

-１０月２１日、２８日
--Chapter 2
---投野がリードして行います

-１１月４，１１，１８日（第３章）

--Chapter 3 ''Descriptive statistics''
---1.1 　　　  (pp. 102-115)  担当：じょうせん
---1.2 - 1.3   (pp. 115-130)  担当：はった
 notched boxplot:https://sites.google.com/site/davidsstatistics/home/notched-box-plots
---1.4 - 1.5   (pp. 130-135)　担当：おかの
---2.1 - 2.2   (pp. 136-146)  担当：かわむら
---2.3         (pp. 147-156)  担当：さとう

--１１月１８日：ミニテスト（第３章から）

-１２～１月（第４章）

--Chapter 4 ''Analytical statistics''
---intro - 1.1 (pp.157-172)　担当：あべ
---1.2.1       (pp.173-178)　担当：きしもと
---1.2.2       (pp.178-192)　担当：かわもと

 【補足】
 授業中答えられなかった、クラメールの連関係数とφ係数の関係に関してですが、以下を見るとよくまとまっています：
 
 http://homepage2.nifty.com/nandemoarchive/toukei_hosoku/cross_table_analyse.htm
 
 φ係数は
 
 （χ２乗）÷（標本数）の平方根
 
 なのですが、クラメールはそれを k xl の分割表に適応可能なように拡張してて
 
 （χ２乗）÷（標本数× min（k-1, l-1））の平方根
 
 という式になっています。昨日の Gries のテキストでは、2 x 2 にこれを適用したため、
 min(2-1,2-1)=1 で結局φ係数と同一式になったということです


---1.2.3       (pp.192-195)　担当：ながた
---2.1 - 2.2   (pp.195-205)　担当：たかはし

--1月13日
---3.1         (pp.205-214)　担当：ぞう
---3.2.1       (pp.214-221)　担当：みやざき
---3.2.2       (pp.221-227)　担当：はった

--1月20日
---3.2.3       (pp.227-234)　担当：ぞう

 □参考
 分散の等質性（homogeneity of variance）を調べる検定は主に以下のものが知られている
 →　homoscedasticity（等分散性）という用語も知っておこう
 
 ★F検定：２標本での等分散性の検定
 ★Bartlett's test: ３標本以上への F検定の拡張。正規分布ならこれを使う人が多い
 ★Levene's test（ルビーン検定）: 正規分布を多少逸脱していても比較的頑健 car　パッケージで利用できる
 ★Fligner-Killeen test: nonparametric test で正規分布でなくても最も頑健
 詳しい説明は以下を参照：
 http://www.hs.hirosaki-u.ac.jp/~pteiki/research/stat/anova/homogene.html

---3.2.4       (pp.234-238)　担当：かわもと
---4.1         (pp.238-243)　担当：じょうせん
---4.2         (pp.243-246)　担当：おかの

--１月２７日：ミニテスト（第４章から）

-- Chapter 5 Selected multifactorial and multivariate methods

--1月27日
---5.1.1                     担当：
---5.1.2                     担当：
---5.1.1                     担当：きしもと
---5.1.2                     担当：みやざき

--2月3日
---5.2.1 - 5.2.2             担当：
---5.2.3 - 5.2.6             担当：
---5.2.1 - 5.2.2             担当：さとう
---5.2.3 - 5.2.6             担当：かわむら

--2月10日
---5.2.7                     担当：

--２月１０日：ミニテスト（第５章から）















**春学期 [#tca0da6a]

-授業は学習者コーパス研究の概説とし，テキストを用いて学習者コーパスの定義，構築方法，種類などに関して学び，具体的に日本人英語学習者コーパスの種類と検索の実際を講義形式で解説し，実際にデータ処理の基礎をパソコン実習で身につける。

--学習者コーパスの定義，構築方法，種類などに関して基礎知識を得る。
--学習者コーパスの主要な研究手法に関して基礎知識を得る。
--日本人英語学習者コーパスを使った基礎的なデータ処理の方法を知る。

----

***スケジュール [#b8c5eac7]

-テキスト使用部分はセクション１概説：コーパスの紹介をレポーター制　
-研究例は毎回全員で読んできて，リサーチデザイン面で批判的に内容を検討する。
-統計処理方法に関しては投野が後期をにらんで手法の概観をする。

-テキストの各研究例の読み方：

 研究例１・２を事前に読んでデザインの組み方に関してディスカッションします：
 
 以下のような点から critical に研究例2件を見てきて下さい：
 
 　－研究テーマを考えた場合，研究例の長所・短所は何かあるか？
 　－研究例とは異なるデザインだったらどんな手法が考えられるか？
 　－研究例のコーパスの使用法やデータ抽出方法に疑問や改善点はあるか？
 　－データ分析の部分で他にやった方がいい分析の観点はあるか？
 　－結果はどのように関連分野に役立つと思うか？
 　－この研究例と似たようなテーマで他にどんなことが研究できると思うか？
 
 研究例に関して，いろいろな意見や質問を出してもらいたいと思います。
 研究例１つに関して20－30分は使いたいので，何か考えたことを言って下さい。


***最終課題について [#hf6e5878]

-[[こちらを参照>http://www.tufs.ac.jp/ts/personal/corpuskun/pdf/2014/Tue04-2014-Assignment.pdf]]



 第 1回　 4/ 8 イントロダクション，学習者コーパスとは何か？
 
 第 2回　 4/15 第2言語習得研究の方法論と学習者コーパス研究の位置づけ
 　　　　　　　　主要な第2言語習得の考え方の概観（5分）
 　　　　　　　　１）audio-lingual approach　岸本
 　　　　　　　　２）cognitive-code learning approach　佐藤
                      -error analysis; performance analysis
 　　　　　　　　３）Input & interaction approach (classroom process research)　ゾウ
 　　　　　　　　４）socio-cultural approach　永田
 
 第 3回　 4/22 世界の学習者コーパス
 　　　　　　    学習者コーパスのポータルサイトのレポート（5～10分）
                 ICLE       （阿部）
                 LINDSEI　　（岡野）
                 ICCI       （高橋）
                 CLC        （浄泉）
                 ICNALE     （宮崎）
 おまけ   5/ 2 JEFLL コーパス web 版の検索演習 
 
 第 4回　 5/13 日本人英語学習者コーパス（テキスト使用）（１）：ICLE-JP
         投野のポイント講義：
          １）コーパス検索結果のコーディングの一般的なやり方
          ２）コーパスにおける単語認定の問題
          ３）コーパスにおける頻度統計の基礎
 第 5回　 5/27 日本人英語学習者コーパス（テキスト使用）（２）：LINDSEI-JP
 　　　　投野のポイント講義：
 　　　　 １）サブコーパス比較の具体的方法：頻度の差の検定（chi-square）
 　　　　 ２）サブコーパス比較の具体的方法：頻度リストの比較（log-likelihood） 
 第 7回　 6/ 3 日本人英語学習者コーパス（テキスト使用）（３）：NICE(1)
         投野のポイント講義：
 　　　　 １）lexical bundles (n-grams)の抽出方法
 　　　　 ２）p-frame の抽出方法
 第 8回　 6/10 日本人英語学習者コーパス（テキスト使用）（４）：NICE (2)
 　　　　投野のポイント講義：
 　　　　 １）判別分析
 第 9回　 6/17 日本人英語学習者コーパス（テキスト使用）（５）：JEFLL
 　　　　投野のポイント講義：
 　　　　 １）代表的な語彙統計指標
 第10回　 6/24 日本人英語学習者コーパス（テキスト使用）（６）：JEFLL
 　　　　投野のポイント講義：
 　　　　 １）エラータギング概観
 第11回　 7/ 1 日本人英語学習者コーパス（テキスト使用）（７）：ICCI
         投野のポイント講義：
 　　　　 １）CEFR基準特性の研究概観
 　　　　 ２）機械学習の概観
 第12回　 7/ 8 日本人英語学習者コーパス（テキスト使用）（８）：NICT JLE
         投野のポイント講義：
 　　　　 １）

 第13回　 7/29 




**テキスト（春学期） [#d7acf6b1]

-テキストは投野が著者割引で一括注文します

|ISBN|4469245801|
|書名|英語学習者コーパス活用ハンドブック|
|著者名|投野由紀夫, 金子朝子, 杉浦正利, 和泉絵美 編著|
|出版社|大修館書店|
|出版年|2013|

**追加資料 [#c8e0e00e]

-[[主要な Lexical Measure（5章）>http://www.tufs.ac.jp/ts/personal/corpuskun/pdf/2014/LexMeasureHandOut.pdf]]

-[[エラータギング（6章）>http://www.tufs.ac.jp/ts/personal/corpuskun/pdf/2014/ErrorTaggingHandOut.pdf]]


**主要なコーパスへのリンク [#y79f023a]

-[[JEFLL>http://scn.jkn21.com/~jefll03/jefll_top.html]]
--検索ページあり

-[[ICLE>http://www.uclouvain.be/en-cecl-icle.html]]
--紹介だけ

-[[LINDSEI>http://www.uclouvain.be/en-cecl-lindsei.html]]
--紹介だけ

-[[ICLE-LINDSEI 練習用データ>http://www.tufs.ac.jp/ts/personal/corpuskun/data/ICLE-LINDSEI.zip]]

-[[NICE>http://sgr.gsid.nagoya-u.ac.jp/wordpress/?page_id=17]]
--ダウンロード [[Here>http://sgr.gsid.nagoya-u.ac.jp/wordpress/?page_id=441]]

-[[NICE JLE>https://alaginrc.nict.go.jp/nict_jle/]]
-[[NICT JLE>https://alaginrc.nict.go.jp/nict_jle/]]
--ダウンロード　[[Here>https://alaginrc.nict.go.jp/nict_jle/#download]]

-[[ICCI>http://cblle.tufs.ac.jp/llc/icci/]]
--サンプルの検索


**有用なサイトへのリンク [#m7a4be01]

-[[js-STAR>http://www.kisnet.or.jp/nappa/software/star/]]
--web 上で主要な統計を動かせる便利なサイト，R で動いている

-[[UNIX基本コマンド>http://www.din.or.jp/~raelian/unix_command.html]]

-[[Linuxコマンド一覧>http://www.k4.dion.ne.jp/~mms/unix/linux_com/index.html]]


**スクリプト [#l9448bbe]

-[[4.3 n-gram 練習用データ>http://www.tufs.ac.jp/ts/personal/corpuskun/data/list1.txt]]
-[[4.3 n-gram, p-frame 抽出スクリプト>http://www.tufs.ac.jp/ts/personal/corpuskun/data/script.p92.txt]]

 perl -pe 's/ /\n/g;' file1.txt > list1.txt
 
 tail -n +2 list1.txt > list2.txt
 tail -n +3 list1.txt > list3.txt
 tail -n +4 list1.txt > list4.txt
 
 　→この tail コマンドは cygwin では -nオプションが必要
 
 paste list1.txt list2.txt list3.txt list4.txt > save1.txt
 
 　→ paste コマンド
 
 tr A-Z a-z < save1.txt | perl -pe 's/[\.\,]//g;' > save2.txt
 
 　→ tr コマンド
 sort save2.txt | uniq -c | sort -nr > save3.txt
 
 　→ sort, uniq コマンド ただし cygwin 端末ではエラーが出た
 
 これ以降は Phrases in English からのリストがないと実行できないので割愛
  
 perl -ne 'while(<>){if(/ about the nature of\n/|/ as a result of\n/|/ as a  function of\n/|/ as part of the\n/...){print; }}' 4gram.txt
 
 perl -ne 'while(<>){next if(/ about the nature of\n/|/ as a result of\n/|/ as a function of\n/|/ as part of the\n/...){print; }}' 4gram.txt > 保存１.txt
 
 perl -ne 'while(<>){if(/ and a \w+ of\n/|/ and the \w+ of\n/|/ as a \w+ of\n/|/ at the \w+ of\n/|/ by the \w+ of\n/...){print; }}' 保存1.txt






-Perl one liner の解説：
--[[Perl one liner>http://www.webhtm.net/perl/oneliner/oneliner_perloption.htm]]


**Suggested readings [#d408dfdc]

-データタイプの問題

--[[Norris, J. & Ortega, L. (2005) Defining and measuring SLA. In C. Doughty & M. Long (eds.) The Handbook of Second Language Acquisition, pp.717-761.>http://www.tufs.ac.jp/ts/personal/corpuskun/pdf/2014/reading001.pdf]]

-学習者コーパスのデザイン＆開発

--[[Tono, Y. (2003) Learner corpora: design, development and applications. CL2003 Proceedings, pp.800-809.  >http://www.tufs.ac.jp/ts/personal/corpuskun/pdf/2014/reading002.pdf]]

**コーパス言語学関係の主要なジャーナル [#d783a1b7]

-[[ICAME Journal>http://icame.uib.no/journal.html]] 
--英語学全般を含む包括的な内容。ICAME という会議と併せて重要な位置づけ

-[[International Journal of Corpus Linguistics>https://benjamins.com/#catalog/journals/ijcl/main]]
--もっとも正当なコーパス言語学のジャーナル