FrontPage

英語学研究2014(火曜4時限 春・秋)

秋学期

  • 後期は Stefan Gries の Statistics for Linguistics with R (version 2) をテキストとして再度使います。
  • 統計の特に1変量,2変量によく使う統計手法と回帰モデルを中心に学習します。

スケジュール

  • 10月21日、28日
    • Chapter 2
      • 投野がリードして行います
  • 11月4,11,18日(第3章)
  • Chapter 3 Descriptive statistics
    • 1.1     (pp. 102-115) 担当:じょうせん
    • 1.2 - 1.3 (pp. 115-130) 担当:はった
      notched boxplot:https://sites.google.com/site/davidsstatistics/home/notched-box-plots
    • 1.4 - 1.5 (pp. 130-135) 担当:おかの
    • 2.1 - 2.2 (pp. 136-146) 担当:かわむら
    • 2.3 (pp. 147-156) 担当:さとう
  • 11月18日:ミニテスト(第3章から)
  • 12〜1月(第4章)
  • Chapter 4 Analytical statistics
    • intro - 1.1 (pp.157-172) 担当:あべ
    • 1.2.1 (pp.173-178) 担当:きしもと
    • 1.2.2 (pp.178-192) 担当:かわもと
【補足】
授業中答えられなかった、クラメールの連関係数とφ係数の関係に関してですが、以下を見るとよくまとまっています:

http://homepage2.nifty.com/nandemoarchive/toukei_hosoku/cross_table_analyse.htm

φ係数は

(χ2乗)÷(標本数)の平方根

なのですが、クラメールはそれを k xl の分割表に適応可能なように拡張してて

(χ2乗)÷(標本数× min(k-1, l-1))の平方根

という式になっています。昨日の Gries のテキストでは、2 x 2 にこれを適用したため、
min(2-1,2-1)=1 で結局φ係数と同一式になったということです
  • 1.2.3 (pp.192-195) 担当:ながた
  • 2.1 - 2.2 (pp.195-205) 担当:たかはし
  • 1月13日
    • 3.1 (pp.205-214) 担当:ぞう
    • 3.2.1 (pp.214-221) 担当:みやざき
    • 3.2.2 (pp.221-227) 担当:はった
  • 1月20日
    • 3.2.3 (pp.227-234) 担当:ぞう
□参考
分散の等質性(homogeneity of variance)を調べる検定は主に以下のものが知られている
→ homoscedasticity(等分散性)という用語も知っておこう

★F検定:2標本での等分散性の検定
★Bartlett's test: 3標本以上への F検定の拡張。正規分布ならこれを使う人が多い
★Levene's test(ルビーン検定): 正規分布を多少逸脱していても比較的頑健 car パッケージで利用できる
★Fligner-Killeen test: nonparametric test で正規分布でなくても最も頑健
詳しい説明は以下を参照:
http://www.hs.hirosaki-u.ac.jp/~pteiki/research/stat/anova/homogene.html
  • 3.2.4 (pp.234-238) 担当:かわもと
  • 4.1 (pp.238-243) 担当:じょうせん
  • 4.2 (pp.243-246) 担当:おかの
  • 1月27日:ミニテスト(第4章から)
  • Chapter 5 Selected multifactorial and multivariate methods
  • 1月27日
    • 5.1.1 担当:きしもと
    • 5.1.2 担当:みやざき
  • 2月3日
    • 5.2.1 - 5.2.2 担当:さとう
    • 5.2.3 - 5.2.6 担当:かわむら
  • 2月10日
    • 5.2.7 担当:
  • 2月10日:ミニテスト(第5章から)

春学期

  • 授業は学習者コーパス研究の概説とし,テキストを用いて学習者コーパスの定義,構築方法,種類などに関して学び,具体的に日本人英語学習者コーパスの種類と検索の実際を講義形式で解説し,実際にデータ処理の基礎をパソコン実習で身につける。
  • 学習者コーパスの定義,構築方法,種類などに関して基礎知識を得る。
  • 学習者コーパスの主要な研究手法に関して基礎知識を得る。
  • 日本人英語学習者コーパスを使った基礎的なデータ処理の方法を知る。

スケジュール

  • テキスト使用部分はセクション1概説:コーパスの紹介をレポーター制 
  • 研究例は毎回全員で読んできて,リサーチデザイン面で批判的に内容を検討する。
  • 統計処理方法に関しては投野が後期をにらんで手法の概観をする。
  • テキストの各研究例の読み方:
研究例1・2を事前に読んでデザインの組み方に関してディスカッションします:

以下のような点から critical に研究例2件を見てきて下さい:

 −研究テーマを考えた場合,研究例の長所・短所は何かあるか?
 −研究例とは異なるデザインだったらどんな手法が考えられるか?
 −研究例のコーパスの使用法やデータ抽出方法に疑問や改善点はあるか?
 −データ分析の部分で他にやった方がいい分析の観点はあるか?
 −結果はどのように関連分野に役立つと思うか?
 −この研究例と似たようなテーマで他にどんなことが研究できると思うか?

研究例に関して,いろいろな意見や質問を出してもらいたいと思います。
研究例1つに関して20−30分は使いたいので,何か考えたことを言って下さい。

最終課題について

第 1回  4/ 8 イントロダクション,学習者コーパスとは何か?

第 2回  4/15 第2言語習得研究の方法論と学習者コーパス研究の位置づけ
        主要な第2言語習得の考え方の概観(5分)
        1)audio-lingual approach 岸本
        2)cognitive-code learning approach 佐藤
                     -error analysis; performance analysis
        3)Input & interaction approach (classroom process research) ゾウ
        4)socio-cultural approach 永田

第 3回  4/22 世界の学習者コーパス
          学習者コーパスのポータルサイトのレポート(5〜10分)
                ICLE       (阿部)
                LINDSEI  (岡野)
                ICCI       (高橋)
                CLC        (浄泉)
                ICNALE     (宮崎)
おまけ   5/ 2 JEFLL コーパス web 版の検索演習 

第 4回  5/13 日本人英語学習者コーパス(テキスト使用)(1):ICLE-JP
        投野のポイント講義:
         1)コーパス検索結果のコーディングの一般的なやり方
         2)コーパスにおける単語認定の問題
         3)コーパスにおける頻度統計の基礎
第 5回  5/27 日本人英語学習者コーパス(テキスト使用)(2):LINDSEI-JP
    投野のポイント講義:
     1)サブコーパス比較の具体的方法:頻度の差の検定(chi-square)
     2)サブコーパス比較の具体的方法:頻度リストの比較(log-likelihood) 
第 7回  6/ 3 日本人英語学習者コーパス(テキスト使用)(3):NICE(1)
        投野のポイント講義:
     1)lexical bundles (n-grams)の抽出方法
     2)p-frame の抽出方法
第 8回  6/10 日本人英語学習者コーパス(テキスト使用)(4):NICE (2)
    投野のポイント講義:
     1)判別分析
第 9回  6/17 日本人英語学習者コーパス(テキスト使用)(5):JEFLL
    投野のポイント講義:
     1)代表的な語彙統計指標
第10回  6/24 日本人英語学習者コーパス(テキスト使用)(6):JEFLL
    投野のポイント講義:
     1)エラータギング概観
第11回  7/ 1 日本人英語学習者コーパス(テキスト使用)(7):ICCI
        投野のポイント講義:
     1)CEFR基準特性の研究概観
     2)機械学習の概観
第12回  7/ 8 日本人英語学習者コーパス(テキスト使用)(8):NICT JLE
        投野のポイント講義:
     1)
第13回  7/29 

テキスト(春学期)

  • テキストは投野が著者割引で一括注文します
ISBN4469245801
書名英語学習者コーパス活用ハンドブック
著者名投野由紀夫, 金子朝子, 杉浦正利, 和泉絵美 編著
出版社大修館書店
出版年2013

追加資料

主要なコーパスへのリンク

  • JEFLL
    • 検索ページあり
  • ICCI
    • サンプルの検索

有用なサイトへのリンク

  • js-STAR
    • web 上で主要な統計を動かせる便利なサイト,R で動いている

スクリプト

perl -pe 's/ /\n/g;' file1.txt > list1.txt

tail -n +2 list1.txt > list2.txt
tail -n +3 list1.txt > list3.txt
tail -n +4 list1.txt > list4.txt

 →この tail コマンドは cygwin では -nオプションが必要

paste list1.txt list2.txt list3.txt list4.txt > save1.txt

 → paste コマンド

tr A-Z a-z < save1.txt | perl -pe 's/[\.\,]//g;' > save2.txt

 → tr コマンド
sort save2.txt | uniq -c | sort -nr > save3.txt

 → sort, uniq コマンド ただし cygwin 端末ではエラーが出た

これ以降は Phrases in English からのリストがないと実行できないので割愛
 
perl -ne 'while(<>){if(/ about the nature of\n/|/ as a result of\n/|/ as a  function of\n/|/ as part of the\n/...){print; }}' 4gram.txt

perl -ne 'while(<>){next if(/ about the nature of\n/|/ as a result of\n/|/ as a function of\n/|/ as part of the\n/...){print; }}' 4gram.txt > 保存1.txt

perl -ne 'while(<>){if(/ and a \w+ of\n/|/ and the \w+ of\n/|/ as a \w+ of\n/|/ at the \w+ of\n/|/ by the \w+ of\n/...){print; }}' 保存1.txt

Suggested readings

  • データタイプの問題
  • 学習者コーパスのデザイン&開発

コーパス言語学関係の主要なジャーナル

  • ICAME Journal
    • 英語学全般を含む包括的な内容。ICAME という会議と併せて重要な位置づけ

トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2015-01-27 (火) 16:50:11 (3602d)