[[英語学研究2009]]

**内容 [#ncd649a3]

後期は Stefan Gries (2009) Quantitative Corpus Linguistics with R (Routledge) を読みながら、R でやるコーパス言語学の基本を一緒に習得します。

**日程表 [#y9a189f8]

配布資料を参照

**補足資料・ハンドアウト [#p971859a]
-Chapter 4
***Chapter 4 [#na07b0db]
--[[4.1.1 A Frequency List of an Unannotated Corpus (pp. 106-110) [藤田]:http://lexicon.tufs.ac.jp/~class2009/thu5/Gries_106-110.pdf]]
--4.1.2 A Reverse Frequency List of an Unannotated Corpus (pp. 110-112) [後上]
--[[4.1.2 A Reverse Frequency List of an Unannotated Corpus (pp. 110-112) [後上]:http://lexicon.tufs.ac.jp/~class2009/thu5/Gries_110-112.pdf]]
--[[4.1.3 A Frequency List of an Annotated Corpus (pp. 112-114) [本田]:http://lexicon.tufs.ac.jp/~class2009/thu5/Gries_112-114.pdf]]
--[[4.1.4 A Frequency List of Tag-word Sequences from an Annotated Corpus (pp. 114-118) [人見]:http://lexicon.tufs.ac.jp/~class2009/thu5/Gries_114-118.pdf]]
--[[4.1.5 A Frequency List of Word Pairs from an Annotated Corpus (pp. 118-124)[金田]:http://lexicon.tufs.ac.jp/~class2009/thu5/Gries_118-124.pdf]]
---[[日本語環境用修正版読み込みファイル @4.1.5 (p.118-124):http://lexicon.tufs.ac.jp/~class2009/thu5/modulated_corp_brown-tagged.txt]]
--[[4.1.6 A Frequency List of an Annotated Corpus (with One Word Per Line) (pp. 124-126) [藤田]:http://lexicon.tufs.ac.jp/~class2009/thu5/Gries_124-126.pdf]]
--4.1.7 A Frequency List of Word Pairs of an Annotated Corpus (with One Word Per Line) (pp. 126-127) [後上]
--4.2.1 A Concordance of an Unannotated Text File (pp. 127-135) [金田]
--4.2.2 A Simple Concordance from Files of a POS-tagged (SGML) Corpus (pp. 135-141) [人見]
--[[4.1.7 A Frequency List of Word Pairs of an Annotated Corpus (with One Word Per Line) (pp. 126-127) [後上]:http://lexicon.tufs.ac.jp/~class2009/thu5/Gries_126-127.pdf]]
--[[4.2.1 A Concordance of an Unannotated Text File (pp. 127-134) [金田]:http://lexicon.tufs.ac.jp/~class2009/thu5/Gries_127-134.pdf]]
--[[4.2.2 A Simple Concordance from Files of a POS-tagged (SGML) Corpus (pp. 135-141) [人見]:http://lexicon.tufs.ac.jp/~class2009/thu5/Gries_124-126.pdf]]
--4.2.3 More Complex Concordances from Files of a POS-tagged (SGML) Corpus (pp. 141-145) [本田]
--4.2.4 A Lemma-based Concordance from Files of a POS-tagged and Lemmatized (XML) Corpus (pp. 146-149) [藤田]
---[[日本語環境用修正版読み込みファイル (BNC baby) @4.2.4 (p.146-149):http://lexicon.tufs.ac.jp/~class2009/thu5/modulated_corp_bncb_xml.txt]]
--4.3 Collocations (pp. 149-156) [後上]
--4.4 Escursus 1: Processing Multi-tiered Corpora(pp. 156-166) [人見]
--4.5 Excursus 2: Unicode (pp. 166-167) [本田]~
     4.5.1 Excursus 2: Frequency Lists (pp. 167-169) [本田]
--4.5.2 Concordancing (pp. 169-172) [金田]

***修正ファイル補足 [#jaf5b027]

-[[日本語環境用修正版読み込みファイル @4.1.5 (p.118-124):http://lexicon.tufs.ac.jp/~class2009/thu5/modulated_corp_brown-tagged.txt]]
--ファイル冒頭にある文字化け個所を削除しました。

-Chapter 3
-[[日本語環境用修正版読み込みファイル (BNC baby) @4.2.4 (p.146-149):http://lexicon.tufs.ac.jp/~class2009/thu5/modulated_corp_bncb_xml.txt]]
--シングルクォーテーションマークが文字化けしているのを正しく変換しました。
--2バイト文字の £ を GBP に変換しました。
--おそらく度量衡の記号と思われる個所の文字化けを、 CRD に変換しました。
--推測不可能な文字化けを、lemma=unid, word=XXXに変換しました(1813行目)。



***Chapter 3 [#t2138ecd]
--[[3. An Introduction to R - (pp. 19-28):http://lexicon.tufs.ac.jp/~class2009/thu5/Gries_19-28.pdf]]
--
--[[3.2 Vectors - (pp. 28-35):http://lexicon.tufs.ac.jp/~class2009/thu5/Gries_28-35.pdf]]
--
--[[3.2.3 Accessing and Processing (Parts of) Vectors - (pp. 35-39):http://lexicon.tufs.ac.jp/~class2009/thu5/Gries_35-39.pdf]]
--
--[[3.2.3 Accessing and Processing (Parts of) Vectors (2) - (pp. 39-44):http://lexicon.tufs.ac.jp/~class2009/thu5/Gries_40-44.pdf]]
--
--[[3.4 Data Frames - (pp. 44-49):http://lexicon.tufs.ac.jp/~class2009/thu5/Gries_44-49.pdf]]
--
--[[3.4.3 Accessing and Processing (Parts of) Data Frames - (pp. 50-58):http://lexicon.tufs.ac.jp/~class2009/thu5/Gries_50-58.pdf]]
--
--[[3.6 Elementary Programming Functions - (pp. 59-66):http://lexicon.tufs.ac.jp/~class2009/thu5/Gries_59-66.pdf]]
--
--[[3.6.2 Loops (2) - (pp. 66-73):http://lexicon.tufs.ac.jp/~class2009/thu5/Gries_66-73.pdf]]
--
--[[3.7.4 Searching and Replacing without Regular Expressions (2) - (pp. 73-81):http://lexicon.tufs.ac.jp/~class2009/thu5/Gries_73-81.pdf]]
--
--[[3.7.5 Searching and Replacing with Regular Expressions (2) - (pp. 81-89):http://lexicon.tufs.ac.jp/~class2009/thu5/Gries_81-89.pdf]]
--
--[[3.7.5 Searching and Replacing with Regular Expressions (3) - (pp. 89-96):http://lexicon.tufs.ac.jp/~class2009/thu5/Gries_89-96.pdf]]
--
--[[3.7.6 Merging and Splitting (Vectors of) Character Strings with Regular Expressions - (pp. 96-103):http://lexicon.tufs.ac.jp/~class2009/thu5/Gries_96-103.pdf]]
--


-Chapter 2
***Chapter 2 [#wa251e7e]
--[[2.1.1 What is a Corpus? (pp. 7-9):http://lexicon.tufs.ac.jp/~class2009/thu5/Gries_7-9.pdf]]
--
--[[2.1.2 What Kinds of Corpora are There (pp. 9-11):http://lexicon.tufs.ac.jp/~class2009/thu5/Gries_9-11.pdf]]
--
--[[2.2 Frequency Lists (pp. 12-14):http://lexicon.tufs.ac.jp/~class2009/thu5/Gries_12-14.pdf]]
--
--[[2.3 Lexical Co-occurrence: Collocations - (pp. 14-17):http://lexicon.tufs.ac.jp/~class2009/thu5/Gries_14-17.pdf]]
--


***スクリプト [#lae0ba9f]

-[[Chapter3:http://lexicon.tufs.ac.jp/~class2009/thu5/script/GriesChap3Script.txt]]


***Chapter 1: Introduction [#jaf5b027]

-Why R?
--スクリプトは1回書けば再利用可能
--よりコントロールがきく
--ツール開発者に依存しない
--カスタマイズ可能
--プログラミング言語としての汎用性
--R ですべてできる(vs. Perl or Python)

-本書の概要
--2章:コーパスの概念、コーパス言語学の方法論(頻度表、コロケーション、コンコーンダンス)
--3章:R の基本、テキスト処理の基礎
--4章:3章の方法でコーパスを処理してみる
--5章:統計的思考法、仮説検定などの基礎
--6章:事例研究(実際にデータをいじってみる)


**リンク [#g2c8364f]

-[[Companion website by S. Gries:http://www.linguistics.ucsb.edu/faculty/stgries/research/qclwr/qclwr.html]]

-[[Windows ユーザーのための R/Tinn-R:http://blue.zero.jp/yokumura/intro2R.html]]


トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS