[[英語学研究2009]] **内容 [#ncd649a3] 後期は Stefan Gries (2009) Quantitative Corpus Linguistics with R (Routledge) を読みながら、R でやるコーパス言語学の基本を一緒に習得します。 **日程表 [#y9a189f8] 配布資料を参照 **補足資料・ハンドアウト [#p971859a] ***Chapter 4 [#na07b0db] --[[4.1.1 A Frequency List of an Unannotated Corpus (pp. 106-110) [藤田]:http://lexicon.tufs.ac.jp/~class2009/thu5/Gries_106-110.pdf]] --[[4.1.2 A Reverse Frequency List of an Unannotated Corpus (pp. 110-112) [後上]:http://lexicon.tufs.ac.jp/~class2009/thu5/Gries_110-112.pdf]] --[[4.1.3 A Frequency List of an Annotated Corpus (pp. 112-114) [本田]:http://lexicon.tufs.ac.jp/~class2009/thu5/Gries_112-114.pdf]] --[[4.1.4 A Frequency List of Tag-word Sequences from an Annotated Corpus (pp. 114-118) [人見]:http://lexicon.tufs.ac.jp/~class2009/thu5/Gries_114-118.pdf]] --[[4.1.5 A Frequency List of Word Pairs from an Annotated Corpus (pp. 118-124)[金田]:http://lexicon.tufs.ac.jp/~class2009/thu5/Gries_118-124.pdf]] ---[[日本語環境用修正版読み込みファイル @4.1.5 (p.118-124):http://lexicon.tufs.ac.jp/~class2009/thu5/modulated_corp_brown-tagged.txt]] --[[4.1.6 A Frequency List of an Annotated Corpus (with One Word Per Line) (pp. 124-126) [藤田]:http://lexicon.tufs.ac.jp/~class2009/thu5/Gries_124-126.pdf]] --[[4.1.7 A Frequency List of Word Pairs of an Annotated Corpus (with One Word Per Line) (pp. 126-127) [後上]:http://lexicon.tufs.ac.jp/~class2009/thu5/Gries_126-127.pdf]] --[[4.2.1 A Concordance of an Unannotated Text File (pp. 127-134) [金田]:http://lexicon.tufs.ac.jp/~class2009/thu5/Gries_127-134.pdf]] --4.2.2 A Simple Concordance from Files of a POS-tagged (SGML) Corpus (pp. 135-141) [人見] --[[4.2.2 A Simple Concordance from Files of a POS-tagged (SGML) Corpus (pp. 135-141) [人見]:http://lexicon.tufs.ac.jp/~class2009/thu5/Gries_124-126.pdf]] --4.2.3 More Complex Concordances from Files of a POS-tagged (SGML) Corpus (pp. 141-145) [本田] --4.2.4 A Lemma-based Concordance from Files of a POS-tagged and Lemmatized (XML) Corpus (pp. 146-149) [藤田] ---[[日本語環境用修正版読み込みファイル (BNC baby) @4.2.4 (p.146-149):http://lexicon.tufs.ac.jp/~class2009/thu5/modulated_corp_bncb_xml.txt]] --4.3 Collocations (pp. 149-156) [後上] --4.4 Escursus 1: Processing Multi-tiered Corpora(pp. 156-166) [人見] --4.5 Excursus 2: Unicode (pp. 166-167) [本田]~ 4.5.1 Excursus 2: Frequency Lists (pp. 167-169) [本田] --4.5.2 Concordancing (pp. 169-172) [金田] ***修正ファイル補足 [#jaf5b027] -[[日本語環境用修正版読み込みファイル @4.1.5 (p.118-124):http://lexicon.tufs.ac.jp/~class2009/thu5/modulated_corp_brown-tagged.txt]] --ファイル冒頭にある文字化け個所を削除しました。 -[[日本語環境用修正版読み込みファイル (BNC baby) @4.2.4 (p.146-149):http://lexicon.tufs.ac.jp/~class2009/thu5/modulated_corp_bncb_xml.txt]] --シングルクォーテーションマークが文字化けしているのを正しく変換しました。 --2バイト文字の £ を GBP に変換しました。 --おそらく度量衡の記号と思われる個所の文字化けを、 CRD に変換しました。 --推測不可能な文字化けを、lemma=unid, word=XXXに変換しました(1813行目)。 ***Chapter 3 [#t2138ecd] --[[3. An Introduction to R - (pp. 19-28):http://lexicon.tufs.ac.jp/~class2009/thu5/Gries_19-28.pdf]] -- --[[3.2 Vectors - (pp. 28-35):http://lexicon.tufs.ac.jp/~class2009/thu5/Gries_28-35.pdf]] -- --[[3.2.3 Accessing and Processing (Parts of) Vectors - (pp. 35-39):http://lexicon.tufs.ac.jp/~class2009/thu5/Gries_35-39.pdf]] -- --[[3.2.3 Accessing and Processing (Parts of) Vectors (2) - (pp. 39-44):http://lexicon.tufs.ac.jp/~class2009/thu5/Gries_40-44.pdf]] -- --[[3.4 Data Frames - (pp. 44-49):http://lexicon.tufs.ac.jp/~class2009/thu5/Gries_44-49.pdf]] -- --[[3.4.3 Accessing and Processing (Parts of) Data Frames - (pp. 50-58):http://lexicon.tufs.ac.jp/~class2009/thu5/Gries_50-58.pdf]] -- --[[3.6 Elementary Programming Functions - (pp. 59-66):http://lexicon.tufs.ac.jp/~class2009/thu5/Gries_59-66.pdf]] -- --[[3.6.2 Loops (2) - (pp. 66-73):http://lexicon.tufs.ac.jp/~class2009/thu5/Gries_66-73.pdf]] -- --[[3.7.4 Searching and Replacing without Regular Expressions (2) - (pp. 73-81):http://lexicon.tufs.ac.jp/~class2009/thu5/Gries_73-81.pdf]] -- --[[3.7.5 Searching and Replacing with Regular Expressions (2) - (pp. 81-89):http://lexicon.tufs.ac.jp/~class2009/thu5/Gries_81-89.pdf]] -- --[[3.7.5 Searching and Replacing with Regular Expressions (3) - (pp. 89-96):http://lexicon.tufs.ac.jp/~class2009/thu5/Gries_89-96.pdf]] -- --[[3.7.6 Merging and Splitting (Vectors of) Character Strings with Regular Expressions - (pp. 96-103):http://lexicon.tufs.ac.jp/~class2009/thu5/Gries_96-103.pdf]] -- ***Chapter 2 [#wa251e7e] --[[2.1.1 What is a Corpus? (pp. 7-9):http://lexicon.tufs.ac.jp/~class2009/thu5/Gries_7-9.pdf]] -- --[[2.1.2 What Kinds of Corpora are There (pp. 9-11):http://lexicon.tufs.ac.jp/~class2009/thu5/Gries_9-11.pdf]] -- --[[2.2 Frequency Lists (pp. 12-14):http://lexicon.tufs.ac.jp/~class2009/thu5/Gries_12-14.pdf]] -- --[[2.3 Lexical Co-occurrence: Collocations - (pp. 14-17):http://lexicon.tufs.ac.jp/~class2009/thu5/Gries_14-17.pdf]] -- ***スクリプト [#lae0ba9f] -[[Chapter3:http://lexicon.tufs.ac.jp/~class2009/thu5/script/GriesChap3Script.txt]] ***Chapter 1: Introduction [#jaf5b027] -Why R? --スクリプトは1回書けば再利用可能 --よりコントロールがきく --ツール開発者に依存しない --カスタマイズ可能 --プログラミング言語としての汎用性 --R ですべてできる(vs. Perl or Python) -本書の概要 --2章:コーパスの概念、コーパス言語学の方法論(頻度表、コロケーション、コンコーンダンス) --3章:R の基本、テキスト処理の基礎 --4章:3章の方法でコーパスを処理してみる --5章:統計的思考法、仮説検定などの基礎 --6章:事例研究(実際にデータをいじってみる) **リンク [#g2c8364f] -[[Companion website by S. Gries:http://www.linguistics.ucsb.edu/faculty/stgries/research/qclwr/qclwr.html]] -[[Windows ユーザーのための R/Tinn-R:http://blue.zero.jp/yokumura/intro2R.html]]