英語学研究2009-2 - 投野由紀夫授業用ホームページ

[ トップ ] [ 編集 | 凍結 | 差分 | バックアップ | 添付 | リロード ] [ 新規 | 一覧 | 単語検索 | 最終更新 | ヘルプ ]

最新の20件

2025-06-12

TonoPaper

2025-05-06

TonoSpeech

2025-05-04

FrontPage

2025-04-06

2025-03-30

論文リスト

2024-12-23

過去のお知らせ

2024-09-01

CEFR-J Members

2024-07-20

CEFR-Jx28

2024-07-16

RecentDeleted

2024-04-14

DictionaryCanDo

2023-09-02

ChatGPT

2023-08-24

RTutorial2023

2022-12-29

UsefulUnix

2022-10-16

CEFR-J RLD

2022-04-30

投野研究室メンバー2022

2022-03-29

TreeTaggerMemo

2022-01-31

岩研コーパス部会

2021-11-16

UdPipe

2021-11-01

UsefulLinks

英語学研究2009

内容 †

後期は Stefan Gries (2009) Quantitative Corpus Linguistics with R (Routledge) を読みながら、R でやるコーパス言語学の基本を一緒に習得します。

日程表 †

配布資料を参照

補足資料・ハンドアウト †

Chapter 4 †

4.1.1 A Frequency List of an Unannotated Corpus (pp. 106-110) [藤田]
4.1.2 A Reverse Frequency List of an Unannotated Corpus (pp. 110-112) [後上]
4.1.3 A Frequency List of an Annotated Corpus (pp. 112-114) [本田]
4.1.4 A Frequency List of Tag-word Sequences from an Annotated Corpus (pp. 114-118) [人見]
4.1.5 A Frequency List of Word Pairs from an Annotated Corpus (pp. 118-124)[金田]
- 日本語環境用修正版読み込みファイル @4.1.5 (p.118-124)
4.1.6 A Frequency List of an Annotated Corpus (with One Word Per Line) (pp. 124-126) [藤田]
4.1.7 A Frequency List of Word Pairs of an Annotated Corpus (with One Word Per Line) (pp. 126-127) [後上]
4.2.1 A Concordance of an Unannotated Text File (pp. 127-134) [金田]
4.2.2 A Simple Concordance from Files of a POS-tagged (SGML) Corpus (pp. 135-141) [人見]
4.2.3 More Complex Concordances from Files of a POS-tagged (SGML) Corpus (pp. 141-145) [本田]
4.2.4 A Lemma-based Concordance from Files of a POS-tagged and Lemmatized (XML) Corpus (pp. 146-149) [藤田]
- 日本語環境用修正版読み込みファイル (BNC baby) @4.2.4 (p.146-149)
4.3 Collocations (pp. 149-156) [後上]
4.4 Escursus 1: Processing Multi-tiered Corpora(pp. 156-166) [人見]
4.5 Excursus 2: Unicode (pp. 166-167) [本田]
　　　　　4.5.1 Excursus 2: Frequency Lists (pp. 167-169) [本田]
4.5.2 Concordancing (pp. 169-172) [金田]

修正ファイル補足 †

日本語環境用修正版読み込みファイル @4.1.5 (p.118-124)
- ファイル冒頭にある文字化け個所を削除しました。

日本語環境用修正版読み込みファイル (BNC baby) @4.2.4 (p.146-149)
- シングルクォーテーションマークが文字化けしているのを正しく変換しました。
- 2バイト文字の￡を GBP に変換しました。
- おそらく度量衡の記号と思われる個所の文字化けを、 CRD に変換しました。
- 推測不可能な文字化けを、lemma=unid, word=XXXに変換しました（1813行目）。

Chapter 3 †

Chapter 2 †

スクリプト †

Chapter3

Chapter 1: Introduction †

Why R?
- スクリプトは1回書けば再利用可能
- よりコントロールがきく
- ツール開発者に依存しない
- カスタマイズ可能
- プログラミング言語としての汎用性
- R ですべてできる（vs. Perl or Python）

本書の概要
- ２章：コーパスの概念、コーパス言語学の方法論（頻度表、コロケーション、コンコーンダンス）
- ３章：R の基本、テキスト処理の基礎
- ４章：３章の方法でコーパスを処理してみる
- ５章：統計的思考法、仮説検定などの基礎
- ６章：事例研究（実際にデータをいじってみる）

リンク †

Companion website by S. Gries

Windows ユーザーのための R/Tinn-R

Last-modified: 2010-01-31 (日) 15:41:29 (5647d)