英語学研究(2010年度後期) †
目的 †
時限・場所 †
テキスト †
- 金明哲(2009)『テキストデータの統計科学入門』(岩波書店) 各自購入のこと
- サポートサイト Sample Data もこちらからダウンロードできる
進め方 †
- 基本的にはチャプターごとにレポーターが内容をまとめて報告する
- その際に、できるだけパソコン上で同様のツールを使って再現したりデモをしたりする
- 可能であれば、全員で練習してみる
- どうしても無理な場合には、参考例をウェブなどから探してきて紹介する
- 投野が適宜、補足説明を行う
メーリングリスト †
2010-tono-tue2@tufs.ac.jp
受講の条件 †
- 出席・参加 30%
- 分担発表 50%
- その他課題 20%
- レポートは各章の分担をきちんとプレゼンし報告すればよい
- 最終課題は特に設けない
シラバス †
授業計画 †
10/5 | ガイダンス & 第1章 | 投野(PDF) |
10/12 | Tool と環境設定 (ラップトップを各自持参すること) | |
10/19 | 休講 | |
10/26 | 第2章「テキストツールのクリーニングと関連ツール」 | リンダ(PDF) |
11/2 | 第3章「形態素解析と構文解析」 | 金田(PDF) |
11/2 | 第4章「テキストにおける集計モデルと集計ツール」 | テオリン |
11/9 | 第5章「テキストにおける統計法則と指標」 | 土肥(PDF) (Rスクリプト) |
| 第6章「テキストにおけるネットワーク分析」 | 星合(PDF) (Rスクリプト) |
11/16 | 第7章「テキストの探索的分析」 | リリ(PDF) (Rスクリプト) |
11/30 | 第8章「テキストにおける確率モデリング」 | 高杉 |
12/7 | 第9章「テキストと情報量」 | テオリン |
12/14 | 第10章「テキストにおける推測分析」 | リンダ(PDF) (Rスクリプト) |
12/21 | 第11章「テキストにおける差異の分析と特徴抽出」 | 金田(PDF) (Rスクリプト) |
1/11 | 第12章「テキストの特徴と話題分析」 | 星合(PDF) (Rスクリプト) |
1/18 | 第13章「テキストのクラスター分析」 | りり(PDF) (Rスクリプト) |
1/25 | 第14章「テキストの分類」 | 土肥 |
2/1 | 第15章「テキストの時系列分析」 | 高杉 |
2/8 | 第16章「アソシエーション分析と意味処理」 | |
ツール類 †
テキストエディタ †
サクラエディタを推奨、商用ならば MIFES がお薦め
Perl †
Windows なら下記を。Cygwin をインストールしても使える。
形態素解析システム †
実際はサポートサイトに解析済みデータがあるので絶対必要ではない。
- Breakfast(富士通):これはもう今は利用できない模様
構文解析システム †
集計ツール †
テキスト取得のためのサイト †