- 追加された行はこの色です。
- 削除された行はこの色です。
*英語学研究(2010年度後期) [#o6061ffd]
**目的 [#ae440366]
**時限・場所 [#r4c34545]
-火曜日2時限
-教室:206
**テキスト [#t87baa1b]
-金明哲(2009)『テキストデータの統計科学入門』(岩波書店) 各自購入のこと
--[[サポートサイト>http://mjin.doshisha.ac.jp/iwanami/]] Sample Data もこちらからダウンロードできる
**進め方 [#xbbc3732]
-基本的にはチャプターごとにレポーターが内容をまとめて報告する
-その際に、できるだけパソコン上で同様のツールを使って再現したりデモをしたりする
-可能であれば、全員で練習してみる
-どうしても無理な場合には、参考例をウェブなどから探してきて紹介する
-投野が適宜、補足説明を行う
**メーリングリスト [#j521b194]
2010-tono-tue2@tufs.ac.jp
**受講の条件 [#aacd1415]
-出席・参加 30%
-分担発表 50%
-その他課題 20%
-レポートは各章の分担をきちんとプレゼンし報告すればよい
-最終課題は特に設けない
**シラバス [#mbd7f4f2]
***授業計画 [#x1591f8c]
|10/5|ガイダンス & 第1章|投野([[PDF>http://www.tufs.ac.jp/ts/personal/tonolab/class/2010/tue2/TextMainingChapter01.pdf]])|
|10/12|Tool と環境設定 (ラップトップを各自持参すること)||
|10/19|休講||
|10/26|第2章「テキストツールのクリーニングと関連ツール」|リンダ|
||第3章「形態素解析と構文解析」|金田|
|10/26|第2章「テキストツールのクリーニングと関連ツール」|リンダ([[PDF:http://lexicon.tufs.ac.jp/~class2009/2010tue2/stats_ch2.pdf]])|
||第3章「形態素解析と構文解析」|金田([[PDF:http://lexicon.tufs.ac.jp/~class2009/2010tue2/stats_ch3.pdf]])|
|11/2|第4章「テキストにおける集計モデルと集計ツール」|テオリン|
||第5章「テキストにおける統計法則と指標」|土肥|
|11/9|第6章「テキストにおけるネットワーク分析」|星合|
||第7章「テキストの探索的分析」|リリ|
|11/16|第8章「テキストにおける確率モデリング」|高杉|
||第9章「テキストと情報量」|テオリン|
|11/30|第10章「テキストにおける推測分析」||
||第11章「テキストにおける差異の分析と特徴抽出」||
|12/7|第12章「テキストの特徴と話題分析」||
||第13章「テキストのクラスター分析」||
|12/14|第14章「テキストの分類」||
|12/21|第15章「テキストの時系列分析」||
|1/11|第16章「アソシエーション分析と意味処理」||
|1/18|||
|1/25|||
**ツール類 [#z10102a4]
***テキストエディタ [#y4234f30]
サクラエディタを推奨、商用ならば MIFES がお薦め
-[[秀丸>http://hide.maruo.co.jp/software/hidemaru.html]]
-[[サクラエディタ>http://sakura-editor.sourceforge.net/]]
-[[ActivePerl>http://www.activestate.com/Products/activeperl/]]
***形態素解析システム [#pe8e33f7]
実際はサポートサイトに解析済みデータがあるので絶対必要ではない。
-[[JUMAN>http://nlp.kuee.kyoto-u.ac.jp/nl-resource/top.html]]
-[[茶筅>http://cl.aist-nara.ac.jp/]] 自然言語処理ツールのリンクから
-[[MeCab>http://mecab.sourceforge.net/]]
-Breakfast(富士通):これはもう今は利用できない模様
-[[KAKASI>http://kakasi.namazu.org/index.html.ja]]
-すもも(NTT科学基礎研究所)
***構文解析システム [#o4c9a48d]
-[[KNP>http://nlp.kuee.kyoto-u.ac.jp/nl-resource/knp.html]]
-[[CaboCha>http://chasen.org/~taku/software/cabocha/]]
***集計ツール [#nc129fcc]
-[[MLTP>http://mjin.doshisha.ac.jp/MLTP/]] これをメインで用いる
-[[KH Coder>http://khc.sourceforge.net/index.html]]
-[[RMeCab>http://groups.google.co.jp/group/rmecab?pli=1]]
-[[RCaBoCha>http://rmecab.jp/wiki/index.php?RCaBoCha]]
**テキスト取得のためのサイト [#d2c164a1]
-[[青空文庫>http://www.aozora.gr.jp/]]