*英語学研究(2010年度後期) [#o6061ffd] **目的 [#ae440366] **時限・場所 [#r4c34545] -火曜日2時限 -教室:206 **テキスト [#t87baa1b] -金明哲(2009)『テキストデータの統計科学入門』(岩波書店) 各自購入のこと --[[サポートサイト>http://mjin.doshisha.ac.jp/iwanami/]] Sample Data もこちらからダウンロードできる **進め方 [#xbbc3732] -基本的にはチャプターごとにレポーターが内容をまとめて報告する -その際に、できるだけパソコン上で同様のツールを使って再現したりデモをしたりする -可能であれば、全員で練習してみる -どうしても無理な場合には、参考例をウェブなどから探してきて紹介する -投野が適宜、補足説明を行う **メーリングリスト [#j521b194] 2010-tono-tue2@tufs.ac.jp **受講の条件 [#aacd1415] -出席・参加 30% -分担発表 50% -その他課題 20% -レポートは各章の分担をきちんとプレゼンし報告すればよい -最終課題は特に設けない **シラバス [#mbd7f4f2] ***授業計画 [#x1591f8c] |10/5|ガイダンス & 第1章|投野([[PDF>http://www.tufs.ac.jp/ts/personal/tonolab/class/2010/tue2/TextMainingChapter01.pdf]])| |10/12|Tool と環境設定 (ラップトップを各自持参すること)|| |10/19|休講|| |10/26|第2章「テキストツールのクリーニングと関連ツール」|リンダ([[PDF:http://lexicon.tufs.ac.jp/~class2009/2010tue2/stats_ch2.pdf]])| ||第3章「形態素解析と構文解析」|金田([[PDF:http://lexicon.tufs.ac.jp/~class2009/2010tue2/stats_ch3.pdf]])| |11/2|第4章「テキストにおける集計モデルと集計ツール」|テオリン| ||第5章「テキストにおける統計法則と指標」|土肥([[PDF:http://lexicon.tufs.ac.jp/~class2009/2010tue2/stats_ch5.pdf]]) ([[Rスクリプト:http://lexicon.tufs.ac.jp/~class2009/2010tue2/ch5_script.txt]])| |11/9|第6章「テキストにおけるネットワーク分析」|星合([[PDF:http://lexicon.tufs.ac.jp/~class2009/2010tue2/stats_ch6.pdf]]) ([[Rスクリプト:http://lexicon.tufs.ac.jp/~class2009/2010tue2/ch6_script.txt]])| ||第7章「テキストの探索的分析」|リリ| |11/16|第8章「テキストにおける確率モデリング」|高杉| ||第9章「テキストと情報量」|テオリン| |11/30|第10章「テキストにおける推測分析」|リンダ| ||第11章「テキストにおける差異の分析と特徴抽出」|金田| |12/7|第12章「テキストの特徴と話題分析」|星合| ||第13章「テキストのクラスター分析」|りり| |12/14|第14章「テキストの分類」|土肥| |12/21|第15章「テキストの時系列分析」|高杉| |1/11|第16章「アソシエーション分析と意味処理」|| |1/18||| |1/25||| **ツール類 [#z10102a4] ***テキストエディタ [#y4234f30] サクラエディタを推奨、商用ならば MIFES がお薦め -[[秀丸>http://hide.maruo.co.jp/software/hidemaru.html]] -[[サクラエディタ>http://sakura-editor.sourceforge.net/]] ***Perl [#mefc0b66] Windows なら下記を。Cygwin をインストールしても使える。 -[[ActivePerl>http://www.activestate.com/Products/activeperl/]] -[[Cygwin>http://www.cygwin.com/]] ***形態素解析システム [#pe8e33f7] 実際はサポートサイトに解析済みデータがあるので絶対必要ではない。 -[[JUMAN>http://nlp.kuee.kyoto-u.ac.jp/nl-resource/top.html]] -[[茶筅>http://cl.aist-nara.ac.jp/]] 自然言語処理ツールのリンクから -[[MeCab>http://mecab.sourceforge.net/]] -Breakfast(富士通):これはもう今は利用できない模様 -[[KAKASI>http://kakasi.namazu.org/index.html.ja]] -すもも(NTT科学基礎研究所) ***構文解析システム [#o4c9a48d] -[[KNP>http://nlp.kuee.kyoto-u.ac.jp/nl-resource/knp.html]] -[[CaboCha>http://chasen.org/~taku/software/cabocha/]] ***集計ツール [#nc129fcc] -[[MLTP>http://mjin.doshisha.ac.jp/MLTP/]] これをメインで用いる -[[KH Coder>http://khc.sourceforge.net/index.html]] -[[RMeCab>http://groups.google.co.jp/group/rmecab?pli=1]] -[[RCaBoCha>http://rmecab.jp/wiki/index.php?RCaBoCha]] **テキスト取得のためのサイト [#d2c164a1] -[[青空文庫>http://www.aozora.gr.jp/]]