*英語学研究(2010年度後期) [#o6061ffd]

**目的 [#ae440366]

**時限・場所 [#r4c34545]

-火曜日2時限
-教室:206

**テキスト [#t87baa1b]

-金明哲(2009)『テキストデータの統計科学入門』(岩波書店) 各自購入のこと
--[[サポートサイト>http://mjin.doshisha.ac.jp/iwanami/]] Sample Data もこちらからダウンロードできる

**進め方 [#xbbc3732]

-基本的にはチャプターごとにレポーターが内容をまとめて報告する
-その際に、できるだけパソコン上で同様のツールを使って再現したりデモをしたりする
-可能であれば、全員で練習してみる
-どうしても無理な場合には、参考例をウェブなどから探してきて紹介する
-投野が適宜、補足説明を行う

**メーリングリスト [#j521b194]

2010-tono-tue2@tufs.ac.jp

**受講の条件 [#aacd1415]

-出席・参加    30%
-分担発表       50%
-その他課題    20%

-レポートは各章の分担をきちんとプレゼンし報告すればよい
-最終課題は特に設けない

**シラバス [#mbd7f4f2]

***授業計画 [#x1591f8c]

|10/5|ガイダンス & 第1章|投野([[PDF>http://www.tufs.ac.jp/ts/personal/tonolab/class/2010/tue2/TextMainingChapter01.pdf]])|
|10/12|Tool と環境設定 (ラップトップを各自持参すること)||
|10/19|休講||
|10/26|第2章「テキストツールのクリーニングと関連ツール」|リンダ([[PDF:http://lexicon.tufs.ac.jp/~class2009/2010tue2/stats_ch2.pdf]])|
|11/2|第3章「形態素解析と構文解析」|金田([[PDF:http://lexicon.tufs.ac.jp/~class2009/2010tue2/stats_ch3.pdf]])|
|11/2|第4章「テキストにおける集計モデルと集計ツール」|テオリン|
|11/9|第5章「テキストにおける統計法則と指標」|土肥([[PDF:http://lexicon.tufs.ac.jp/~class2009/2010tue2/stats_ch5.pdf]]) ([[Rスクリプト:http://lexicon.tufs.ac.jp/~class2009/2010tue2/ch5_script.txt]])|
||第6章「テキストにおけるネットワーク分析」|星合([[PDF:http://lexicon.tufs.ac.jp/~class2009/2010tue2/stats_ch6.pdf]]) ([[Rスクリプト:http://lexicon.tufs.ac.jp/~class2009/2010tue2/ch6_script.txt]])|
|11/16|第7章「テキストの探索的分析」|リリ|
|11/30|第8章「テキストにおける確率モデリング」|高杉|
|12/7|第9章「テキストと情報量」|テオリン|
|12/14|第10章「テキストにおける推測分析」|リンダ([[PDF:http://lexicon.tufs.ac.jp/~class2009/2010tue2/stats_ch10.pdf]]) ([[Rスクリプト:http://lexicon.tufs.ac.jp/~class2009/2010tue2/ch10_script.txt]])|
|12/21|第11章「テキストにおける差異の分析と特徴抽出」|金田([[PDF:http://lexicon.tufs.ac.jp/~class2009/2010tue2/stats_ch11.pdf]]) ([[Rスクリプト:http://lexicon.tufs.ac.jp/~class2009/2010tue2/ch11_script.txt]])|
|1/11|第12章「テキストの特徴と話題分析」|星合|
|1/18|第13章「テキストのクラスター分析」|りり|
|1/25|第14章「テキストの分類」|土肥|
|2/1|第15章「テキストの時系列分析」|高杉|
|2/8|第16章「アソシエーション分析と意味処理」||

**ツール類 [#z10102a4]

***テキストエディタ [#y4234f30]

サクラエディタを推奨、商用ならば MIFES がお薦め


-[[秀丸>http://hide.maruo.co.jp/software/hidemaru.html]]

-[[サクラエディタ>http://sakura-editor.sourceforge.net/]]

***Perl [#mefc0b66]

Windows なら下記を。Cygwin をインストールしても使える。

-[[ActivePerl>http://www.activestate.com/Products/activeperl/]]

-[[Cygwin>http://www.cygwin.com/]]


***形態素解析システム [#pe8e33f7]

実際はサポートサイトに解析済みデータがあるので絶対必要ではない。


-[[JUMAN>http://nlp.kuee.kyoto-u.ac.jp/nl-resource/top.html]]

-[[茶筅>http://cl.aist-nara.ac.jp/]] 自然言語処理ツールのリンクから

-[[MeCab>http://mecab.sourceforge.net/]]

-Breakfast(富士通):これはもう今は利用できない模様

-[[KAKASI>http://kakasi.namazu.org/index.html.ja]]

-すもも(NTT科学基礎研究所)


***構文解析システム [#o4c9a48d]

-[[KNP>http://nlp.kuee.kyoto-u.ac.jp/nl-resource/knp.html]]

-[[CaboCha>http://chasen.org/~taku/software/cabocha/]]


***集計ツール [#nc129fcc]

-[[MLTP>http://mjin.doshisha.ac.jp/MLTP/]] これをメインで用いる

-[[KH Coder>http://khc.sourceforge.net/index.html]]

-[[RMeCab>http://groups.google.co.jp/group/rmecab?pli=1]]

-[[RCaBoCha>http://rmecab.jp/wiki/index.php?RCaBoCha]]



















**テキスト取得のためのサイト [#d2c164a1]

-[[青空文庫>http://www.aozora.gr.jp/]]


トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS