頻度分析をしてみる
今日のタスク
-
KWIC Concordance for Windowsを使ってみる.
-
Projekt Gutenbergのページから,大量のコーパスをダウンロードして,本格的な研究の材料を得る.
-
ドイツ語でもっとも頻度が高い語を割り出す.
-
エクセルで偏差値をつけてみる.
準備
-
KWIC Condordance for Windowsをインストールしておく.ファイルはこちら.
-
このソフトはコーパス分析用に開発されたフリーソフトです.コーパス分析にはTXTANAというすぐれたソフトがありますが,これはシェア・ウエアでお金を払わないと検索の件数が制限されるので,今日のところはKWIC
Concordance for Windowsを使います.
-
-
Projekt Gutenbergとは,著作権が切れている作家の作品を電子化して無料で公開しているプロジェクトです.
-
何しろ,無料で手に入るで非常に便利です.
-
反面,少し古いドイツ語しか手に入らないという欠点があります.また,英語の作品はいくらでも手に入るのにドイツ語のはかなり数が制限されています.
-
どうやって,材料のコーパスを手に入れるかはとても大切な問題ですが,それはそのうち教えます.
-
作業1
-
GutenbergからとってきたファイルのUmlautなどを→#oに変換する.
-
できたファイルをテクストファイル形式で保存する.
-
KWIC Concordance for Windowsを起動して,「ファイル」−「コーパスファイル設定」−「入力ファイル」に上で作ったファイルを指定する.
-
「単語リスト」-「単語リスト」で,単語リストを作成し,さらに,「単語リスト」−「高頻度順リスト」で高頻度順のリストを作成する.
作業2
-
上で作ったファイルを出力し,EXCELで単語頻度の偏差値を出す.