コーパス分析導入
今日のタスク
-
単語の文字数の平均値を求める.
-
『踊る人形』がドイツ語だったら?
-
『踊る人形』の中でホームズは,奇妙な人形の絵はそれぞれアルファベットを表していると見破った.その手がかりは,「英語ではeで始まる単語が一番多いのだよ.ワトソン君」の言葉に象徴される統計的知識であった.英語のコーパスでホームズが本当に正しいかは時間があったらやることにして,とりあえず,ドイツ語では,どの文字で始まる単語が一番多いか調べて見よう.
テクストの成形(エクセルでテクストを処理しやすいように単語が縦一列にならんでいるファイルを作成する)
- ドイツ語のテキストを手に入れる.最初は新聞の一つの記事程度.
- それをコピー&ペーストでワードに移す.
- 「編集」の「置換」機能を用いて,「半角・全角スペース」を「段落記号」に置換する.
- 置換の画面で,まずオプションをクリック
- 「あいまい検索」のチェック記号をはずす.→ 「特殊文字」のバーが出てくる.
- 「検索する文字列」に,「全角または半角のスペース」(^w),「置換後の文字列」に「段落記号」(^p)を入れる.
- 「すべて置換」をクリックする
- できたファイルを「テクストファイル形式」で保存する.名前はmojisuu.txtにしておく.
エクセルでの処理
- エクセルでmojisuu.txtを読み込む(読み込むファイルの形式を「すべて」または「テクストファイル」にしておくこと).
- Aの列に一列に単語が並んでいることを確かめる.1つのセルに1つの単語が入っていなければならない.
- アルファベット順に並び替える.
- 数字などは不要なので削除しておく.
- A1のセルに単語が入っているのを確かめて,B1のセルに関数LENを使って,A1の単語の文字数を表示させる.
- すべての単語の文字数を表示させる.(B1のセルの右下にカーソルを当てて,下方にずっとドラッグしていく)
- それが終わったら,文字数の平均値を関数AVERAGEを使って割り出す.
上で得た結果と自分たちの作文の文字数を比較してみる.
-
mojisuu2.docとして以前提出してもらった自己紹介の作文をまとめてあります.それをダウンロードしてください.→ダウンロード.
- 上と同じ作業をして,結果を比較してみよう.