最近のRのメモ

Shell script

  • 『英語学習者コーパス活用ハンドブック』 授業用の付属メモ(2020/11)
  • Linux, Mac の terminal 標準
  • Windows 10 で動かすには Windows Subsystem for Linux(WSL)を使おう:

NICEのデータ処理(第5章)

学習者データのみのファイルを自動作成

#!/bin/sh    # これは bash のみ。zsh などでは不要
cd `dirname $0`   # どこに移しても実行可能
for file_name in `ls *.txt`   #ディレクトリ内のすべての text ファイルを file_nameに格納
do
# *JPN(日本人学習者)の行を取り出して、*JPNを削除した行だけを .out ファイルに出力
grep \*JPN $file_name | perl -pe 's/^\*JPN[0-9]+:\t//g;' > $file_name.out
done
killall Terminal     # 終了したらターミナルを閉じる

学習者の各テキストの発話文数と単語数を一括集計

for file_name in `ls *.out`
do
wc -lw $file_name >> count.list.text
done
  • 学習者データだけを *.outファイルで抜き出したディレクトリで実行する
  • wc コマンドでファイルの行数と単語数をカウントしたら、count.list.txt に append する
    • 出力はこんな感じ:
     30     319 JPN501.txt.out
     29     365 JPN502.txt.out
     13     201 JPN503.txt.out
     27     260 JPN504.txt.out
     25     418 JPN505.txt.out
     20     260 JPN506.txt.out
     26     355 JPN507.txt.out
     20     195 JPN508.txt.out
     19     260 JPN509.txt.out
     14     183 JPN510.txt.out
  • 第1コラムが行数、第2コラムが単語数なので、こちらを Excel にインポートして、平均文長などを計算できる。

Lexical diversity measure を一括で計算する R パッケージ

  • 具体的な使用方法はこちらを参照:
    • 私が NICE3.3 のデータで練習した R markdown ファイルのPDF 表示
    • TreeTagger のインストールが前提
    • multiple files の扱いは tm という別モジュールを使いこなさないといけないので、基本的には1ファイルずつ分析するツールだと思った方がよい。

諸注意

  • Mac の場合は .sh ファイルとしたら、terminal で実行
  • または .command ファイルにして実行権限を付与すれば Finder から実行可能
    chmod u+x filename.command

トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2020-11-23 (月) 18:44:15 (143d)