最近のRのメモ
Shell script †
- 『英語学習者コーパス活用ハンドブック』 授業用の付属メモ(2020/11)
- Linux, Mac の terminal 標準
- Windows 10 で動かすには Windows Subsystem for Linux(WSL)を使おう:
NICEのデータ処理(第5章) †
学習者データのみのファイルを自動作成 †
#!/bin/sh # これは bash のみ。zsh などでは不要
cd `dirname $0` # どこに移しても実行可能
for file_name in `ls *.txt` #ディレクトリ内のすべての text ファイルを file_nameに格納
do
# *JPN(日本人学習者)の行を取り出して、*JPNを削除した行だけを .out ファイルに出力
grep \*JPN $file_name | perl -pe 's/^\*JPN[0-9]+:\t//g;' > $file_name.out
done
killall Terminal # 終了したらターミナルを閉じる
学習者の各テキストの発話文数と単語数を一括集計 †
for file_name in `ls *.out`
do
wc -lw $file_name >> count.list.text
done
- 学習者データだけを *.outファイルで抜き出したディレクトリで実行する
- wc コマンドでファイルの行数と単語数をカウントしたら、count.list.txt に append する
30 319 JPN501.txt.out
29 365 JPN502.txt.out
13 201 JPN503.txt.out
27 260 JPN504.txt.out
25 418 JPN505.txt.out
20 260 JPN506.txt.out
26 355 JPN507.txt.out
20 195 JPN508.txt.out
19 260 JPN509.txt.out
14 183 JPN510.txt.out
- 第1コラムが行数、第2コラムが単語数なので、こちらを Excel にインポートして、平均文長などを計算できる。
Lexical diversity measure を一括で計算する R パッケージ †
- いろいろなやり方があるが、R の package "koRpus" (Meik Michalke 氏作)の使い方を紹介しておく。
- 具体的な使用方法はこちらを参照:
- 私が NICE3.3 のデータで練習した R markdown ファイルのPDF 表示
- TreeTagger のインストールが前提
- multiple files の扱いは tm という別モジュールを使いこなさないといけないので、基本的には1ファイルずつ分析するツールだと思った方がよい。
諸注意 †