スクリプトメモ - 投野由紀夫授業用ホームページ

[ トップ ] [ 編集 | 凍結 | 差分 | バックアップ | 添付 | リロード ] [ 新規 | 一覧 | 単語検索 | 最終更新 | ヘルプ ]

最新の20件

2025-06-12

TonoPaper

2025-05-06

TonoSpeech

2025-05-04

FrontPage

2025-04-06

2025-03-30

論文リスト

2024-12-23

過去のお知らせ

2024-09-01

CEFR-J Members

2024-07-20

CEFR-Jx28

2024-07-16

RecentDeleted

2024-04-14

DictionaryCanDo

2023-09-02

ChatGPT

2023-08-24

RTutorial2023

2022-12-29

UsefulUnix

2022-10-16

CEFR-J RLD

2022-04-30

投野研究室メンバー2022

2022-03-29

TreeTaggerMemo

2022-01-31

岩研コーパス部会

2021-11-16

UdPipe

2021-11-01

UsefulLinks

最近のRのメモ

Shell script †

『英語学習者コーパス活用ハンドブック』授業用の付属メモ（2020/11）
Linux, Mac の terminal 標準
Windows 10 で動かすには Windows Subsystem for Linux（WSL）を使おう：
- こちらを参照

NICEのデータ処理（第５章） †

学習者データのみのファイルを自動作成 †

#!/bin/sh    # これは bash のみ。zsh などでは不要
cd `dirname $0`　　　# どこに移しても実行可能
for file_name in `ls *.txt`   #ディレクトリ内のすべての text ファイルを file_nameに格納
do
# *JPN（日本人学習者）の行を取り出して、*JPNを削除した行だけを .out ファイルに出力
grep \*JPN $file_name | perl -pe 's/^\*JPN[0-9]+:\t//g;' > $file_name.out
done
killall Terminal　　　　　# 終了したらターミナルを閉じる

学習者の各テキストの発話文数と単語数を一括集計 †

for file_name in `ls *.out`
do
wc -lw $file_name >> count.list.text
done

学習者データだけを *.outファイルで抜き出したディレクトリで実行する
wc コマンドでファイルの行数と単語数をカウントしたら、count.list.txt に append する
- 出力はこんな感じ：

     30     319 JPN501.txt.out
     29     365 JPN502.txt.out
     13     201 JPN503.txt.out
     27     260 JPN504.txt.out
     25     418 JPN505.txt.out
     20     260 JPN506.txt.out
     26     355 JPN507.txt.out
     20     195 JPN508.txt.out
     19     260 JPN509.txt.out
     14     183 JPN510.txt.out

第１コラムが行数、第２コラムが単語数なので、こちらを Excel にインポートして、平均文長などを計算できる。

Lexical diversity measure を一括で計算する R パッケージ †

いろいろなやり方があるが、R の package "koRpus" (Meik Michalke 氏作）の使い方を紹介しておく。
- Webpage: https://reaktanz.de/?c=hacking&s=koRpus
- Shiny app: https://ripley.psycho.hhu.de/R/koRpus/
  - Descriptive statistics/Lexical diversity/Readability/Language detection

具体的な使用方法はこちらを参照：
- 私が NICE3.3 のデータで練習した R markdown ファイルのPDF 表示
- TreeTagger のインストールが前提
- multiple files の扱いは tm という別モジュールを使いこなさないといけないので、基本的には１ファイルずつ分析するツールだと思った方がよい。

諸注意 †

Mac の場合は .sh ファイルとしたら、terminal で実行
または .command ファイルにして実行権限を付与すれば Finder から実行可能
```
chmod u+x filename.command
```

Last-modified: 2020-11-23 (月) 18:44:15 (1698d)