スクリプトメモのバックアップの現在との差分(No.2)

バックアップ一覧
差分を表示
ソースを表示
バックアップを表示
スクリプトメモへ行く。
- 1 (2020-11-23 (月) 12:11:43)
- 2 (2020-11-23 (月) 14:16:48)

追加された行はこの色です。
削除された行はこの色です。

[[最近のRのメモ]]

*Shell script [#x5932abf]

-『英語学習者コーパス活用ハンドブック』 授業用の付属メモ（2020/11）
-Linux, Mac の terminal  標準
-Windows 10 で動かすには Windows Subsystem for Linux（WSL）を使おう：
--[[こちらを参照>https://www.atmarkit.co.jp/ait/articles/1809/14/news015.html]]


**NICEのデータ処理（第５章） [#of5e4cb1]

***学習者データのみのファイルを自動作成 [#je5658e4]

 #!/bin/sh    # これは bash のみ。zsh などでは不要
 cd `dirname $0`　　　# どこに移しても実行可能
 for file_name in `ls *.txt`   #ディレクトリ内のすべての text ファイルを file_nameに格納
 do
 # *JPN（日本人学習者）の行を取り出して、*JPNを削除した行だけを .out ファイルに出力
 grep \*JPN $file_name | perl -pe 's/^\*JPN[0-9]+:\t//g;' > $file_name.out
 done
 killall Terminal　　　　　# 終了したらターミナルを閉じる

***学習者の各テキストの発話文数と単語数を一括集計 [#re0e73ad]

 for file_name in `ls *.out`
 do
 wc -lw $file_name >> count.list.text
 done

-学習者データだけを *.outファイルで抜き出したディレクトリで実行する
-wc コマンドでファイルの行数と単語数をカウントしたら、count.list.txt に append する
--出力はこんな感じ：

      30     319 JPN501.txt.out
      29     365 JPN502.txt.out
      13     201 JPN503.txt.out
      27     260 JPN504.txt.out
      25     418 JPN505.txt.out
      20     260 JPN506.txt.out
      26     355 JPN507.txt.out
      20     195 JPN508.txt.out
      19     260 JPN509.txt.out
      14     183 JPN510.txt.out

-第１コラムが行数、第２コラムが単語数なので、こちらを Excel にインポートして、平均文長などを計算できる。

***TTRを求めてみる [#xca9c0f9]
***Lexical diversity measure を一括で計算する R パッケージ [#k763247e]

-TTRを求めるためには異なり語（type）と総語数（token）を求めないといけない。
-異なり語はいくつかの方法で求められる
--[[WordSmith 4(Win, free)>https://www.lexically.net/wordsmith/version4/]], [[CasualConc (Mac, free)>https://sites.google.com/site/casualconcj/]] などのファイル別に異なり語数、総語数を出力してくれるツールを使う
---AntConc ではファイル別の集計はできないので注意
--品詞タグ付与プログラムを用いてテキストに品詞と lemma を付与してテキスト集計する
---[[TagAnt>https://www.laurenceanthony.net/software/tagant/]] ※最近あまりうまく動かないので避けた方がよい
---TreeTagger のセットアップ：かなり知識が必要
---[[Online TreeTagger>https://cental.uclouvain.be/treetagger/]]
-いろいろなやり方があるが、R の package "koRpus" (Meik Michalke 氏作）の使い方を紹介しておく。
--Webpage: https://reaktanz.de/?c=hacking&s=koRpus
--Shiny app: https://ripley.psycho.hhu.de/R/koRpus/
---Descriptive statistics/Lexical diversity/Readability/Language detection

-具体的な使用方法はこちらを参照：
--私が NICE3.3 のデータで練習した R markdown ファイルのPDF [[表示>http://www.tufs.ac.jp/ts/personal/corpuskun/pdf/2020/koRpus.pdf]]
--TreeTagger のインストールが前提
--multiple files の扱いは tm という別モジュールを使いこなさないといけないので、基本的には１ファイルずつ分析するツールだと思った方がよい。






***諸注意 [#p3e0823e]

-Mac の場合は .sh ファイルとしたら、terminal で実行
-または .command ファイルにして実行権限を付与すれば Finder から実行可能
 
 chmod u+x filename.command

スクリプトメモ のバックアップの現在との差分(No.2)

スクリプトメモのバックアップの現在との差分(No.2)