pip install treetaggerwrapper
# TreeTagger Wrapper Test import treetaggerwrapper as ttw tagger = ttw.TreeTagger(TAGLANG='en') tags = tagger.tag_text('I have a pen.') print(tags)
['I\tPNP\ti', 'have\tVHB\thave', 'a\tAT0\ta', 'pen\tNN1\tpen', '.\tSENT\t.']
tags = tagger.tag_file('newfile.txt')
tagger.tag_file_to('newfile.txt', 'outfile.txt')
デフォルトではTreeTagger は1ファイルのみしか処理できないので、シェルスクリプトで連続実行できるようにする
for fn in *.txt; do ./cmd/tree-tagger-english ${fn} > ${fn}.pos; done
これは Mac OS X 上でのシェルスクリプトの例。ディレクトリ構造および TreeTagger のコマンドが Windows とは異なるかもしれない。
同一ディレクトリ内のすべての *.txt ファイルを、TreeTagger にかけて、*.pos という拡張子のファイルに変換するコマンド。
以下のバッチ・ファイルをディレクトリ名だけ変更して bin の下に置いて実行
rem TreeTagger (Windows version) を複数ファイルに連続実行させるバッチ・ファイル @echo off for %%f in (C:\Users\tono\Tools\TreeTagger\bin\*.txt) do tag-english %%f > %%f.pos.txt
現在,自分が使っているバッチファイルは以下の通り:
@echo off for %%A in (%1) do tag-english %%A > %%A.tag md tagged move %%A.tag tagged > nul