トップ  »  新着情報  »  2011年12月 月次レポート(水沼修 ポルトガル)

2011年12月 月次レポート(水沼修 ポルトガル)

ITP-EUROPA月次レポート(12月)

水沼 修

 リスボン大学では,12月22日から1月6日までクリスマス休暇となります。自分が参加している大学院の授業では,12月中に全講義を終え,1月に筆記テストがあり,その後ショートペーパーを提出することとなっています。
 現在,「コーパス言語学」の期末レポートの執筆を行っているところです。ショートペーパーのテーマは,「現代ポルトガル語参照コーパスにみる欧州ポルトガル語における複合時制の使用」にしました。担当の先生と相談し,博士論文のテーマと関係のあるテーマを選び,同ショートペーパーの調査をできる限り自分の研究に生かせるよう配慮しました。
 「現代ポルトガル語参照コーパス(Reference Corpus of Contemporary Portuguese: CRPC)」は,リスボン大学言語学センターによって作成されている現代ポルトガル語の電子化コーパス(http://www.clul.ul.pt/en/research-teams/408-crpc)で,ポルトガル語の各変種(ポルトガル,ブラジル,アンゴラ,モザンビーク,カボ・ヴェルデ,サントメ・プリンシペ,ギニア・ビサウ,東ティモール,マカオ)による書き言葉(文学,新聞,法律等)及び話し言葉のテキストが約35万点,計3億語以上が収録されています。CRPCは,オンライン・コンコーダンサーが用意されており,検索結果をmicrosoft wordやexcelで出力することが可能となっています。
 ショートペーパーでは,このコーパスを利用して,欧州ポルトガル語における複合時制の使用に関して,レジスター間に見られる差異を中心に調査したいと考えています。CRPCは,収録されている全てのテキストに品詞タグが付いているのですが,タグ付けが不正確なケースも散見されます。そのため,web上の検索で抽出した全用例を一つ一つ確認する作業が必要となり,これに多くの時間を要しました。例文の整理を行ったのち,データの分析や,論の進め方等について担当の先生と相談しながらレポートを仕上げていくことになっています。
 なお,現代ポルトガル語の電子化コーパスとしては,これ以外にも代表的なものに,「CINTIL(Corpus Internacional do Português)」や,「CETEMPúblico」があります。
前者は,リスボン大学言語学センターによって作成されている書き言葉(新聞・雑誌)及び話し言葉のテキストからなるコーパスで,収録語数は約1億語になります.後者はポルトガルの日刊紙「Público」の1991年から1998年にかけての約2600日分を電子化したもので,収録語数は計1億8千万語になります。いずれも,各種タグ付けがなされており,オンライン・コンコーダンサーが利用できますが,検索の仕方や検索結果の出力形式などはそれぞれのコーパスで異なるので注意が必要です。
 今回のレポートでは,CRPCから抽出した欧州ポルトガル語データのみを分析の対象としますが,博士論文の執筆に向け,上に挙げたような各種現代語コーパスを対象とした調査についても検討していきたいと考えています。
 

このページの先頭へ