東京外国語大学大学院地域文化研究科21世紀COEプログラム「言語運用を基盤とする言語情報学拠点」では、2003年度の研究成果である『BTSによる多言語話し言葉コーパス-日本語会話1』『BTSによる多言語話し言葉コーパス-日本語会話2』を公開しています。
近年、自然会話分析が数多く行われるようになり、話し言葉のコーパスも様々な種類のものが公開されています。しかし、音声学的な分析や、形態素分析、構文の分析のためではなく、人間の相互作用としての「言語運用」の分析に適した形で文字化され、蓄積された「話し言葉のコーパス」は、未だほとんどないのが現状です。また、自然会話をデータとして用いる研究では、会話の収集、文字化といった基礎的作業をはじめ、その後の分析にも多大な時間と労力を要します。そのため、このような研究を効率的に進めていくには、自然会話データを共有化することが必要です。
そういう状況の中、COE言語教育学班談話グループでは、2002年10月の本COE拠点の発足以来、多様な場面・言語(日本語、韓国語、中国語、英語など)の自然会話データを収集し、膨大な時間と労力を投入して『BTS(Basic Transcription System)による多言語話し言葉コーパス』の構築に取り組んできました。このたび、公開用資料として整備の整った日本語の2つのコーパスを公開いたします。この、人間の相互作用の分析に適した形のコーパスが広く利用され、自然会話をデータとする言語運用研究の発展の一助となることを願っています。
2003年度に収集し整備を行った日本語の話し言葉のコーパスには、日本語母語話者同士の会話と、日本語母語話者と日本語学習者の会話があります。会話参加者の年齢、性別、話題などが統制された形で集められていますので、様々な観点から比較・対照研究ができるようになっています。これらの会話は、文字化資料のかたちでCD-ROMに収められています。
以下で、『BTSによる多言語話し言葉コーパス-日本語会話1(日本語母語話者同士の会話)』と『BTSによる多言語話し言葉コーパス-日本語会話2(日本人と学習者の会話)』に収録されているものを紹介します。
『BTSによる多言語話し言葉コーパス-日本語会話1(日本語母語話者同士の会話)』に収録されている談話コーパスは以下のとおりです。
コーパスの番号と名称 | 会話番号 | データの特徴 | データ数 | 総分数 |
1 親しい友人同士 男女の雑談 |
1-19 |
同性の友人同士の会話 | 20会話 | 466分 |
2 初対面と友人同士 の女性の雑談 |
20-44 |
女性の、親しい友人同士と初対面の 会話 |
24会話 | 502分 |
3 論文指導 |
45-57 |
教師と学生の面談の会話 | 12会話 | 120分 |
4 女性同士の 断りの電話会話 |
58-96 |
ある学生(女性)をベースに、電話で 「先輩」「同輩」「後輩」に依頼の電話 をかけた会話 |
39会話 | 78分35秒 |
5 同性同士男女の 依頼を含む電話会話 |
97-116 |
同性の友人同士の電話会話 | 20会話 | 53分02秒 |
6 友人同士の 女性の雑談 |
117-121 |
女性の友人同士の会話 | 5会話 | 78分30秒 |
計 |
- |
- | 121会話 | 1298分7秒 (約21時間) |
『BTSによる多言語話し言葉コーパス-日本語会話2(日本人と学習者の会話)』に収録されている談話コーパスは以下のとおりです。
コーパスの番号と名称 | 会話番号 | データの特徴 | データ数 | 総分数 |
1 OPIインタビュー |
1-4 |
OPIインタビュー形式に基づく、 フランス語母語話者の縦断データ |
4会話 | 40分 |
2 韓国人学習者(中級)と 日本人の初対面雑談 |
5-13 |
韓国人学習者のデータ | 10会話 | 135分 |
3 台湾人学習者(上級)と 日本人の初対面雑談 |
14-23 |
台湾人日本語学習者のデータ | 10会話 | 100分 |
4 台湾人学習者(上級)と 日本人の友人の雑談 |
24-33 |
台湾人日本語学習者のデータ | 33会話 | 150分 |
計 |
- |
- | 57会話 | 425分(約7時間) |
各談話コーパスに収録されている会話数や話者の社会的属性、会話者同士の関係(初対面か友人同士か)、データ収集方法などをまとめたもの
以下のサンプルのような形で文字化資料が収録されています。音声資料は付いていません。
本コーパスを利用するにあたっては、「改訂版:基本的な文字化の原則(Basic Transcription System for Japanese: BTSJ、以下BTSJ)」を理解しておくことが必要となります。以下では、BTSJについて説明します。
また、この文字化資料を用いて会話を分析する方法を説明します。
本コーパスに収録されている自然会話資料を用いた研究論文は、以下の報告集に掲載されています。ご参照ください。
宇佐美まゆみ編 (2005) 『言語情報学報告集6 自然会話分析と会話教育-統合的モジュールへの模索-』東京外国語大学大学院地域文化研究科21世紀COEプロジェクト「言語運用を基盤とする言語情報学拠点」
本コーパスの利用には、利用条件に同意していただくことが必要です。以下の利用申込書に記載の利用条件をよく読み、必要事項を記入し、下記の連絡先まで郵送してください。