宇佐美まゆみ監修のコーパスとして、東京外国語大学大学院地域文化研究科21世紀COEプログラム「言語運用を基盤とする言語情報学拠点」から、2005年6月から2007年3月にかけて、以下の2つのコーパスが公開されていました。
『BTSによる多言語話し言葉コーパス-日本語会話1』
『BTSによる多言語話し言葉コーパス-日本語会話2』
『日本語会話1・2』に含まれているデータには、録音した会話の一部のみの文字化資料を公開しているものがありました。公開後も、これらのデータの増補・整備を続け、録音した会話全ての文字化資料を完成させたものが、2007年に公開された『BTSによる多言語話し言葉コーパス-日本語会話3(日本語会話1・2の増補版)』です。
宇佐美研究室では、『BTSによる多言語話し言葉コーパス-日本語会話3(日本語会話1・2の増補版)』として増補した部分を『BTSによる多言語話し言葉コーパス-日本語会話1(日本語母語話者同士の会話)』および『BTSによる多言語話し言葉コーパス-日本語会話2(日本人と学習者の会話)』に統合し、2007年5月より新たに公開しております。それが、
近年、自然会話分析が数多く行われるようになり、話し言葉のコーパスも様々な種類のものが公開されています。しかし、音声学的な分析や、形態素分析、構文の分析のためではなく、人間の相互作用としての「言語運用」の分析に適した形で文字化され、蓄積された「話し言葉のコーパス」は、未だほとんどないのが現状です。また、自然会話をデータとして用いる研究では、会話の収集、文字化といった基礎的作業をはじめ、その後の分析にも多大な時間と労力を要します。そのため、このような研究を効率的に進めていくには、自然会話データを共有化することが必要です。
そういう状況の中、COE言語教育学班談話グループでは、2002年10月の本COE拠点の発足以来、多様な場面・言語(日本語、韓国語、中国語、英語など)の自然会話データを収集し、膨大な時間と労力を投入して『BTS(Basic Transcription System)による多言語話し言葉コーパス』の構築に取り組んできました。このたび、公開用資料として整備の整った日本語の2つのコーパスを公開いたします。この、人間の相互作用の分析に適した形のコーパスが広く利用され、自然会話をデータとする言語運用研究の発展の一助となることを願っています。
2003年度に収集し整備を行った日本語の話し言葉のコーパスには、日本語母語話者同士の会話と、日本語母語話者と日本語学習者の会話があります。会話参加者の年齢、性別、話題などが統制された形で集められていますので、様々な観点から比較・対照研究ができるようになっています。これらの会話は、文字化資料のかたちで収められています。
以下で、『BTSによる多言語話し言葉コーパス-日本語会話1(日本語母語話者同士の会話)』と『BTSによる多言語話し言葉コーパス-日本語会話2(日本人と学習者の会話)』に収録されているものを紹介します。
『BTSによる多言語話し言葉コーパス-日本語会話1(日本語母語話者同士の会話)』に収録されている談話コーパスは以下のとおりです。
コーパスの番号と名称 | 会話番号 | データの特徴 | データ数 | 総分数 |
1 親しい同性友人同士 (男女)の雑談 |
1-19 |
同性の友人同士の会話 | 19会話 | 444分24秒 |
2 初対面と友人同士 の女性の雑談 |
20-42 |
女性の、親しい友人同士と初対面の 会話 |
23会話 | 482分5秒 |
3 論文指導 |
43-52 |
教師と学生の面談の会話 | 10会話 | 311分 |
4 女性同士の 断りの電話会話 |
53-91 |
ある学生(女性)をベースに、電話で 「先輩」「同輩」「後輩」に依頼の電話 をかけた会話 |
39会話 | 53分28秒 |
5 同性同士男女の 依頼を含む電話会話 |
92-111 |
同性の友人同士の電話会話 | 20会話 | 53分02秒 |
6 友人同士の 女性の雑談 |
112-116 |
女性の友人同士の会話 | 5会話 | 91分55秒 |
計 |
- |
- | 116会話 | 1435分54秒 (約24時間) |
『BTSによる多言語話し言葉コーパス-日本語会話2(日本人と学習者の会話)』に収録されている談話コーパスは以下のとおりです。
コーパスの番号と名称 | 会話番号 | データの特徴 | データ数 | 総分数 |
1 OPIインタビュー |
1-4 |
OPIインタビュー形式に基づく、 フランス語母語話者の縦断データ |
4会話 | 40分 |
2 韓国人学習者(中級)と 日本人の初対面雑談 |
5-13 |
韓国人学習者のデータ | 10会話 | 249分 |
3 台湾人学習者(上級)と 日本人の初対面雑談 |
14-25 |
台湾人日本語学習者のデータ | 12会話 | 234分20秒 |
4 台湾人学習者(上級)と 日本人の友人の雑談 |
26-35 |
台湾人日本語学習者のデータ | 10会話 | 167分51秒 |
計 |
- |
- | 37会話 | 691分11秒(約11時間) |
各談話コーパスに収録されている会話数や話者の社会的属性、会話者同士の関係(初対面か友人同士か)、データ収集方法などをまとめたもの
以下のサンプルのような形で文字化資料が収録されています。音声資料は付いていません。
本コーパスを利用するにあたっては、「改訂版:基本的な文字化の原則(Basic Transcription System for Japanese: BTSJ、以下BTSJ)」を理解しておくことが必要となります。以下では、BTSJについて説明します。
本コーパスに収録されている自然会話資料を用いた研究論文は、以下の報告集に掲載されています。ご参照ください。
宇佐美まゆみ編 (2005) 『言語情報学報告集6 自然会話分析と会話教育-統合的モジュールへの模索-』東京外国語大学大学院地域文化研究科21世紀COEプロジェクト「言語運用を基盤とする言語情報学拠点」
本コーパスの利用には、利用条件に同意していただくことが必要です。以下の利用申込書に記載の利用条件をよく読み、必要事項を記入し、下記の連絡先まで郵送してください。