多変量解析を用いた分析

鑓水 兼貴


1. はじめに

 日本の社会言語学の研究は、大きく「変異の研究」と「談話の研究」の二つの分野にわかれる。「変異」と「談話」は対立する概念ではない。しかし、変異研究では談話を扱うことは少なく量的研究が多いのに対して、談話研究は質的分析が中心なので、結果として対立しているといえる。なお、このほか言語の盛衰や、言語政策といった、言語自体を取り扱う分野もある。
 本稿では、変異の研究における集計から多変量解析までの過程について、データの要約という観点から簡単に解説する

2. 調査データの整理・集計

 全時代全世界の集団を網羅した調査を独力で実施することは不可能である。そのため実際の生の集団を対象にして調査データは、それだけで貴重な資料となりうる。  ただし、そうした調査データから仮説の検証、法則の発見、未知の要因の探索をするには、データの整理が不可欠である。特に量的分析の場合は、数値的な処理をするため、この整理の段階が重要になる。
 調査データを数量的に処理する意義としては、

などがある(及川1999)。つまりデータの要約である。数量的なデータの処理は一見客観的な分析にみえるが、それは統計処理の部分だけである。そのためデータの記述は数量的分析に適するように標準化しておく必要がある。
 選択式の場合、数値化は簡単ではあるが選択肢作成に注意が必要である。また自由回答の場合はカテゴリーごとに分類するための一定の基準を定める必要がある。
 最も基本的なデータの要約は、単純集計、クロス集計などである。世代や地域、属性ごとに平均や合計、分散などを計算するだけでも、データのさまざまな側面がわかる。

3. 多変量解析による要約

 しかし項目数の多い調査データにおいては、基本的な集計だけで傾向を把握するのは容易でない。青木( ホームページ )によれば、2つ以上の変数の場合、クロス集計の比較では大変である上に落とし穴があることがわかる。
 人間の思考が追いつけないような複雑な状況を要約する統計手法として多変量解析が存在する。多変量解析は大量のデータから代表的な傾向を抽出する統計的手法であり、計算方法は複雑だが、コンピュータの発達で個人でも可能になるほど普及してきた。
 代表的な多変量解析としては、

  1. 重回帰分析 いくつかの変数に基づいて、別の変数を予測する
  2. 判別分析 いくつかの変数に基づいて、各データがどの群に所属するかを判定する
  3. 主成分分析 多変量データの持つ情報を,少数個の総合特性値に要約
    因子分析  多変量データから潜在的ないくつかの 共通因子を推定する

などがある。また、Yes-No型のデータ(アンケートに多い)の場合、日本では林知己夫による数量化理論がよく用いられる。それぞれT類、U類、V類の役割がおよそ上記の(1)(2)(3)に対応している。
 入門書としては、石村(1992) をはじめ数多くの出版物がある。インターネットでは、群馬大学の青木氏のホームページ(http://aoki2.si.gunma-u.ac.jp/)が最も充実している。解説から自習ノート、WWW上での統計計算サービスなどを行われており、非常に便利である。

4. データの要約例

 河西(1981)は、『日本言語地図(LAJ)』における標準語形の回答者数を都道府県別に集計することで、標準語形がどのような分布をみせているかを考察した。言語地図のデータは、質問ごとに全国各地の話者がどのような語形を回答するかという形式であり、そのまま集計することはできない。そのため、

といったように、目的を定めて数量的にまとめる基準をつくることで、LAJのデータを数量的な分析が可能なデータにつくり変えた(下図)。


 この状態でも元データはかなり要約された状態になった。およその標準語の分布傾向を分析することは出来る。下の表は集計対象となった82語形の都道府県別標準語形回答率の平均である。関東、関西といった地域が標準語の基礎になっていることがわかる。


 しかし上述したように、都道府県別標準語形回答率を82項目分を眺めるだけでは、なかなか関係が把握しづらい。そのため背後の要因を分析する多変量解析へと発展させたのが井上・河西(1982)である。
 この論文では、82項目×48地域(都道府県+東京島嶼部)の標準語形回答率の行列を、多変量解析である因子分析によって分析し、標準語形を、地域ごと語形ごとにパターン分類して考察している(下図表)。

 河西のデータは LAJ の一側面にすぎないが、一定の基準にしたがって簡潔に数値化されたために、多変量解析にも適したデータになったといえる。そして多変量解析によって、複雑だった LAJ データを、標準語形という視点から要約が出来たのである。

5. おわりに

 調査データは数量的に要約することでより深い分析を可能にする。しかしその一方で数量的研究を無批判におこなうことは危険である。主な理由として、

などがある。統計の問題点を理解していないと分析を誤るおそれが生じる。特に多変量解析の場合、計算式が複雑なため、文科系の人々の大多数が計算過程を理解せずに分析に使用しており注意が必要である。もっと簡単な統計を用いる際でも、ある程度は原理を理解しておく(無理であれば解説書などにかかれている原理のイメージを頭にいれておく)のは重要なことである。



参考文献

青木 繁伸 (随時更新)『Black Box』(WWW上のデータ解析ツール)
 http://aoki2.si.gunma-u.ac.jp/BlackBox/BlackBox.html
石村 貞夫 (1992)『すぐわかる多変量解析』東京図書
井上 史雄・河西 秀早子(1982)「標準語形の地理的分布パターン」国語学131
及川 昭文 (1999)「数字で考え、数字で解く人文科学―数量的分析のすすめ―」人文学と情報処理20 勉誠出版
河西 秀早子(1981)「標準語形の全国分布」言語生活354

国語学・方言学におけるデータ処理文献 (ごく一部のみですが)

[アンケート処理・統計処理]
荻野 綱男(1994)『アンケート調査分析用ソフトウェア GLAPSの使い方 第2版』(私家版)
[調査・分析方法]
徳川 宗賢・真田 信治(1991)『新・方言学を学ぶ人のために』世界思想社
宮地 裕・甲斐 睦朗・野村 雅昭・荻野綱男 編 (1997) 『ハンドブック 論文・レポートの書き方』明治書院
[言語地図]
福嶋 秩子・福嶋 祐介 (2001)『パソコンによる言語地理学:その方法と実践 SEALユーザーズマニュアル 第5版 (SEAL version 6.0 for Windows98/Me/2000)』文部省科学研究費報告書
※SEAL については、http://www.nicol.ac.jp/~fukusima/inet/lg.html にて公開している。
[実例集]
DB-West(西日本国語国文学データベース研究会) 編著 (1995) 『パソコン国語国文学』啓文社
真田 信治・ダニエル ロング (1997)『社会言語学図集―日本語・英語解説―』秋山書店