コーパスと言語教育・言語学習その1 | OUマルチリンガルプラザ

1. 言語学習に使えるコーパス
外国語を学ぶ時に皆さんはどのようにされているでしょうか？ほとんどの人は、教科書等を使って学習することが多いと思います。教科書や辞書に載っている表現は、いわゆる「規範」から外れていないことがほとんどです。ただし少し学習が進んでくると、教科書や文法書に載っている表現だけが全てではないことがわかってきます。例えば、「時間を尋ねる表現」は、最初に学ぶ時には “What time is it now?” と言う、と教えられることが一般的ですが、実際は “Do you have the time?” と言っていることも多いです。他にも、「アポイントを取る」と言いたい時に “take an appointment”なのか “make an appointment”なのかがわからなくなったという場合にコーパスを検索すると “take an appointment”の用例はほとんどない一方で、 “make an appointment”の場合は様々な媒体からの情報が出てきます。従ってこの場合は “make an appointment”と言うのが一般的だと言うことがわかります (これについては次回やってみましょう)。初学者から上級者まで、学んだ表現がネイティブスピーカーの世界では実際にどのように扱われているのか気になることがあると思います。そのような場面でネイティブスピーカーが身近にいれば尋ねることができますが、いつもそのような状況にいるとは限りませんし、彼らの意見が客観的なものであるとも言い切れないことがあります。そのようなときこそ、コーパスを活用するのに最も適切な場面の一つであるといえます。
また、辞書や文法書などでは規範的に制限されている語法や表現であっても、実際には頻繁に用いられていることも、コーパスを活用することによってわかる事があります。(to perfectly understand など、to不定詞の間に副詞が挿入されるsplit infinitiveという語法がその一例)、これらは実際のデータや数値によって表されるので、比較的客観性を保ちながら言語の実態について観察することができます。

2. コーパスとは何か
コーパスの定義として石川 (2012) は複数の辞書・研究者たちの考え方を要約し、
「(1)書き言葉や話し言葉などの現実の言語を、 (2) 大規模に、 (3) 基準に沿って網羅的・代表的に収集し、 (4) コンピュータ上で処理できるデータとして保存し、 (5) 言語研究に使えるもの」
としています。つまりは実例が豊富に、かつ、あらゆるデータから満遍なく集積された、データベースのことです。現代の言語を反映したものから、通時的なもの、様々な媒体からデータが取得されたものもあります。
かつては、コーパスといえば、情報量の多さからか英語のものが一般的でしたが、後に紹介する日本語コーパスをはじめ、様々な国の言語をもとにしたコーパスが生み出されており、その使い勝手も良くなっているようです。(例：el corpus del español (スペイン語)、北语汉语语料库(BCC) (中国語)、Национальный корпус русского языка (ロシア語) など。)

3. 言語教育に活かせるコーパス
　実際の教育の現場では、「使われることは多いけれども一般的に『破格』と見なされる表現や構文などを辞書に載せてもいいのか、教室で学生に教えても良いのか」という議論があります。そして、それに対してコーパスが問題解決の方針の一つを示すことがあります。特に近年では、「生きた英語」「活用できる英語」が重視されるようになってきているので、ネイティブスピーカーが使っている「中心的な用法」と「周辺的な用法」を区別することは非常に重要になってきているのです。それが辞書に載せる/載せない、教室で教える/教えないという事柄に関わる重要なポイントだからです。このことから、1で述べたこととも関連しますが、近年ではコーパスのデータに基づいて辞書が編纂されることも増えてきています。(コーパス準拠の辞書として代表的なのが、ウィズダム英和辞典、ユースプログレッシブ英和辞典など。: 石川 (2012))

4. 次回：いくつかのコーパスについて実際にさわってみた！

それでは、次回は(比較的汎用性の高いと思われる)誰でも無料でアクセスできる英語コーパスと日本語コーパスについて、実際に少しだけ検索してみたいと思います。(ただし、いずれも書き言葉が中心です)ここでは使用予定コーパスについて少しだけ紹介しておきます。

British National Corpus (イギリス英語コーパス)
1億語からなるイギリス英語のコーパスです。様々なプラットフォームからの検索が可能です。実際に英語学に関する研究に使われることも多いです。
JEFLL Corpus (学習者コーパス)
EFLとは「外国語としての英語」ということで、日本人の英語学習者である中学生・高校生の作文データをコーパス化したものです。
Tatoeba Corpus (対訳コーパス)
複数の言語の文と文とが対訳の形でまとめられたもので、「複数の言語」としていることからもわかるように英語だけでなく多くの言語において適用できるようです。
KOTONOHA Corpus (BCCWJ, 少納言) (日本語コーパス)
実際に日本語学研究などにおいて使用されることもある大規模コーパスです。書籍・雑誌などのほか、教科書やブログなどからの引用もなされており、多様な検索が可能となりそうです。

参考資料
石川慎一郎. (2012) 『ベーシックコーパス言語学』ひつじ書房：東京.

(福本広光)