『シェークスピアは誰ですか? -計量文献学の世界-』(村上征勝,文春新書)


 以前からちょっと気になっていたのが,計量文献学というジャンルである。さまざまな作家の作品について,本当にその作家の書いたものか贋作かを統計学的手法で明かにするもので,時々話題になることがある。

 具体的な方法は本書に詳しく説明されているが,例えばアルファベットで書かれた文献の場合,明かにその著者の作品とわかっている文章中の単語の長さの平均値(一つの単語が平均何文字か)を計算し,それと問題になっている文章が明かに異なっていればその作者のものではないだろう,とする分析法である。そうすることで,確からしさ(疑わしさ)を数値で表す事が可能になる。さらに文の長さ,単語の長さ,品詞や特定の言葉の出現率,語彙の豊富さなどで調べれば,更に精度は上がるはずだ。
 そういう世界を描いたのが本書である。


 非常に面白そうなので読んでみたが,ちょっと拍子抜けというか,「なんだ,やはりその程度なんですか?」とツッコミをいれたくなってしまった。この手法(=統計学)の性格上,「この作品がこの作者のものではない」と断言できないところが辛いし,どんなに精緻な数学的分析をしたとしてもパラメータをどれほど多くしても,やはりその限界は明らかなのである。


 本書で扱っているのは,シェークスピア(これほど有名でありながら,実在の人物かどうかは以前から疑問視されている)の正体は誰なのか,マーク・トウェインの作として伝えられる新聞に掲載された戦争体験談の真贋,ショーロホフの『静かなるドン』を巡る盗作疑惑,『源氏物語』の『宇治十帖』以降の章は本当に紫式部が書いたのか,『新訳聖書』のパウロ書簡は本当にパウロが書いたのかなど,文学史に残る疑問の数々である。どれを一つとっても,非常に興味深い問題ばかりだ。


 例えば,最も有名なのがシェークスピアの正体についての分析。古くはフランシス・ベーコン=シェークスピア説が有名だったが,その後,ベーコンの著書とシェークスピアの戯曲の単語の長さを比較した研究があり,その使用単語の分布様式から,両者は違っているという結論がまず出された。その後,ベーコンが書いたのは散文,シェークスピアは韻文だから,両者を比べても意味がないという疑問が呈され,1990年には一旦,シェークスピアの作品は全て一人の人間が書いたという結論が出されたものの,その4年後には新たな分析を元に,シェークスピアの初期の作品はクリストファー・マーロウが原作者ではないかといわれるようになった。更にその数年後には,別の分析法で,ベーコンでもマーロウでもなくオックスフォード伯がシェークスピアでないか,という説が主流になったのである。

 まあ,こう言うことは科学ではよくあることなんだけど,同じ物を見ているはずなのに分析の仕方がちょっと変わっただけで結論が全く異なるというのは,なんだかなぁ・・・。


 ショーロホフ『静かなるドン』でノーベル文学賞を受賞するが,実はこの作品の発表当時から,盗作疑惑があった。要するに,それまで無名に近い23歳の青年が果たして,これほど雄大な構想を持ち,高い完成度の小説が書けるのか,という疑惑である。では誰の作品を盗作したのかというと,コサック人の作家クリューコフの日記である。当初は眉唾と思われていた盗作疑惑だが,その説をソルジェニーツィンが支持したことから疑惑は一気に表に出てしまった。

 そして,コンピュータが動員され,クリューコフ,ショーロホフ,『静かなるドン』の文章の平均の長さとか,語彙の豊富さ(延べ語数に対する使用されている単語の数の割合)が比べられ,統計学的にショーロホフが『静かなるドン』を書いたとするほうが妥当であろう,という結論になっているらしい。だが,これらの数値を見ると,確かに数字的には違っているが,3者の差は極めて小さいのだ(小さくても差は差だけどさ・・・)。この程度の数字をもって,絶対的な差とする方が無理じゃないだろうか,という気がしてしまうのだ。


 その他にも,クラスター分析,語彙の豊富さを計測する積分的手法,識別指標(その文中のある特定の単語の出現頻度と,同時代に書かれた文章での出現頻度の比)などが紹介されていて,それぞれの数学的解析方法が説明されている。それらの数式やグラフを見ていると,何となくそれが正しいような気分になってくるが,なぜその指標を選んだ事自体が妥当なのかよくわからないし,分析のためにある項目に着目するのはいいとしても,なぜその項目でいいのかがよくわからないのである。

 例えば,一つの指標(例えば単語の長さ)で分析しても差が出なかったが,別の指標(例:語彙の豊富さ)で分析したら差が出たとする。場合によっては,2番目の指標でも差が出なかった場合は3番目の指標,3番目で差が出なければ・・・,ということになると思う。
 そうやって統計学的有意差を述べるのはいいとしても,統計学的に優位差が出なかった指標はどういうことになるのだろうか。5番目の指標で差が出たから,1番目から4番目までの指標は無視してもいいのだろうか。差が出るような要素を見つける事が研究の本質なのだろうか。

 本書を最後まで読んでも,こういう疑問がどうしても残ってしまうのだ。


 例えば,あるピアノ曲がショパンの作品かどうかを,このような統計学的に分析できるのだろうか。

 確かにショパンには変イ長調の曲が多い。また,3拍子の曲が多く,その中でもマズルカのリズムのものがかなりある。左手がアルペジオで右手がメロディーというのも多い。しかしだからといって,「変イ長調でマズルカのリズムで左手がアルペジオ」の曲がショパンと判断できるわけでもない。常軌の3条件が揃っていても,ショパンの曲である確率はせいぜい10%程度だろう。

 あるいは,ショパンの全作品に使われている音を数えて出現頻度を計算し,それと新発見の曲で使われる音の使用頻度との相関係数を計算したとしても,全く無効である。あるいは,楽譜の上で隣り合っている音符の相関を調べ,「ショパンでは真中のドの音の次に3度上のミの音が来る確率は0.1%なので,ドの後にミが使われている曲がショパンである確率は極めて低い」としたところで,それも全く無意味だろう。

 では,ショパンの全作品のフレーズを数え上げたら・・・,和声の動きの傾向を多変量解析したら・・・,ショパンの全作品に登場する3度の和音を調べ上げて使用頻度を分析したら・・・。
 まあこれも,やるだけ無駄だろう。要するに「ショパン風の曲」だな,ということは分析できても,それは「ショパンの曲」とは無関係である。


 要するに,本書で取り上げている「計量文献学」を専門に研究なさっている先生方には悪いのだが,上記のようなショパン研究方法とどこが違うのか,私にはさっぱりわからないのである。


と書いたら,同僚の鳥谷部先生から「これじゃ,結局,何が言いたいかよくわからないよ。あれじゃ駄目だよ。きちんと結論を書きなさい」と指導が入りました。ううむ,うるさいなぁ。

 というわけで,加筆しますね。

 まず,シェイクスピアについて。彼の実在については過去,さまざまな説が提出されていますが,現在では「シェイクスピアは実在の人物」というのがほぼ確実とされています(ちなみに鳥谷部先生によると,シェイクスピアの実在を信じる人たちは「シェイクスピア」と表記し,その存在を疑っている人たちは「シェークスピア」と表記する傾向があるそうです)
 つまり,計量文献学が証明した「シェークスピアは実在しなかった」という学説は,完全な誤りなんですね。要するに,計量文献学を有名にしたシェークスピア分析自体が,根本から間違っていたことになります。

 私から見れば,これは統計学が内在する根源的問題点です。そしてそれはいわば,EBMが内在する危うさにも通じます。同時に「RCT至上主義」「RCT無謬神話」を無邪気に信じていると,こういう過ちを犯します。そういうよい例が,本書です。

(2004/11/08)

 

 新しい創傷治療   なつい
キズとやけどのクリニック
 
 湿潤治療:医師リスト