分子の構造活性相関解析のためのニューラルネットワークシミュレータ: Neco(NEural network simulator for structure-activity COrrelation of molecules)の開発(4)
― ペリラルチン類の甘味・苦味分類 ―

田島 澄恵, 松本 高利, 長嶋 雲兵, 細矢 治夫, 青山 智夫


Return

1 はじめに

ペリラルチンは、植物のシソに含まれるペリラルアルデヒドから合成され、シソ糖と呼ばれる甘味化合物であり、その甘味は非常に強く蔗糖の数千倍とも言われている。ペリラルチンの誘導体(Figure 1)は、甘味を示すものと苦味を示すものがあり、その分類は定量的構造活性相関の成功例としてよく知られている。[1, 2]
高橋ら[1]は、甘味や苦みの性質を示す22種類のペリラルチン誘導体の分類のため、説明変数として疎水性パラメータLogP(1-オクタノール/水の分配係数の対数値)と分子構造STERIMOLパラメータ[3 - 6]5種(Figure 2),合計6種のパラメータ(Table 1)から、Fisher比の高い3変数(LogP, Wu, Wr)を選択した。それらを用いたKNN法[7]では、甘味・苦味の分類において25番と51番の分子が誤認識される。しかし線形学習機械法[8, 9]を用いると、誤認識は起こらない。[1]

Table 1. Log P and STERIMOL parameters for Perillartine derivatives
Mol.1sweet2/bitterlog PLWlWuWrWd
112.588.523.132.853.421.99
410.875.103.131.912.941.90
812.288.693.192.843.421.99
2811.109.363.142.943.411.98
2911.409.363.143.263.562.10
3411.486.063.092.083.011.71
3711.108.873.302.633.072.52
4211.486.293.092.633.072.52
4310.787.103.091.913.411.91
4410.809.013.092.203.412.02
4511.109.013.082.523.432.53
140-0.100.673.334.113.562.10
150-0.109.363.043.763.622.22
160-0.929.373.143.563.562.10
220-0.725.513.052.533.411.97
230-0.726.153.162.673.011.72
2500.346.053.252.623.432.03
3300.7210.673.514.083.632.22
4801.407.983.123.425.962.00
4900.807.683.092.325.841.96
5001.107.683.092.435.892.57
5101.905.882.722.953.923.85
1: Details of for Perillartine derivatives and STERIMOL parameters are depicted in Figures 1, 2.
2: Sweet and bitter are 1 and 0, respectively.


Figure 1. Sweet/bitter structures of Perillartine derivatives


Figure 2. Details of STERIMOL parameters[1, 2] and numbering of atoms

我々は、構造活性相関のためのニューラルネットワークシミュレータNecoを開発してきた[10 - 13]。 Necoで採用されているパーセプトロン型のニューラルネットワークは非線形分類に有効であることがよく知られており、本論文では、非線形分類法の一つである三層パーセプトロン型ニューラルネットと再構築学習法[14]を用いて、ペリラルチン誘導体の構造活性相関解析を行った結果を報告する。

2 計算結果

2. 1 疎水性パラメータlog Pと構造パラメータ(STERIMOL)の場合

Table 1に示す疎水性パラメータlog Pと構造パラメータ(STERIMOL)[1, 2]を用いて、入力層6ニューロン、出力層ニューロン2とし、中間層ニューロン数を再構築学習法[14]で最小化した。このとき最小化された中間層ニューロンの数は1となった。
入力層ニューロン数6、中間層1,出力層2(6,1,2)としたときのバックプロパゲーションによる学習の結果をTable 2に示す。学習条件は以下の通りである。ネットワークの初期値として全結合重みを1.0とした。学習誤差のしきい値は、1%程度の誤差を容認するとして0.0011とした。学習の反復回数の上限を100000回としたが、この場合収束には1500回の反復が必要であった。ただし、異なる初期値を用いて生成した乱数など、他の初期値を用いてもほぼ2000回以内で収束した。(1,0)が甘味を示すもので(0,1)が苦味を示すものとして学習を行った。Table 2に示されるように、誤認識はない。KNNで誤認識される[1, 2] 25と51の誤差は苦味を示すもののうちで大きいとはいえ、1%程度の誤差であり、他のものと大きな違いはない。言い換えると25と51がとりわけ他と異なっているという結果ではない。また、中間層ニューロンの数が1であることは、線形学習機械法で誤認識が無いこと[1]に対応している。

Table 2. Results of learning by three layer perceptron (6,1,2) with Log P and STERIMOL parameters
sweetbitter
No.Item12No.Item12
110.9975140.00248612140.0038200.996180
240.9955240.00447513150.0038110.996189
390.9974990.00250114160.0036240.996376
4280.9960970.00390315220.0036910.996309
5290.9938240.00617616230.0040680.995932
6340.9974480.00255217250.0091330.990867
7370.9959200.00408018330.0067460.993254
8420.9909370.00906219480.0037990.996202
9430.9966830.00331720490.0053440.994656
10440.9971750.00282521500.0042600.995740
11450.9959950.00400422510.0077650.992235
Input data:Table 1
Out put data:1, 0 for sweet and 0, 1 for bitter

Table 3. Weight of network in the three layer perceptron (6,1,2) with Log P and STERIMOL parameters
layer1(row) and layer2(column)layer2(column) and 3(row)
log PLWlWuWrWd12
116.377.63-1.76-10.35-9.39-6.3811.62-11.62
FR*78.40.01740.05960.149.59.14
*: Fishers' ratio [1] (×10-3)

ネットワーク構造を(6,1,2)としたときのバックプロパゲーションによる学習結果のネットワークの重みをTable 3に示した。左側が入力層と中間層の重みであり、右側が中間層と出力層の重みである。下段は高橋ら[1]によるFisher比(×10-3)である。入力層と中間層ニューロン間の係数の絶対値は、それぞれのニューロンからの信号の重要性を反映しており、この傾向は、Fisher比によるパラメータのランクの傾向とLとWdの順序が逆転しているとはいえ、ほぼ一致する。つまり従来の解釈と同じように、一番重要なパラメータは疎水性パラメータLogPであり、次に重要なのは分子の厚みWuと幅Wrである。より細かく見るならば、logPが大きく、分子長Lが長くかつ分子の厚みWuや幅Wrが短いものが甘味が強くなると言うことを示している。
次に、中間層ニューロン数を1に固定して、同様に学習誤差0.0011という条件で、誤認識をおこさない入力パラメータ数最小の組を求めると、LogP,とWrの2つのパラメータからなる組を得た。
ネットワーク構造を(2,1,2)としたときのバックプロパゲーションによる学習結果のネットワークの重みをTable 4に示す。左側が入力層と中間層の重みであり、右側が中間層と出力層の重みである。これは、ペリラルチン誘導体の甘味・苦味の三層パーセプトロン型ニューラルネットを用いた非線形分類ではLogP とWrが本質的なパラメータであることを示している。また、LogPよりWrの方が重要であることを示唆している。

Table 4. Weight of network in the three layer perceptron (2,1,2) with Log P and STERIMOL parameters
layer1(row) and 2(column)layer 2(column) and 3(row)
log PWr12
1-30.2374.82-19.9419.94

高橋らが採用したFisher比の大きな(LogP, Wu, Wr)の3つのパラメータを用いた場合、学習誤差0.0011とし100000回以内の学習で誤認識が無くなるためには中間層ニューロン数を4以上にすることが必要であった。4以下では、100000回以内の学習回数では収束せず、中間層ニューロン数1、2,3いずれの場合でも51を誤認識する。

Table 5. Weight of network in the three layer perceptron (3,4,2) with Log P and STERIMOL parameters
layer1(row) and 2(column)layer 2(column) and 3(row)
log PWuWr12
110.81-1.96-24.907.31-7.31
210.53-0.80-27.228.23-8.23
322.71-3.37-17.907.54-7.54
44.330.71-29.978.84-8.84

ネットワーク構造を(3,4,2)としたときのバックプロパゲーションによる学習結果のネットワークの重みをTable 5に示す。この結果では、Fisher比の順とは異なり、Wr, LogP, Wuの順で重要となる。Wuはすべての重みがLogPとWrに比べ小さい。この結果は、先に示したようにLogPとWrがペリラルチンの甘味・苦味分類に本質的なパラメータであることを強く示唆している。

2. 2 疎水性パラメータlog Pと共通骨格の形式電荷および軌道エネルギーの場合

前節で用いたSTERIMOLパラメータが量子化学的意味づけが曖昧であることの理由のため、手軽に計算可能でかつ量子化学的意味づけが比較的明確な共通骨格部分(Figure 2の番号を打った7原子)の形式電荷とHOMO, LUMOエネルギーおよびHOMO-LUMO Gapを入力データとして学習を行った。

Table 6. Log P, Formal charge, HOMO, LUMO energy, and HOMO-LUMO Gap of Perillartine derivatives
LogPFormal Chargeorbital energy
O1N2C3C4C5C6C7HOMOLUMOGap
No.Item1234567891011
112.58-0.26-0.06-0.10-0.08-0.14-0.13-0.12-9.170.219.38
240.87-0.26-0.06-0.10-0.08-0.14-0.19-0.18-9.190.199.38
382.28-0.26-0.06-0.10-0.07-0.14-0.13-0.12-9.140.249.38
4281.10-0.26-0.06-0.10-0.08-0.13-0.13-0.12-9.160.229.38
5291.40-0.26-0.06-0.10-0.08-0.13-0.13-0.12-9.120.269.38
6341.48-0.26-0.06-0.10-0.08-0.14-0.13-0.12-9.160.239.39
7371.10-0.25-0.06-0.10-0.06-0.11-0.12-0.12-8.71-0.408.31
8421.48-0.26-0.06-0.10-0.07-0.11-0.15-0.12-8.66-0.248.42
9430.78-0.26-0.06-0.10-0.08-0.10-0.15-0.12-8.52-0.248.28
10440.80-0.26-0.06-0.10-0.07-0.13-0.09-0.09-9.050.129.17
11451.10-0.26-0.06-0.10-0.07-0.14-0.12-0.12-9.160.219.38
1214-0.10-0.26-0.06-0.10-0.09-0.13-0.14-0.12-9.260.139.39
1315-0.10-0.26-0.06-0.10-0.07-0.14-0.13-0.12-9.280.129.39
1416-0.92-0.26-0.06-0.09-0.07-0.12-0.12-0.12-8.950.419.36
1522-0.72-0.25-0.05-0.10-0.06-0.180.00-0.16-9.38-0.019.37
1623-0.72-0.25-0.06-0.10-0.11-0.13-0.170.01-9.38-0.009.38
17250.34-0.25-0.05-0.11-0.07-0.14-0.25-0.12-8.55-0.01 8.55
18330.72-0.26-0.06-0.09-0.07-0.12-0.12-0.15-8.890.479.36
19481.40-0.26-0.06-0.10-0.07-0.14-0.13-0.12-9.180.239.41
20490.80-0.26-0.06-0.10-0.07-0.15-0.13-0.12-9.160.259.41
21501.10-0.26-0.06-0.10-0.08-0.13-0.11-0.08-8.970.179.14
22 511.90-0.26-0.06-0.09-0.08-0.13-0.06-0.05-9.190.159.34
Data of sweet/bitter are not shown in this table because these are the same as in Table 1.

これは、ペリラルチン誘導体の甘味・苦味活性がそれらの共通骨格部分の電荷分布の差異に反映すると考えられること、および、HOMO, LUMOエネルギーとその差は、分子全体に広がる情報を含んでいること、活性発現の初期相互作用が、電子供与的か電子吸引的かラジカル的かの傾向を見ることができると考えられるためである。
これらの値の計算はMOPAC93/AM1[15]を用いて分子構造最適化を行い、それぞれの値を求めた。入力データをTable 6に示す。表作成の都合上、有効桁数を3桁で示したが、実際の計算は有効数字6桁を入力して行った。
この場合も再構築学習法によって最小化された中間層ニューロン数は1となった。ネットワーク構造を(11,1,2)としたときのバックプロパゲーションによる学習結果をTable 7に示す。ここでも、ネットワークの初期値として全結合重みを1.0とした。学習条件は先の場合と同様、学習誤差のしきい値は0.0011である。収束には4954回の反復を要した。

Table 7. Results of learning by three layer perceptron (6,1,2) with Log P, formal charge, and etc.
sweetbitter
No.Item12No.Item12
110.9984620.00153812140.0069650.993035
240.9982710.00172913150.0027890.997211
380.9984610.00153914160.0027880.997212
4280.9906240.00937615220.0027880.997212
5290.9979310.00206916230.0027880.997212
6340.9981550.00184517250.0027890.997211
7370.9984620.00153818330.0027880.997212
8420.9984620.00153819480.0135620.986438
9430.9984620.00153820490.0027940.997206
10440.992449 0.00755121500.0044300.995570
11450.9919410.00805922510.0027890.997211
Input data:Table 6
Output data:1, 0 for sweet and 0, 1for bitter

先に説明したSTERIMOLパラメータを用いた場合の1500回の反復に比べ収束が遅くなっている。この収束が遅くなる傾向は、乱数など異なる初期値を用いてもほぼ同様である。(1,0)が甘味を示すもので(0,1)が苦味を示すものとして学習を行った。最小化された中間層ニューロン数は1である。ネットワーク構造(11,1,2)としバックプロパゲーションで学習させたニューラルネットワークの分類結果をTable 7に示す。ここでも誤認識はない。STERIMOLパラメータを用いた場合にKNNで誤認識される25と51の誤差は、苦味を示すもののうちで大きくはなく、むしろ小さくなっている。この場合は、28と48の誤差が大きくなっているが、その値は1%以下である。また、STERIMOLパラメータを用いた場合と同様、中間層ニューロンの数が1であることは、これらのパラメータを用いても線形学習機械法で誤認識無く分類ができる可能性を示している。
ネットワーク構造(11,1,2)としバックプロパゲーションで学習させたニューラルネットワークの重みをTable 8に示した。この場合も、入力層と中間層ニューロン間の係数の絶対値は、それぞれのニューロンからの信号の重要性を反映している。
ここでも一番重要なパラメータは、疎水性パラメータLogPであり、次に重要なのは、C3からC7の炭素の電荷である。今回用いたペリラルチン誘導体において、大きな電荷を持つ末端の酸素の部位は、長距離のクーロン相互作用を考慮すると分子認識上のフラグとして重要であると考えられる。しかしこの結果をみると酸素の電荷の寄与は、甘味・苦味の分類においては小さい。これは、酸素と窒素の部位がペリラルチン誘導体が活性サイトにアプローチする際には重要であるが、生体内での甘味・苦味の活性には、それらの部位よりむしろ分子骨格の炭素原子が形成する電子状態が重要であることを示唆している。

Table 8. Weight of network in the three layer perceptron (11,1,2) with Log P and Formal charge etc.
Weight matrix between layer1(row) and layer2(column)
LogPFormal Chargeorbital energy
O1N2C3C4C5C6C7HOMOLUMOGap
161.56-8.9015.21-49.97-39.8349.3944.83-38.86-9.30-34.69-14.40
Weight matrix between layer 2(column) and 3(row)
12
112.35-12.35

また、HOMO, LUMO軌道エネルギーおよびその差は分子全体を見るためのパラメータとして導入したパラメータであるが、重みを見るとLUMOのエネルギーの寄与が大きい。これは、基質からの電子受容性が小さいほど甘味を感じるということを示している。またこれらのLUMOは、分子骨格の炭素上のπ軌道から構成されていることから、電荷の解析からも示唆されるように、分子骨格上の炭素原子が形成する電子状態が、ペリラルチン誘導体の甘味・苦味の活性に重要であるといえる。
STERIMOLパラメータは、分子の最安定構造の電子構造のみならず、様々に複雑な効果が繰り込まれたパラメータであると考えられるが、本計算結果からも、LUMOのような求電子的効果も含まれていると考えることができる。
次に、単純な分子軌道計算から得られるデータのみで分類が可能かどうかをみるために、疎水性パラメータLogPを除いて電荷と軌道エネルギーならびにその差のみを入力として、再構築学習法によって中間層ニューロン数を最小化するとそれは3となった。ネットワーク構造(10,3,2)としバックプロパゲーションで学習させたニューラルネットワークの重みをTable 9にしめす。学習条件はこれまでのものと同様である。この場合、出力層に大きな重みを持つ中間層ニューロン1と入力パラメータの重みをみると、酸素の寄与が大きいが窒素は大きな寄与をもたないことがわかる。
先にも述べたように酸素の大きな負電荷は、長距離のクーロン相互作用を考慮すると分子認識上のフラグとして重要であると考えられる。そのためLogPは、遠距離の相互作用と分子全体の電子状態の効果を含んでいると考えられる。またC7炭素の重みが小さいことは、LogPとSTERIMOLパラメータを用いた場合のSTERIMOLパラメータWrが重要であるということによく対応している。

Table 9. Weight of network in the three layer perceptron (10,3,2) with Formal charge and etc.
Weight matrix between layer1(row) and layer2(column)
Formal Chargeorbital energy
O1N2C3C4C5C6C7HOMOLUMOGap
1-21.730.16-46.64-15.9926.4125.121.249.96-14.38-11.87
2-29.84-18.19-53.48-15.8930.9917.00-4.8038.339.92-9.75
3-56.148.87-127.08-28.3011.4319.7232.382.7915.0726.03
Weight matrix between layer 2(row) and 3(column)
12
116.94-16.94
211.43-11.43
311.56-11.56

3 まとめ

疎水性パラメータとSTERIMOLパラメータを入力データとして用いて、3層のパーセプトロン型ニューラルネットの学習を行った結果、誤認識が全く無しに正しい分類が可能であることがわかった。 また入力層ニューロン数と出力層ニューロン数をそれぞれ6と2としたとき、再構築学習法によって最適化された中間層ニューロン数は1となり、最小の中間層ニューロン数を持つことがわかった。これは線形学習機械法で誤認識が無いこと[1]に対応している。このときのニューラルネットの結合重みの絶対値の大きな3つの入力パラメータは、Fisher係数のそれと一致した。
また中間層ニューロン数を1に固定し、同様の学習条件で入力パラメータ数を最小化すると、LogPとWrの2つのパラメータでも誤認識無しに正しい分類が可能であることがわかった。
STERIMOLパラメータの代わりに、LogPと分子構造の共通な骨格上の6原子の形式電荷とそれぞれの分子のHOMOとLUMOエネルギーおよびHOMO-LUMO Gapを入力データとして用いた学習の結果も最適な中間層ニューロン数が1となった。この場合、甘味・苦味の分類には、ペリラルチン誘導体の6員環の2重結合に関わる炭素原子の電荷が重要で、酸素や窒素原子の電荷は大きな影響を与えないことがわかった。これは、STERIMOLパラメータのWrが重要であるということに対応している。またLUMOエネルギーが重要であることが示唆された。これは、ペリラルチン誘導体の電子受容性が甘味・苦味活性に重要であることを示唆している。
形式電荷とHOMO, LUMOエネルギーおよびHOMO-LUMO Gapのみで学習を行った場合、最小の中間層ニューロン数は3となった。この場合、酸素の電荷が重要であることが示され、LogPが遠距離の相互作用と分子全体の電子状態の効果を含んでいることが示唆された。

貴重なご助言をいただいた物質研の田辺和俊首席研究官に深く感謝する。また本論文に関して建設的なご意見をいただいた、審査員の方々に深く感謝する。

参考文献

[ 1] 宮下芳勝, 佐々木慎一, ケモメトリックス ―化学パターン認識と多変量解析―, 共立出版 (1995), p.143.
Takahashi, Y., Miyashita, Y., Tanaka, Y., Abe, H., Sasaki, S., J. Med. Chem., 25, 1245 (1982).
[ 2] 青山義弘, 吉村忠与志, 山田明文, 化学とソフトウエア, 20, 59 (1998).
[ 3] Verloop, A., Hoogenstraaten, W., Tipker, J., Drug Design, 7, 165 (1976).
[ 4] Iwamura, H., J. Med. Chem., 23, 308 (1980).
[ 5] Iwamura, H., J. Med. Chem., 24, 572 (1981).
[ 6] Iwamura, H., Fujita, T., Koyama, S., Koshimizu, K., Kumazawa, Z., Phytochemistry, 19, 1309 (1980).
[ 7] Kowalski, B.R., Bender, C.F., Anal. Chem., 44, 1405 (1972).
[ 8] Jurs, P.C., Kowlski, B.R., Isenhour, T.L., Anal. Chem., 41, 21 (1959).
[ 9] Stuper, A.J., Jurs, P.C., J. Am. Chem. Soc., 97, 182 (1975).
[10] 井須芳美, 長嶋雲兵, 細矢治夫, 青山智夫, J. Chem. Software, 2, 76 (1994).
[11] 井須芳美, 長嶋雲兵, 細矢治夫, 大島茂, 坂本曜子, 青山智夫, J. Chem. Software, 3, 1 (1996).
[12] 藤谷康子, 小野寺光永, 井須芳美, 長嶋雲兵, 細矢治夫, 青山智夫, J. Chem. Software, 4, 19 (1998).
[13] Isu, Y., Nagashima, U., Aoyama, T., Hosoya, H., J. Chem. Info. Comp. Sci., 36, 286 (1996).
[14] Aoyama, T., Ichikawa, H., Chem. Pharm. Bull., 39, 1222 (1991).
[15] Deware, M. J. S., Zoebitsch, E. G., Healy, E. F., Stewart, J. J. P., J. Am. Chem. Soc., 107, 3902 (1985).
MOPAC93.00, Stewart, J. J. P., Fujitsu Ltd., Tokyo, Japan, 1993. Available from Quantum Chemistry Program Exchange, University of Indiana, Bloomington, IN, USA.


Return