演 題 赤外スペクトルからの化合物同定
発表者
(所属)
○田辺和俊(物質研)
連絡先 〒305-8565 茨城県つくば市東1-1 物質工学工業技術研究所
TEL/FAX 0298-61-4432
E-mail:
キーワード 赤外スペクトル、構造推定、ニューラルネットワーク
開発意図
適用分野
期待効果
特徴など
赤外スペクトルからニューラルネットワークにより化合物の構造を推定する
環 境 適応機種名 PC
O S 名 Windows
ソース言語  
周辺機器  
流通形態
  • 化学ソフトウェア学会の無償利用ソフトとする
  • 独自に配布する
  • ソフトハウス,出版社等から市販
  • ソフトの頒布は行わない
  • その他:未定
具体的方法

 

1.目的
 赤外スペクトルから化学構造を推定する方法には、計算化学を利用する理論的方法、データベースを利用する帰納的方法、知識ベースを利用する経験的方法など様々な方法がある。しかし、これらの方法では色々な理由から化学構造を高い確度で推定することは困難である。化学構造とスペクトルパターンの関係は非線形であり、そのような非線形関係の問題解決手法としてはニューラルネットワークを利用する方法が最も性能が高いと期待される。そこで、ニューラルネットワークを用いて赤外スペクトルから構造を推定する手法を検討した。スペクトルデータベースシステムSDBSに集積されている1万件以上の赤外スペクトルデータを活用して官能基の有無を推定するためのニューラルネットワークの構造や学習法に関して最適条件を探索した。

2.方法
 SDBSの化合物辞書に収録されている官能基コードをもとに90種類の官能基の推定を検討した。各官能基についてSDBSのスペクトルデータを用いてニューラルネットワークの学習とテストを行った。その際、各官能基に対してその官能基を含む化合物と含まない化合物のスペクトルデータを同数作成して学習とテストを行った。官能基を含む化合物のデータは各官能基を含む化合物について作成し、含まない化合物のデータはそれ以外の官能基を含む化合物群からアトランダムに同数抽出して作成した。ニューラルネットワークの出力層の教師データは官能基を含む場合を1、含まない場合を0として学習を行った。スペクトルデータは学習用とテスト用に分割し、ニューラルネットワークの構造や学習法を種々変えながら正答率が最高になる最適条件を探索した。テストの正答率の算出には、その官能基を含む時に出力値が0.5以上の場合、およびその官能基を含まない時に出力値が0.5以下の場合に正答とした。
赤外スペクトルから構造を推定するニューラルネットワークとして、スペクトルパターンデータを入力層に入力し、出力層には構造を教師データとして学習を行い、中間層は1層とした。ソフトには富士通のNEUROSIM/Lを用い、学習にはエラーバックプロパゲーション方式を用いた。合計90種類の官能基を推定するために2段構造のニューラルネットワークシステムを用いた。すなわち、初段のニューラルネットワークでは15種類の主官能基の判定を行い、初段のニューラルネットワークの出力層に結合している次段のニューラルネットワークではサブ官能基の判定を行った。
 赤外スペクトルをニューラルネットワークで取り扱う場合、スペクトルのパターンをニューラルネットワークにどのように入力するかが最大の課題である。赤外スペクトルの鋭いピークは半値幅が2〜3 cm-1であり、4000〜400 cm-1の全波数範囲のスペクトルパターンを忠実に再現するためには3,600点が必要になる。しかし、NEUROSIM/Lはユニット数の上限が255であり、全波数範囲を1 cm-1の波数間隔で入力することは不可能である。したがって、ニューラルネットワークに入力する波数点が255以下になるように波数範囲と波数間隔を設定する必要がある。むしろ、入力点が255一杯になるよう波数範囲を広くとるよりも狭い波数範囲の方が正答率が高くなる可能性もある。そこで、SDBSの原データから各官能基ごとに特定の波数範囲のデータを抽出した。
 ニューラルネットワークの構造、スペクトルの縦軸、学習に用いるデータ数、スペクトルデータの波数範囲と波数間隔、ニューラルネットワークの中間層の最適ユニット数、データを学習用とテスト用に分割する方法、次段のサブ官能基のデータを作成する場合のサブ官能基を含まない化合物のデータを作成する方法、などについて最適条件を決定し、その最適条件においてニューラルネットワークを構築し、学習とテストを行った。

3.結果
 15種類の主官能基および90種類のサブ官能基について正答率を得た。ESTER1(91.1%)、NITRO3(90.1%)、AMIDE2(82.4%)などでは高い正答率となったが、SULF6(59.2%)、HALO2(60.2%)、CDC5(63.3%)などでは正答率は低くなり、平均正答率は77.2%となった。この数値は赤外スペクトルから化学構造を推定する場合の限界を示していると考えられる。

BACK