ケモメトリックスの現状とソフトウエア

お茶の水女子大学理学部
化学教室  藤 枝 修 子

1. 分析データの特徴とデータ解析に求められるもの

 従来から多用されてきた滴定では1つの当量点を求めるために多数の実測値を必要としたが、クロマトグラフィーなどでは少量の試料を単に注入するだけで、極めて多数のピークが時系列信号として簡単にえられる。さらに測定機器の複合化により、複雑な実測値が短時間に、洪水のように多量に出力される。これらは分析機器に限ったことではないが、特に分析化学の分野では日常的なことである。その中から数学的、統計的手法とコンピュータを利用して、意味のある「化学情報」を有効に抽出する手法が求められて当然であろう。

2. ケモメトリックス(計量化学)とは?

Bruce Kowalski (ワシントン大学)の定義1 によれば、
Chemometrics can be defined as the chemical discipline that uses mathematical, statistical, and other methods employing formal logic
(a) to design or select optimal measurement procedures and experiments, and
(b) to provide maximum relevant chemical information by analyzing chemical data.
 "Chemometrics"の用語は計量経済学(Econometrics)者を父にもつSvante Wold (スウエーデンのウメオ大学教授)によって1971年にはじめて使われ、chemistry + metrics による。日本語としてどのような用語が適切かを検討するために、漢字文化の先輩である中国語の化学計量学・計量化学を参考にしてきたが、現状では「計量化学」がほぼ定着している。わが国では宗森信2 によりはじめて使われた。
 従来から帰納的な方法論に偏りがちの分析化学的手法に対し、データ統合に必要な演繹的考え方をもたらしたのがケモメトリックスである3 と言える。  

3. ケモメトリックスの現状

3.1 どのような研究手法があるか?

 ケモメトリックスはいろいろな分野にわたって多用される手法を包含している。アメリカ化学会のAnalytical Chemistryに2年毎にでるReview (1992)4 からTable 1.に引用した。このTableに示される項目は、ケモメトリックスとして扱う手法を端的に示している。年代的にやや古いが、CASにエントリーした論文数を期間に分けてあり示してあり、研究の動きが理解できる。

Table 1.   Number of CAS Entries Detected in Search 4      Table 3. CAC Forum 
-------------------------------------------------------    -------------------
                                   period 
                        ----------------------------                 
     key word            76.1〜    88.1〜    89.12〜
                         79.10     89.11     91.11                  95
-----------------       --------  --------  --------              -------
calibration               2312      941       1114                   7 
chemometrics              8         68        69                     7
sampling theory           2         1         2                      4
multivariate analysis     52        59        69                     3
parameter estimation      68        46        69                     3
time series analysis      20        4         60                     1
spectral analysis         1102      225       198                    4
optimal control           119       39        0                      2
systems analysis          80        22        85                     1
evolutionary operation    1         2         0                      0
operations research       6         0         1                      2
regression                912       379       414                    2
mathematical analysis     116       26        19                     1
statistics                2072      2872      1433                   3
pattern recognition       232       46        148                    8
data reduction            70        27        12                     4
experimental design       266       56        68                     2
curve fitting             120       42        46                     6
spectral resolution       27        14        22                     5
deconvolution             133       142       143                    3
factor analysis           175       84        125                    4
principal components      46        94        160                    2
feature selection         8         2         2                      1
Fourier transform         34        1359      1588                   5
information theory        227       35        74                     4
signal processing         44        76        62                     0
peak fitting              6         3         5                      7
digital filtering         4         11        9                      1
least squares             315       143       176                    2
nonlinear regression      30        24        23                     3
nonparametric statistics  1         10        2                      0
simplex                   27        984       1078                   2
nonlinear calibration     7         3         10                     2
mutiple regression        61        16        14                     3
multivariate calibration            21        39                     1
multivariate prediction             1         1                      2
artificial intelligence             83        59                     5
partial least squares               29        45                     4
image analysis                      3         191                    5
expert systems                      119       338                    5
neural networks                     2         117                    6
genetic algorithm                                                    1
--------------------------------------------------------    ------------------

3.2 学会・研究会・ワークショップ

 国際的学会:B. Kowalski とS. Woldが1974年6月10日に Chemometrics Societyを発足  国内の活動: (1) ワークショップ 日本化学会情報化学部会が主催し、ケモメトリックスワークショップをほぼ年1回開催し、最近は100名前後の参加者がある。今までの活動状況をTable 2. に示す。

   Table 2.   今までに開催したケモメトリックスワークショップ 
---------------------------------------------------------------------------------
第1回 1990.1.22.  お茶の水女子大学  新しい領域としてのケモメトリックス―その
                    現状と将来展望
第2回  1991.2.15.  豊橋技術科学大学
第5回 1991.8.29.  幕張メッセ      情報化学部会国際ワークショップ 国際的視
                   野から見た情報化学の現状と将来
第3回  1992.2.10.  大阪大学 
第4回  1993.2.8.  日本化学会館     ユーザー-ソフトメーカー-測定機器メーカー				             の3サイドフォーラム
第5回  1994.2.8.   日本化学会館     メトリックス集合   
第6回  1994.5.18.  お茶の水女子大学   ニューラルネットの化学における利用
第7回  1995.11.29. 日本化学会館      複雑な化学分析データからの情報抽出と視覚 
                                      化:手法の概念と応用例
第8回  1996.11.22.  日本化学会館      実験計画法と多変量解析法の製品開発への利 
       (開催予定)                   用:食品と化粧品を例に
---------------------------------------------------------------------------------         
(2) CAC Forum (Computer-Aided-Chemistry Forum) CHEMICS研究会が発展的に解消し、活動内容の充実をはかるために発足した (代表 吉田元二 (住友化学工業))。会員は企業を主な対象とし、CHEMICS部会、合成設計部会、ケモメトリックス部会の3部会で構成、CAC の基礎と実用的応用を中心に実質的な活動をしている。1995年、ケモメトリックス部会の会員企業に、関心のある手法、すでに使用している手法のアンケートを行った。回答結果をTable 1.と比較できるようにTable 3.に示した。

3.3 出版物から現状を知るには?

 Review:  Analytical Chemistry に"Chemometrics"の表題で1980から偶数年毎に出ているReviewをTable 4.に示した。能率よく現状を知るのに最適である。ちなみに、1996年に出は最新のReviewは、14の項目について説明を加えながら合計1103編の論文などを紹介してある。
 専門誌:"Journal of CHEMOMETRICS" (Chemometrics Society の機関誌としてWiley から)と"Chemometrics and intelligent laboratory systems" (Elsevier から)がある。
 単行本:"Chemometrics" が表題中に含まれる単行本が平均して1年に2冊程度は出版され、Neural Networks やパターン認識に関する各論的内容の本はもっと多数にのぼる。
M. Otto による学部レベルの分析化学のテキストにもケモメトリックスに1章をあてている。

           Table 4.   Review articles, "Chemometrics" in Analytical Chemistry
----------------------------------------------------------------------------------------------------
1980  52,  112R - 122R   B. R. Kowalski
1982  54,  232R - 243R   I. E. Frank, B. R. Kowalski
1984  56,  261R - 277R   M. F. Delaney
1986  58,  294R - 315R   L. S. Ramos, K. R. Beebe, W. P. Carey, E. M. Sanchez, 
                                         B. C. Erickson, B. E. Wilson, L. E. Wangen, B. R. Kowalski
1988  60,  252R - 273R   S. D. Brown, T. Q. Barker, R. J. Larivee, S. L/ Monfre, H. R. Wilk
1990  62,   84R - 101R   S. D. Brown
1992  64,   22R -  49R   S. D. Brown, R. S. Bear, Jr., T. B. Blank
1994  66,  315R - 359R   S. D. Brown, T. B. Blank, S. T. Sum, L. G. Weyer
1996  68,   21R -  61R   S. D. Brown, S. T. Sum, F. Despagne
----------------------------------------------------------------------------------------------------

4. 手法の種類と簡単な内容

4.1 ケモメトリックス

 最適化手法、多変量解析、パターン認識、ニューラルネットワークなどが多用される。目的によって手法を選ばなければならないので、何が重要かなどは決められない。Table 1.とTable 3.で、まったく異なる傾向を示すものがあるのも、当然であろう。

4.2 統計解析法、数量化理論との関係

 多変量解析でよく使われる手法は統計解析法の進歩をそのまま利用している。また、林知己夫(統計数理研究所 名誉教授)らによって開発されてきた数量化理論は質的データの解析法であるが、統計解析法、つまり多変量解析法との共通点がある。

5. ソフトウエア

5.1 自作か市販ソフトの利用か?

 プログラムを書く能力と時間があれば、自作に限ると思う。自分自身を含む個人レベル、研究グループレベル、大学と企業の違いなど事情によるので、場合によっては市販ソフトの方が便利なこともある。マン-マシン-インターフェイスは一般的に市販ソフトの方が優れていると言える(自作派は使い勝手にエネルギーを注ぐより、次の目的に進む方が大切で、意味があると思うので)。

5.2 どんな市販ソフトがあるか?             (順不同)

(1)汎用ソフトウエア
◯BMDP (biomedical computer programs)
 開発: California Univ. 内容:記述統計、回帰、分散分析、多変量解析、時系列解析、 パターン認識と検量の主な手法
◯SAS (statistical analysis system)
 公開: SAS Institute Inc.  国内販売: SAS Institute Japan Inc.
 内容:回帰、分散分析、多変量解析
◯SPSS (statistical package for social sciences)
 開発: Stanford Univ. 公開: SPSS Chicago Inc. 国内販売: SPSS Japan Inc.
 内容:パターン認識と検量
◯Stat  開発: StatSoft Inc. 国内販売: デザインテクノロジーズ 
 内容:因子分析、主成分分析、クラスター分析

(2)ケモメトリックス用ソフトウエア
◯ARTHUR
 開発: B. R.Kowalski  販売: InfoMetrix Inc. 内容:各種パターン認識と検量
◯PIROUETT
 開発: B. Kowalski 公開: InfoMetrix Inc.  国内販売: GLサイエンス
 内容:クラスタ分析、主成分分析、SIMCA、KNN法、PLS、 PCR
◯MATLAB/Chemometrics Toolbox
 開発: Richard Kramer 販売: The MATH WORKS Inc. 国内販売: サイバネットシステム
 内容:重回帰分析、因子分析、主成分分析、PCR、 PLS
◯Unscrambler II
 開発: H. Martens et al. 販売: CAMO A/S, Norway 国内販売:横河電機
 内容:主成分分析、PCR, PLS
◯SIMCA
 開発: S. Wold 販売: SEPANOVA AB, Sweden  内容:SIMCA, KNN, PLS
◯Neural Works / Professional II/PLUS
 販売: Neural Ware Inc. 国内販売: ニチメンデータシステム
 内容:ニューラルネットワークのシミュレーション
 Predict  内容:Genetic Algorithm によるニューラルネットの自動構築
◯SPECTRE
 開発: 住友化学工業  内容:実験計画と最適化

(3)シミュレーションを主とするもの
◯LabVIEW
 販売: National Instruments   国内販売:日本ナショナルインスツルメント
 内容:仮想装置による設計、データ取得、解析
◯PSpice/The Design Center
 販売: MicroSim Corp. 国内販売: サイバネットシステム
 内容:回路図作成、動作シミュレーション、解析
◯Micro-Cap 5
 販売: Spectrum Software 国内販売: 東陽テクニカ
 内容:電子回路シミュレーションプログラム
◯System View
 開発と販売: ELANIX Inc. 国内販売: 東亜企業 
 内容:電子回路シミュレーションプログラム

6. 実例

 改良シンプレックス法によるDSC曲線の重畳ピークの分離、主成分分析(PCA)によるDSCの線形性のチョコレートを用いた検討と多摩川の環境データの解析、ニューラルネットワークによる身のまわりの水のイオン濃度と多摩川の環境データの解析などを時間が許す限りご紹介する予定。

文献

1. D. L. Massart, B. G. M. Vandeginste, S. N. Deming, Y. Michotte, L. Kaufman, "Chemometrics: a text book", Elsevier Amsterdam, p.1 (1988).
2. J. C. Miller, J. N. Miller, 宗森信訳, "データのとり方とまとめ方―分析化学のための統計学", 共立出版, p.198 (1991).
3. 相島鉄郎, "ケモメトリックス―新しい分析化学", 丸善, p.10 (1992).
4. S. D. Brown, R. S. Bear, Jr., T. B. Blank, Anal. Chem., 64, 22R - 49R (1992).