データの活用と質の保証
株式会社クレハ 菊池 真美
(2007年12月15日 会告Vol.6, No.5)
コンピュータ技術を初めとする科学技術の著しい発展の恩恵で、私達が扱うデータ量は膨大になっています。
インターネット上にはエンターテイメントコンテンツ、ニュース速報が溢れ返っていますし、公的な学術データベースには多くの情報が詰まっています。創薬の現場では、ハイスループット スクリーニングやバーチャル スクリーニングによる生み出されるデータは膨大な量ですし、遺伝子解析の生データは転送不可能なくらいの量にもなります。
これらのデータは膨大な量を扱うからこその醍醐味があり利点が生まれてくるわけですが、1つ1つの点データとしては危ういものを含んでいることを忘れないようにしたいものです。
インターネットの特徴を活用した口コミサイト。口コミが一番信用できるんだよと思い、美味しいと評判のレストランに行ってみたら「あれ?」ってことが時々あります。常連さん達は、その店の親父さんが最近引退してしまったことを知っているかもしれません。こちらが本当の口コミ。
1年前のスクリーニングの結果を他の人が再解析していたら以前には注目されていなかった興味深いヒットがあることに気づいてあわてて詳細なスクリーニングをしてみたけれど結果がよくわからない、なんてこともありそうです。残してあるサンプルのチューブを見てみたら沈殿らしきものがあるけど、これは1年前にもあったのかしら?1年たったから出てきたのかしら?
データベースで遺伝子配列を検索してみたら、どうも2つのデータベースで生物種の分類が違うけれど、どちらが正しいのかしら。リファレンスされている文献はsubmitと書いてあるけれど掲載された様子はないし、という場合は何処に問い合わせたらよいのでしょうか。
孫引きでみつけた文献。何故か雑誌のサイトではみつけられなかったけれど、誰かがアーカイブしてくれていたので、それを元に一生懸命実験していたら、実はデータ改竄の疑いで取り下げられた文献だった・・・なんていうのは、不勉強の結果なのですが。
自分が扱っているデータの質がどこまで保証されているのかを十分理解した上で活用しなければ、それはデータと言えないでしょう。もしも、十分な質の保証がされていないのであれば、解析の前にまずは質の保証をしなければなりません。当たり前のことなのですが、日々、計算機に向かっている計算科学者にとって意外に落ちやすい落とし穴なのではないでしょうか。
自戒を込めて。