生物活性物質データベース ChEMBL の使い方
QSAR モデルを構築するためには、多くのデータが必要です。 化合物とその生物活性についてまとめられたデータベースは色々ありますが、よく使われるものの一つに ChEMBL というデータベースがあります。
アルツハイマー病治療薬であるドネペジルのターゲットでもあるアセチルコリンエステラーぜ(AChE)を例に、ChEMBL から QSAR モデル構築に使うためのデータを取得してみましょう。
最初に、トップページから、ターゲットとなるタンパク質を検索します。
検索結果が出てきますが、左上の Targets を選択すると、タンパク質のアッセイデータセットが複数出てきます。
カラムの右側の方に、「Compounds」という項目があるので、右側の矢印を押して、データ数の多い順にソートしましょう。一回だと、データ数の少ない順にソートされるので、二回押す必要があります。 Organism のカラムには細胞の由来が記載されているので、目的に応じてデータを選択してください(今回は Homo sapiens を選びます)。Name にはタンパク質の名前があるので、確認しましょう(例えば EGFR で検索すると、EGFR1 と EGFR2 両方のデータが出てきます)。 欲しいデータセットを見つけたら、緑色で書かれている ChEMBL ID をクリックしてください(今回は ChEMBL220 を選択してみます)。
Target Report Card のページが出てくるので、少し下に行くと、Associated Bioactivities と書かれた円グラフが出てきます。円グラフ中の欲しいデータの領域をクリックすると、そのデータだけ得られます(今回は IC50 を選択します)。タンパク質によりますが、IC50 が最も多く、次に Ki が多数を占める場合が多いです。
Browse Activities に移動したら、中央上部に緑で小さく書かれた Select All を押して、左側の Table をクリック、最後に、右側の緑の CSV or TSV ボタンを押すと、化合物と生物活性のデータを落とすことができます。
原因は不明ですが、うまくデータがダウンロードできない場合があります。そのときは、ブラウザを変更するなどの対応をすると、落とせる場合があります(直近だと何故か Safari で落とせず、Google Chrome に変更したら落とせた)。 ダウンロードしたデータは、化合物の重複があったり、濃度が違ったりするデータも含まれるので、必要なデータの前処理をしていく必要があります。
タンパク質名以外にも、アッセイ方法などで検索をかけることもできます。 色々なデータを実際に触ってみて、ケモインフォマティクスで使われるデータの感覚に慣れてみてください。