ご注文はリード化合物ですか?〜医薬化学録にわ〜

自分の勉強や備忘録などを兼ねて好き勝手なことを書いていくブログです。

機械学習

グラフ畳み込みニューラルネットワークによる回帰モデル:Deep Graph Library(DGL)の使い方

グラフ畳み込みニューラルネットワークのコードの例です。 R2 は -0.05 ぐらいと低いですが、計算自体は行えます。 (解説は近日追記) import numpy as np import pandas as pd import torch import torch.nn as nn import torch.nn.functional as F from t…

とりあえず PyTorch: 最低限これで動く

ニューラルネットワーク(深層学習)ブームは 2022 年現在も続いており、毎日新しい研究がニュースや SNS で話題となっています。ケモインフォマティクス分野でも例外ではなく、QSAR モデルや構造生成器、逆合成解析を始めとして様々な深層学習を用いた研究…

決定木で AD を算出:Isolation forest

予測モデルを扱う際に、applicability domain (AD) を考慮することは重要です。AD を算出する方法としては k 最近傍法や one-class SVM、アンサンブル法などが代表的です。 決定木と言えば Light GBM や XGBoost、ランダムフォレストなどでお馴染みですが、…

Shapley 値によるモデルの解釈

以前の記事で、ランダムフォレスト(RF)による記述子の特徴量解釈について、少し触れました。aimedchem.hatenablog.com予測に関する記述子の役割をより深く考察するのに、shapley 値を用いた SHAP というものがあります。 Shapley 値はゲーム理論に基づき算…

その予測モデル、ちゃんと予測できてますか?〜applicability domain の考慮〜

機械学習モデルを研究や開発の現場で活用しようとする試みが盛んですが、様々な要因で難航しているのではないでしょうか。 その一つとして、折角苦労して作ったモデルが役に立たない、ということが挙げられます。機械学習モデルを作ることが目的ではなく、(…

小ネタ:ランダムフォレストの実装 + モデルの保存方法 + プロット作成の基本

ケモインフォマティクスでは回帰問題、あるいは判別問題をよく扱います。様々な機械学習モデルがあると思いますが、最も使いやすいモデルとして、ランダムフォレスト(RF)があります。RF の数学的原理を解説しているサイトは多数あるので、ここでは触れませ…

Deep Graph Library によるグラフ畳み込みネットワークの基本(追記予定)

最近、論文を書いてたり会議が増えたり人事関連で色々あったり投資を始めたりごちうさを観たりで忙しく、中々記事を書けていませんでしたが、久々にブログを更新しました。AI ブーム、深層学習ブームは化学分野でも続いていますが、化学者としては、構造式を…

実践的(?)線形重回帰

Python を使って機械学習をしてみたい、という実験系化学者の方も多いと思います。 しかし、ググってみても機械学習の方法論とかは出てくるけど、痒いところに手が届かない、という事例は多いはずです(私もそうです)。 そこで、線形重回帰分析による LogS …

クロスバリデーションのやり方と GBDT

初回の記事からだいぶ時間が経ってしまいました・・・。 三日坊主とかいう次元ではない。 最近、久々に深層学習以外の機械学習手法に時間をかけて取り組んでいるのですが、最近少し気になった内容があるので、それについて書いていきます。 線形重回帰など一…