機械学習モデルは、血漿アシルカルニチンプロファイルに基づいてグリコーゲン貯蔵症Ia患者を正確に同定する。
DOI:10.1186/s13023-025-03537-2
アブストラクト
背景:グリコーゲン貯蔵病(GSD)Iaは超希少な遺伝性糖質代謝異常症である。患者はしばしば生後数ヵ月で空腹時低ケトン血症や肝腫大を呈する。GSD Iaの診断は、主に日常的な臨床化学マーカーとそれに続く遺伝学的確認という異なるバイオマーカーの組み合わせに依存している。しかし、特異的で信頼性の高いバイオマーカーはまだ見つかっていない。GSD Ia患者は脂質代謝とミトコンドリア脂肪酸酸化の変化を示すことから、我々は血漿アシルカルニチンプロファイルに基づいてGSD Ia患者を同定する機械学習モデルを構築した。
方法:血漿アシルカルニチンプロファイルを3958人の患者から収集した。データセットにおけるクラス不均衡の問題に対処するため、合成サンプルを作成した。我々は、勾配ブーストツリーに基づくいくつかの機械学習モデルを構築した。我々のアプローチは、ハイパーパラメータのチューニングと特徴選択を含み、ネステッドクロスバリデーションとホールドアウトテストセットの両方を用いて汎化をチェックした。
結果:二値分類器は、有意な偽陽性結果を生成することなく、ホールドアウトテストセットにおいて5/6のGSD Ia患者を正しく識別することができた。最良のモデルは、入れ子交差検証における平均ROC(recipated operator curve)AUCが0.955、PR(precision-recall)曲線AUCが0.674という優れた性能を示した。
結論:本研究は、血漿遊離カルニチンとアシルカルニチン濃度に基づいてGSD Ia患者を正確に同定し、微妙なアシルカルニチンの異常を活用することで、超希少疾患に機械学習を適用する革新的なアプローチを実証した。GSD Iaの強力な予測因子となったアシルカルニチンの特徴には、C16-カルニチン、C14OH-カルニチン、総カルニチン、アセチルカルニチンが含まれる。このモデルは高い感度と特異性を示し、選択されたパラメータは頑健であるだけでなく、非常に解釈しやすいものであった。われわれのアプローチは、新生児スクリーニングにGSD Iaを含める可能性を提供するものである。希少疾患は、機械学習研究において十分に扱われておらず、この研究は、GSD Iaのような超希少疾患においても、これらの技術の可能性を浮き彫りにしている。