バングラデシュにおける乳児死亡率予測のためのSVMモデルの解釈可能性について。
DOI:10.1186/s41043-024-00646-9
アブストラクト
背景:機械学習(ML)モデルは、その予測性能の高さから好まれているが、その予測の直感性や説明性の欠如から、大きく敬遠されている。したがって、解釈可能なMLは、複雑な意思決定分析のための包括的なソリューションを作成するために、MLモデルの性能と解釈可能性を組み合わせた新たな研究分野である。逆に、乳幼児死亡率は、健康、社会福祉、社会経済発展、医療サービスに影響を与える世界的な公衆衛生の問題である。この研究では、従来のロジスティック回帰(LR)モデルの欠点を克服し、バングラデシュの乳幼児死亡率に影響を与える要因を予測・理解するために、解釈可能な先進的なML技術を採用している。
方法:グローバルサロゲートモデルとローカル個別条件付き期待値(ICE)解釈可能技法を利用することにより、解釈可能サポートベクターマシン(SVM)は、バングラデシュ人口保健調査(BDHS)2017-18のデータを使用して乳児死亡率の有意な特性を明らかにするために本研究で使用されている。乳児死亡率の複雑な意思決定分析を調査するために、ハイパーパラメータのチューニングパラメータを用いてSVMとLRの手法を適応させた。これらのモデルの性能は、まず100回の並べ替えによる受信者動作特性(ROC)曲線、実行時間、および混同行列パラメータを用いて評価した。その後、SVMモデルのモデルにとらわれない説明とLRモデルの解釈を比較し、さらなる洞察のための高度な理解を深めた。
結果:100回の並べ替えの結果、LRモデル(平均:精度=0.9105、精度=NaN、感度=0、特異度=1、F1スコア=0、ROC曲線下面積(AUC)=0.6780、実行時間=0.0832)がSVMモデル(平均:精度=0.8470、精度=0.1062、感度=0.0949、特異度=0.9209、F1スコア=0.1000、AUC=0.5632、実行時間=0.0254)よりも優れていたが、LRモデルは実行時間が遅く、陽性例を予測できなかった。LR分析の解釈から、母親が2年以上経ってから出産すると乳児死亡率が低下し、高学歴、過体重または肥満の母親、働いている母親、汚染された調理用燃料を使用している家庭では乳児死亡率が低いことが明らかになった。1歳の誕生日以内に死亡する平均的な可能性に対する個人の影響を描写する局所ICE解釈可能性技法は、BMIが正常で、2年以内に出産し、汚染された調理用燃料をあまり使用せず、母親が働いており、男性の乳児を持つ母親が、乳児死亡を経験する可能性が高いという解釈可能なSVMモデルを探索した。また、グローバル・サロゲート・モデルに基づく解釈可能なSVMモデルでは、家庭で汚染された調理用燃料を使用している働く母親や、汚染された調理用燃料の使用量は少ないが妊娠間隔が2年より長い働く女性は、乳幼児死亡率が高いことが明らかになった。汚染された調理用燃料を使用し、前の出産から2年以内に出産した働いていない母親でも、乳児死亡率は高かった。
結論:解釈可能なSVMモデルは、大域的な解釈は臨床医が条件分布全体を理解するのに役立つが、局所的な解釈は特定の事例に焦点を当て、モデルの挙動に異なる洞察を与える。解釈可能なMLモデルは、政策立案戦略を改善し、効果的な家族カウンセリングサービスを確立することによって、政策立案者、利害関係者、家族が乳幼児死亡を理解し、予防するのに役立つ。
会員登録すると記事全文を読むことができるほか、「NEJM Journal Watch」や「国内論文フルテキスト」といった会員限定コンテンツを閲覧できます。