上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

[PR] 台湾ワーキングホリデー

--.--.-- -- l スポンサー広告 l top
今日は、再来週締め切りのBiostatsの課題3つを始めました。

すべて、多変量解析における、適切なモデル選択が課題です。

まず、"Multipul Regression and Statistical Computing"では、
飲酒状況と白血球数の関連について、その他の説明変数、
ここでは、性別、年齢、HDLコレステロール、総コレステロール、収縮期血圧も含めて、
一番適切なモデルを選択し、調整後の平均白血球数を求めなければなりません。

そして、"Categorical Data Analysis"では、
子宮頚がん検診で異常があった人のうち、
最初に精密検査(Colposcopy)に来た人と、
6ヶ月後の精密検査に再度来た人で、主観的健康度(GHQで測定)に差があるかどうかを、
その他の説明変数(年齢、職業など)を含めて、一番適切なモデルで検討します。

最後に"Survival Analysis"では、
乳がん検診で異常があった人に行った生検(Biopsy)の結果が、
予後(乳がんの発症の有無)に影響しているかどうかを、
生検時の年齢、そして家族歴の有無を含めて、適切なモデルを用いて検討します。

つまりそれぞれ、
・重回帰分析
・多重ロジスティックモデルによる多変量解析
・Cox比例ハザードモデルによる多変量解析
を行うことになるわけです。

どの解析においても、適切なモデルを選択するまでの手順は、
ほぼ同様に考えていいと思います。

日本で自分がやってきた解析も、まぁ大丈夫かな?(笑)って感じでしたが、
ここでしっかり整理できたので、メモとして残しておこうと思います。
1.それぞれの変数の分布を確認する。
・Continuousな変数であれば、平均値、標準偏差、中央値などから描かれる分布。
・Categoricalな変数であれば、それぞれのセルに入る値が適切かどうかなど。
これらの情報を用いて、必要であれば変数の加工を行う。
(対数を用いて変換する、逆数を用いる、Categoryを変更する…など)

2.単変量解析を行う。
・この段階で、分布図やKaplan-Meier曲線などを作成する。
・P-valueが0.25以上の変数については、生物学的な妥当性などがない場合、
検討している変数の中から除外する。
・単変量の回帰係数、オッズ比、ハザード比、標準誤差などを求める。

3.上記の変数を用いて、Baseとなるモデルを作成する。
・必要な変数を全部投入してみる。
・Colinearity(共線性)などについてチェックする。
(これはContinuousな変数の場合、相関をチェックした段階でも判定可能)
・調整後の回帰係数、オッズ比、ハザード比、標準誤差などを求める。

4.Effect modificationの有無を、Interaction termを用いて検討する。
・上記のBase modelに、すべてのInteraction termを投入し、
P-valueの大きいものから除外していく(Backward)か、
一つ一つのInteraction termをそれぞれBase modelに加えて検討する(Forward)か、
どちらかの方法を用いて、Interaction termが有意かどうかを確認する。
・有意な場合:Effect modificationがある→その変数を用いて層化する…など。
・有意でない場合:Effect modificationはないので、Base modelをそのまま用いる。

5.Actual confoundingについて検討する。
・これはBase modelから、P-valueの大きい変数を除外する場合としない場合で、
回帰係数、オッズ比、ハザード比がどのように変化するか…を用いる。
・ある変数を除外した場合に、しなかったモデルから10%以上変化した。
→臨床的な意義があれば、この変数はConfounderとしてモデルに残す。
・上記以外(除外前後で、ほぼ回帰係数などの値が変わらない)の変数。
→潜在的なConfounderではあっても、モデル上は影響がないため除外する。

6.モデルが統計学的にFitしているかどうかを確認する。
・ここまでで選択された最終モデルについて、以下の方法を用いて適合度を検討する。
・重回帰分析:Residuals(残差)の検討
→外れ値がないか、直線性、分布の均一性、正規性など。
・ロジスティックモデル:Hosmer-Lemeshow goodness-of-fit testが、
有意でないことを確認したり、、Concordantを見る"c"のパーセンテージが高いことを確認する。
・Cox比例ハザードモデル:Proportional Hazard assumptionを確認。
→各時点でそれぞれの変数のハザード比が一定かどうかを、
"それぞれの変数×時間"のTermを用いて検討する。
あるいは、Schoenfeld residualをそれぞれの変数についてPLOTし、
0の周囲にPLOTされていることを確認する。

このような順序で、一つ一つのP-valueなどを確認しながら、
作業を進めていくことで、最も妥当なモデルを選択することができます。

ただ、「生物学的妥当性」といった、
微妙なものも絡んでくるので、すべてを数値で片付けられないのが、
Biostatisticsの面白いところかもしれません。
スポンサーサイト

[PR] 台湾ワーキングホリデー

2010.10.30 Sat l 疫学・生物統計学 l コメント (2) トラックバック (0) l top

コメント

謝辞
唐突に失礼します.
投稿中の論文でstat reviewからCox比例ハザードモデルのProportional Hazard assumptionを確認しなさいとコメントを頂き,さて,どうしたものか,統計学の専門家がホリデーから帰ってくるのを待つか,と思っていたときにここが検索結果として出たので,勉強するきっかけとして非常に助かりました.
ありがとうございます.
日本では統計学の大切さが未だ浸透していないと感じます.先生のような方の発言がもっと大きくなっていけば変わるのではないかと思いました.
では失礼します.
2012.12.19 Wed l とある臨床研究者. URL l 編集
Re: 謝辞
はじめまして。もう全く更新しなくなってしまいましたが、少しでもお役にたてれば…と閉鎖せずにしておきました。先生のお役に立てたようで大変嬉しいです。私も、留学で得た経験などを少しでも社会に還元できるよう頑張りたいと思います。先生の今後のご活躍をお祈りしております。
2012.12.19 Wed l kosz. URL l 編集

コメントの投稿












トラックバック

トラックバック URL
http://shoppingtrolley.blog112.fc2.com/tb.php/202-47257005
この記事にトラックバックする(FC2ブログユーザー)
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。