上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

[PR] 台湾ワーキングホリデー

--.--.-- -- l スポンサー広告 l top
ここのところ、EpiとBiostatの進み具合が早く、
Tutorialや勉強会をしていても、
いろいろとみんな混乱しているようです。

母集団(Population)の平均、標準偏差、
Sampleの平均、標準偏差、
そして標準誤差…、いろいろ出てきすぎて、
区別がつかなくなっているClassmateをよく見かけます。

個人的には、今日のタイトルの、
・標準偏差(Standard Deviation:SD)
・標準誤差(Standard Error:SE)
の違いをまずしっかり理解することが大切な気がするんですが…。
自分で勉強していても何だかよくわかりませんでしたし^^;

で、僕なりの定義を考えてみました。
これを全部英語で説明しようとするからとても大変なんですが^^;

SDとは…、
PopulationやSampleに含まれるデータすべてから算出される、
その集団におけるデータのばらつきを表すもの。

SEとは…、
Sampleの平均値からPopulationの平均値を算出するときに、
そのPopulationの平均値がどの程度ばらついてるかを表すもの。
つまり、Sampleの平均値から計算されるわけです。

SDとSEの違いは、個々のSampleデータをもとに算出している(SD)か、
Sampleの平均値をもとに算出している(SE)か、ということだと思います。

そして、「SE=SD/Sample数(n)の平方根」となって、
SD>SEとなっているわけです。

ですから、集団の特性を表すときには、
正規分布に従っていることを前提にして、
Mean(平均)±SDで示すわけです。
論文などで、対象者のBackgroundを示すときに、
SDを使うのは、こういう理由です。

一方、平均値の差の検定(t-testなど)を行うときには、
それぞれのSampleの平均値から推定される、
Populationの平均値に差があるかどうかを検定するので、
SDではなく、SEを用いることになるわけです。
ここで2つのSampleにおいて推定される、
Mean±1.96×SE、つまりPopulationの95%信頼区間がどのくらい重なるか…、
ということで差があるかどうかを検定していきます。

そして、Sample数(n)が増えれば、SEは小さくなっていくので、
重なりあいの面積も小さくなり、差が出やすくなる…というわけです。

ちなみにPaired t-testの場合は、
個々のSampleで観察された2つの値を比較することが多く、
全く関係のない2群の比較をするnon-pairedの場合よりも、
変化の度合いが小さくなることから、SEの値が小さくなり、
差が出やすくなります。

まぁ、一般的には統計ソフトが全部計算してくれるので、
こんな概念をあまり理解していなくてもどうにかなってしまうんですが…。

結局のところ2群の平均値や割合を比較するというのは、
最終的にはこのような概念に帰着して行って、
Sampleによって推定されるPopulationにおける平均値や割合が、
どの程度異なるか…というところを、
Sample数(n)が多くなれば正規分布に近づいていくという、
t分布やχ2乗分布などを用いて比較しているだけなんですよね。
だから、SEがとても重要になってくるというわけで。

あっ、ちょっとわかりやすくするために言葉足らずになっているところもあるかもしれません。
もし、間違いなどあれば教えていただけると幸いです^^;

…Health Promotionやら、Qualitative Researchやら、
非常に概念的な講義がある一方で、
こんなこともやらなければいけないPublic Healthという世界は、
とっても大変なんだなぁ…と改めて感じているところです(笑)。
スポンサーサイト

[PR] 台湾ワーキングホリデー

2010.04.02 Fri l 疫学・生物統計学 l コメント (0) トラックバック (0) l top

コメント

コメントの投稿












トラックバック

トラックバック URL
http://shoppingtrolley.blog112.fc2.com/tb.php/111-675d8b99
この記事にトラックバックする(FC2ブログユーザー)
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。