The sharing of resources about Statistical Learning Theory and Machine Learning(includeing SVM,Semi-Supervised Learning,Ensemble Learning,Clustering) ,welcome to contact and communicate with me: Email: xiankaichen@gmail.com,QQ:112035246,

Sunday, June 29, 2008

分层抽样

分层抽样(类型抽样)
步骤:先将总体中的所有单位按照某种特征或标志(性别、年龄等)划分成若干类型或层次,然后再在各个类型或层次中采用简单随机抽样或系用抽样的办法抽取一 个子样本,最后,将这些子样本合起来构成总体的样本。
两种方法:1、先以分层变量将总体划分为若干层,再按照各层在总体中的比例从各层中抽取。2、先以分层变量将总体划分为若干层,再将各层中的元素按分层的 顺序整齐排列,最后用系统抽样的方法抽取样本。
分层抽样是把异质性较强的总体分成一个个同质性较强的子总体,再抽取不同的子总体中的样本分别代表该子总体,所有的样本进而代表总体。
分层标准: ⑴以调查所要分析和研究的主要变量或相关的变量作为分层的标准。 ⑵以保证各层内部同质性强、各层之间异质性强、突出总体内在结构的变量作为分层变量。 ⑶以那些有明显分层区分的变量作为分层变量。
分层的比例问题: ⑴按比例分层抽样:根据各种类型或层次中的单位数目占总体单位数目的比重来抽取子样本的方法。 ⑵不按比例分层抽样:有的层次在总体中的比重太小,其样本量就会非常少,此时采用该方法,主要是便于对不同层次的子总体进行专门研究或进行相互比较。
如果 要用样本资料推断总体时,则需要先对各层的数据资料进行加权处理,调整样本中各层的比例,使数据恢复到总体中各层实际的比例结构。
简单随机抽样就是按照等概率的原则,直接从含有N个元素的总体中抽取n个元素组成的样本(N>n)。

No comments: