liminguy
会导致过拟合。论文的样本量太少会导致过拟合,过拟合就是为了得到一致假设而使假设变得过度复杂称为过拟合。想像某种学习算法产生了一个过拟合的分类器,这个分类器能够百分之百的正确分类样本数据(即再拿样本中的文档来给它,它绝对不会分错),但也就为了能够对样本完全正确的分类,使得它的构造如此精细复杂,规则如此严格,以至于任何与样本数据稍有不同的文档它全都认为不属于这个类别。 
公式计算 N=Z^2×(P ×(1-P))/E^2,Z为置信区间、n为样本容量、d为抽样误差范围、σ为标准差,一般取5。首先要说的是样本容量和样本数的概念,Cpk研究时应该说是样本数不小于30,而不是样本容量。比如使用单值移动极差图时,样本容量为1,但是在样本数(样本的个数)在30以上时也可以进行Cpk研究。至于为什么要样本数不小于30,其原理就是中心极限定理。解释样本容量的大小涉及到调研中所要包括的单元数。样本容量是对于你研究的总体而言的,是在抽样调查中总体的一些抽样。比如:中国人的身高值为一个总体,你随机取一百个人的身高,这一百个人的身高数据就是总体的一个样本。某一个样本中的个体的数量就是样本容量。注意:不能说样本的数量就是样本容量,因为总体中的若干个个体只组成一个样本。样本容量不需要带单位。