在商业世界中,通常通过研究整体的选定部分来收集有关整体的有用信息。该部分称为样本,选择样本的过程称为采样。抽样是大型数据库审核和统计分析的基本操作。数据库社区中的许多人都需要从SQL Server数据库中选择一个样本。 Web上的一个简单解决方案是使用SQL语句“ ORDER BY NEWID()”。此解决方案可能并不适合所有整体。例如,在FM广播市场中,电台将目标受众的年龄组视为节目类型的重要决定因素[2]。如果使用此方法从包含所有听众的SQL Server数据库中随机选择30个听众,则该样本可能不包括某个年龄子组的听众。因此,样本可能会歪曲总体。需要额外的采样技术来减少这种样本选择偏差。那些不熟悉统计信息的数据库专业人员可能想了解更多的采样技术以及这些采样技术所带来的不确定性的性质。
该文介绍一些采样技术: