星期五, 四月 14, 2006

〔译文〕样本量该是多少呢?(How big should my sample be)

作者:Gregory Kohs 在启动一项营销研究或者社会调查项目之前,我们经常会被客户问到:“我的样本量该是多少呢?”或者“为了保障结果有效我们需要对多少人进行访问呢?”公共关系公司对这些问题尤其感兴趣,因为他们擅长分析文字信息的价值,但在抽样设计上并非也能表现的那么优秀。我们没有“标准”答案,因为在样本量和容错度方面并没有一个统一的标准。它很大程度上是一个主观的选择,取决于顾客、预算和研究成果的重要程度。

统计学家,媒体编辑和商业相关人士都会商讨并辩论什么才是合适样本量的问题,谁都没有错,也可能都是正确的。对不同性质的项目(比如传染病和公共关系),你可能会听到不同的最小样本量。同样的,在不同的文化背景下,你听到的最小样本量也会发生变化--往往不是因为其它任何原因而仅仅是心理安全空间。比方说,在美国,某些媒体内容提供商更倾向于接受消费者样本在400以上〔的数据〕。为什么呢?仅仅是因为接近50%样本反馈的中心如果保持95%的置信水平的话,可以把边际误差控制在5%以内。然而,假如针对一种新开发的免疫治疗进行测试,你问一家制药公司这个〔误差〕是否可以接受的话,他们肯定会非常诧异的望着你。不能过于轻率,因为这个样本量的预期精确度会直接改变人的生死结果。

在另外的一些情况下,小的样本量也会被媒体或者商业相关人士接受。举例来说,如果要在曾经遨游过太空的宇航员中调查NASA 的未来发展趋势,35人的样本量就会给人留下深刻印象,因为调查对象本身数量就非常少并且难以有效接触。

在一般的情况下,商业组织每时每刻都在做重要的战术和战略决策,但依据的研究数据只覆盖到了100,50,甚至只有区区30人。他们可能只从90%置信水平和高达9%容错度的数据中获取“定向”的信息。事实上,德克萨斯州的城市奥斯汀公布说他们在城市用水量研究的充分统计有效标准是90/10,即90%的置信水平,最大10%的容错度。根据对此类程序的工业标准和已经公布的经验,90/10的标准只要100个被访者的样本量就可以达到。但是,对奥斯汀市来讲足够好的标准可能对其它客户来讲就不行了。重申一下,没有绝对的正确,也没有绝对的错误。仅仅关系到需求,预算,重要性以及偏好而已。

在决定样本大小的时候费用是很关键的因素。如果“理想的”样本量和调研设计超出了预算或者时间要求,那一个折中的方案就是必须的了,这很可能要以牺牲质量和研究的广度为代价。在一个实际案例中,ICR公司要针对225名美国工人进行调查,使用了这样一个样本容错标准:
  • 80%的置信空间下,边际误差控制在4.27%
  • 90%的置信空间下,边际误差控制在5.48%
  • 95%的置信空间下,边际误差控制在6.53%
  • 98%的置信空间下,边际误差控制在7.75%
  • 99%的置信空间下,边际误差控制在8.59%
假设我们的客户想把边际误差减小到原来一半的话,那样本量要扩大四倍,费用也相应的会增长到原来的三倍。多大的置信空间才是“必要的”呢?在我们看来,这会是件非常惹人厌烦或者争议很大的一件事儿,即发表声明说所有美国的研究结果(基于有效的反馈)应该精确(就是说能够反映整体样本框的“真实”意见)到4.3%以内,或者能反映10个独立结果集合中的8个。如果这个标准不为客户和媒体接受,对那些排他性的设置样本量为500,900,1000甚至更多的选择,假如调查主题是财政投资相关而非有可能在病人身上发生悲剧的制药问题的话,我们会争辩到这是一项不必要如此巨大也不需要如此昂贵的研究方案。我们意识到了对工业标准习惯和当地最佳实践的挑战,但我们公司在研究方面一直做的很好,而用的恰恰就是上面的这些标准。

因此,简单总结下,我想本文题目所提问题的答案应该是另外一个问题:“什么是您能接受的误差范围?”

原文地址:
How big should my sample be?




Technorati Tags: , , , , , , ,

没有评论:

技术宅的乐园(fail2ban)

fail2ban安装后好像也没啥用,今天看看是咋了。不看不知道,原来是要各种配置才行。查看mail.log等日志不由得火冒,各种扫描、各种探测。用ChatsNow几番尝试,总算通过配置和正则,把那些黑手给逮住并关进监狱了。