http://www.5alw.com- 我爱论文网

网站资讯通告:我爱论文网提供论文代写,发表论文,代写毕业论文,代写硕士论文,职称论文发表等论文相关服务。
搜索: 您现在的位置: 我爱论文网 >> 论文考试 >> 毕业论文 >> 计算机毕业论文 >> 计算机软件 >> 正文

数字100喜获2011年宝洁

作者:admin    论文来源:本站原创    点击数:    更新时间:2012-6-1
论文专业组奖项

  

  

  2011年9月,由研发中央王青竹与陈昊执笔的《网民“答题不认真”现象的高效、系统化剔除方法?模糊》一文取得了第十届“中国市场研究‘宝洁’论文奖”专业奖项。作者受邀加入了2011年10月11-12日在中国西安国际会议核心曲江宾馆举行的第三届APRC年会和第七届CMRA双年会。

  《网民“答题不认真”现象的高效、系统化剔除方法?模糊逻辑下的概率清除法》胜利的剔除5%不认真答题现象,将数学实践立异的应用到统计学中,进一步提高了调研数据的可靠性和真实性,提高了服务质量。同时为中国市场调研行业和在线调研的进一步发展做出了宏大奉献。

  

  “中国市场研究‘宝洁’论文奖”是由中国信息协会市场研究业分会(CMRA)主办、宝洁公司(P&G)供给援助,因其威望性和专业性,被誉为市场调研行业的“诺贝尔奖”。这是继08、09年之后,数字100再次荣获此项殊荣。这体现了数字100在行业内保持创新的理念和客户至上的原则,秉承着“专业、高效、诚信、创新”的公司经营理念。

  获奖论文??

  网民“答题不认真”现象的高效、系统化剔除方法?模糊逻辑下的概率清除法

  王青竹、陈昊、汤雪梅

  北京数字一百市场征询有限公司

  摘要:

  在线调查在中国正处于从“量的增加”到“质的提升”的转换过程中。虽然越来越多的人开端利用在线调查,但对其数据质量仍会有良多担忧和质疑。这种质疑主要来自两个方面:其一是被访者舞弊,其二是被访者答题不认真。前者通常存在于甄别环节,通过过滤、逻辑控制、严格的后盾治理等手段可以得到有效清除。当前,对全部在线调查行业数据质量产生不良影响的“答题不认真”现象尚未得到很好控制。一方面,在线调查无法背靠背控制被访者参加的情况,而每个题目对被访者的吸引程度不同,加之题目设计本身可能存在各种问题,造成被访者回答艰苦,因而不认真现象很难主动避免;另一方面,主体问卷中的绝大多数题目是无逻辑可依的,惯例的逻辑校验很难对每个题目产生实际效果,因而这一现象始终不能完全杜绝。本次研究摸索了在无逻辑或模糊逻辑情况下,利用概率清除的方法对在线调查中“答题不认真”现象进行有效控制,并将这一具有“普适性”的方法在软件中固化,实现“系统化”、“自动化”、“统一化”提升在线调查质量的目的,从而推进在线调查在中国的进一步推广和发展。

  一、引言

  在线调查在中国正处于从“量的增长”到“质的提升”的转换过程中。企业在休会在线调查的高效、经济、便捷的同时,也蒙受着对在线调查数据真实性、牢靠性的担心。一项最新的对于企业应用在线调查的研究数据显示,有意向使用在线调查的企业中,100%都曾提出过如何保障数据有效性的问题,87%的企业会问:“被访者从何而来,如何保证他们是真实的?”,85%的企业会问:“被访者如果不认真答题怎么办?”,而目前尚无动向应用在线调查企业中,出于对质量担忧的占到近60%。对在线调查数据质量的控制与提升是每个企业已经或行将面临的问题。

  1、现行主要质量控制手段的应用与局限性

  1)逻辑关系校验

  目前针对在线调查的质量控制方法中运用最为普遍的是逻辑关联校验,包括题目本身各选项间的逻辑和题目间逻辑。选项间逻辑通常十分简略,主要是选项互斥或包含的关系,题目间逻辑主要存在于一些具有特定关系的指标中。这些题目在问卷中数量有限,通常不会超过20%,且大多数与甄别局部相干,对主体问卷中题目数据质量的控制造用较幽微。

  在线调查中,为了验证一些要害信息,尤其是和甄别相关的信息,我们会主动设置地雷题,用于筛选前后抵触的答题者。这种方法在必定程度上可以辅助我们鉴别被访者是否存在作弊的情况,但这种分辨不是相对的,由于一个被访者很可能在开始时的回答是实在的,但是由于问卷过于长等其他起因,在后期没有耐烦持续认真回答时,在地雷题上出现前后不一的情况。假如以此作为标准,筛除这些样本,那么在一个问题相对比拟多的在线调查中,通过这种方法筛除的被访者比例可能是相称高的,而没有被筛除的人并不能消除其作弊的可能性。

  2)历史数据比对

  基于在线调查的特别性,对于有样本库的在线调查公司而言,可以将某一次调查的数据与注册信息或其他调查信息进行对比,验证其所填内容的真实性。但一方面不是所有的问卷信息都可以作对比,另一方面有些信息对比后发现不一致现象,并不能100%解释是被访者作弊,因而这种方法在实际应用中存在一定的局限性。

  3)基于内容的人工检讨

  这种质量控制方法由于个性化很强,和产品或品牌本身特征相关,不是每个调查中都会涉及,也很难构成相对统一并且固化的质量控制方法,更多地需要研究者的参与。

  综上,目前的在线考察品质节制方式对有逻辑的题目能够进行把持,然而对于无逻辑或含混逻辑的标题很难发生实际后果。

  2、影响在线调查数据质量的症结因素

  在一个调查中,非抽样误差通常来自于三个方面:设计人员、访问员、受访者。由于在线调查中没有了访问员的环节,比拟传统调查,在线调查已经大大减少了产生非抽样误差的可能性。在研究设计契合在线习惯的条件下,担心的独一起源就是被访者了,一方面是被访者作弊,另一方面是被访者答题不认真。

  一个合乎在线习惯,同时不涉及过多个人隐衷的问卷,被访者不存在主动作弊的念头,同时,后台严格的管理使被访者的作弊本钱很高,因而作弊现象很少发生。一旦发生,我们通常可以通过逻辑校验、设置地雷题、与会员过去答题情况和注册信息等已有属性对照来进行有效筛除,因而这一现象目前已得到有效控制。

  但被访者答题不当真的情形尚未得到很好掌握,一方面这种景象无奈自动防止,重要是因为:

  1)在线调查无法主动控制被访者介入的情况;

  2)每个题目对被访者的吸引程度不同,被访者很可能对整体调查主题比较感兴致,但对问卷中的某个内容不感兴趣而不认真作答;

  3)题目设计本身可能存在各种问题,造成被访者回答难题;

  另一方面,主体问卷中的绝大多数题目是无逻辑可依的,当前主要的质量控制方法无法对每个题目产生普遍作用,因而这一现象始终无法根除。

  基于此,本研究通过探索无逻辑或模糊逻辑情况下的在线数据质量控制方法,分析以下三个主要的问题:

  (1)如何系统应答在线调查中“答题不认真”的现象?

  (2)对于主体问卷中无逻辑或隐约逻辑的题目而言,是否存在“普适性”的质量控制方法,能够有效进步在线调查的数据质量?

  (3)在线调查与互联网严密联合,存在不同于传统调查的数据存储特点,如何应用这些特色实现数据质量的“体系化”、“主动化”、“同一化”晋升?

  二、研究设计

  基于上述研究目的,我们首先对典型在线调查项目进行综合分析,找出数据存在的典型现象;在此基础上,从概率角度动身,探索具有“普适性”的数据质量控制方法,并对应用结果进行评估,验证方法的准确性;再次,结合在线调查特点探索一套具有“可复制”性的质量控制方法,使在线调查质量得到“系统化”、“自动化”、“统一化”提升。

  

  1. 典型的“答题不认真”数据现象

  我们首先从2010年至今的各类在线调查项目中抽取了不同调查主题、涵盖不同行业的38个典型项目案例进行了评估,详细项目分布见下表。

  

  在分析这些项目的数据特点前,我们已根据过滤前提、地雷题、问卷中显性逻辑关系进行了校验。这些题目本身没有绝对的逻辑,与其他题目间也没有必定接洽。

  我们发现经由上述方法提出不及格的样本后,有些情况依然无法杜绝,其中典型的现象是被访者回答的选项数量超过合理值范围。我们抽取其中一个典型案例加以阐明,如下图所示:

  

  比方,当提及过去3天吃过的快餐时,有被访者回答吃过12种,远超过平均的选项数量2种。再如当提及过去3天看过哪些片子时,有被访者回答看过19部,远超过平均的选项数量2种。对于在线调查而言,我们无法主动控制被访者抉择时的状况和认真程度,这种数据现象在每个题目中都或多或少会涌现。

  对平均值影响最大的因素就是奇异值,哪怕只有一两个奇异值,也会使数据成果呈现较大稳定,在回归等分析中产生较大影响。因此固然奇异值很少,但仍会影响统计剖析的正确性。由于每个题目标奇异值尺度不一样,如何用一种高效的、普适性的方法找到奇异值是我们面临的重要问题。

  2、具有普适性的质控方法??概率清除

  (1)概率清除的基础原理

  概率统计中的3σ原理告知我们,通常情况下,标准正态散布时有99.7%的可能数据应当落在μ+3σ的范围内(其中μ为均值,σ为标准差),如下图所示:

  

  而选项个数在一定程度上是比较稳定的,即所有人取舍个数的均值是相对稳固的,这也是为什么可以通过数据找到事物客观发展法则的原因。斟酌到不同情况下大家行为的差异,我们既不能等闲删除被访者数据,但也不能容易信任所有的回收数据。因而需要利用迷信的方法对被访者的回答进行筛除。

  由于数据落在μ+3σ范围内的概率均超过99%,也就是说一个畸形的数占有99%的可能性会落在这个范围内,超过这个范围的值发生的概率极小,因而一旦发生,可以认为是奇异值,须要剔除掉。

  (2)概率清除的方法应用

  接下来,我们对上述典范案例中的题目进行验证,在从前3天吃过的快餐一题中,咱们发明落在μ+3σ规模内的,即选项数目小于即是7.3个的比例为99.7%,有0.3%的人答复的选项数量超过公道范畴,产生的可能很小,可以为是奇怪值。

  

  此外,在线调查中,由于系统自动记录了每个题的答题时间,因而从答题时间上,我们同样应用概率清除的方法,对每个题的答题时间落在μ+3σ范围外的数据进行剔除。

  概率清除的质量控制方法在传统调查中是很难实现的,一方面记录每个题的答题时间会消耗大批精神物力,不拥有可行性,即使可以记载,在以拜访员为介质的调查中无法有效控制记载的精确性跟有效性。另一方面由于波及题目多,盘算进程绝对庞杂,单单依附研究职员无法在有限的时光内,对所有题目进行同样的处置,结果导致不人依据这些准则对项目数据进行严厉的质量控制。但与在线调查特点相结合,基于概率消除的数据质量控制可以得到很好的利用,从而对“答题不认真”现象进行广泛控制。

  3、应用结果及其评估验证

  (1)应用结果

  在上述典型案例中:

  A)通过概率肃清办法,均匀每个题目可以在现有基本上,使2%-3%不好的数据得到扫除,如下表所示:

  

  B)当我们把统一个被访者超过合理范围的次数进行统计,我们会发现:一个题目不认真作答的人数占总人数的4.21%,两个题同时不认真作答的人数占比为1.05%,3个题同时不认真作答的人数占比为0。剔除的不认真回答数据占全体回答人数的5.3%。

  在将这一方法应用于其余37个项目后,我们发现:

  C)跟着答题时间的增长,“答题不认真”现象随之凸显,超过合理值范围的样本数随之增添。在一个20个题的调查中,处在问卷末尾的题目,清除的不认真回答率约为5%。

  (2)评估与验证

  为证实数据清除的有效性,我们在其他案例中将完全同质人群的在线调查数据与传统调查数据作比较,结果发现,概率清除后,在线调查数据与传统调查数据更为靠近。

  我们选取了具备人群笼罩广、认知水平较平均的银行品牌竞争力调查名目,这样的项目可能较好的剔除因为人群行动特点的不同造成的数据差别,更能反应数据自身的质量。在这个项目中,在线回收数据11963个样本,CLT回收8891个样本,CATI回收7457个样本。三种渠道的样本形成完整一致,如下图所示:

  

  样天职布覆盖全国81个中心城市,其中省会以上城市占比超过50%。

  本案例题目中(问卷第1题,且内容大家较熟习,较轻易作答),经过概率清除的不认真答题率为1%。

  通过概率清除后的在线回收数据显示:在线回收数据中,最近三个月打过交道的银行的平均个数从3.52个降低到3.43个,概率清除前后,在线数据与拦截访问数据更为亲近,平均差距缩小0.5%。

  

  此外,三种渠道数据大体趋势雷同,其中在线数据与CATI数据的趋势最为濒临,但由于CATI数据的选项不提醒特点,整体数据较在线调查与拦阻访问下降了约10%的比例。这个结果也同时验证了很少存在在线调查被访者整体作弊的情况,因而基于概率进行质量控制是可行的。

  4、概率清除法的系统固化

  为了使在线调查的数据质量得到系统、稳定的提升,可以将这一质控流程固化在系统中,详细流程如下图所示:

  

  三、本次研讨的意思及存在的问题

  1、本次研究的意义

  (1)翻新性:针对当前无逻辑或模糊逻辑情况下质量控制手段缺失的现状,提出了概率清除的质量控制方法。

  (2)科学性:较传统质控相比,由于“标准”是根据客观数据由系统计算得出的,因而转变了以往质控手段中“人为的”、“个性化的”运作特点,使“标准”更加客观、更加科学。

  (3)有效性:通过这一质控手段,可以在现有基础上清除5%-10%答题不认真的数据,使数据质量提升。

  (4)高效性:概率清除这一质控手段在在线调查范畴具有“普适性”,与软件系统相结合,能够进行批量化处理,使在线调查的数据质量得到“系统化”、“自动化”、“统一化”提升。

  2、本次研究的不足

  本次研究虽然采取概率清除的方法对“答题不认真”数据进行了有效清算,但仍属于事后控制的一种手腕。如引言所述,受访者的答题不认真可能是问卷设计分歧理导致的被迫不认真,这种处于有效值范围内,以“非奇异值”状态存在的不认真现象,仍需从问卷设计这个源头进行深刻研究。两者相辅相成,“答题不认真”现象才干得到铲除。

   参考文献

  [1] 王欣.关于统计数据质量的思考[J].天津经济,2008,(8).

  [2] 林勇.统计数据质量问题的成因:基于博弈的分析[J].统计与决议,2008,(4).

  [3] 刘美荣.浅谈统计数据质量控制系统的构建[N].中华论文网,2009.

  [4] Elisabeth C. Deutskens. (2006)’Studies on the effectiveness of internet-based marketing research’, 53(4), 77-101.

  [5] Tien, D. (2010)’ Project management and data quality control, in Emergency Management and Management Sciences (ICEMMS),549.

  [6] Monga, M. Sicari, S. (2009)’Assessing data quality by a cross-layer approach, in Ultra Modern Telecommunications & Workshops.
“数字100喜获2011年宝洁”版权归作者所有,转载请著名出处。  
Tags:全部  
责任编辑:admin
设为首页 | 加入收藏 | 友情链接 | 版权申明 | 网站地图