找回密码
 注册

QQ登录

只需一步,快速开始

楼主: yincantcook

论战:为什么投票比评分好

[复制链接]
发表于 2009-4-13 20:16:33 | 显示全部楼层
原帖由 yincantcook 于 2009-4-13 10:01 发表
Likert scales may be subject to distortion from several causes. Respondents may avoid using extreme response categories (central tendency bias); agree with statements as presented (acquiescence bias); or try to portray themselves or their organization in a more favorable light (social desirability bias).Designing a scale with balanced keying (an equal number of positive andnegative statements) can obviate the problem of acquiescence bias,since acquiescence on positively keyed items will balance acquiescenceon negatively keyed items, but central tendency and social desirabilityare somewhat more problematic

这段话,我想不需要翻译了,非常明确地说明了量表不能保证分差一致。


顺便说一句,你引的这段话丝毫没有说明“量表不能保证分差一致”这个观点——尽管我在前一帖中承认“面对相同的‘表现差’,没有哪种技术能保证不同评分者给出相同的‘分差’”。

为了让看到这个讨论的朋友不至于搞不懂这段专业英语是什么意思,我来翻译一下:

里克特量表可能受到扭曲的几个原因。受访者可能会避免打出极端的分值(集中趋势倾向);同意所提出的描述(默许倾向);或尝试让人觉得自己或其组织的做法是“好”的(社会称许性倾向) 。设计量表时使用“平衡问题”(同等量纲的正向问题和反向问题)可以避免“默许倾向”,因为对正向问题的“默许”会和对反向问题的“默许”相互抵消。但“集中趋势倾向”和“社会称许性倾向”有比较大的问题。

其中几个概念解释如下:

“集中趋势倾向”是指一般人不太愿意打最低分和最高分,而倾向于打中间值;

“默许倾向”是指不对问卷上的陈述表示反对意见;(所以如果同一个问题,问卷上正着问一次,再反着问一次,就可以避免“默许倾向”,这就是那段文字中的“平衡问题”。)

“社会称许性倾向”是指,我(答卷人)明知道这题应该给3分,但因为觉得“如果给4-5分,会让人觉得我的表现更好”,于是就打了4或5分。比如问我“相比于你的室友,你的学习更努力吗?”尽管我并不觉得自己比室友努力,但为了让自己的“看上去更好学”,我可能选择4或5分。

这些倾向,不是里克特量表独有,而是任何量表(问卷)都会遇到的问题。解决这些问题要引入其他的方法,在此不加赘述。

可以看出,这段文字中丝毫没有提及“里克特量表能不能保证分差一致”这个问题。所以奉劝yincantcook同学,下次论证自己的观点时,最好拿出确实的证据。如果这是“求是杯”,一旦你这个论据被评委裁定为“关键证据”,而你拿出的是上面这段文字,估计是要“直接判负”的。

[ 本帖最后由 岚星 于 2009-4-13 20:30 编辑 ]
 楼主| 发表于 2009-4-13 20:19:02 | 显示全部楼层
我很怀疑一点,虽然我没怎么读过社科,但不代表没见过里克特量表。
这个量表采取的从极度反对到非常认同的刻度。
这里有两点
1.是不是适用于比赛的打分,因为评判通常不会对辩手做出很负面的评价
2.每个评判对极度同意的标准是否一样?
你的一切推论都是建立在每个评判对“极度满意”的标准一致,但实际上,这是不能保证的

其次,不要用社科的问卷大我,这些问卷的后期处理我做得多,从来都是保证误差不差过一个信心系数(通常是5%),而影响误差的最大因素就是样本。

如果现代的社科研就可以建立在五个样本上的话,我也恭喜你,建立了一个具有岚星特色的研究模型

如果你还不理解,我建议你问一下你的导师,如何避免问卷的误差
 楼主| 发表于 2009-4-13 20:21:09 | 显示全部楼层
里克特量表可能受到扭曲的几个原因。受访者可能会避免使用打出极端的分值(集中趋势倾向);同意所提出的描述(默许倾向);或尝试让人觉得自己或其组织的做法是“好”的(社会称许性倾向)。设计量表时使用“平衡问题”(同等量纲的正向问题和反向问题)可以避免“默许倾向”,因为对正向问题的“默许”会和对反向问题的“默许”相互抵消。但“集中趋势倾向”和“社会称许性倾向”有比较大的问题

要注意这些用词,是可能,而不是一定。这意味着不确定性,换言之,就是不保证

[ 本帖最后由 yincantcook 于 2009-4-13 20:22 编辑 ]
发表于 2009-4-13 20:28:06 | 显示全部楼层
原帖由 惟恋梧桐 于 2009-4-13 10:01 发表
不知道这是个例还是其他现象,我们学校投票制出现了这样一个弊端:正方四辩要是不强还好,要是很强或者很有气势,可能反方四位辩手全场的努力就白费了(正四一说完,评委就投票了)


绝对不是“个例”,而是相当普遍的现象——这就是“终局投票制”极受人诟病的地方:近因效应。

yincantcook认为这个叫“辩论技巧”是合理的。而我认为,这种和辩手努力无关,纯粹靠“抽正反方的运气”的东西,应该尽力减小它对评判的影响。

而评分制下,各环节单独打分,这样就算正四仍然会因为“近因效应”而得利,也已经比“终局投票制”要合理多了。
发表于 2009-4-13 20:58:27 | 显示全部楼层
原帖由 yincantcook 于 2009-4-13 20:19 发表
我很怀疑一点,虽然我没怎么读过社科,但不代表没见过里克特量表。
这个量表采取的从极度反对到非常认同的刻度。
这里有两点
1.是不是适用于比赛的打分,因为评判通常不会对辩手做出很负面的评价
2.每个评判对极度同意的标准是否一样?
你的一切推论都是建立在每个评判对“极度满意”的标准一致,但实际上,这是不能保证的


唉……看来你真是没见过里克特量表……

里克特量表并不要求“对同一个问题,从极度反对到非常认同”。比如:

“我们团队经常一起讨论问题”(1分  2分  3分 4分 5分)(得分越高表示越同意这句话),这就是一个里克特量表中的正常问题。事实上你如果去看看社会科学方面的经典论文,后面的问卷上都是这样的问题。如果像你说的,大家对“经常”的理解很可能完全不同,或者对“要‘经常’到什么程度才能打5分”完全一致时才能有效,那这些问卷岂不全报废了?

事实上,里克特量表之所以能保证“可加性”,就是因为他在事实上让研究者可以认为“大家对‘极度同意’(5分)的标准是一致的”。

原帖由 yincantcook 于 2009-4-13 20:19 发表

其次,不要用社科的问卷大我,这些问卷的后期处理我做得多,从来都是保证误差不差过一个信心系数(通常是5%),而影响误差的最大因素就是样本。

如果现代的社科研就可以建立在五个样本上的话,我也恭喜你,建立了一个具有岚星特色的研究模型


谢谢~可惜我不得不说,你完全没理解“样本影响误差”是什么意思……

之所以要“大样本”和“显著性概率”(就是你说的“信心系数”,说实话我没见过这样的翻译,最接近你这个表述的翻译是“置信度”),是因为“不能想当然的认为,抽样得到的‘样本’可以代表‘总体’”。

比如说,要看A、B两个班(每班100人)哪个班的学习水平更好,我们从两个班各自随机抽取了10个人。结果这A班10个人的平均分是97,B班10个人是94,能不能说A班的100个人“整体上水平比B班高”呢?不能。因为那10个人(样本)能不能代表100人(总体)是有待商榷的。

统计学上用“显著性概率”(置信度)来解决这个问题:当我们只测了10个人时,说“A班比B班好”这句话正确的可能性(这就是“置信度”)是多少,比如95%

可见,如果你要讨论“5个评委是不是大样本”,那就要明确“谁是‘总体’”。所以我在前面才说你这个观点实质上是“这5个评委(样本)的评判,能不能代表所有观众(总体)”。

如果你真想讨论“5个评委能不能代表全场上百位观众”这个问题,那我承认,评分法不能解决这个问题——但我同时要指出,投票法也不可能解决。

唯一可以解决这个问题的途径是——评委通过回应观众和辩手的质疑,树立自身的“公正、权威形象”,从而得到观众的认可。而对比我之前说的,投票制下评委无法回答观众、辩手的质疑,甚至遭到辱骂;浙大评分制下,评委敢于将所有评分公开,并公开说明自己每一处评分的理由。那么投票与评分谁更有优势,相信一目了然。


原帖由 yincantcook 于 2009-4-13 20:19 发表

如果你还不理解,我建议你问一下你的导师,如何避免问卷的误差


谢谢你的提醒。我为“求是杯”设计的评分表(包括设计思路),就是我“管理科学研究方法”这门博士生必修课的课程论文之一,在设计前后已经和三位博士生导师进行了多次讨论,其中一位就是国内管理统计学研究的顶级专家马庆国教授。这篇论文几位老师给的评价是“优”。

[ 本帖最后由 岚星 于 2009-4-13 21:10 编辑 ]
 楼主| 发表于 2009-4-13 21:02:30 | 显示全部楼层
“我们团队经常一起讨论问题”(1分  2分  3分 4分 5分)(得分越高表示越同意这句话),这就是一个里克特量表中的正常问题。事实上你如果去看看社会科学方面的经典论文,后面的问卷上都是这样的问题。如果像你说的,大家对“经常”的理解很可能完全不同,或者对“要‘经常’到什么程度才能打5分”完全一致时才能有效,那这些问卷岂不全报废了?

这个的典型陈述就是 1 = 极度不同意 2 = 不同 如此类推。
用12345纯粹是为了避免覆面描述而已
 楼主| 发表于 2009-4-13 21:09:57 | 显示全部楼层
之所以要“大样本”和“显著性概率”(就是你说的“信心系数”,说实话我没见过这样的翻译,最接近你这个表述的翻译是“置信度”),是因为“不能想当然的认为,抽样得到的‘样本’可以代表‘总体’”。

比如说,要看A、B两个班(每班100人)哪个班的学习水平更好,我们从两个班各自随机抽取了10个人。结果这A班10个人的平均分是97,B班10个人是94,能不能说A班的100个人“整体上水平比B班高”呢?不能。因为那10个人(样本)能不能代表100人(总体)是有待商榷的。

统计学上用“显著性概率”(置信度)来解决这个问题:当我们只测了10个人时,说“A班比B班好”这句话正确的可能性(这就是“置信度”)是多少,比如95%。

可见,如果你要讨论“5个评委是不是大样本”,那就要明确“谁是‘总体’”。所以我在前面才说你这个观点实质上是“这5个评委(样本)的评判,能不能代表所有观众(总体)”。
-----------------------------------
应该是置信度吧,反正就是CONFIDENCE FACTORD的中译。
 楼主| 发表于 2009-4-13 21:14:23 | 显示全部楼层
我相信我们需要暂停下,岚星大量的文字掩盖了你的取向。我必须先弄清楚一点,以确保我们还是在一个平台上
你认为评判的职责是什么?是代表他个人的意见还是代表所有人的意见?
发表于 2009-4-13 21:19:48 | 显示全部楼层
原帖由 yincantcook 于 2009-4-13 21:02 发表
“我们团队经常一起讨论问题”(1分  2分  3分 4分 5分)(得分越高表示越同意这句话),这就是一个里克特量表中的正常问题。事实上你如果去看看社会科学方面的经典论文,后面的问卷上都是这样的问题。如果像你说的,大家对“经常”的理解很可能完全不同,或者对“要‘经常’到什么程度才能打5分”完全一致时才能有效,那这些问卷岂不全报废了?
这个的典型陈述就是 1 = 极度不同意 2 = 不同 如此类推。
用12345纯粹是为了避免覆面描述而已


OK,如果你已经认可以社会科学问卷中用这样的问题是合理的、科学的,那么下面这个问题你觉得如何?

陈词环节:
逻辑思路是否清晰顺畅?
正方:1、2、3、4、5分
反方:1、2、3、4、5分

我设计的评分表里全是这样的问题。如果你还担心诸如“独立性”或者“评判尺度”,那不妨再说说你的理由。:)
发表于 2009-4-13 21:24:24 | 显示全部楼层
原帖由 yincantcook 于 2009-4-13 21:14 发表
我相信我们需要暂停下,岚星大量的文字掩盖了你的取向。我必须先弄清楚一点,以确保我们还是在一个平台上
你认为评判的职责是什么?是代表他个人的意见还是代表所有人的意见?


评委的职责是:评判选手表现,并因此决定比赛胜负。

评委只可能代表自己(因为样本数不够大),但评委的结果要能得到选手和观众的“接受”。

PS:
我的大量文字是因为我希望把问题说得更清楚。比如你那个“是不是大样本”实在和我们讨论的问题没有任何关系……
 楼主| 发表于 2009-4-13 22:06:10 | 显示全部楼层
很好,我们先讨论第一点。评判之可以代表自己
这里有一点需要共识
每个评判对结果的影响是不是应该一样的
发表于 2009-4-13 22:54:37 | 显示全部楼层
原帖由 yincantcook 于 2009-4-13 22:06 发表
很好,我们先讨论第一点。评判之可以代表自己
这里有一点需要共识
每个评判对结果的影响是不是应该一样的


呵呵~怎么感觉像接受攻辩……

那就试试吧。

直观上说,应该。不过我想先听听你是怎么定义“每个评判对结果的影响”这个概念的。

===================================================

不过……要是只回答不提问,似乎不好玩……

我也问一个问题吧:

目前,很多评委对于辩论的理念存在偏差,很多评委不看逻辑、不重思想,只关心语言华彩、包袱段子。那些让辩论赛变得没有任何意义的“定义游戏”被很多评委当成“值得赞许的辩论技巧”。辩论赛越来越滑向“口舌之争”、“文明的吵架”。

请问,在这种状况下,投票制如何引导评委和辩手树立正确的辩论理念?

[ 本帖最后由 岚星 于 2009-4-13 23:11 编辑 ]
 楼主| 发表于 2009-4-14 10:22:28 | 显示全部楼层
先回答你的问题吧,虽然这个问题有太强的引导性
评判有没有问题?有,但最影响评判的是评判的背景。这一点在国内的比赛表现最为明显,正式比赛的评判多为人文社科背景,而民间比赛的评判又多为辩论界人士,单一的评判背景直接导致口味单一。说不好听点,国内辩论的低潮在于评判的单一,导致某些类型的辩风难以出头,以至于现在的辩风基本上就是近亲繁殖。

由此导致的各种问题并非是投票还是打分可以解决的,我更倾向于通过增加评判的多样性来解决这个问题。比如说一个由人文社科教授,商界达人,政府要员,医疗工程界人士,法律人士组成的评判名单,基本上就没有你所说的问题。
关于这样的名单,在香港有过挺长一段时间的实践,结果还是挺令人满意的。
 楼主| 发表于 2009-4-14 10:30:17 | 显示全部楼层
继续回到评判的问题,什么是对结果的影响相等,换句话,任何一个评判都没有办法通过变化自己的打分,来增加或者减少他对赛果的影响力。
用数学表示的话,就是胜为1,败为-1,开始的时候,双方都是0,
每个评判对于正方施加一个影响,Ci,反方施加一个影响为-Ci,
正方得分为 sum(Ci) 反方为  - sum(Ci),得分高者胜。
如果对结果的影响完全相等的话,则 |C1| = |C2| =... |Ci| =...|Cn|

[ 本帖最后由 yincantcook 于 2009-4-14 11:35 编辑 ]
发表于 2009-4-14 12:23:54 | 显示全部楼层
举两个例子吧:

例一:
如果一项研究,想判断A、B两家企业谁的企业文化更让员工有“家”的感觉,可能会这样做:

让5位曾经在两家公司各自工作过一段时间的员工,分别对一些题目打分。假设其中一题的得分是这样:
A:3、3、4、4、4
B:5、5、3、3、3
那么,在数据处理的环节,研究者会说A在这个题目上的得分是(3+3+4+4+4)/5=3.6;而B是3.8。并由此说A在该题目上的得分比B高。(当然,总体上是否可以说A比B更接近于“家文化”,还要结合其他题目进行统计分析)。

例二:
如果有一个招标项目,A、B两家公司竞标,甲方请来5位评标专家对其方案评分,其中比如“售后服务”的结果是:
A:3、3、4、4、4
B:5、5、3、3、3
那么,最后可能是A公司得分18,B公司19,所以B公司在“售后服务”上胜出。
(当然,也可能用其他方式。但不管是哪种方式,都被认为上面这种是可接受的合理做法。)

而你的观点则是,认为这两个例子中的计算都是不合理的。因为:
如果找5位评委给一场比赛打分,在比如“陈词环节-逻辑是否清晰顺畅”这个题项上的打分是:
正:3、3、4、4、4
反:5、5、3、3、3
最后,评委认为在这个题项上反方获胜。你觉得这是不合理的——这叫“不同评委对结果施加了不同的影响”。

所以,我不赞同你的观点。


实际上,评委看到的虽然是同样“表演”,但对“表现差距”有不同的“评价差”,这是很正常的——凭什么规定不同人的评价一定要相同呢?

所以关键是防止这不同的“评价差”被“评分尺度”放大,使得“评分差”不仅包含了“评价差”,还包含了“尺度差”。
里克特量表的意义就在于,他使得“评分差”只包含“评价差”。

评委的评判,恰恰应该是“根据评价差,来判定胜负”。

==============================


“通过增加评判的多样性来解决这个问题。比如说一个由人文社科教授,商界达人,政府要员,医疗工程界人士,法律人士组成的评判名单,基本上就没有你所说的问题。
关于这样的名单,在香港有过挺长一段时间的实践,结果还是挺令人满意的。”

那是因为:
1、香港等地实行的都是政策型辩论,评委对政策型辩论下“应该如何评判胜负”有着正确的认识。
2、这些比赛往往也有专门的评分表(参见游教授《认识辩论》中为奥瑞冈青商会赛制设计的评分表和评分规则)。

事实上,评委“人”的多样化没有用——如果他们都把辩论当成“文明的吵架”,那谁会去关心逻辑、合题性之些东西?
进一步讲,即使某个评委认为:辩论赛应该关注逻辑、论据、风度、表达精彩、团队配合等等。他可不可能在听完一场比赛以后,在没有评分表的情况下,对上述这么多要点进行理性、全面的分析,并综合平衡后得出结论?没被自由辩吵晕就不错了……

所以,只有评分表才能随时提醒评委“你应该关注什么”。

这就是为什么从奥运会比赛,到各种招投标项目,再到学术研究(比如Case Survey方法)都采用“综合加权评分法”的原因。

[ 本帖最后由 岚星 于 2009-4-14 12:31 编辑 ]
发表于 2009-4-14 12:40:40 | 显示全部楼层
发现一直没有明确提出我的观点,在这里先明确一下吧。回头可能会另开一帖:

评判胜负我认为有四种方法:

1、加权评分法:
每个评委对各环节分项打分,按环节权重,加权后得到该评委给双方各自的总分。
各评委给双方的得分分别相加,总分高的那一方获胜。

2、评分定票法:
每个评委对各环节分项打分,按环节权重,加权后得到该评委给双方各自的总分。(这一步和“加权评分法”一样)
各评委“严格”按照自己给双方打的分数,把自己的那一票投给得分高的一方。总得票数高的一方获胜。

3、参考评分的投票法:
每个评委对各环节分项打分,按环节权重,加权后得到该评委给双方各自的总分。(这一步和“加权评分法”一样)
各评委参考自己的评分结果之后,“自主判定”将票投给哪一方(换言之,自己给正方打的分高,但最后把票投给反方,这是被允许的)。总得票数高的一方获胜。

4、终局自由投票法:
比赛过程中不进行评分。
比赛结束后,评委“自主判定”将票投给哪一方总得票数高的一方获胜。

===================================

我认为,前两种“综合加权评分法”和“评分定票法”都是可选的。而“参考评分的投票法”与“终局自由投票法”都是不可选的。

[ 本帖最后由 岚星 于 2009-4-14 12:42 编辑 ]
 楼主| 发表于 2009-4-14 14:32:54 | 显示全部楼层
莫着急莫着急,岚星你不用这么快就转移话题。
怎么决定胜负是一个目的性很强的事情,在这之前,我们必须先谈论原则性的问题。我们根据什么原则来决定规矩。

回到我的问题,我认为我们在讨论打分还是投票之前,必须明确一点,评判的权重是不是应该严格相等。我望岚星能够在这个问题上明确表态,尔后我们再继续讨论

[ 本帖最后由 yincantcook 于 2009-4-14 14:33 编辑 ]
 楼主| 发表于 2009-4-14 16:15:54 | 显示全部楼层
在等待岚星回答的时候,扯一些题外话。
岚星以为评判的背景不重要,但对我们来说,这却是血淋淋的教训。
多年的比赛,我很清楚,某些背景的评判,我们的胜率低,某些背景的评判,我们的胜率高

由于背景不同,有的评判,特别是工程界,法律界,对逻辑是本能的敏感,而政商界的评判对可行性极为关注,这些评判关注的位置,偏偏就不是文采。

我估计岚星多数没有遇过这一类的评判的
发表于 2009-4-14 16:40:57 | 显示全部楼层
管理员能否告诉我,此帖后面的讨论是否应该加精
发表于 2009-4-15 00:04:02 | 显示全部楼层
原帖由 yincantcook 于 2009-4-14 14:32 发表
莫着急莫着急,岚星你不用这么快就转移话题。
怎么决定胜负是一个目的性很强的事情,在这之前,我们必须先谈论原则性的问题。我们根据什么原则来决定规矩。

回到我的问题,我认为我们在讨论打分还是投票之前,必须明确一点,评判的权重是不是应该严格相等。我望岚星能够在这个问题上明确表态,尔后我们再继续讨论


首先我没有转换话题,只是先明确一下我的观点。如果你赞同的是“评分定票”而不是“参考评分的自由投票”,那我想我们就不必争论了。


第二,回答你的问题:“评判的权重是不是应该严格相等”。
你认为我上面举的那两个例子(学术研究和评标)中,各位“评分人”的权重算不算“严格相等”?
我认为“算”。因为那个“加总”(比如3+3+4+4+5)并没有涉及“权重”。


第三,我觉得我们的分歧可能在这里:
你认为“评判应该‘直接’评判胜负”
而我认为“评判应该直接评判‘表现’,然后根据双方表现来评判胜负”

不知道我这个判断是否正确?


=======================================

原帖由 yincantcook 于 2009-4-14 16:15 发表

岚星以为评判的背景不重要,但对我们来说,这却是血淋淋的教训。
多年的比赛,我很清楚,某些背景的评判,我们的胜率低,某些背景的评判,我们的胜率高

由于背景不同,有的评判,特别是工程界,法律界,对逻辑是本能的敏感,而政商界的评判对可行性极为关注,这些评判关注的位置,偏偏就不是文采。

我估计岚星多数没有遇过这一类的评判的


抱歉你猜错了……我的本科和目前就读的浙大,重逻辑的评委很多(工科背景比较重嘛)。

至于面对不同评委,你们的胜率明显不同,原因很简单——他们有些关注逻辑,有些关注文采,有些关注可行性,却没有人能够全面、系统、平衡地考察各个方面。这也是为什么评判团的结果经常受到辩手和观众质疑的原因——各自关注的侧面不同。所以碰上和你们口味一致的你们就赢,反之就输。

而所谓“让评判的背景多样化”,本质上也就是为了让“整个评判团”可以关注不同侧面,从而在整体上实现平衡。

遗憾的是,我认为在目前状况下“此路不通”,原因有三:
1、评判人数有限,客观上不可能照顾到所有应该考虑的侧面。
2、评判很难请,因此很难事先进行合理搭配,所以“整体平衡”只是一种假想。
3、很多评委对非政策型辩论赛的理念本来就存在各种偏差,任其自由裁量,后果严重。

所以,我选择设计一个评分表,让每个评委都能“全面、系统、平衡地考察各个方面”,这样你们也就不用再流血了。

[ 本帖最后由 岚星 于 2009-4-15 00:11 编辑 ]
您需要登录后才可以回帖 登录 | 注册

本版积分规则

手机版|华语辩论网 ( 粤ICP备20050268号-1 )

GMT+8, 2025-7-31 00:15 , Processed in 0.051481 second(s), 14 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表