找回密码
 注册

QQ登录

只需一步,快速开始

查看: 45595|回复: 199

论战:为什么投票比评分好

[复制链接]
发表于 2009-3-27 11:17:49 | 显示全部楼层 |阅读模式
1.平等
   投票确保每个评判对赛果的影响是绝对相同的,这是评分制不能保证的
2.独立
   投票确保每一张票都是评判的独立意志,并且切实体现在赛果上,不因为他人的意愿而受到影响,无论是喜欢大分差,小分差,高底分,低底分,都不影响最后的结果。   这也是评分制做不到的
3.不受主办方操纵
   投票的结果一定会出现在赛果上,主办方没有中间操作的余地,保证程序公正,这还是评分制作不到的
4.简单
   评判只需要专心分别胜负,不必考虑其他影响,减少了不必要的干扰,这依然是评分所做不到的

综合而言,投票制比评分制明显优胜
发表于 2009-3-28 11:40:28 | 显示全部楼层
我一直觉得这个是华语的通论……

有争论的是应不应该提供评分体系来协助决定把票投给谁。
发表于 2009-3-28 23:30:20 | 显示全部楼层
感觉前两条比较重要~~~
发表于 2009-3-29 10:02:11 | 显示全部楼层
各有利弊
其实无论投票还是打分,前提都是评委要保证最基本的水平。
但是评分的话,是按照环节来评判比赛的;而投票的话,其实就是比较双方谁把论打得更清楚。到底辩论赛的评判应该站在整体角度还是环节角度,至今没有定论。比如昨天我们的校赛,按环节是某队赢,按整体是另一队赢,最后双方都很无奈。
 楼主| 发表于 2009-3-29 16:34:10 | 显示全部楼层
整体表现比环节表现重要,这是定论。

除了要搞平衡的某地,其他地方早就是这样了
发表于 2009-3-29 19:08:47 | 显示全部楼层
我还是觉得这个得看评委的水平和人品了
我朋友的比赛就遇到过这种情况 5个评委,4个判我朋友队赢一分,但是最后一个评委判我朋友队输6分,最后平均下来,我朋友绝对赢的比赛反而输了0.4分,这种情况要是按照投票的票数那肯定4:1是我朋友队赢

可是换着想想 其他的情况 假如两方的水平真的很接近,连评委自己都很难甚至根本分辨不了谁赢,这种情况又不可能有弃权的情况,所以就麻烦很多,如果是打分,到可以打个平分,来看其他的评委的分数来决定胜负

所以这两种方式各有利弊,难啊
 楼主| 发表于 2009-3-29 20:17:37 | 显示全部楼层
如果从评判的角度出发,我可以说有四个裁判的意愿被强暴了,这也是为什么评分制一直惹人非议的原因,少数人的意志可以凌驾于他人之上。

另外,平手是绝不可取的,分辨胜负是评判的责任,评判不能抛弃自己的责任,
发表于 2009-3-30 16:01:07 | 显示全部楼层
先抛开评委的责任是不是一定要把胜负分出来,我只是把两种性质分析下,因为打分毕竟包含着平分,而且这个评分时是有许多的环节,所以存在平分的可能,因为两个环节正赢两分,另一个环节正可以输两分,所以这种方式本身就有弊端啊
 楼主| 发表于 2009-3-30 17:19:39 | 显示全部楼层
辩论的结果只有输跟赢,没有平手的说法。
作为胜负的依据,我们选择单数评判,就是为了产生胜负的。
所以这位同学,请先弄清楚评判的责任再讨论什么好什么坏.
发表于 2009-3-31 03:46:32 | 显示全部楼层
评委需要是奇数,这是个很强的论点~~
发表于 2009-4-12 00:00:38 | 显示全部楼层
原帖由 yincantcook 于 2009-3-27 11:17 发表
1.平等
   投票确保每个评判对赛果的影响是绝对相同的,这是评分制不能保证的
2.独立
   投票确保每一张票都是评判的独立意志,并且切实体现在赛果上,不因为他人的意愿而受到影响,无论是喜欢大分差,小分差,高底分,低底分,都不影响最后的结果。   这也是评分制做不到的
3.不受主办方操纵
   投票的结果一定会出现在赛果上,主办方没有中间操作的余地,保证程序公正,这还是评分制作不到的
4.简单
   评判只需要专心分别胜负,不必考虑其他影响,减少了不必要的干扰,这依然是评分所做不到的


本想逐一讨论的,但发现没法说……因为您每点都只说了“自己的观点”——评分制做不到。但没有分析“为什么评分制做不到”……

而我认为:
平等:
如果每位评委评分表上的评判尺度一致,则评分制可以保证“平等”。而当各评分子项为5-7阶式里克特量表时,可以保证各评委评判尺度一致——这由现代社会科学研究方法所证明。

独立:
各评委独立完成自己的评分表,因此也不会受到他人的影响。所以独立性可以保证。

不受主办方操纵:
各评分表录入电脑时由双方非比赛选手或领队负责“监分”,录入完成后计算机自动加权生成总分。最后的电子表网上公开,任何人可以下载后分析。因此主办方也无法操控。

简单:
这个我承认,任何经过设计的评分表都不可能比最后直接投票来得简单。但简单的方法却未必好。因此这不能比较出两种方法何都更好。

=================

相反,经过良好设计的评分表可以解决很多直接投票无法解决的矛盾:

1、导向性:
直接投票可以成立的假设是:评委对于“什么是好的辩论表现,什么是好的辩手,怎么样做的辩论队更应该获胜”等问题有清晰正确的认识。而——恕我直言——绝大多数评委对这些问题的理解都是模糊甚至错误的。
(PS:我对“错误理解”的定义是:按这种理解去评判比赛,将引导辩论赛走向一个更加不受人待见的境地。)
而评分表不但可以明确地告诉评委:要从哪些方面评判比赛;而且可以告诉辩手“应该在哪些方面多下工夫”。反过来讲,哪些东西你做得再好也没用。
比如,当评分表中明确了“论据的真实性”成为评判要素时,“伪证”(辩手在场上伪造论据)现象在浙大已经基本绝迹。而当“合题性”成为评判要素后,浙大已经三年没有出现辩手通过“巧下定义”来打比赛的情况。这两大为众多老辩手深恶痛绝却无可奈何的顽疾,在目前的求是杯上已经荡然无存。


2、平衡性:
直接投票可以成立的另一假设是:评委会“综合地、平衡地”考虑诸如逻辑、表现力、对己方的论证情况、对对方的反驳情况、风度仪态、幽默感、论据充足恰当等等多种因素。而事实上,恐怕没有任何一个评委敢说自己能够对这么多方面进行综合平衡——如果没有一个评分表的话。
而评分表通过明确“评分维度”,对每个维度进行独立评判,由计算机合成总分,这无形中让评委“综合、平衡地”考察了各个方面。


3、客观性:
因为评委不能全面、平衡地考虑各个方面。因此评判时有的评委更欣赏华彩,有的更看重逻辑,有的更看重攻击性等等。而评委一共只有5-7位,于是胜负很大程度上被“评委的个人口味”所决定。于是最终结果往往造成观众不满意、辩手不认可。典型的是正方逻辑强,反方表演赞,于是当正方获胜时反方会骂评委“死板”,反方获胜时正方会骂评委“肤浅”。
而评分表明确了评分维度后,蛛网图可以明确显示出“正方的逻辑强,我们评委看到了;反方的表演赞,我们也加分了。”评委的客观公正性由此建立。


4、保护评委:
因为投票无法表现出“客观性”,也就无法建立评委的客观公正性,因此评委的评判往往大受质疑。而评委自己也无法明确说出“判X方胜”的原因——对双方势均力敌的比赛更是如此。事实上,某些辩论界顶级高校,校辩论赛中甚至出现评委被学生骂哭的情况,
而评分表的设计使评委只须回答“为什么在这个子项上我给出这个分数”,而这个问题评委往往可以回答。
事实上,求是杯近三年使用评分表后,再未出现辩手在BBS上质疑评委的情况。甚至反过来,出现了评委主动发帖阐述自己的评判感受的事件。就在今年的求是杯第二轮,一场焦点之战以3194.3:3189.9判定正方获胜。裁判长点评时(当时分数尚未公布)坦言:“双方表现之接近,已经让所有评委觉得不知道应该判哪边获胜。幸亏胜负是由评分表统计得出。我相信,这是对本场比赛最客观公正的评判。”


5、公正性:
直接投票可以成立的第三个假设是:评委会“主观”公正地评判获胜方。但实际上,的确有少数黑哨的存在。事实上,再很多要求按评分表来评判胜负的比赛中,评委也往往是先定胜负再反填评分表。这进一步为黑哨留下了生存空间。
而在评分表下,评委只对评分子项打分,无法控制比赛结果——如果要强行控制,唯有把大量子项都拉开分差。而这样的评分表一旦公开,该评委的评分状况将被蛛网图完全曝光。

PS:很多高校为了“保护评委”(实际上怕下次请不到评委),往往不敢把评委的投票情况公开。这又进一步为黑哨留下了生存空间。而在浙大求是杯上,所有评分表全部公开,黑哨再无立足之地。

6、请评委不再是难事:
对很多主办方来说,请到“足够数量的、有足够水平的评委”是一件很痛苦的事——尤其在初赛阶段更是如此。
而使用评分表后,求是杯初赛8间教室40位评委(事实上,还有10位左右的后备评委,以防当值评委因故临时不能到场)可以轻松满足。
这是因为,每场比赛5位评委中只有一位老师(或未参加本届大赛的高年级辩手)担任裁判长——除要负责点评外,裁判长不享有任何评分方面的特权。其他4位是“大众评委”。大众评委由同学自愿报名,经主办方筛选和简单培训后即可上岗。
从近三年实施情况看,大众评委使用评分打出的评分与裁判长相比,不存在显著性差异——尽管大众评委基本都是大一或大二的学生。而观众和辩手也对他们的评判表示了认可——他们的评分表(含其真实身份)在网上完全公开。

======================

退一步讲,即使采用“评分表产生统计报告,各评委面对自己的评分报告再独立评判”,也存在一大弊端——如果评分表显示的结果是正方获胜,评委能否投票给反方?

如果评委真的这么做了,那他就必须给出自己的理由。而恕我直言,我不认为有谁给出的理由能说服观众和辩手——除非评分表设计存在重大缺陷。

那么结果就很明确:如果评分表的结果和评委心中投票取向一致,则评委可以按评分表投票;如果不一致,则评委“不敢”不按评分表投票。因此所谓“在评分表基础上,评委自主投票”没有意义。


=====================

最后说一点:其实这种评判胜负的程序,和招投标中的“评标”是一样的。而评标如果不是低价中标,而是综合评价的话,必须事先公布一套“评分表”。大概不会有任何一个公开招投标会允许“评标专家直接投票决定谁中标”。
发表于 2009-4-12 00:08:51 | 显示全部楼层
原帖由 liuowen29 于 2009-3-30 16:01 发表
先抛开评委的责任是不是一定要把胜负分出来,我只是把两种性质分析下,因为打分毕竟包含着平分,而且这个评分时是有许多的环节,所以存在平分的可能,因为两个环节正赢两分,另一个环节正可以输两分,所以这种方式本身就有弊 ...


平分是会存在的——当然出现的概率很小。

关键是,如果出现平分,按什么来评判胜负?这一点奥瑞冈赛制已经发展出了一套严整的评判方法。浙大目前参照奥瑞冈体系,也设计了一套评判方法。所以这个问题并不难解决。
 楼主| 发表于 2009-4-12 21:02:50 | 显示全部楼层
如果每位评委评分表上的评判尺度一致,则评分制可以保证“平等”。而当各评分子项为5-7阶式里克特量表时,可以保证各评委评判尺度一致——这由现代社会科学研究方法所证明。

我并不知道你怎么能够得出“保证各评委评判尺度一致“”这个结论。
这个结论有个非常非常重要的前提:样本足够大,不说多,如果样本只有几十个的话,都会被质疑研究的有效性。我完全看不出这个结论有什么理由能够应用在七个五个,甚至只有三个样本的情况下。
而且就算是样本足够大,它也只能保证在大数原则上,结果的偏差小于一个信心系数,仅此而已。

请问岚星先生,你见过社会科学的研究,样本只有三个的吗?
 楼主| 发表于 2009-4-12 21:41:53 | 显示全部楼层
关于独立性,
一样的评分表,但是有人的喜欢给10分的分差,有人喜欢给5分的分差,分差的大小直接影响胜负,分差大的评判的影响分差小的评判的结果。你认为这又该怎么避免?
发表于 2009-4-13 00:51:13 | 显示全部楼层
原帖由 yincantcook 于 2009-4-12 21:02 发表
我并不知道你怎么能够得出“保证各评委评判尺度一致“”这个结论。
这个结论有个非常非常重要的前提:样本足够大,不说多,如果样本只有几十个的话,都会被质疑研究的有效性。我完全看不出这个结论有什么理由能够应用在七个五个,甚至只有三个样本的情况下。
而且就算是样本足够大,它也只能保证在大数原则上,结果的偏差小于一个信心系数,仅此而已。

请问岚星先生,你见过社会科学的研究,样本只有三个的吗?


原帖由 yincantcook 于 2009-4-12 21:41 发表
关于独立性,
一样的评分表,但是有人的喜欢给10分的分差,有人喜欢给5分的分差,分差的大小直接影响胜负,分差大的评判的影响分差小的评判的结果。你认为这又该怎么避免?


先说一句:可能是网上打字没有办法表示出心态吧……如果我之前的发言让你觉得有火药味,那我表示道歉。

我觉得,投票和评分哪个更合理,这个问题还是很值得讨论的,所以我不太赞成“论战”的说法,大家更平和地把问题讨论得更深入清楚应该更好。

现在继续讨论你说的问题。我想你可能误解了我的意思。

你说的“分差”和“评判尺度”实际上都是同一个问题:不同评委对同一评分项所打的分数,是否可以相加。如果同样的“表现差”,有人给了双方10分分差,另一些人给了5分分差,那一旦加总,就会出问题。比如前面有人提出的,4个评委判正方胜,但另外1个评委给正方打了超低分。

这个解决方法其实在社会科学研究方法里早就有定论了——如果满分是5分或7分,则不同评委的评判尺度可以被认为是一样的——也即不同评委的评分可以相加。
简单地说,就是如果满分只有5分,“你打10分分差,我打5分分差”的情况就不可能出现,因此不会产生“一个评委强奸另外4个评委”的情况。


这就是为什么我们看到的调研问卷,如果要求答题者对某项内容做评价,一般都取5分或7分做为满分的原因——否则那么多问卷上不同评分者的分数完全没法进行统计分析。PS:这就是里克特量表在社会科学研究中重要地位的由来。


而你说的“样本足够大”,其实是说只有样本足够大的时候,“这5位评委的评价(样本)才能代表所有观众的评价(总体)”而不是“这5位评委的评判尺度才可以被看成一致的”——根据里克特量表的研究,只要采用满分是5-7分的评分表,哪怕只有3位评委,也可以认为他们的评判尺度是一致的。


而现在很多评分表的设计完全不注意这一点,比如陈词环节满分30,自由辩满分60。这种评分表的设计才会出现你说的问题了。

浙大设计的评分表,是不会这样的。我们的每个评分项满分都只有5分。建议你去把我上传的评分表样板先拿来研究一下再说。=P

[ 本帖最后由 岚星 于 2009-4-13 01:09 编辑 ]
 楼主| 发表于 2009-4-13 10:01:16 | 显示全部楼层
Likert scales may be subject to distortion from several causes. Respondents may avoid using extreme response categories (central tendency bias); agree with statements as presented (acquiescence bias); or try to portray themselves or their organization in a more favorable light (social desirability bias).Designing a scale with balanced keying (an equal number of positive andnegative statements) can obviate the problem of acquiescence bias,since acquiescence on positively keyed items will balance acquiescenceon negatively keyed items, but central tendency and social desirabilityare somewhat more problematic.
[http://en.wikipedia.org/wiki/Likert_scale]

这段话,我想不需要翻译了,非常明确地说明了量表不能保证分差一致。


发表于 2009-4-13 10:01:18 | 显示全部楼层
不知道这是个例还是其他现象,我们学校投票制出现了这样一个弊端:正方四辩要是不强还好,要是很强或者很有气势,可能反方四位辩手全场的努力就白费了(正四一说完,评委就投票了)
发表于 2009-4-13 10:02:09 | 显示全部楼层
算了,不参与你们俩的讨论了,我数学不好
 楼主| 发表于 2009-4-13 10:04:58 | 显示全部楼层
而你说的“样本足够大”,其实是说只有样本足够大的时候,“这5位评委的评价(样本)才能代表所有观众的评价(总体)”而不是“这5位评委的评判尺度才可以被看成一致的”——根据里克特量表的研究,只要采用满分是5-7分的评分表,哪怕只有3位评委,也可以认为他们的评判尺度是一致的。

我对此表示强烈质疑,什么叫做"可以认为他们的评判尺度是一致的"?是小于一个信心系数,还是100%相同。
我强烈建议岚星可以提交论文,证明在100%情况下,评判尺度是完全一样的。
发表于 2009-4-13 19:44:05 | 显示全部楼层
我想是我没有说清楚吧……

我并不是说能保证“面对同样的‘表现差’时,不同评委会给出同样的‘分差’”——如果有哪种技术可以保证这一点的话,那根本不需要多个评委,一个评委就可以了,而且他的评判应该得到所有观众的认同。

这无疑是不可能的。

所以关键不在于不同评委是否具有“完全相同的评分尺度”,而在于“不同评委的评分是否可以相加”(我是在这个意义上说“可以认为他们的评判尺度是一致”这句话的)。

再说明确一些:

如果对于同一个“表现差距”,一个评委认为分差10分,另一个认为分差是5分,那当我们不去把这个分数相加,而是按你说的,评委根据自己的打分进行投票,还存不存在你说的“分差大的评判的影响分差小的评判的结果”呢?不存在了吧……

这就可以看出,重点不在于“不同评委是不是对同样的‘表现差’打出同样的‘分差’”,而在于那个10分和5分是不能“相加”的。但很多评分系统中却无视这一点,硬把不同评委、不同环节的分数加到一起,这才出现了你说的问题。

而里克特量表保证的是,当满分是5-7分时,这个“相加”是可以接受的。

如果这样说还不够明白,那再举个例子吧。

如果我们要评价A、B两家公司谁的“员工满意度”更高,我们可能会问一批“在A、B两家公司都工作过一段时间的员工”“你对两家公司(工作)的满意度 各 是多少分?”然后分别计算两家公司的“平均得分”——这就要把不同员工的评分“相加”了。

按你说的,如果绝大多数员工给A公司打的分都比B公司高一点,而少数员工打的分却严重偏低,那就出现“分差大的评判的影响分差小的评判的结果”,最后反而可能显示A公司员工满意度不如B公司。

而里克特量表的价值就在于它指出了,如果满分是5-7分,这个情况发生的概率低到了足以忽略不计的程度

如果你推翻了这一点,那我恭喜你,你等于推翻了现代社会科学(包括管理学、心理学、社会学等等)的一切“问卷”实证研究;而且也推翻了比如奥运会这种国际大赛中跳水、体操、花样滑冰、马术等等评分式比赛项目的评判合理性。

这成就估计申请个诺奖啥的没问题了~

[ 本帖最后由 岚星 于 2009-4-13 20:21 编辑 ]
您需要登录后才可以回帖 登录 | 注册

本版积分规则

手机版|华语辩论网 ( 粤ICP备20050268号-1 )

GMT+8, 2025-7-31 00:13 , Processed in 0.073516 second(s), 16 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表