论战：为什么投票比评分好

岚星 · 发表于 2009-4-22 11:45:43

原帖由 yincantcook 于 2009-4-22 10:23 发表
如果以97以来的辩论发展来说，力挽狂澜的辩手基本上只能在比较低水平的比赛里面出现了。
随着双方实力的提升，平均队形的队伍必将战胜明星队伍，强如老黄也没有办法改变这一点。

难得对你的看法表示一次同意～

keon · 发表于 2009-4-22 14:43:27

所以要评分表来引导。如果谁觉得评分表上某些项目，或权重设计不合理，在设计表的时候就会提出来了。事实上这个表也是这样多次修订成的。

那么裁判是否有参与设计分表的权利呢？他的权力去到那个地步呢？是仅有权提出建议，还是有投票权呢？请具体说明

BTW：IBM被不被黑，那是他做投标方（乙方）的时候，而我们讨论的是他当甲方的时候，你要是这两个都没分清，那我实在不知道该说什么了……

你之前不是说过，如果某家公司知道自己被黑了，他就...嘿嘿（你的原文哦）
那么，我问你的就是，ibm被黑了以后，是选择拂袖而去呢？还是适应中国特色呢？
好吧就说ibm是甲方的时候，ibm的供应商被ibm黑了，你觉得那个供应商是从此不再跟ibm做生意呢？还是改变自己去适应ibm?

呵呵～每天商量当然不可能，不过……难道你当初进这家公司的时候没有跟他们谈工次待遇问题？

这里我想强调的是，谁有最终裁决权的问题。商量、讨论、交流这些词对我来说毫无意义，我只关注谁有最后裁决权。

“应该判断哪些地方”——比如逻辑、论据等等应该考虑，长像、哗众取宠之类不应该考虑。这个是大家商定的。这些地方“应该得多少分”，这个是评委定的。当然，他凭什么这么定，是要能向观众解释出来的。

这个“理”是大家讨论而定的。

同类问题，这个“大家“，是指那些人？麻烦具体点

但是，如果你不认同这个“理”，而又说不出“为什么不认这个理是正确的”

那么如果我不认同这个"理"，我说出了我的理由，你的那些“大家“们不接受，怎么办？

“做出对比赛胜负的判断”是“评委的权利”还是“义务”？

义务，且义务也仅限于此

我在上班，数学问题晚点再说，我们的根本分歧不在这里

[ 本帖最后由 keon 于 2009-4-22 14:48 编辑 ]

yincantcook · 发表于 2009-4-22 15:44:08

数学，我喜欢，俺工科出身，又在社科混过。尔等社科废柴敢跟我讲统计，真是自寻死路。
来，岚星，辩论的事情留给keon，我们在统计上来两手，我只管证明加总的技术问题。

还是误差，就一个问题，你口口声声说李氏表very good,那么，我问你，下面的误差测试了没有
1.受测者（评判）的随机误差：由于环境，时间等影响，就算是同一个评判，他的分数也会在一个范围内浮动，那么，这个浮动值在你的测试里面是一个什么样的范围？

keon · 发表于 2009-4-22 17:32:07

ls的和谐和谐...息怒息怒...

herolandis · 发表于 2009-4-23 23:01:28

原帖由 MaPowerness 于 2009-4-21 08:24 发表
聂师兄真是好脾气好性子，每次看他耐心谦和的样子我就心中惭愧。
不过仍然觉得他啰嗦到了迂腐的程度
既然大家都知道辩论现在“处于”“迷茫期”是因为辩手素质不够，为什么您不致力去寻找提高辩手的素质的途径，而 ...

因为需要在很多比赛还必然低水平辩手还必然低素质的时候就开始评判。评判过程本身也应该是帮助辩手成长的要素。你不能因为有另一块短板，就说这块不用补了。

岚星 · 发表于 2009-4-23 23:49:17

原帖由 yincantcook 于 2009-4-22 11:12 发表 [url=http://www.joyoustudio.com/bbs/redirect.php?goto=findpost&pid=165827&ptid=16008][img]这里说明下，因为我读的都是英文课本，以后类似置信度的字眼，我都会用significance level （alpha 值）代替，避免翻译过程的混乱。
significance level 说的是有大可能性结果能代表整体的结果。也就是说岚星数学过得去的话，他的解释应该是
[quote]如前所述，“置信度”的概念在我们讨论的问题中可以这样理解：如果有100个评委组成了“大评判团”，这场比赛抽样了5位评委，他们按评分判了正方获胜。而我们要考虑：如果换5个评委，是不是还会打出正方比反方高的分数呢？或者，“如果换5个评委，正方的总分（均值）仍然比反方高的概率是多少？”这就是置信度。

“置信度”的概念在我们讨论的问题中可以这样理解：如果有100个评委组成了“大评判团”，这场比赛抽样了5位评委，他们按评分判了正方获胜。而我们要考虑：全部评判一起打分，正方的总分（均值）仍然比反方高的概率是多少？”这就是置信度。
虽说两句话的分别不算大，不过足以反映岚星对数学定义的敏感度了。[/quote]

呵呵～看来你是真打算在这上面和我硬扛是吧？行，我奉陪到底。

先看下面这段话：

原帖由 keon 于 2009-4-16 01:45 发表
一个理想的标准，对于同一场辩论赛，应是即使更换5位其他符合资格的评委，也有极大的几率是相同的胜负结果，这应该是辩论赛胜负公信力的来源

这是keon在54楼提出的“公信力”，也是我们讨论“置信度”的根本原因。

对于这个说法，yincancook你没有反对——事实上，你一开始认为“只有当值5位评委有权裁定比赛”，在我证明了“按此说法，那5个评委就是‘总体’，根本不存在‘抽样’，也没有‘置信度’概念”之后，你倒向了keon这个观点。

但是，当时我就判断，你和keon很可能搞错了“置信度”的概念，因为按这个表述，测的不是“置信度”，而是“评分者信度”。但我没有指出你们这个错误，原因有三：

1、我不想冲淡讨论焦点——既然讨论的是如何保证评委的公信力，而不是统计方法，争这个没有意义。

2、我觉得既然大家知道了讨论的是“这个东西”，那这个东西应该叫“评分者信度”还是“置信度”并不重要。语言是表意的工具，能明白意思就可以了。

3、宽容点儿说，你们这样理解也不全是错的。评分者信度就是“‘如果换一批评分者来测量，结论能保持一致’，这句话正确的概率，或者说正确的‘置信度’是多少。”

既然如此，我当时就没去指证你们的错误，而之后我也一直按这个来讨论。

但没想到，我的宽容现在反而成了你对我的抨击……当真可笑！

当然，我是不会嘲笑你对统计定义的敏感度，或者骂你这种人是废柴的。原因很简单，我认为对于一个只学过数理统计，而对社会科学实证方法完全是门外汉的人，把诸如结论的置信度、重测信度、评分者信度、组内相关系数、外部效度、结构效度等等这一批概念搞混淆是很正常的。

不过，既然你对统计和数学这么感兴趣，那就有劳你下次连significance level这个错误的概念也别用了——直接用“评分者信度”来和我讨论吧。

keon · 发表于 2009-4-23 23:53:55

其实确实我不是很确定significance level是否翻译为置性度（其实说的就是alpha测试里的alpha值啦），当然入乡随俗，在你的帖子里和你讨论我们就都不用英文的术语了...

还有，数学问题我为你和yincantcook另开了个帖子，请在那里和他讨论，这里只有你和我~~

~oh好缠绵..好肉麻

[ 本帖最后由 keon 于 2009-4-24 00:00 编辑 ]

岚星 · 发表于 2009-4-24 00:00:41

原帖由 yincantcook 于 2009-4-22 15:44 发表
数学，我喜欢，俺工科出身，又在社科混过。尔等社科废柴敢跟我讲统计，真是自寻死路。
来，岚星，辩论的事情留给keon，我们在统计上来两手，我只管证明加总的技术问题。

还是误差，就一个问题，你口口声声说李氏表very good,那么，我问你，下面的误差测试了没有
1.受测者（评判）的随机误差：由于环境，时间等影响，就算是同一个评判，他的分数也会在一个范围内浮动，那么，这个浮动值在你的测试里面是一个什么样的范围？

啊……对不起，看来我应该修改我166楼的话，您不是“对社会科学实证方法完全是门外汉”，而是个“社会科学实证研究方面的混混”……

行啊，你要讨论加总的技术问题我们就讨论好了！

首先，我承认你说的各种误差我都没有测过——原因很简单：一是样本数量还不够，暂时无法统计；二是测验结果根本不用也不可能得到“存在显著性差异”结论，所以还没到要测的地步。当然，等收集到足够样本，我是会按社会科学研究方法，对问卷的信度、效度进行严格检验的。如果检验结果不合适，我也会继续调整问卷。目前，我只是从实际效果上说它起到了预期的作用。

不过，你说的这个随机误差，我倒完全不觉得有测试的必要！

因为不管是什么随机误差——比如按你说的受时间环境影响，一个评委在评同一场比赛——尤其是评同一个环节上“正反方各自得分”的时候，没有理由认为只影响某一方得分，那么既然最后考虑的是“分差”，那么这个随机误差会被自动消除——这个连工科中也是经常用的“差分法”，我相信你就算只“混”过社科也应该不难理解的。

既然你的帖子中标了“1”，那应该还有2、3、4吧？请继续，我来者不拒。

yincantcook · 发表于 2009-4-24 00:02:56

现在有点晚了，数学的东西，岚星在下面回好了。
http://www.joyoustudio.com/bbs/v ... &extra=page%3D1
最好短些

keon · 发表于 2009-4-24 00:05:25

还有，我觉得我们一直争论不清的东西在于很多国内的统计术语我们都没听过，学习语言不同嘛。你可不可以不要不停说专有名词，而是简单点说这个东西测的是啥，我们数学底子都不差，简单说说我们就能理解。

岚星 · 发表于 2009-4-24 00:07:52

原帖由 keon 于 2009-4-23 23:53 发表
其实确实我不是很确定significance level是否翻译为置性度（其实说的就是alpha测试里的alpha值啦），当然入乡随俗，在你的帖子里和你讨论我们就都不用英文的术语了...

这个翻译没有错，包括yincancook最初说到的“信心系数”也的确是这个意思。只不过，并不是只有“研究假设是否应该被接受”才存在置信度，统计学里几乎处处是置信度（各种信度、效度说到底也是某种置信度）。但实证研究方法里，“置信度”一般默认只指“研究假设是否应该被接受”。

愿用英文我没意见，英文论文俺都写了一批了，这点儿小case还难不倒我。我只不过是提醒yincancook，不要又用错了概念而已。:)

岚星 · 发表于 2009-4-24 00:09:55

原帖由 yincantcook 于 2009-4-24 00:02 发表
现在有点晚了，数学的东西，岚星在下面回好了。
http://www.joyoustudio.com/bbs/viewthread.php?tid=16145&extra=page%3D1
最好短些

还是继续在这里吧。之前你我在N多楼里都写了关于统计方法的文字，也正好保持一下延续性。:)

keon · 发表于 2009-4-24 00:15:15

ok 说回我们的讨论，分歧点我觉得已经很明确了，其实严格来说涉及我们对民主的认识。基本上我是左倾自由派，用yin的话说，他的评委设计基本就是代议制民主，而你偏向民主集中制加上威权政治。

我想了解一下你的政治倾向然后继续讨论
http://www.politicalcompass.org/test
这是一个政治倾向测验的网站，看看你能不能打开，大概50道题目，30分钟左右可以做完。希特勒、林肯、丘吉尔等人都做过类似的测试。

岚星 · 发表于 2009-4-24 02:43:04

原帖由 keon 于 2009-4-22 14:43 发表

那么裁判是否有参与设计分表的权利呢？他的权力去到那个地步呢？是仅有权提出建议，还是有投票权呢？请具体说明

可以提出建议。评分表会修改到大家都表示接受为止。

你之前不是说过，如果某家公司知道自己被黑了，他就...嘿嘿（你的原文哦）
那么，我问你的就是，ibm被黑了以后，是选择拂袖而去呢？还是适应中国特色呢？
好吧就说ibm是甲方的时候，ibm的供应商被ibm黑了，你觉得那个供应商是从此不再跟ibm做生意呢？还是改变自己去适应ibm?

对第一句：有劳你去看看我那个原文的“上下文语境”是什么。:)

对第二句：IBM出于商业利益，当然只好委屈求全。那你是不是认为辩论队也应该“委屈求全”而不是追求建立一个更公平公正的环境呢？如果你这样认为，那还和我讨论什么评委的公信力啊？

对第三句：评分表的一个典型应用就是“供应商评级系统”。海尔当年没搞这个的时候，供应商每年年末都要闹——因为海尔说不清为什么给他们不同的奖励或惩罚。而自从建立这个系统，从诸如交货期、质量、成本等各个方面打分，然后加权平均形成供应商排序之后，争议反而几乎没有了。IBM早就有了这样的系统，所以之前是怎么样我不清楚。但可以肯定的是，在现在的大型企业招标中，“供应商评分系统”经常成为初选（形成“短名单”）的工具。不知道这是不是同样不合理呢？

这里我想强调的是，谁有最终裁决权的问题。商量、讨论、交流这些词对我来说毫无意义，我只关注谁有最后裁决权。

您没有听说过“民主决策”这种管理模式吗？很多讨论就可以形成决策意见了，只有比如时间紧迫无法达成一致意见的时候，才会涉及“裁决权”问题的。

同类问题，这个“大家“，是指那些人？麻烦具体点

1、辩论爱好者（包括浙大同学的和华语的网友），他们在以前发的很多文章中都涉及到了“如何评判辩论赛才合理”的问题。
2、评委老师（浙大这个表设计，主要是咨询了余潇枫等几位老师。另外还参考了以前的大专辩论赛评分表，也就是制定那些表的老师）
3、主办方（因为评分表会成为他们和辩手、评委、观众的工作界面，所以也要考虑他们的工作要求）

那么如果我不认同这个"理"，我说出了我的理由，你的那些“大家“们不接受，怎么办？

这个……似乎没有出现过。有道理，大家都会接受的。最多是因为某些实际困难，可能无法实现。这个时候经过讨论，提出者也都可以表示理解的。比如每一年定表的时候，我曾试图把合理性得分定在16分（及格线），但其他辩手担心第一次使用定这么高会出问题，于是就定了13分（过半）。

[quote]“做出对比赛胜负的判断”是“评委的权利”还是“义务”？

义务，且义务也仅限于此
[/quote]

哦……如果“做出对比赛胜负的判断”是义务，那评委的权利是什么？我糊涂了……

虽然表述不严格，但“权利”是“我可以做某事”，而“义务”是“因为我做了某事，所以必须连带做另一件事”的概念。所以“做出对比赛胜负的判断”是评委的职权（权利），而职责（义务）则是“保证这一评判是公平公正的”。就像政府官员“做事”是职权（权利），“保证这事做得对”是职责（义务）。

如果我的理解有误，还请指正。谢谢～

岚星 · 发表于 2009-4-24 03:01:45

原帖由 keon 于 2009-4-24 00:05 发表
还有，我觉得我们一直争论不清的东西在于很多国内的统计术语我们都没听过，学习语言不同嘛。你可不可以不要不停说专有名词，而是简单点说这个东西测的是啥，我们数学底子都不差，简单说说我们就能理解。

唉……你看看我166楼的话吧，我就是不想引入专有名词，才出现这个结果的……

那些统计术语没听过，我估计和学习语言无关，而是因为像scorer reliability等等一批这样的概念，不学社会科学研究方法的话，就算把数理统计研究到顶也是很难碰到的（除非研究的就是应用统计学）。因为社会科学研究中影响因素太多，所以对统计实证方法的要求比理工科要高出至少一个数量级！这不是玩笑，曾经看过一个报道，在诺贝尔奖的酒会上，经济学家们讨论起统计方法问题来，物理学家和化学家们经常连话都插不上！再去翻翻很多统计学的顶尖杂志，往往都是从社会科学研究问题上展开的。比如西蒙当年拿诺奖的论文，投世界最顶级的统计学杂志，那些评审专家竟然看不懂。最后好像说是当时计量统计领域最牛的学者给了审稿意见：“我也看不懂，不过我验证了几个主要结论，似乎都是对的，所以我觉得应该发表。”

而yincancook连这样的学术常识都不知道，竟然说什么“俺工科出身，尔等社科废柴敢跟我讲统计，真是自寻死路”。这话简直就像说“俺学五子棋出身，尔等围棋废柴敢跟我比‘算路’，真是自寻死路”。对于这种话，我除了“无知且无畏”之外，实在给不出更恰当的评价了……

岚星 · 发表于 2009-4-24 03:08:20

原帖由 keon 于 2009-4-24 00:15 发表
ok 说回我们的讨论，分歧点我觉得已经很明确了，其实严格来说涉及我们对民主的认识。基本上我是左倾自由派，用yin的话说，他的评委设计基本就是代议制民主，而你偏向民主集中制加上威权政治。

我想了解一下你的政 ...

抱歉今天太晚了，明后天我会去做的。

不过说实话，我不觉得这个观点和“民主VS共和”等观点有关。我只是相信“程序正义必须得到遵从”。如此而已。

keon · 发表于 2009-4-24 03:37:07

呵呵，你先做做看，我猜你是在第一象限的~
不是说民主v.s共和啦，其实是对不同民主制度信仰的区别，还是等你先做了那个test吧
另外，如果想找证据，不如你拿1场你们浙大的新生赛，就用你的评分表，我们找一个pool的评判，就用你的分表，让他们各自打分，然后我们来算打分的误差，并穷举所有组合看算胜负的误差，好过我们无休止的在误差问题上口舌之争。

yincantcook · 发表于 2009-4-24 10:39:26

那些统计术语没听过，我估计和学习语言无关，而是因为像scorer reliability等等一批这样的概念，不学社会科学研究方法的话，就算把数理统计研究到顶也是很难碰到的（除非研究的就是应用统计学）。因为社会科学研究中影响因素太多，所以对统计实证方法的要求比理工科要高出至少一个数量级！这不是玩笑，曾经看过一个报道，在诺贝尔奖的酒会上，经济学家们讨论起统计方法问题来，物理学家和化学家们经常连话都插不上！再去翻翻很多统计学的顶尖杂志，往往都是从社会科学研究问题上展开的。比如西蒙当年拿诺奖的论文，投世界最顶级的统计学杂志，那些评审专家竟然看不懂。最后好像说是当时计量统计领域最牛的学者给了审稿意见：“我也看不懂，不过我验证了几个主要结论，似乎都是对的，所以我觉得应该发表。”

读者？
从西蒙的履历看，这个人不像是强统计学背景的，也不是计量经济学的

yincantcook · 发表于 2009-4-24 11:48:23

先小结一下岚星的回答
1.岚星承认没有对个体的随机散布作出测试
2.岚星认为随机散布应该不影响结果
------------------------------------------------------

因为不管是什么随机误差——比如按你说的受时间环境影响，一个评委在评同一场比赛——尤其是评同一个环节上“正反方各自得分”的时候，没有理由认为只影响某一方得分，那么既然最后考虑的是“分差”，

对此，我并不赞同。我所说的时间地点，实际上指如果能够重复测试的话，分数会有一个浮动。
这个误差的来源有很多原因，比如说一个7阶李克特，评判给出了5：4
这个5分可能是一个（4 ，6）的线性分布，而4分则是(3,5)的线性分布，这样的测量误差，
多数属于非系统的随机误差。
那么，我问岚星，我提出的这个误差，是不是存在于你的打分系统？如果存在，你怎么处理这个误差？

衍文 · 发表于 2009-4-24 12:54:48

無論此貼紅不紅，先占個坐。。。

		自动登录	找回密码
密码			注册

论战：为什么投票比评分好

浏览过的版块