一、为何随机森林的机器学习统计模型预测法官投票准确率胜过专家?
因为随机森林的机器学习统计模型进行了大量的数据分析,该模型先学习了1816年到2015年最高法院案例特征与裁决结果之间的关联,然后按年份研究每个案例的特征并预测裁决结果,最后被“投喂”关于该年份裁决结果实际信息的算法升级了预测策略,并继续进行下一年的预测。
用计算机算法预测法官行为并不稀奇。2011年,西班牙学者在一项研究中,使用1953年到2004年任意8名法官的投票,来预测同一案件中第9名法官的投票,准确率为83%;2004年,美国学者使用1994年以来一直在法院工作的9名法官的判决,来预测2002年案件的判决结果,准确率为75%。
而伊利诺伊大学理工学院法学教授丹尼尔·卡茨的团队利用最高法院数据库,为每个投票标注了16个特征,包括法官任期、诉讼发起法庭、口头辩论是否被听到等,创建了最先进的算法。对1816年到2015年美国最高法院的判决进行预测,准确率高于70%,较知识渊博的法律专家(预测准确率为66%)更胜一筹。结果显示,对于28000项判决结果及24万张法官投票,新模型算法预测的正确率分别为70.2%和71.9%。相关研究文章发表在《公共科学图书馆·综合》(PLOS ONE)上。
二、机器学习 模型 怎么确定参数的
那个不叫 区分模型 一般要叫判别模型
简单说判别模型会描述从观察到的现象会得到怎样的结论 比如可以是类别等
生成模型会描述观察到的现象是通过一种怎样的数学结构产生的
三、在机器学习中,线性模型是很高效的,但是我不明白具体高效在什么地方?
线性模型参数少啊,这是他最大的优点。参数多了就容易过拟合,这是机器学习最大的问题之一。
奥卡姆剃刀原理告诉我们:满足性能的条件下,模型越简单越好。
一般调参都是先让模型得出较好的性能,然后再逐步降低模型复杂度。