拥抱新技术 | 不同模态下的DeepSeek"法律问答"能力对比与思考

来源:中国司法大数据研究院公众号
发布时间:2025-03-13 00:00:00
字号:

拥抱新技术—对比测评


本期“拥抱新技术”专栏,我们将对不同模态下的DeepSeek在“法律问答”能力方面进行对比测评,并探讨外部知识库对模型性能的影响。


测评方法及测试集

   

本次对比测评,参考了《法律大模型评估指标和测评方法(征求意见稿)》(详见:大模型在法律服务方面仍有很大提升空间),从正确性、完整度、相关度和有效性四个维度进行测评。依托中国法研信息化测评中心提供的“SuperLegalBench”测试数据集,从中精选了500个样本,全面模拟真实法律问答场景。



DeepSeek:“法律问答”能力测评



对如下四种场景进行测评:

DeepSeek深度思考模式(671B)

DeepSeek深度思考模式+联网搜索(671B)

DeepSeek法研适配版(671B)

“DeepSeek法研适配版”基于原DeepSeek-R1模型,融合了法研自研知识库。

DeepSeek法研适配版(千问32B蒸馏版)


以某一案例详细展示测评分析过程,如下:


案例描述:食品销售人员因未妥善保管亚硝酸盐,导致其混入食品中出售,致人一死一轻微伤的行为如何定性?


场景一:DeepSeek深度思考模式(671B)



1 模型回答摘要


【模型思考过程】:梳理案件基本情况,明确行为性质和后果;结合刑法条文及相关司法解释,逐一分析可能适用的罪名;深入探讨各罪名的构成要件及竞合关系,理清罪名之间的差异;综合以上分析,结合司法实践倾向,得出结论。


【模型回答结论】:详细分析“生产、销售不符合安全标准的食品罪”、“生产、销售有毒、有害食品罪”、“过失致人死亡罪”以及“过失以危险方法危害公共安全罪”几种可能涉及的罪名。最终认定案涉行为构成“生产、销售不符合安全标准的食品罪”。


模型思考过程原文、模型回答原文详见附件

DeepSeek深度思考模式(671B).pdf


2 综合分析


  尽管DeepSeek深度思考模式(671B)展示了较强的逻辑推理能力,并全面涉及多个相关罪名,但在回答时存在明显不足:


    1.遗漏正确法条。模型完全忽略了对“过失以危险方法危害公共安全罪”这一关键罪名的分析,仅针对“生产、销售不符合安全标准的食品罪”、“生产、销售有毒有害食品罪”以及“过失致人死亡罪”这三个罪名进行了阐释。


   2.罪名辨析不够深入。在构成要件的分析上,模型表现出了机械映射事实与法律条文的现象,未能深入探讨各罪名的具体适用条件和细微差别,进而未能有效排除不适用的罪名,最终模型得出了错误的结论。


●具体评分如下:


场景二:DeepSeek深度思考模式+联网搜索(671B)



1 模型回答摘要


【模型思考过程】:梳理案件基本情况,确定行为性质;结合刑法条文,分析可能适用的罪名;深入比较、分析各罪名的构成要件及适用情况,辨析罪名之间的差异;围绕联网搜索的参考案例、司法解释及实践倾向,综合分析问题指向;最终结论为“重大责任事故罪”或“过失投放危险物质罪”。


【模型回答结论】:结合联网搜索功能,分析过程涵盖了法律依据、行为定性判断、裁判规则参考以及量刑建议等多个关键维度。尽管信息来源丰富且分析维度全面,但错误地遗漏了关键罪名,过早地排除了正确思路,最终导致模型得出了错误结论。


模型思考过程原文、模型回答原文详见附件

DeepSeek深度思考模式+联网搜索(671B).pdf


2 综合分析


相比于DeepSeek深度思考模式(671B),该场景增加了联网搜索功能,显著拓展了信息来源,并在分析中增加了典型案例及裁判规则作为说理辅助,但仍遗漏了关键罪名,给出了错误结论:


     1.行为定性错误。在思考过程中,模型虽然考虑到了“过失以危险方法危害公共安全罪”这一关键罪名,但联网而来的拓展信息并未辅助模型做出正确的判断,模型依然错误地认为该罪必须具备“故意”作为主观要件,再一次排除了对此罪的分析。


   2.罪名辨析错误。模型维持了事实与法条机械映射的做法,网络搜索到的典型案例和裁判规则被错误地应用,加深了模型的错误逻辑,更肯定了错误辨析,各罪名的具体适用条件与细微差别并未得以纠正。


●具体评分如下:




场景三:DeepSeek 法研适配版(671B)



1 模型回答摘要


【模型思考过程】:借助法研知识库中的相关案例和司法解释,精准匹配行为性质;全面分析各罪名的适用条件,排除不符合的选项; 结合司法实践,最终认定为“过失以危险方法危害公共安全罪”。


【模型回答结论】:结合法研知识库,准确将行为定性为“过失以危险方法危害公共安全罪”,并从行为性质认定、法律适用、构成要件分析、量刑等角度进行了深入论证。


模型思考过程原文、模型回答原文详见附件

DeepSeek 法研适配版(671B).pdf


2 综合分析

   相较于DeepSeek基础模型,DeepSeek 法研适配版(671B)因融入法研知识库的相关法条、裁判观点、实务研究、相似案例等知识,其正确性和可靠性均得到了显著提升,但完整度略有欠缺:


   1.行为定性准确。在思考过程之初,模型借助适配法条和法律观点,迅速把握住了问题的核心难点,正确评价了主客观要件,从而准确定性了行为性质。


    2.要件辨析明确。模型清晰地指出亚硝酸盐混入食品这一行为是由于“保管过失”而非“故意掺入”,对此关键主观要件的明确辨析有力地排除了其他罪名的干扰。


   3.罪名分析详实。模型着重对“过失以危险方法危害公共安全罪”进行了详细的法律分析,确保了结论的正确性。


    4.完整度略有欠缺。在对行为定性及排除干扰罪名适用的分析中未能结合知识库内的裁判观点和案例进行说理,使得说理内容略显单薄,完整度略有不足。


●具体评分如下:


场景四:DeepSeek 法研适配版(千问32B蒸馏版)



1 模型回答摘要


【模型思考过程】:在有限参数下,模型借助法研知识库快速锁定关键信息;通过对比类似案例,精准匹配行为性质;最终结论为“过失以危险方法危害公共安全罪”。


【模型回答结论】:在参数量缩减至32B的情况下,模型仍能准确将行为定性为“过失以危险方法危害公共安全罪”,并在法律适用、构成要件分析等方面提供了较为全面的论述。


模型思考过程原文、模型回答原文详见附件

DeepSeek 法研适配版(千问32B蒸馏版).pdf


2 综合分析


   相比DeepSeek 法研适配版(671B),DeepSeek 法研适配版(千问32B蒸馏版)虽然参数量减少,但整体表现仍具亮点,能够给出正确的结论。然而,在完整度上仍有提升空间:


    1.行为定性准确。利用法研知识库中的法条、案例和法律观点,模型正确认定了行为性质,清晰地说明了此罪与彼罪的界限,全面评价了问题的主客观方面,实现了精准定性。


   2.结构清晰合理。模型回答采用了“总-分-总“的结构形式,整体逻辑清晰,在正确定性行为的基础上,对构成要件逐步分析,思路完整,结构合理。


    3.详实略有欠缺。细节部分还有提升空间,特别是缺少量刑方面的考量,量刑因素的延展分析缺失,进而影响了整体回答的有效性。


●具体评分如下:




测评总结分


通过对500个样本的测评结果深入分析,DeepSeek在不同场景与参数配置下的表现如下:



   

通过分析,DeepSeek在逻辑推理和思考过程上表现出色,能够全面考量罪名。引入法研知识库后,模型的正确性和可靠性显著提升。这表明,高质量的知识库和专业领域的测试数据集对于基础大模型在司法行业的应用性能提升起到了至关重要的作用。


    若您想体验Deepseek法研适配版,请扫描下方二维码。




    若您希望全面了解我们的知识库和数据集(https://data.court.gov.cn/pages/modelEvaluation.html),或探讨更深入的合作可能,可通过以下方式联系:


交流邮箱:cpzx_service@cjbdi.com


交流电话:010-81121651


详情见源文件:https://mp.weixin.qq.com/s/E1gixn4kRKvQQr5LpNNT2w