法研院高质量数据集和可信数据空间建设实践入选国家数据局典型案例
近日,国家数据局在2025中国国际大数据产业博览会期间举办“高质量数据集”和“数据基础设施”两项主题交流活动,活动集中发布了高质量数据集和数据基础设施典型案例集。法研院申报的“司法领域法律专业高质量数据集”和“法治可信数据空间”分别入选典型案例。
司法领域法律专业高质量数据集
高质量数据集是人工智能大模型训练、推理和验证的关键基础,大模型与垂直领域的深度融合同样需要高质量数据集的支撑。司法领域面临法律咨询任务多样、语料数据需求不清、法律专业知识供给不足等问题,对法律垂类大模型的训练和应用提出了更高的挑战。法研院牵头构建了法律专业高质量数据集,涵盖超百万部法律法规,以及司法解释、指导案例、案例解读等丰富内容,精准赋能司法领域大模型的训练、验证和优化,构建形成“数据-模型-场景-数据”的反馈闭环链路,为加快形成司法领域高质量数据集的示范性成果,赋能行业高质量发展奠定基础。
法治可信数据空间
法研院打造的法治可信数据空间通过构建跨部门、跨企业的法治数据要素价值共创生态系统,成功联接产业链上下游多方主体,实现法治数据资源的规模化流通和共享利用,有力推动法治数据赋能经济社会高质量发展。法治可信数据空间为各类用户提供模型构建、产品研发等一站式数据服务能力,采用联邦学习、安全沙箱等技术手段,实现“数据不动模型动、数据可用不可见、原始数据不出域”,在确保数据安全的同时,实现数据价值安全释放、模型和应用高效开发、服务可靠可信提供。法治可信数据空间已支撑政府、机构、企业等各类主体500余个,赋能金融信贷风控、企业合规、行业监管、司法便民等场景,实现数据“场景化”赋能。
近年来,法研院在最高人民法院和中国电科集团指导下,以央企“人工智能+”专项行动为契机,以高质量数据集和可信数据空间为抓手,在国家数据局重点关注的高质量数据供给和数据基础设施建设两个领域全面发力,充分发挥科技创新、要素叠加和场景应用优势,研发形成L1级法研法律大模型,L2级“清风”纪检大模型、“星法”合规大模型,以及“法研•智答”、“云上综治”等系列化人工智能标志性成果,有效赋能法律科技行业高质量发展。
此次入选国家数据局典型案例集的两个案例充分展示了数据要素安全、可信流通共享和创新利用的“法研方案”与应用实践。后续,法研院将进一步抢抓人工智能发展新机遇,持续推进司法领域高质量数据集和法治可信数据空间建设,加快探索法律行业大模型深度应用,在推动数据要素市场化配置改革,加快数字中国建设方面发挥更大作用。