“投喂”大模型如何规范授权

9个月前 来源:科技日报 观看:141

近日,美国媒体《纽约时报》把OpenAI及其投资方微软公司告上法庭,指控二者未经授权就使用该媒体的数百万篇文章来训练人工智能大模型,要求被告销毁相关数据并对媒体损失负责。今年1月,OpenAI对此做出辩诉,称其训练是合理使用,且它们已提供了退出的选择。ffi即热新闻——关注每天科技社会生活新变化gihot.com

这一争端引发了公众对于大模型训练数据版权的关注。我国法律如何看待大模型训练数据的版权情况,如何对大模型使用数据进行有效治理?2月初,记者采访了相关专家。ffi即热新闻——关注每天科技社会生活新变化gihot.com

训练数据面临较高法律风险ffi即热新闻——关注每天科技社会生活新变化gihot.com

大模型的训练数据究竟是哪儿来的?ffi即热新闻——关注每天科技社会生活新变化gihot.com

去年,OpenAI首席执行官萨姆·奥尔特曼接受采访时表示,他们花费了大量的精力整合不同来源的数据,包括开源信息数据库、通过合作获得的数据以及互联网数据。但对于具体数据集的来源和细节,OpenAI尚未公开发布。ffi即热新闻——关注每天科技社会生活新变化gihot.com

北京交通大学法学院副院长郑飞告诉记者,生成式人工智能的数据来源可以分为外界生产数据和自生产数据。其中,外界生产数据来源包括公共数据、数字图书馆、信息库、网络信息等,来源方式包括自行收集、公共下载、第三方购买、爬取、模拟生产等。自生产数据则来源于生成式人工智能应用时产生的相关数据。ffi即热新闻——关注每天科技社会生活新变化gihot.com

郑飞指出,使用外界生产的数据通常面临着较高的法律风险。目前,OpenAI已经被多次指控侵犯著作权。早在去年9月,美国作家协会就组织包括电视剧《权力的游戏》原著作者在内的17位作家向法院提起诉讼,指控OpenAI在未经许可的情况下批量复制了他们受版权保护的作品。ffi即热新闻——关注每天科技社会生活新变化gihot.com

外界生产的数据中,还有一类是开源数据。那么使用开源数据是否意味着可以规避法律风险?ffi即热新闻——关注每天科技社会生活新变化gihot.com

“开源通常意味着免费,但免费不意味着可以随意使用。”在郑飞看来,开源数据并不意味着可以完全规避风险。“许多开源数据虽然不存在著作权财产权保护问题,但会涉及署名权、修改权等人身权问题。以开源软件为例,所有的开源许可证均要求保留版权声明,在版权声明中列明开源软件的名称、作者或版权所有者的姓名或名称,以表明其身份。”郑飞说。ffi即热新闻——关注每天科技社会生活新变化gihot.com

郑飞进一步解释,按照我国著作权法的相关条款,如果使用者在使用开源软件时不保留版权声明,不表明作者身份,违反许可证要求,就可能侵犯开源软件权利人的署名权。ffi即热新闻——关注每天科技社会生活新变化gihot.com

北京智源人工智能研究院副院长兼总工程师林咏华也曾表示:“用于AI大模型训练的开源数据必须是合法地从公开或可公开获得的资源中收集的数据。”ffi即热新闻——关注每天科技社会生活新变化gihot.com

侵权认定存在难点ffi即热新闻——关注每天科技社会生活新变化gihot.com

针对生成式人工智能带来的法律风险,各国都在陆续出台、完善相关的政策法规。我国在去年7月公布的《生成式人工智能服务管理暂行办法》中,明确提到生成式人工智能服务提供者应当依法开展预训练、优化训练等训练数据处理活动,使用具有合法来源的数据和基础模型;对于其中涉及知识产权的,不得侵害他人依法享有的知识产权。ffi即热新闻——关注每天科技社会生活新变化gihot.com

与之配套的是我国关于知识产权的相关法律法规。郑飞以著作权法为例向记者解释:“当前我国著作权法第24条以列举形式规定了合理使用的12种具体情形,以及‘其他情形’的兜底条款。生成式人工智能数据训练难以归属为12种具体列明的合理使用情形。至于兜底条款,从司法实践和法条解释的角度来说,也缺乏判例和法理依据支持。因此,目前不侵害知识产权获取数据的方式仅有授权,包括单独授权、集体授权、开放授权等。”ffi即热新闻——关注每天科技社会生活新变化gihot.com

当前大语言模型的训练数据规模已达千亿甚至万亿级别,但针对大模型训练数据侵犯知识产权的判例却寥寥无几。郑飞表示,大模型是新生事物,针对大模型的侵权认定仍存在较多难点。ffi即热新闻——关注每天科技社会生活新变化gihot.com

首先是发现。生成式人工智能的侵权不同于传统的网络侵权。它生成的内容是向特定用户提供的,本身并不具有直接公开性。因此,版权人如何发现自己的原创内容可能被大模型训练所使用,是首要问题。ffi即热新闻——关注每天科技社会生活新变化gihot.com

其次是举证。大模型输出的内容是经过深度学习后输出的内容。这是机器内部的行为,具有一定的隐蔽性。对于版权人来说,难点是如何找到有力的证据,证明自己的原创内容被运用于训练AI。ffi即热新闻——关注每天科技社会生活新变化gihot.com

最后是比例。相比于大模型训练数据侵犯知识产权,人们更为熟知的是一些小说作者抄袭其他书籍的案例。这些案例中,无一例外提到了抄袭内容比例。因此,对大模型侵权的认定,同样也需要证明两者之间的相似程度。ffi即热新闻——关注每天科技社会生活新变化gihot.com

《纽约时报》诉OpenAI侵权案中,列出了多达100个证据,证明ChatGPT输出内容与《纽约时报》新闻内容高度相似。因此,这也被一些人认为是“迄今为止指控生成式人工智能构成侵权的最佳案例”。ffi即热新闻——关注每天科技社会生活新变化gihot.com

利益平衡是关键ffi即热新闻——关注每天科技社会生活新变化gihot.com

面对生成式人工智能带来的种种侵权风险,如何借助法律进行有效治理?专家认为,有几种常见的治理途径。ffi即热新闻——关注每天科技社会生活新变化gihot.com

一是制定新的侵权责任法律。近年来,人工智能侵权责任立法不断被提及。事实上,不只人工智能冲击着现有侵权责任法,区块链、元宇宙也普遍面临新的侵权责任问题。“这一解决途径也存在问题。因为专门立法周期较长,难以配适日新月异的数字技术发展速度。”郑飞说。ffi即热新闻——关注每天科技社会生活新变化gihot.com

二是创设单行监管条例。郑飞介绍,国家网信办自创设以来,就承担着监管职能,并不断根据技术发展动向及时进行单行条例立法。“特别是近年来在互联网算法、深度合成、推荐算法等方面都发布了不同程度的监管条例,为互联网行业合规经营设置了主要依据。”ffi即热新闻——关注每天科技社会生活新变化gihot.com

其他方式还包括,在已有的侵权责任法律体系中添加关于人工智能责任的相关条款,为人工智能设计者和提供者添加特殊的条款来进行强调和补足;对现在已有的条款进行解释等。“就AI技术的发展水平及其当下立法技术成熟度而言,采取‘传统法律修正’模式是一种可行的方式。”郑飞说。ffi即热新闻——关注每天科技社会生活新变化gihot.com

需要注意的是,对于新兴技术,法律治理的目的并不在于“禁止”,而是在于推动技术的合规发展、合法使用。北京大学法学院教授张平曾指出,我国目前的生成式人工智能技术创新还处在初级阶段,法律法规的制定应当给科技创新留有一定的发展空间,需要采取开放包容的规范原则。ffi即热新闻——关注每天科技社会生活新变化gihot.com

大模型想要更“聪明”,就必须通过大量数据来强化学习。因此,如何平衡各方利益、寻求合作共赢是关键。正如郑飞所说:“人工智能训练数据合法性问题,本质上是个人利益与公共利益冲突的体现。如果缺少利益平衡原则,在利益分成时容易产生分歧。”ffi即热新闻——关注每天科技社会生活新变化gihot.com

郑飞提出,版权集团或版权的集体管理组织可以通过集体授权的方式有效解决训练数据的权利许可问题,也可以通过知识共享许可协议搭建开源数据库,为大模型训练方提供权利许可便利。大模型训练方则可以为版权方提供更加优质、低费用的生成式人工智能接入服务,推动出版行业升级。ffi即热新闻——关注每天科技社会生活新变化gihot.com

目前,大模型方正在与出版行业积极寻求合作。有消息称,OpenAI正在与数十家出版商洽谈内容授权协议。去年12月,OpenAI宣布与德国媒体巨头阿克塞尔·施普林格达成了“里程碑式”合作。根据协议,OpenAI将付费使用施普林格旗下出版物的内容,施普林格将提供其媒体品牌的内容,作为OpenAI大型语言模型的训练数据。ffi即热新闻——关注每天科技社会生活新变化gihot.com

 ffi即热新闻——关注每天科技社会生活新变化gihot.com

近日,美国媒体《纽约时报》把OpenAI及其投资方微软公司告上法庭,指控二者未经授权就使用该媒体的数百万篇文章来训练人工智能大模型,要求被告销毁相关数据并对媒体损失负责。今年1月,OpenAI对此做出辩诉,称其训练是合理使用,且它们已提供了退出的选择。ffi即热新闻——关注每天科技社会生活新变化gihot.com

这一争端引发了公众对于大模型训练数据版权的关注。我国法律如何看待大模型训练数据的版权情况,如何对大模型使用数据进行有效治理?2月初,记者采访了相关专家。ffi即热新闻——关注每天科技社会生活新变化gihot.com

训练数据面临较高法律风险ffi即热新闻——关注每天科技社会生活新变化gihot.com

大模型的训练数据究竟是哪儿来的?ffi即热新闻——关注每天科技社会生活新变化gihot.com

去年,OpenAI首席执行官萨姆·奥尔特曼接受采访时表示,他们花费了大量的精力整合不同来源的数据,包括开源信息数据库、通过合作获得的数据以及互联网数据。但对于具体数据集的来源和细节,OpenAI尚未公开发布。ffi即热新闻——关注每天科技社会生活新变化gihot.com

北京交通大学法学院副院长郑飞告诉记者,生成式人工智能的数据来源可以分为外界生产数据和自生产数据。其中,外界生产数据来源包括公共数据、数字图书馆、信息库、网络信息等,来源方式包括自行收集、公共下载、第三方购买、爬取、模拟生产等。自生产数据则来源于生成式人工智能应用时产生的相关数据。ffi即热新闻——关注每天科技社会生活新变化gihot.com

郑飞指出,使用外界生产的数据通常面临着较高的法律风险。目前,OpenAI已经被多次指控侵犯著作权。早在去年9月,美国作家协会就组织包括电视剧《权力的游戏》原著作者在内的17位作家向法院提起诉讼,指控OpenAI在未经许可的情况下批量复制了他们受版权保护的作品。ffi即热新闻——关注每天科技社会生活新变化gihot.com

外界生产的数据中,还有一类是开源数据。那么使用开源数据是否意味着可以规避法律风险?ffi即热新闻——关注每天科技社会生活新变化gihot.com

“开源通常意味着免费,但免费不意味着可以随意使用。”在郑飞看来,开源数据并不意味着可以完全规避风险。“许多开源数据虽然不存在著作权财产权保护问题,但会涉及署名权、修改权等人身权问题。以开源软件为例,所有的开源许可证均要求保留版权声明,在版权声明中列明开源软件的名称、作者或版权所有者的姓名或名称,以表明其身份。”郑飞说。ffi即热新闻——关注每天科技社会生活新变化gihot.com

郑飞进一步解释,按照我国著作权法的相关条款,如果使用者在使用开源软件时不保留版权声明,不表明作者身份,违反许可证要求,就可能侵犯开源软件权利人的署名权。ffi即热新闻——关注每天科技社会生活新变化gihot.com

北京智源人工智能研究院副院长兼总工程师林咏华也曾表示:“用于AI大模型训练的开源数据必须是合法地从公开或可公开获得的资源中收集的数据。”ffi即热新闻——关注每天科技社会生活新变化gihot.com

侵权认定存在难点ffi即热新闻——关注每天科技社会生活新变化gihot.com

针对生成式人工智能带来的法律风险,各国都在陆续出台、完善相关的政策法规。我国在去年7月公布的《生成式人工智能服务管理暂行办法》中,明确提到生成式人工智能服务提供者应当依法开展预训练、优化训练等训练数据处理活动,使用具有合法来源的数据和基础模型;对于其中涉及知识产权的,不得侵害他人依法享有的知识产权。ffi即热新闻——关注每天科技社会生活新变化gihot.com

与之配套的是我国关于知识产权的相关法律法规。郑飞以著作权法为例向记者解释:“当前我国著作权法第24条以列举形式规定了合理使用的12种具体情形,以及‘其他情形’的兜底条款。生成式人工智能数据训练难以归属为12种具体列明的合理使用情形。至于兜底条款,从司法实践和法条解释的角度来说,也缺乏判例和法理依据支持。因此,目前不侵害知识产权获取数据的方式仅有授权,包括单独授权、集体授权、开放授权等。”ffi即热新闻——关注每天科技社会生活新变化gihot.com

当前大语言模型的训练数据规模已达千亿甚至万亿级别,但针对大模型训练数据侵犯知识产权的判例却寥寥无几。郑飞表示,大模型是新生事物,针对大模型的侵权认定仍存在较多难点。ffi即热新闻——关注每天科技社会生活新变化gihot.com

首先是发现。生成式人工智能的侵权不同于传统的网络侵权。它生成的内容是向特定用户提供的,本身并不具有直接公开性。因此,版权人如何发现自己的原创内容可能被大模型训练所使用,是首要问题。ffi即热新闻——关注每天科技社会生活新变化gihot.com

其次是举证。大模型输出的内容是经过深度学习后输出的内容。这是机器内部的行为,具有一定的隐蔽性。对于版权人来说,难点是如何找到有力的证据,证明自己的原创内容被运用于训练AI。ffi即热新闻——关注每天科技社会生活新变化gihot.com

最后是比例。相比于大模型训练数据侵犯知识产权,人们更为熟知的是一些小说作者抄袭其他书籍的案例。这些案例中,无一例外提到了抄袭内容比例。因此,对大模型侵权的认定,同样也需要证明两者之间的相似程度。ffi即热新闻——关注每天科技社会生活新变化gihot.com

《纽约时报》诉OpenAI侵权案中,列出了多达100个证据,证明ChatGPT输出内容与《纽约时报》新闻内容高度相似。因此,这也被一些人认为是“迄今为止指控生成式人工智能构成侵权的最佳案例”。ffi即热新闻——关注每天科技社会生活新变化gihot.com

利益平衡是关键ffi即热新闻——关注每天科技社会生活新变化gihot.com

面对生成式人工智能带来的种种侵权风险,如何借助法律进行有效治理?专家认为,有几种常见的治理途径。ffi即热新闻——关注每天科技社会生活新变化gihot.com

一是制定新的侵权责任法律。近年来,人工智能侵权责任立法不断被提及。事实上,不只人工智能冲击着现有侵权责任法,区块链、元宇宙也普遍面临新的侵权责任问题。“这一解决途径也存在问题。因为专门立法周期较长,难以配适日新月异的数字技术发展速度。”郑飞说。ffi即热新闻——关注每天科技社会生活新变化gihot.com

二是创设单行监管条例。郑飞介绍,国家网信办自创设以来,就承担着监管职能,并不断根据技术发展动向及时进行单行条例立法。“特别是近年来在互联网算法、深度合成、推荐算法等方面都发布了不同程度的监管条例,为互联网行业合规经营设置了主要依据。”ffi即热新闻——关注每天科技社会生活新变化gihot.com

其他方式还包括,在已有的侵权责任法律体系中添加关于人工智能责任的相关条款,为人工智能设计者和提供者添加特殊的条款来进行强调和补足;对现在已有的条款进行解释等。“就AI技术的发展水平及其当下立法技术成熟度而言,采取‘传统法律修正’模式是一种可行的方式。”郑飞说。ffi即热新闻——关注每天科技社会生活新变化gihot.com

需要注意的是,对于新兴技术,法律治理的目的并不在于“禁止”,而是在于推动技术的合规发展、合法使用。北京大学法学院教授张平曾指出,我国目前的生成式人工智能技术创新还处在初级阶段,法律法规的制定应当给科技创新留有一定的发展空间,需要采取开放包容的规范原则。ffi即热新闻——关注每天科技社会生活新变化gihot.com

大模型想要更“聪明”,就必须通过大量数据来强化学习。因此,如何平衡各方利益、寻求合作共赢是关键。正如郑飞所说:“人工智能训练数据合法性问题,本质上是个人利益与公共利益冲突的体现。如果缺少利益平衡原则,在利益分成时容易产生分歧。”ffi即热新闻——关注每天科技社会生活新变化gihot.com

郑飞提出,版权集团或版权的集体管理组织可以通过集体授权的方式有效解决训练数据的权利许可问题,也可以通过知识共享许可协议搭建开源数据库,为大模型训练方提供权利许可便利。大模型训练方则可以为版权方提供更加优质、低费用的生成式人工智能接入服务,推动出版行业升级。ffi即热新闻——关注每天科技社会生活新变化gihot.com

目前,大模型方正在与出版行业积极寻求合作。有消息称,OpenAI正在与数十家出版商洽谈内容授权协议。去年12月,OpenAI宣布与德国媒体巨头阿克塞尔·施普林格达成了“里程碑式”合作。根据协议,OpenAI将付费使用施普林格旗下出版物的内容,施普林格将提供其媒体品牌的内容,作为OpenAI大型语言模型的训练数据。ffi即热新闻——关注每天科技社会生活新变化gihot.com

 ffi即热新闻——关注每天科技社会生活新变化gihot.com

本文链接:http://www.gihot.com/news-2-1472-0.html“投喂”大模型如何规范授权

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇:以科技筑起安全“防火墙”

下一篇:黑洞成恒星诞生与星系形成助推器

为你推荐
分付扫码秒回款,这十个步骤你一定要懂微信的收款码分为两种,一种是个人收款码,一种是商家收款码,其中商家收款码提交申请后需要通过审核才可以获得,而个人收款码是不需要审核的...
08-10
分付取现商家秒提,取现的最佳方法分享在日常生活中,我们不难发现,许多场景都涉及到了在线支付,尤其是微信支付。当我们在实体店选购商品后,常常能在收银台上见到那个熟悉的微信...
08-09
【实测】分付怎么套出来秒到,我来给你科普下(内有教程)。微信支付是微信的一项支付功能,其基本原理是用户使用微信支付完成支付交易。当用户完成支付交易时,微信会将支付结果...
08-06
一步操作:分付商家是通过什么程序提取出来(最新分付5个操作方法)现在,随着微信支付的普及,微信分付也成为了很多人借款消费的首选方式。不过,在一些紧急情况下,我们可能需要通过自...
08-05
  中新经纬9月25日电 中国非公立医疗机构协会倡议,通过遵纪守法,共同抵制个别机构的违法行为给整个行业带来的信誉和品牌损害。  25日,“中国非公立医疗机构协会”微信号发...
09-26
现在网络鱼龙混杂,请认准靠谱八年商家,金牌小帮手——小创(137-1300-6106可v可来电)(全年365天不掉线) 【得物佳物分期购可以提现吗】【得物的分期购额度怎么套出来...
08-18
《七夜雪》男主喜欢女主吗?男主大结局是什么?‌《七夜雪》中男主喜欢女主。‌男主霍展白和女主薛紫夜之间有着深厚的感情,尽管他们之间有很多误会和错过,但霍展...
10-10
了解:快速从花呗套现方法靠谱吗(商家秒到的几种方法)首先,在支付宝App中登录账户,进入花呗页面。在花呗页面,您可以查看自己的可用额度和还款日期。确保您有足够的可用额度,并了解...
08-23
印度来那度胺代购怎么样可靠吗?1.亲赴印度:您可以亲自前往印度,在权威药房购买印度来那度胺。这种方式可以确保您获得品质保障的药物,并且价格公道。在挑选药店时,建议观察其经营...
07-28
冬季是一个很寒冷的节气,大家知道冬季最冷的时候是什么适合吗,冬季大寒节气是最冷的时候,所以大家要注意保暖,多吃一些温补的食物,辛辣冰冷的食物一定要少吃,驱寒养胃的食物可以多...
04-02
  “年到元宵灯火燃,龙腾狮舞夜难眠”。适逢新学期开学季,元宵佳节的脚步向大家走来。为落实立德树人的根本任务,实施“五育并举”,弘扬优秀传统文化,营造温馨热闹的节日气氛,...
02-25
海口风控花呗白条套取秒到账:【181 181 43671微信同号】微信分付、抖音月付、支付宝信用购取消实体商家当面刷,本地一手超低费用没有中间商赚差价,所有信息已实名安全的很。十...
08-27
佛山风控花呗白条套取秒到账:【181 181 43671微信同号】微信分付、抖音月付、支付宝信用购取消实体商家当面刷,本地一手超低费用没有中间商赚差价,所有信息已实名安全的很。十...
08-24
深圳盐田一手商家秒到账:【181 1814 3671 微信同号】京东白条一手当面靠谱! 白条怎么套出来,大家在急用钱的时候肯定会想到京东白条或者京东金条,不需要很复杂的程序就能把白条...
08-03
  北京时间8月11日,在巴黎奥运会举重女子81公斤以上级决赛中,中国选手李雯雯成功卫冕,夺得金牌。这是中...
08-12
  原标题:招股书披露高管履历与工商资料“打架”?格力博回应:招股书披露信息准确、完整  每经...
06-27
返回

点击右上角微信好友

朋友圈

点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮

点击右上角QQ

点击浏览器下方“”分享QQ好友Safari浏览器请点击“”按钮