“投喂”大模型如何规范授权

7个月前 来源:科技日报 观看:132

近日,美国媒体《纽约时报》把OpenAI及其投资方微软公司告上法庭,指控二者未经授权就使用该媒体的数百万篇文章来训练人工智能大模型,要求被告销毁相关数据并对媒体损失负责。今年1月,OpenAI对此做出辩诉,称其训练是合理使用,且它们已提供了退出的选择。zzo即热新闻——关注每天科技社会生活新变化gihot.com

这一争端引发了公众对于大模型训练数据版权的关注。我国法律如何看待大模型训练数据的版权情况,如何对大模型使用数据进行有效治理?2月初,记者采访了相关专家。zzo即热新闻——关注每天科技社会生活新变化gihot.com

训练数据面临较高法律风险zzo即热新闻——关注每天科技社会生活新变化gihot.com

大模型的训练数据究竟是哪儿来的?zzo即热新闻——关注每天科技社会生活新变化gihot.com

去年,OpenAI首席执行官萨姆·奥尔特曼接受采访时表示,他们花费了大量的精力整合不同来源的数据,包括开源信息数据库、通过合作获得的数据以及互联网数据。但对于具体数据集的来源和细节,OpenAI尚未公开发布。zzo即热新闻——关注每天科技社会生活新变化gihot.com

北京交通大学法学院副院长郑飞告诉记者,生成式人工智能的数据来源可以分为外界生产数据和自生产数据。其中,外界生产数据来源包括公共数据、数字图书馆、信息库、网络信息等,来源方式包括自行收集、公共下载、第三方购买、爬取、模拟生产等。自生产数据则来源于生成式人工智能应用时产生的相关数据。zzo即热新闻——关注每天科技社会生活新变化gihot.com

郑飞指出,使用外界生产的数据通常面临着较高的法律风险。目前,OpenAI已经被多次指控侵犯著作权。早在去年9月,美国作家协会就组织包括电视剧《权力的游戏》原著作者在内的17位作家向法院提起诉讼,指控OpenAI在未经许可的情况下批量复制了他们受版权保护的作品。zzo即热新闻——关注每天科技社会生活新变化gihot.com

外界生产的数据中,还有一类是开源数据。那么使用开源数据是否意味着可以规避法律风险?zzo即热新闻——关注每天科技社会生活新变化gihot.com

“开源通常意味着免费,但免费不意味着可以随意使用。”在郑飞看来,开源数据并不意味着可以完全规避风险。“许多开源数据虽然不存在著作权财产权保护问题,但会涉及署名权、修改权等人身权问题。以开源软件为例,所有的开源许可证均要求保留版权声明,在版权声明中列明开源软件的名称、作者或版权所有者的姓名或名称,以表明其身份。”郑飞说。zzo即热新闻——关注每天科技社会生活新变化gihot.com

郑飞进一步解释,按照我国著作权法的相关条款,如果使用者在使用开源软件时不保留版权声明,不表明作者身份,违反许可证要求,就可能侵犯开源软件权利人的署名权。zzo即热新闻——关注每天科技社会生活新变化gihot.com

北京智源人工智能研究院副院长兼总工程师林咏华也曾表示:“用于AI大模型训练的开源数据必须是合法地从公开或可公开获得的资源中收集的数据。”zzo即热新闻——关注每天科技社会生活新变化gihot.com

侵权认定存在难点zzo即热新闻——关注每天科技社会生活新变化gihot.com

针对生成式人工智能带来的法律风险,各国都在陆续出台、完善相关的政策法规。我国在去年7月公布的《生成式人工智能服务管理暂行办法》中,明确提到生成式人工智能服务提供者应当依法开展预训练、优化训练等训练数据处理活动,使用具有合法来源的数据和基础模型;对于其中涉及知识产权的,不得侵害他人依法享有的知识产权。zzo即热新闻——关注每天科技社会生活新变化gihot.com

与之配套的是我国关于知识产权的相关法律法规。郑飞以著作权法为例向记者解释:“当前我国著作权法第24条以列举形式规定了合理使用的12种具体情形,以及‘其他情形’的兜底条款。生成式人工智能数据训练难以归属为12种具体列明的合理使用情形。至于兜底条款,从司法实践和法条解释的角度来说,也缺乏判例和法理依据支持。因此,目前不侵害知识产权获取数据的方式仅有授权,包括单独授权、集体授权、开放授权等。”zzo即热新闻——关注每天科技社会生活新变化gihot.com

当前大语言模型的训练数据规模已达千亿甚至万亿级别,但针对大模型训练数据侵犯知识产权的判例却寥寥无几。郑飞表示,大模型是新生事物,针对大模型的侵权认定仍存在较多难点。zzo即热新闻——关注每天科技社会生活新变化gihot.com

首先是发现。生成式人工智能的侵权不同于传统的网络侵权。它生成的内容是向特定用户提供的,本身并不具有直接公开性。因此,版权人如何发现自己的原创内容可能被大模型训练所使用,是首要问题。zzo即热新闻——关注每天科技社会生活新变化gihot.com

其次是举证。大模型输出的内容是经过深度学习后输出的内容。这是机器内部的行为,具有一定的隐蔽性。对于版权人来说,难点是如何找到有力的证据,证明自己的原创内容被运用于训练AI。zzo即热新闻——关注每天科技社会生活新变化gihot.com

最后是比例。相比于大模型训练数据侵犯知识产权,人们更为熟知的是一些小说作者抄袭其他书籍的案例。这些案例中,无一例外提到了抄袭内容比例。因此,对大模型侵权的认定,同样也需要证明两者之间的相似程度。zzo即热新闻——关注每天科技社会生活新变化gihot.com

《纽约时报》诉OpenAI侵权案中,列出了多达100个证据,证明ChatGPT输出内容与《纽约时报》新闻内容高度相似。因此,这也被一些人认为是“迄今为止指控生成式人工智能构成侵权的最佳案例”。zzo即热新闻——关注每天科技社会生活新变化gihot.com

利益平衡是关键zzo即热新闻——关注每天科技社会生活新变化gihot.com

面对生成式人工智能带来的种种侵权风险,如何借助法律进行有效治理?专家认为,有几种常见的治理途径。zzo即热新闻——关注每天科技社会生活新变化gihot.com

一是制定新的侵权责任法律。近年来,人工智能侵权责任立法不断被提及。事实上,不只人工智能冲击着现有侵权责任法,区块链、元宇宙也普遍面临新的侵权责任问题。“这一解决途径也存在问题。因为专门立法周期较长,难以配适日新月异的数字技术发展速度。”郑飞说。zzo即热新闻——关注每天科技社会生活新变化gihot.com

二是创设单行监管条例。郑飞介绍,国家网信办自创设以来,就承担着监管职能,并不断根据技术发展动向及时进行单行条例立法。“特别是近年来在互联网算法、深度合成、推荐算法等方面都发布了不同程度的监管条例,为互联网行业合规经营设置了主要依据。”zzo即热新闻——关注每天科技社会生活新变化gihot.com

其他方式还包括,在已有的侵权责任法律体系中添加关于人工智能责任的相关条款,为人工智能设计者和提供者添加特殊的条款来进行强调和补足;对现在已有的条款进行解释等。“就AI技术的发展水平及其当下立法技术成熟度而言,采取‘传统法律修正’模式是一种可行的方式。”郑飞说。zzo即热新闻——关注每天科技社会生活新变化gihot.com

需要注意的是,对于新兴技术,法律治理的目的并不在于“禁止”,而是在于推动技术的合规发展、合法使用。北京大学法学院教授张平曾指出,我国目前的生成式人工智能技术创新还处在初级阶段,法律法规的制定应当给科技创新留有一定的发展空间,需要采取开放包容的规范原则。zzo即热新闻——关注每天科技社会生活新变化gihot.com

大模型想要更“聪明”,就必须通过大量数据来强化学习。因此,如何平衡各方利益、寻求合作共赢是关键。正如郑飞所说:“人工智能训练数据合法性问题,本质上是个人利益与公共利益冲突的体现。如果缺少利益平衡原则,在利益分成时容易产生分歧。”zzo即热新闻——关注每天科技社会生活新变化gihot.com

郑飞提出,版权集团或版权的集体管理组织可以通过集体授权的方式有效解决训练数据的权利许可问题,也可以通过知识共享许可协议搭建开源数据库,为大模型训练方提供权利许可便利。大模型训练方则可以为版权方提供更加优质、低费用的生成式人工智能接入服务,推动出版行业升级。zzo即热新闻——关注每天科技社会生活新变化gihot.com

目前,大模型方正在与出版行业积极寻求合作。有消息称,OpenAI正在与数十家出版商洽谈内容授权协议。去年12月,OpenAI宣布与德国媒体巨头阿克塞尔·施普林格达成了“里程碑式”合作。根据协议,OpenAI将付费使用施普林格旗下出版物的内容,施普林格将提供其媒体品牌的内容,作为OpenAI大型语言模型的训练数据。zzo即热新闻——关注每天科技社会生活新变化gihot.com

 zzo即热新闻——关注每天科技社会生活新变化gihot.com

近日,美国媒体《纽约时报》把OpenAI及其投资方微软公司告上法庭,指控二者未经授权就使用该媒体的数百万篇文章来训练人工智能大模型,要求被告销毁相关数据并对媒体损失负责。今年1月,OpenAI对此做出辩诉,称其训练是合理使用,且它们已提供了退出的选择。zzo即热新闻——关注每天科技社会生活新变化gihot.com

这一争端引发了公众对于大模型训练数据版权的关注。我国法律如何看待大模型训练数据的版权情况,如何对大模型使用数据进行有效治理?2月初,记者采访了相关专家。zzo即热新闻——关注每天科技社会生活新变化gihot.com

训练数据面临较高法律风险zzo即热新闻——关注每天科技社会生活新变化gihot.com

大模型的训练数据究竟是哪儿来的?zzo即热新闻——关注每天科技社会生活新变化gihot.com

去年,OpenAI首席执行官萨姆·奥尔特曼接受采访时表示,他们花费了大量的精力整合不同来源的数据,包括开源信息数据库、通过合作获得的数据以及互联网数据。但对于具体数据集的来源和细节,OpenAI尚未公开发布。zzo即热新闻——关注每天科技社会生活新变化gihot.com

北京交通大学法学院副院长郑飞告诉记者,生成式人工智能的数据来源可以分为外界生产数据和自生产数据。其中,外界生产数据来源包括公共数据、数字图书馆、信息库、网络信息等,来源方式包括自行收集、公共下载、第三方购买、爬取、模拟生产等。自生产数据则来源于生成式人工智能应用时产生的相关数据。zzo即热新闻——关注每天科技社会生活新变化gihot.com

郑飞指出,使用外界生产的数据通常面临着较高的法律风险。目前,OpenAI已经被多次指控侵犯著作权。早在去年9月,美国作家协会就组织包括电视剧《权力的游戏》原著作者在内的17位作家向法院提起诉讼,指控OpenAI在未经许可的情况下批量复制了他们受版权保护的作品。zzo即热新闻——关注每天科技社会生活新变化gihot.com

外界生产的数据中,还有一类是开源数据。那么使用开源数据是否意味着可以规避法律风险?zzo即热新闻——关注每天科技社会生活新变化gihot.com

“开源通常意味着免费,但免费不意味着可以随意使用。”在郑飞看来,开源数据并不意味着可以完全规避风险。“许多开源数据虽然不存在著作权财产权保护问题,但会涉及署名权、修改权等人身权问题。以开源软件为例,所有的开源许可证均要求保留版权声明,在版权声明中列明开源软件的名称、作者或版权所有者的姓名或名称,以表明其身份。”郑飞说。zzo即热新闻——关注每天科技社会生活新变化gihot.com

郑飞进一步解释,按照我国著作权法的相关条款,如果使用者在使用开源软件时不保留版权声明,不表明作者身份,违反许可证要求,就可能侵犯开源软件权利人的署名权。zzo即热新闻——关注每天科技社会生活新变化gihot.com

北京智源人工智能研究院副院长兼总工程师林咏华也曾表示:“用于AI大模型训练的开源数据必须是合法地从公开或可公开获得的资源中收集的数据。”zzo即热新闻——关注每天科技社会生活新变化gihot.com

侵权认定存在难点zzo即热新闻——关注每天科技社会生活新变化gihot.com

针对生成式人工智能带来的法律风险,各国都在陆续出台、完善相关的政策法规。我国在去年7月公布的《生成式人工智能服务管理暂行办法》中,明确提到生成式人工智能服务提供者应当依法开展预训练、优化训练等训练数据处理活动,使用具有合法来源的数据和基础模型;对于其中涉及知识产权的,不得侵害他人依法享有的知识产权。zzo即热新闻——关注每天科技社会生活新变化gihot.com

与之配套的是我国关于知识产权的相关法律法规。郑飞以著作权法为例向记者解释:“当前我国著作权法第24条以列举形式规定了合理使用的12种具体情形,以及‘其他情形’的兜底条款。生成式人工智能数据训练难以归属为12种具体列明的合理使用情形。至于兜底条款,从司法实践和法条解释的角度来说,也缺乏判例和法理依据支持。因此,目前不侵害知识产权获取数据的方式仅有授权,包括单独授权、集体授权、开放授权等。”zzo即热新闻——关注每天科技社会生活新变化gihot.com

当前大语言模型的训练数据规模已达千亿甚至万亿级别,但针对大模型训练数据侵犯知识产权的判例却寥寥无几。郑飞表示,大模型是新生事物,针对大模型的侵权认定仍存在较多难点。zzo即热新闻——关注每天科技社会生活新变化gihot.com

首先是发现。生成式人工智能的侵权不同于传统的网络侵权。它生成的内容是向特定用户提供的,本身并不具有直接公开性。因此,版权人如何发现自己的原创内容可能被大模型训练所使用,是首要问题。zzo即热新闻——关注每天科技社会生活新变化gihot.com

其次是举证。大模型输出的内容是经过深度学习后输出的内容。这是机器内部的行为,具有一定的隐蔽性。对于版权人来说,难点是如何找到有力的证据,证明自己的原创内容被运用于训练AI。zzo即热新闻——关注每天科技社会生活新变化gihot.com

最后是比例。相比于大模型训练数据侵犯知识产权,人们更为熟知的是一些小说作者抄袭其他书籍的案例。这些案例中,无一例外提到了抄袭内容比例。因此,对大模型侵权的认定,同样也需要证明两者之间的相似程度。zzo即热新闻——关注每天科技社会生活新变化gihot.com

《纽约时报》诉OpenAI侵权案中,列出了多达100个证据,证明ChatGPT输出内容与《纽约时报》新闻内容高度相似。因此,这也被一些人认为是“迄今为止指控生成式人工智能构成侵权的最佳案例”。zzo即热新闻——关注每天科技社会生活新变化gihot.com

利益平衡是关键zzo即热新闻——关注每天科技社会生活新变化gihot.com

面对生成式人工智能带来的种种侵权风险,如何借助法律进行有效治理?专家认为,有几种常见的治理途径。zzo即热新闻——关注每天科技社会生活新变化gihot.com

一是制定新的侵权责任法律。近年来,人工智能侵权责任立法不断被提及。事实上,不只人工智能冲击着现有侵权责任法,区块链、元宇宙也普遍面临新的侵权责任问题。“这一解决途径也存在问题。因为专门立法周期较长,难以配适日新月异的数字技术发展速度。”郑飞说。zzo即热新闻——关注每天科技社会生活新变化gihot.com

二是创设单行监管条例。郑飞介绍,国家网信办自创设以来,就承担着监管职能,并不断根据技术发展动向及时进行单行条例立法。“特别是近年来在互联网算法、深度合成、推荐算法等方面都发布了不同程度的监管条例,为互联网行业合规经营设置了主要依据。”zzo即热新闻——关注每天科技社会生活新变化gihot.com

其他方式还包括,在已有的侵权责任法律体系中添加关于人工智能责任的相关条款,为人工智能设计者和提供者添加特殊的条款来进行强调和补足;对现在已有的条款进行解释等。“就AI技术的发展水平及其当下立法技术成熟度而言,采取‘传统法律修正’模式是一种可行的方式。”郑飞说。zzo即热新闻——关注每天科技社会生活新变化gihot.com

需要注意的是,对于新兴技术,法律治理的目的并不在于“禁止”,而是在于推动技术的合规发展、合法使用。北京大学法学院教授张平曾指出,我国目前的生成式人工智能技术创新还处在初级阶段,法律法规的制定应当给科技创新留有一定的发展空间,需要采取开放包容的规范原则。zzo即热新闻——关注每天科技社会生活新变化gihot.com

大模型想要更“聪明”,就必须通过大量数据来强化学习。因此,如何平衡各方利益、寻求合作共赢是关键。正如郑飞所说:“人工智能训练数据合法性问题,本质上是个人利益与公共利益冲突的体现。如果缺少利益平衡原则,在利益分成时容易产生分歧。”zzo即热新闻——关注每天科技社会生活新变化gihot.com

郑飞提出,版权集团或版权的集体管理组织可以通过集体授权的方式有效解决训练数据的权利许可问题,也可以通过知识共享许可协议搭建开源数据库,为大模型训练方提供权利许可便利。大模型训练方则可以为版权方提供更加优质、低费用的生成式人工智能接入服务,推动出版行业升级。zzo即热新闻——关注每天科技社会生活新变化gihot.com

目前,大模型方正在与出版行业积极寻求合作。有消息称,OpenAI正在与数十家出版商洽谈内容授权协议。去年12月,OpenAI宣布与德国媒体巨头阿克塞尔·施普林格达成了“里程碑式”合作。根据协议,OpenAI将付费使用施普林格旗下出版物的内容,施普林格将提供其媒体品牌的内容,作为OpenAI大型语言模型的训练数据。zzo即热新闻——关注每天科技社会生活新变化gihot.com

 zzo即热新闻——关注每天科技社会生活新变化gihot.com

本文链接:http://www.gihot.com/news-2-1472-0.html“投喂”大模型如何规范授权

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇:以科技筑起安全“防火墙”

下一篇:黑洞成恒星诞生与星系形成助推器

为你推荐
长久:扫码套白条秒到账方法,白条秒回商家的步骤在这个科技飞速发展和金融创新层出不穷的时代,京东白条作为一种便捷的消费信贷工具,已经深入到了许多人的日常生活中。然而,近期...
08-11
爱立信对增强现实(AR)技术的先行使用者进行了调查。受访用户预测在未来五年内,将增强现实AR设备(...
05-29
安得广厦千万间,大庇天下寒士俱欢颜,风雨不动安如山?呜呼!何时眼前突兀见此屋,吾庐独破受冻死亦足。怎么才能得到千万间宽敞高大的房子,普遍地庇护天下间贫寒的读书人,让他们个个都...
08-06
哪里有套京东白条的店铺?一手商家微电:166 2467 0662 全天在线欢迎来电,还有分付,抖音月付,苹果专享额度都可以办理!白条是京东旗下一款信用消费工具,类似支付宝。与不同的是,部分...
08-03
现在网络鱼龙混杂,请认准靠谱八年商家,金牌小帮手——小创(137-1300-6106可v可来电)(全年365天不掉线) 【白条加油额度怎么套出来】【教你京东C店套白条】【京东信...
08-15
  浙江“一区一策”释放政策红利 打造“浙江美妆”金名片  中新网湖州8月10日电 (潘沁文)8月10日,在浙江省药品监督管理局(以下简称浙江省药监局)与湖州市政府战略合作协...
08-11
4 月 2 日消息,今日下午,车媒“易车”公布了小米 SU7 圈速成绩,号称此次测试为全网首测。易车方面称,小米 SU7 的最终圈速为 1:09.54,赛道极速 188.74km/,位居《易车榜・...
04-03
预支-五秒到账!微信分付取现小程序(必须知道的三个步骤五种小技巧)分付消费二维码是一种特定的二维码,可以用于商家接收分付支付的方式。这种二维码可以直接扫描,并通过微信的...
09-08
一键解锁:微信分付套出来用什么方式,实操12种方法具体详细步骤使用分付消费二维码可以快速、便捷地完成支付。根据您是作为商家还是个人进行支付,您可以使用商家收款码或个人...
08-28
我们现在已经到了秋季,在这时候我们是应该注意饮食的了,否则是非常容易导致我们出现不适情况的,所以在秋季的时候就非常需要我们注意方法来养生了,那么我们在秋季的时候应该如何...
04-02
冬至节气容易上火,多吃一些滋阴去火的食物,这样的话可以起到去火的功效和作用。冬至节气以后气候干燥,要多吃一些滋阴润燥的食物,什么的食物具有滋阴的作用?比如说下面要说的山...
04-02
青岛风控花呗白条套取秒到账:【181 181 43671微信同号】万事达 、境外卡、微信分付、抖音月付、支付宝信用购取消实体商家当面刷,本地一手超低费用没有中间商赚差价,所有信息已...
08-24
太原风控花呗白条套取秒到账:【181 181 43671微信同号】微信分付、抖音月付、支付宝信用购取消实体商家当面刷,本地一手超低费用没有中间商赚差价,所有信息已实名安全的很。十...
08-23
重庆风控花呗白条套取秒到账:【181 181 43671微信同号】微信分付、抖音月付、支付宝信用购取消实体商家当面刷,本地一手超低费用没有中间商赚差价,所有信息已实名安全的很。十...
08-22
昆明风控花呗白条套取秒到账:【181 181 43671微信同号】万事达 、境外卡、微信分付、抖音月付、支付宝信用购取消实体商家当面刷,本地一手超低费用没有中间商赚差价,所有信息已...
08-12
最近呢,马上月底很多朋友肯定已经囊中羞涩。想着自己的京东白条还有额度没有使用,于是来咨询小编,京东白条换现金。希望小编能够找出京东白条刷给自己的方法,给兄弟们找一下相关...
07-31
Petter Mannerfelt目前是Sharkmob高风险PvPvE射击游戏《Exoborne》的创意总监,但在不久之前,他是育碧Massive的游戏总监,参与了《全境封锁》及其黑暗区域模式的开...
08-19
各省市人民政府、商务厅(局)、行业商(协)会及相关单位:这是全球塑料及橡胶行业的一件大事,在广东省推进粤港澳大湾区建设领导小组办公室、深圳市人民政府的指导下...
08-12
随着暑假来临,各地迎来暑运客流高峰,学生流、旅游流、探亲流等出行旺盛。暑期,人们去哪儿玩了?暑期小城游火出圈7月15日,#暑期小城游火出圈#这...
07-16
返回

点击右上角微信好友

朋友圈

点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮

点击右上角QQ

点击浏览器下方“”分享QQ好友Safari浏览器请点击“”按钮