作者,你的书正在免费喂养大数据模型AI|读者|书业|图书|纸质书|人工智能-站长SEO
网易首页 > 网易号 > 正文 申请入驻

作者,你的书正在免费喂养大数据模型AI

0
分享至

如果总结2023年的年度热词,那肯定莫过于“人工智能”,全球科技巨头都将人工智能视为下一个技术引爆点,纷纷砸入巨额投资展开研发与竞争,由OpenAI开发的ChatGPT尤属顶流;谷歌把人工智能作为未来重大战略,全力开发“谷歌大脑”;Facebook斥巨资成立人工智能实验室;微软推出旨在探索人类大脑奥秘的人工智能系统“Adam”(亚当),参与抗衡。

人工智能的关键环节,是大数据模型的建立,大数据模型是对大数据集进行建模和分析的方法。它是一种用于揭示数据中隐藏的模式、趋势和关联性的数学和统计模型。大数据模型的目标是从海量的数据中提取有用的信息和知识,以支持决策和预测。



这就需要大量的数据和内容供人工智能的采集、筛选、训练。以ChatGPT为例,2018年以来,大语言模型训练使用的数据集规模持续增长。2018年的GPT-1数据集约4.6GB,2020年的GPT-3数据集达到了753GB,而到了2021年的Gopher,数据集规模已经达到了10,550GB。总结来说,从GPT-1到LLaMA的大语言模型数据集主要包含六类:维基百科、书籍、期刊、Reddit链接、Common Crawl和其他数据集。

01、AI正在吞噬作家的心血

作为人类智慧的结晶的书籍,自然是大数据模型的最佳喂养数据之一。然则,代表最前沿科技能力的大模型数据AI的手段却不太光明:

“据路透社报道,2023年12月20日,11 名非虚构类书籍的作者在曼哈顿联邦法院提起诉讼,指控 OpenAI 和微软滥用自己所著的书籍来训练 ChatGPT 和其他 AI 软件背后的大模型。这些作家包括普利策奖获得者凯·伯德、泰勒·布兰奇、史黛西·希夫,他们曾共同撰写奥本海默传记《美国的普罗米修斯》。”



“彭博社报道,美国多名作家近日向纽约联邦法院提起诉讼,指控 Meta、微软等科技巨头未经许可使用他们的作品来训练 AI 模型。这一作家团体周二提交了拟议集体版权诉讼,文件称 Meta 和微软采用了具有争议的“Books3”(“Books3”数据集包含了成千上万本盗版书。)数据集来训练他们的大模型,告诉大模型如何回应人类的提示和指令。”

这两起事件,代表了作者团体对Ai侵权的抗争。强化机器学习能力离不开对既有内容型作品的大规模获取与利用,其中的作品使用方式多元,可能侵害不同的权利内容:

一是复制权。生成式人工智能需要将受版权保护的作品转换并制作为一份或者多份数字格式文件,存储并形成数据作品库,以便后续的文本和数据挖掘。这种数字化作品过程涉及对原作者复制权的侵犯。

二是改编权。尽管生成式人工智能可能创作出具有独创性的新作品,但如果该作品是在保留他人既有作品的基础上进行的演绎,仍然属于侵害改编权的行为。

三是汇编权。如果生成式人工智能经过自主选择或编排,汇集既有作品或者作品的片段而形成新作品,将会侵害不同作者的汇编权。

四是信息网络传播权。通常而言,生成式人工智能的“机器学习”与“模型创建”位于智能系统内部层面,不与公众发生直接接触;然而,随着信息传输、大数据等计算机技术的广泛应用,数据集合容易在互联网领域得到公开,使得公众在其选定的时间和地点获得相关数字化作品,相关情形可能侵犯原作者的信息网络传播权。

电子书作为web1.0和2.0技术发展的产物,并未给作者、版权方带来多少收益。在web3.0和数字大模型AI到来之际,技术的发展又再一次成为背刺作者、书业的载体。有人说这是文明的退步,也有人说这是道德的沦丧。其实,这只是现代书业在技术驱动下的不得不经历的试错成本。

02、现代书业的2.0版本,无法延续辉煌

现代书业从PC信息时代到移动互联网时代,再到人工智能时代,在短短20年间跨越了3个时代,经历了从最初的探索到繁荣到衰退的过程。究其原因就是时代发展的太快,而技术解决方案跟不上。

如果说,纸质书是现代书业的1.0版本,那么电子书就是现代书业的2.0版本,而数字图书则是现代书业的3.0版本。不同的时代需要不同的技术解决方案来适配。



PC信息时代诞生的电子书,其商业模式在移动互联网时代的弊端暴露无遗,造成了书业整体利益的下滑。行业里更是喊出“别了,电子书”的口号。可以说电子书的技术方案在移动互联网时代就已经落后了。

电子书的商业模式主要采用“信息网络传播权”授权机制,互联网平台与出版社签订授权协议后,书籍内容便可以放在互联网上或免费阅读、或点击阅读,当拥有了用户和流量后,互联网平台便有成千上万种方式变现获利。

看似合理的商业模式,由于出版社和作者没有监管、监测的能力,实则漏洞百出:光明网记者深入调研后在《作家们,你们拿到过数字出版的稿酬吗?》一文中写到“有一大批作家在数字出版方面,要么是签约后得不到任何稿费,要么得不到应有的报酬。”“文学批评家任芙康说,凡熟悉的作家,几乎无一幸免,都曾深受数字出版的困扰。他的记忆中,大约从十来年前开始,作家们(不涉及网络作家)便发现自己的作品在网上传播,被无偿消费。”



互联网平台既然可以通过牺牲书业赖以为生的内容换取流量,在大数据AI时代来临,无限商业利益近在眼前之际,自然也可以拿书籍内容喂养大数据模型,因为这个利益太大了:

在过去的2023年,拥有“知识服务数据库”的上市企业均获得了巨大的收益,以龙版传媒为例,仅是拥有一款对边疆学者研究著作内容进行电子整理后形成的数字阅读网上平台,收集图书不足100册,日均浏览量较小,项目目前暂未实现盈收的“多维边疆知识服务产品数据库”的产品,就让龙版传媒股价两个月涨了将近200%。而作者、书业链条的参与者们获得了什么呢?

可见,以“信息网络传播权”授权为商业模式的电子书解决方案,不能让现代书业在科技的发展下获益。现代书业的2.0版本已经落后了,我们需要新的技术方案以适应Ai人工智能时代的发展。

03、书业如何实现与人工智能的融合发展

人工智能的算力正以每3个月就翻一倍的速度在增长。面对技术的极速进步,书业应该“固步自封”“闭关守国”的退回到现代书业的1.0阶段纸质书时期。还是积极探索新的技术方案与商业模式,实现与AI的融合发展?

行业专家的观点

作者将数字图书的出版发行权利授权给出版社,出版社将数字图书以与纸质书相同的模式、标准进行出版、发行,读者在完成数字图书的购买后,作者获得了版税,读者也拥有了这本数字图书。读者有权运用AI对数字图书进行内容解析,协助阅读、理解。这是符合各方需求的解决方式。读者在完成数字图书的购买后,作者获得了版税,读者也拥有这本书籍,可以运用AI解析内容,协助阅读、理解。这是符合各方需求的解决方式。

举个例子,好比消费者购买一本纸质书后,可以自己阅读,也可以请“专家”帮忙解读,专家可以提炼书中精华,向消费者解释困惑的地方。但是如果“专家”解读的书没有合法来源,就向消费者提供书中精华内容,是违法的。更不可以向无数来咨询的人“复述”书中的内容。当然,现实中的专家无法做到这些,但这对于AI来说就易如反掌了。

这么做有个前提条件,书籍要以数字的形式按本按册的出版发行出来,形成具有资产属性,可以独立流转的复制件。每一本书在交易完成后,即权利用尽,完成物权的转移。消费者购买了该本书后,取得了该书的所有权,可以占有、使用、处分、获益。

这样的书显然已经不是电子书的权益范畴,而是含商品属性的数字资产,业界称这样的数字出版物为“数字图书”,即现代书业的3.0升级版本。



数字图书和电子书的核心差异:

交易的对象是否为拥有数字资产属性的商品。数字图书是基于文本复制件的出版发行,交易的是复制件这个商品。而电子书是文本的在线浏览,交易的是浏览服务。

举个例子,比如我们现在打开电脑里一个叫“合作”的word文件,选择另存则生成了一个叫“合作01”的复制件,你把“合作01”这个复制件以10元的价钱卖给我,我就永久拥有了它,我想怎么使用就是我的事情了,而你不能以任何形式来阻止我使用它。这个就是数字图书复制件的销售逻辑。而电子书的逻辑是,你把这个叫合作的word文件,上传到如“腾讯文档”空间,收同样的价格,但对用户仅开放查看权限。这就是这两种书籍在技术和商业模式上的差异。

数字图书和电子书,在著作权适用的法律条例上,作者版权的获益方式上,以及供应方式,流通管控,市场交易规模,结算方式,乃至读者权益,均不相同。

而数字图书与纸质书的商业模式则完全一样,以商品作为交易对象,以版税作为结算方式。这样的出版逻辑使书业在工业时代长盛不衰。而颠覆了出版逻辑的电子书,则水土不服,导致行业逐年下滑。数字图书没有颠覆书业的出版逻辑,而是将书籍的技术解决方案进行升级,使数字文本和纸质书一样,尊重出版的逻辑和商业模式,确保书业的商业利益在不同时代技术背景下的适配。



科技是把双刃剑,可以成就一个行业,也可以摧毁一个行业。只有找到行业的逻辑和规律,才能以恰当的技术解决方案和商业模式来适应时代的发展要求。我们要寻找合理、合法的方式,结合AI技术为书业赋能,书业才能永恒长兴。

AI时代的到来,对于书业从业者而言,拥抱时代的变化已是必然之选,数字图书的技术发展解决了AI侵权的巨大隐患,行业应积极探索与改变,或许能为书业打开新时代发展的新思路。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张维迎:如果不按规则来行动,就不可能享受人类合作带来的好处

张维迎:如果不按规则来行动,就不可能享受人类合作带来的好处

尚曦读史
2024-11-26 21:50:03
欧冠:利物浦2-0皇马!5连胜领跑 麦卡破门 姆巴佩萨拉赫失点

欧冠:利物浦2-0皇马!5连胜领跑 麦卡破门 姆巴佩萨拉赫失点

念洲
2024-11-28 05:52:54
太阳爆冷输篮网:杜兰特30+8布克31分 崔永熙未登场

太阳爆冷输篮网:杜兰特30+8布克31分 崔永熙未登场

醉卧浮生
2024-11-28 12:34:45
于东来回应彩礼争议:我的表达方式和方法不对

于东来回应彩礼争议:我的表达方式和方法不对

界面新闻
2024-11-28 11:00:42
女孩应聘上海舞蹈家教,家长面试要求拍裸照,上课不允许穿内裤

女孩应聘上海舞蹈家教,家长面试要求拍裸照,上课不允许穿内裤

杨哥历史
2024-11-27 13:57:45
看了凌晨三点上海交大,我发现有的大学生失业真不怪社会

看了凌晨三点上海交大,我发现有的大学生失业真不怪社会

洞见
2024-11-27 21:55:24
卢布崩了,与美国一则声明有关

卢布崩了,与美国一则声明有关

凤凰网财经plus
2024-11-28 08:28:23
96年,浙江9岁女孩长“马脸”,蒙面13年不见人,医生换脸助新生

96年,浙江9岁女孩长“马脸”,蒙面13年不见人,医生换脸助新生

苏曼文史
2024-11-27 09:07:07
正式退出,陈幸同发声,官宣决定,中国国乒批准

正式退出,陈幸同发声,官宣决定,中国国乒批准

东球弟
2024-11-28 11:31:00
曝泰国普吉岛大量店铺歧视中国游客,进店要先买“门票”,老板称:中国人太吵

曝泰国普吉岛大量店铺歧视中国游客,进店要先买“门票”,老板称:中国人太吵

小萝卜丝
2024-11-27 16:33:16
俄罗斯大消息,卢布崩了!

俄罗斯大消息,卢布崩了!

每日经济新闻
2024-11-28 08:19:37
男性性高潮的秘密,绝对让你大吃一惊!

男性性高潮的秘密,绝对让你大吃一惊!

智见派
2024-11-28 11:59:42
耗资1亿的新片被宋佳打蒙,11天票房才400万,片方亏的底裤都不剩

耗资1亿的新片被宋佳打蒙,11天票房才400万,片方亏的底裤都不剩

崽下愚乐圈
2024-11-28 09:02:42
老人入住宁夏一三甲医院单间10多年未出院?院方:有医疗纠纷

老人入住宁夏一三甲医院单间10多年未出院?院方:有医疗纠纷

澎湃新闻
2024-11-28 09:51:21
湃调查|山西临县一集体煤矿转让迷局:谁的上亿煤矿资产?

湃调查|山西临县一集体煤矿转让迷局:谁的上亿煤矿资产?

澎湃新闻
2024-11-28 07:18:30
内地企业在香港拒招35岁以上员工,引全港痛批

内地企业在香港拒招35岁以上员工,引全港痛批

黑噪音
2024-11-27 19:17:30
别再盯着俄乌了!南海要出大事,中方拦截失败?美防长曝出消息!

别再盯着俄乌了!南海要出大事,中方拦截失败?美防长曝出消息!

星辰故事屋
2024-11-27 20:41:32
35岁哈登巅峰重现 7记三分轰43+7+4+3 狂刷10纪录连创历史第一

35岁哈登巅峰重现 7记三分轰43+7+4+3 狂刷10纪录连创历史第一

厝边人侃体育
2024-11-28 10:11:58
前艺术体操运动员谈吴柳芳:不至于上纲上线

前艺术体操运动员谈吴柳芳:不至于上纲上线

六子吃凉粉
2024-11-27 17:57:35
海口市委书记,上个月才和上海浦东区委书记深入交流过

海口市委书记,上个月才和上海浦东区委书记深入交流过

吴女士
2024-11-28 11:27:36
2024-11-28 13:48:49
数字出版研究
数字出版研究
科技赋能书业
59文章数 0关注度
往期回顾 全部

科技要闻

前实习生攻击模型训练,字节跳动索赔800万

头条要闻

“75后”姜国杰任重庆市副市长 系经济学博士

头条要闻

“75后”姜国杰任重庆市副市长 系经济学博士

体育要闻

梦回巅峰!哈登单节炸裂+7记三分轰43分

娱乐要闻

耗资1亿的新片被宋佳打蒙,片方亏大了

财经要闻

马光远:所有的房地产政策基本都到位了

汽车要闻

ID. CODE概念车/探岳L领衔 大众汽车携25款车亮相

态度原创

时尚
家居
旅游
健康
亲子

穿十年都没有断舍离,这件衣服真的太爱

家居要闻

简约大气风格 舒适通透空间

旅游要闻

张家口一滑雪场吊厢突然停运 游客-15℃被困

花18万治疗阿尔茨海默病,值不值?

亲子要闻

弟弟:狗姐你是我亲姐,宝宝:谢谢你的安慰,我哭的更难过了

无障碍浏览 进入关怀版

相关内容推荐

炸鸡创意推广广告语大v推广价格交友推广平台微信推广好友淘宝推广思路软件推广专员微博推广取消产品营销推广ppt健康推广方案手机捕鱼推广打印机租赁用百度推广佛山谷歌推广公众号推广引流成都酒店推广有关推广普通话的资料注册任务推广棋牌怎样推广网络推广运营课程加盟怎么推广软文推广类型家装社群推广饮品推广游戏代练推广视频平台推广短视频网红推广广州微博推广桑拿微信推广游戏推广步骤游戏推广注册微博推广范文企业推广宣传天猫微博推广农业推广培训广告代发推广清远推广平台奶茶推广文案如何把高佣联盟推广给朋友来推广告联盟品牌战略推广北京营销推广课程推广宣传语商城app推广方案国外建站推广家电怎么推广什么叫推广价站外推广总结app线上推广方法趣头条广告推广淘宝电商推广知乎推广渠道房产税推广怎么找淘宝主播推广黑茶推广软文会议推广平台博文推广微信推广模版微信的推广黑枸杞微信推广语会议如何推广自媒体怎么推广礼品卡推广宣传推广管理直饮水推广直播推广赚钱中小企业推广案例机械设备推广信用卡推广语廊坊seo推广报价皮肤科推广航空推广微信公众号推广策划案如何去做网络推广贷款推广文案奥玉3111停止推广了吗手机推广数据app应用商店推广宾馆如何推广招生推广团队中山推广网站方案产品应用推广企业怎么推广案例网络推广平台代理验证短信推广方案网络推广助手古董推广app推广途径高佣联盟校园推广闲来游戏推广推广送小礼品微商社交推广绥化网站推广本地公众号推广线上下推广卫浴小区推广微信推广知识会员推广链接怎样在百度上推广产品场馆推广怎么联系淘客做推广甲醛治理推广家政服务推广方案河南uc推广全国农技推广中心主任全网推广软件电商新品推广礼品卡推广二维码推广员品牌推广意识涟水微信推广礼品卡推广淘金农场推广怎么赚钱微博定向推广利推广助手网站推广不包括b端客户推广小名片推广项目市场推广校园推广吧手机app推广方法酒会推广招商推广渠道个人网站如何推广临沂微信推广网络推广执行天书奇谈推广码e微贷推广什么叫app推广当前国家推广普通话的工作方针是软文推广的技巧推广玻璃商户推广易推 推广是真的吗餐吧推广社区推广优势抖音可以推广小程序吗美妆推广软文店铺流量推广网店推广教材拼团推广店面推广计划卷皮推广淘宝联盟微信推广技巧如何把高佣联盟推广给朋友驱动精灵推广尚科推广微信推广外包昆明seo推广天猫内部推广珠宝线上推广招商推广思路网络推广技术教程微店推广话术余姚农业技术推广服务总站如何设置优先推广步骤网络推广工作规划海报推广方案海南微姐推广哪些网站推广效果好个人推广平台如何推广新能源电商推广分析广点通推广费用网络代理推广微商推广贴吧推广会礼品手机店推广策略软文推广加盟高佣联盟怎么推广挣钱中山关键词优化推广郑州g3云推广餐饮运营推广嘉兴谷歌推广海诺推广seo论坛推广新媒体推广文赞助推广方案淘宝联盟怎样推广赚钱短视频网红推广p4p操作过程中哪些词不要推广推广海报尺寸app推广广告dsp推广是微博推广价位社区推广招聘旅行箱推广市场推广主题网络营销推广机构网络推广旅游微商平台推广营销短信推广淘宝母婴推广营销推广 英文市场推广jd新闻传播推广线上推广特点建筑资质推广游戏推广外包淘宝网页推广门业社群推广游戏推广计划

合作伙伴

站长SEO

www.imcrd.com
www.gzlyapi.com
www.wangluohr.cn
www.zhdaili.cn
seo.china185.com
www.zhdaili.cn
www.fishftmyers.com
www.he1tech.com
www.xm5656.cn
www.desai360.com
seo.chaoshanxing.com
www.seo5951.com
www.andmedia.cn
www.xm5656.cn
www.lpjfm.cn
qiansan.seo5951.com
www.maijichuang.cn
www.zhdaili.cn
www.conductive-powder.com
www.china185.com