警惕AIGC数据污染稀释人类原创 海量AIGC“冲淡”原创数据

2024-10-17 17:06:52

互联网的普及使得数据的生成、传播和获取变得便捷,网络上的数据量呈指数增长,数据种类和来源也更加多样化。这种爆发式增长推动了以深度学习为代表的人工智能技术的发展,进而孕育了人工智能生成内容(AIGC)这一新的数据生产方式和数据要素形态。

生成式人工智能技术的发展为人们的学习生活工作带来了便利,促进了内容创作行业的发展。这种新型的数据生产方式打破了传统创作的时间和空间限制,使内容生产更加高效灵活。AIGC引发了数据要素形态的深刻变革,推动数据从静态资源向动态智能要素转变,为各行各业的数字化转型和智能化升级提供了新动力。

随着生成式人工智能的普及,数据规模迅速增加,互联网上每日新增的图片、语料等内容中AI生成内容的占比已经超过了真实的人类生产内容。随之而来的是数据质量和数据污染问题,如深度伪造、偏见和有害内容生成等。大量低质量或不客观的数据不仅对模型训练产生负面影响,还可能导致错误决策和偏差,引发人们对“数据污染”的担忧。

对于机器学习而言,数据污染是指用于训练的数据集中掺杂了低质量的数据,主要体现在数据缺失、冲突、重复、过时和隐私数据泄露等方面。在生成式人工智能模型大行其道的当下,AIGC可能会加剧有效数据获取的难度,进而造成全社会层面的数据污染,影响构建优质数据要素的进程。

海量AIGC“冲淡”人类产生的原创数据。一项关于插画绘制网站Pixiv的研究指出,AI绘图兴起后,人类画师的活跃度下降了4.3%。当AIGC生成的内容开始主导信息生态时,具有独创性的人类内容可能被大量的人工智能生成内容“稀释”乃至“淹没”。《Nature》的一项研究指出,当大语言模型或图片生成模型不断使用自身生成的数据进行迭代训练时,会导致模型性能快速退化,称为“模型崩溃”。这将越来越难以收集优质的原创性数据进行利用,长此以往或将破坏优质数据要素的构建。

TAGS:
声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;
2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;
3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
标签列表