发布时间:2025-02-07 17:45:59 点击量:
HASH GAME - Online Skill Game GET 300
过去十年,人工智能爆炸性的发展在很大程度上是由于神经网络规模的扩大以及对越来越多数据的训练。事实证明,这种规模化(scaling)在制作大语言模型(LLM)(如那些为聊天机器人 ChatGPT 提供动力的 LLM)方面非常有效,既能更好地复制会话语言,又能开发诸如推理之类的突现特性。但一些专家表示,我们现在正在接近规模化的极限。这在一定程度上是因为计算的能源需求不断膨胀,但这也是因为 LLM 开发人员正在耗尽用于训练模型的传统数据集。
今年,一项著名的研究 因对这个问题进行了量化而成为头条新闻:虚拟研究机构 Epoch AI 的研究人员预测,到 2028 年左右,用于训练人工智能模型的数据集的典型规模将达到与公共在线文本总估计量相同的规模。换句话说,人工智能很可能会在 大约四年内耗尽训练数据(参见“数据耗尽”)。与此同时,数据所有者(如报纸出版商)也开始严厉打击其内容的使用方式,进一步收紧了访问权限。麻省理工学院的人工智能研究员 Shayne Longpre 表示,这导致了“数据共享”规模的危机,他领导着数据来源倡议,这是一个对人工智能数据集进行审计的草根组织。
这可能是互联网上内容的很大一部分,尽管总量如此之大,以至于很难确定——据 Villalobos 估计,目前互联网上的文本数据总量为 3100 万亿个 tokens。各种服务使用网络爬虫抓取这些内容,然后消除重复并过滤掉不需要的内容(如色情内容),以生成更干净的数据集:一个名为 RedPajama 的常见数据集包含数十万亿个词。一些公司或学者自己进行抓取和清理,以制作定制的数据集来训练 LLM。互联网中只有一小部分内容被认为是高质量的,比如书籍或新闻中可能出现的人工编辑、社会可接受的文本。
目前正在进行几起诉讼,试图为用于人工智能训练的数据提供者赢得赔偿。2023 年 12 月,《》起诉 OpenAI 及其合作伙伴微软侵犯版权;今年 4 月,纽约 Alden Global Capital 旗下的八家报纸联合提起了类似的诉讼。相反的观点是,应该允许人工智能以与人相同的方式阅读和学习在线内容,这构成了对材料的合理使用。OpenAI 曾公开表示,它认为《》的诉讼“没有法律依据”。
如果目标是找到更多的数据,一种选择可能是收集非公开数据,比如 WhatsApp 的消息或 YouTube 视频的转录文字。尽管以这种方式抓取第三方内容的合法性尚未得到检验,但公司确实可以访问自己的数据,而且几家社交媒体公司也表示,他们使用自己的材料来训练他们自己的人工智能模型。例如,位于加利福尼亚州门洛帕克的 Meta 表示,其虚拟现实耳机 Meta Quest 收集的音频和图像用于训练其人工智能。然而,政策各不相同。视频会议平台 Zoom 的服务条款规定,该公司不会使用客户内容来训练人工智能系统,而转录服务 OtterAI 表示,它确实使用去标识和加密的音频和转录文字进行训练。
Meta 首席人工智能科学家、纽约大学计算机科学家 Yann LeCun 被认为是现代人工智能的创始人之一,今年 2 月,他在加拿大温哥华举行的人工智能会议上发表了演讲,强调了这些可能性。用于训练现代 LLM 的 10 的 13 次方个 token 令牌听起来很多:LeCun 计算出,一个人需要 17 万年才能读完这么多。但是,他说,一个 4 岁的孩子在醒着的时候仅仅通过看物体就吸收了比这大 50 倍的数据量。LeCun 在人工智能促进协会的年会上展示了这些数据。
这一点,再加上专门用于人工智能和其他硬件改进的计算机芯片,为以不同的方式使用计算资源打开了大门:一种策略是让人工智能模型多次重复读取其训练数据集。斯坦福大学博士生、数据来源倡议组织成员 Niklas Muennighoff 表示,尽管许多人认为计算机具有完美的记忆力,只需要“阅读”一次材料,但人工智能系统是以统计方式工作的,这意味着重读可以提高性能。在 2023 年他在纽约的人工智能公司 HuggingFace 发表的一篇论文中,他和他的同事们表明,一个模型从四次重复读取给定的数据集中学到的东西与从读取相同数量的单独数据集中学到的一样多——尽管重读的好处在那之后很快就消失了。