哈佛与谷歌联手发布百万公版书AI训练数据集

AI训练数据的成本极为高昂,通常只有财力雄厚的科技巨头才能负担。正因如此,哈佛大学计划发布一个涵盖约100万册公版书籍的数据集,内容横跨多种类型、语言及作者,包括狄更斯、但丁和莎士比亚等因年代久远而已不受版权保护的经典作品。

这一数据集目前尚未正式发布,具体发布时间与方式也尚未明确。但可以确认的是,该数据集中的书籍来源于谷歌长期推进的图书数字化项目——谷歌图书(Google Books),因此谷歌也将参与将这一"珍贵资源库"向各界广泛开放的工作。

哈佛大学早在今年3月便率先透露了"机构数据倡议"(Institutional Data Initiative,简称IDI)的相关计划,表示将打造一个"为AI提供合法数据的可信渠道"。此后该项目鲜有消息,直至今日正式宣布启动,并确认微软与OpenAI已为IDI提供资金支持。

IDI执行主任格雷格·莱珀特(Greg Leppert)表示,这一数据集的设计初衷是通过向所有人开放如此庞大的资源——无论是研究机构还是AI初创公司——来"打造公平竞争的环境",让更多主体得以训练自己的大语言模型。

Q&A

Q1:哈佛机构数据倡议(IDI)发布的数据集包含哪些内容?

A:该数据集涵盖约100万册公版书籍,横跨多种文学类型、语言及作者,包括狄更斯、但丁、莎士比亚等经典作家的作品。这些书籍因年代久远已不受版权法保护,书目来源于谷歌长期推进的谷歌图书数字化项目。

Q2:哈佛IDI数据集目前可以使用了吗?

A:目前该数据集尚未正式对外发布,具体的发布时间与获取方式也尚不明确。哈佛大学与谷歌将共同参与后续的发布工作,有意向的研究机构和AI企业可持续关注官方动态。

Q3:哈佛IDI数据集的发布对AI初创公司有什么意义?

A:AI训练数据成本极高,通常只有大型科技公司才能承担。IDI数据集的发布旨在"打造公平竞争的环境",让资金有限的研究机构和AI初创公司也能获取大规模高质量的训练数据,用于训练自己的大语言模型,从而降低行业门槛。

相关知识

哈佛与谷歌联手发布百万公版书AI训练数据集
AI概览唤起率仅7%,谷歌的AI搜索出师不利
恐怖之王史蒂芬·金:我的书可以被用来训练 AI,但它还无法取代我
外媒:谷歌联合创始人布林重回公司,参与研发新一代AI系统
谷歌回应广告垄断指控:AI和平台影响下,开放网络迅速衰落
人文训练师上岗,让AI更有情商
谷歌AI视频编辑应用Google Vids上线:帮你写脚本、剪片、找素材等
消息称Meta正就为自有数据中心导入TPU AI芯片与谷歌洽谈
AI站上被告席
AI技术的水墨风格关羽形象创作与流量提升研究

网址: 哈佛与谷歌联手发布百万公版书AI训练数据集 http://m.taoroudan.com/newsview617685.html
所属分类:行业资讯

推荐资讯