位置:首页 > 区块链 > Sapien AI揭秘:Label to Earn引领AI零工经济

Sapien AI揭秘:Label to Earn引领AI零工经济

时间:2025-07-10  |  作者:  |  阅读:0

AI 的三大基石:算力、数据和算法

在 AI 的三大基石中,算力的重要性最为直观,这也是为什么英伟达一度成为全球最值钱的公司。但 Scale AI 的创始人 Alex Wang 在一次播客中指出,数据正在成为 AI 模型性能提升的最大瓶颈。AI 对数据的需求永无止境,而互联网上的可用数据资源已经接近枯竭。要进一步提升模型性能,必须依赖更多高质量的数据。尽管企业内部拥有大量有价值的数据,但这些非结构化数据只有经过精细标注才能用于 AI 训练。而数据标注是一项资源密集型工作,长期被视为 AI 产业链上最辛苦、最卑微的部分。然而,Scale AI 通过率先进入数据标注领域,在今年 5 月的最新一轮融资中获得了 138 亿美元的估值,超过了许多知名的大模型公司,颠覆了「数据标注只是苦力活」的偏见。

与此同时,去中心化的算力项目挑战英伟达的同时,Sapien AI 也在挑战 Scale AI。这个刚完成 500 万美元种子轮的加密 AI 项目,不仅试图通过去中心化的方式切入长尾市场,还计划打造全球最大的人工数据标注网络。

近日,BlockBeats 专访了 Sapien AI 的联合创始人兼 COO Trevor Koverko。他曾是 Polymath、Polymesh 和 Thuobiens.com 等多个成功项目的联合创始人,积累了丰富的创业经验。在采访中,他分享了创办 Sapien AI 的历程,以及如何与 Scale AI 展开错位竞争的策略,并从区块链游戏中汲取灵感设计业务机制。

Sapien AI 项目体验网址:game.sapien.io

创新沃土多伦多,加密与 AI 社区的创意结晶

BlockBeats:我从您的领英上看到您曾在 NHL 纽约游骑兵队效力。作为一名前职业冰球运动员,您是如何转型进入加密行业的?

Trevor:冰球是我的第一份工作。在加拿大,冰球是文化的一部分,不打冰球几乎会被视为异类。我从中学到了团队合作和高水平竞技的价值,这些经历至今仍影响我。结束冰球生涯后,我开始从事商业,在中国东北的大连生活了一段时间。这些经历塑造了我的成长。我是在多伦多的加密生态系统中成长起来的,早期参与了比特币社区,后来转向以太坊,并在 2017-2018 年推出了 RWA 项目 Polymath。这是我在加密领域的第一个重大项目,我们还建立了自己的 Layer 1 区块链,现已发展为独立品牌 Polymesh,是最大的 RWA 网络之一。现在我只是一个社区成员,因为它已经完全去中心化了。

BlockBeats:什么契机让您的兴趣从 RWA 转向 AI,并决定创办 Sapien AI?

Trevor:在 Polymesh 日常运营去中心化后,我开始对 AI 产生兴趣。多伦多有一个强大的 AI 技术社区,很多现代 AI 的早期架构都是由多伦多大学的研究人员创造的。我本身对使用 AI 感兴趣,并逐渐对 AI 的技术栈、运作方式、训练数据的生产过程以及人类如何参与这些训练数据的生产产生了兴趣。这是一个自然的学习过程。最终,在滑铁卢大学机器学习研究生项目一位导师的指导下,我们发现了解决问题的机会,并创立了 Sapien 公司。

BlockBeats:您可以为不了解 Sapien AI 的人介绍一下这个项目的核心使命是什么吗?在当前的 AI 行业中,数据标注服务的重要性体现在哪里?

Trevor:数据标注极其重要,是 ChatGPT 等主流大语言模型成功的主要原因之一。数据标注的重要性还在不断增加,因为模型之间的性能竞争非常激烈,而提升模型性能的最佳方式就是在数据集中加入更多的专业人类数据标注。我们将数据处理视为一个供应链:原始数据需要结构化和组织,完成后就可以训练这些数据,训练完成后可以在其上进行推理。这是一个在人工智能背景下将数据逐步增值的过程。AI 行业的细分正在涌现,某些公司在流程的特定步骤上表现出色。我最感兴趣的是数据的结构化和训练准备,这一直是我最感兴趣的部分。

去中心化的 Scale AI,瞄准长尾市场

BlockBeats:是什么让 Sapien AI 不同于传统的 Web2 公司,如 Scale AI?

Trevor:我们从第一性原理出发,思考在 2024 年,一个现代化的数据标注技术栈应该是什么样子。我们的目标是中端和长尾市场。我们努力让任何人都能轻松获得数据集的人工反馈,无论你是中端市场的开源模型,还是企业级模型,或者只是周末进行研究的个人。你可以把我们看作是 Scale AI 的一个更分布式或去中心化的版本。我们的标注员更加广泛,可以在任何地方远程工作。这种分散性可以让我们在数据标注质量上做得更好,因为多样性可以提升数据训练的质量。如果你在一个设施中让一群背景相似的人标注数据,很可能会产生有偏见或文化倾向的数据输出。我们从一开始就努力使其尽可能多样化和稳健。由于更加去中心化,我们在某种程度上也能获得更高质量的标注员。我们认为这个市场会不断增长,将会出现大量需要人工反馈的私有和许可模型。

BlockBeats:Sapien AI 的数据标注工作流程是如何设计和优化的?有哪些关键环节确保数据质量?

Trevor:我们的平台运作方式类似于一个双边市场。一方面是需求方,就像 Uber 中的乘客,对我们来说就是需要在其模型中获取人类反馈的企业客户。他们将原始数据集上传到网络,我们根据数据集的几个不同变量给出报价。对企业客户来说,这个过程是非常自助的。另一方面是供应方,即标注人员,他们相当于我们的 Uber 司机。我们非常关注供给侧,致力于让任何人都能轻松地进行数据标注。我们发明了一些新技术,以确保在分布式模式下实现大规模的高质量标注。我们提出了「数据标注三难问题」:我们能否让客户的成本更低,让标注员的收入更高,同时提高整体质量?我们在这个领域进行了多次实验,取得了一些非常有趣的结果。我们尝试了均值回归、异常检测等不同的新机制,并混合使用了一些概率模型,这些模型可以在很大程度上推测标注员的工作质量。我们还在研发一些更新的技术。我们对未来五到十年数据标注的发展前景感到非常兴奋。我们认为,数据标注将会变得更加去中心化、更自助化和更自动化。

BlockBeats:能否更详细介绍一下你们的产品和技术,特别是那些能确保数据质量的部分?我知道你们有质押机制来防止标注员作恶,还有其他技术吗?

Trevor:我们正在尝试许多不同的方法。我们有声誉系统,还有质押与惩罚机制。标注者在质押一定的资金后,如果未能达到标准,可能会被罚款。这些机制还处于早期实验阶段,但我们发现,仅仅这种激励机制就可以显著提高质量的遵守度。我们使用不同算法的加权平均来实现这一系列质量控制,同时也在不断微调这些算法。我们自己也在使用机器学习来优化这一过程。比如,我们使用 ML linter 工具和「红兔子」测试,即向标注者提供虚假数据,以测试他们是否诚实标注。我们必须时刻警惕女巫攻击。我们喜欢某些 Web3 激励机制,因为这些机制最初就是为了解决类似的女巫攻击问题、拜占庭将军问题而发明的,目的是让遵守规则符合每个人的最佳利益。对一些大客户,我们实施了更传统的质量控制方法,同时我们也在快速向这个新的前沿数据世界迈进。

BlockBeats:您觉得 Sapien AI 作为一个去中心化数据标注平台的最大优势是什么?

Trevor:我们的平台更加自助化,这使我们能够服务更广泛的客户群。对于标注员来说,我们的要求也非常宽泛。我们希望任何人都能成为标注员,因为我们相信 AI 的下一个时代将是从人类那里提取更多现有知识。不仅仅是基础层面的东西,而是更多关于推理的内容。Scale 公司的 Alex Wang 谈到过这个问题:互联网上的数据是推理的结果,但并没有真正描述推理的过程。我们如何更深入地了解人们的思维?这需要更多的工作,需要更专业的标注。这有可能帮助我们加速通用人工智能(AGI)的发展。所以,我们的更大使命是:我们能否在企业内部的私有数据集中,在专业人士的头脑中,解锁更多知识?这些专业人士在某些垂直领域(如医疗或法律)拥有模型尚未掌握的专业知识。我们仍在努力使我们的平台尽可能具有流动性,尽量保持供需平衡。我们希望实现动态定价,就像 Uber 那样。这些机制使我们更像一个真正的双边市场,一边满足数据需求,一边帮助标注员加入。在质量保证方面,我们实时使用了我之前提到的那些技术。我们希望我们的标注员尽可能多地获得实时反馈,因为这能为所有人创造更好的体验。

Label to Earn,零工经济的未来

BlockBeats:我注意到 Sapien AI 与游戏公会 Yield Guild Games(YGG)达成了合作,所以 Sapien AI 的去中心化标注机制是否可以理解为一种「label to earn」游戏?

Trevor:完全正确。我们确实希望能够进入那些想通过手机谋生的人的世界,我们认为这是零工经济的未来。你不需要一辆车来开 Uber,不需要在一个实体地点进行外卖配送,你只需要登录手机,进行数据标注,就可以赚取收入。YGG 是一个了不起的合作伙伴,他们是我们的天使投资人之一。我们与创始人 Gabby 关系很好,他们在东南亚有一个了不起的社区。我们与他们有宏大的计划,希望帮助他们的用户找到新的赚钱方式,同时他们也帮助我们获得新用户。我们最近宣布了一些合作项目,未来还有更多计划正在筹备中。Q4 的大部分时间里,我们也会在亚洲,与这些合作伙伴见面,并继续推动合作。

BlockBeats:您对《Axie Infinity》这样的「play to earn」区块链游戏有什么看法?

Trevor:这非常具有创新性,可以说是一个灵感的源泉。虽然只是一个实验,但我相信它会以新的形式回归。我们正在做的事情确实有一些「play to earn」的元素,我们也倾向于使用「label to earn」或「train to earn」这样的说法。但其中还是有区别的,因为我们是一个真正的业务。这里有真实的数据被标注,有真实的客户支付真金白银,最终有一个真实的产品被生产出来。所以这不只是一个无限循环的视频游戏。虽然用 Sapien AI 标注数据很有趣,但可能不如玩《侠盗猎车手 V》那么有趣。我们希望在趣味性和实用性之间取得良好的平衡,让它既是一种你可以在公交站等 5 分钟时做的事情,也可以是在家里电脑前花 5 小时做的事情。我们的目标是让它尽可能地易于参与。

BlockBeats:你们是否有办法让数据标注变得更加有趣,不仅是工作,而更像游戏?

Trevor:是的,我们现在有很多尝试。你可以访问 game.sapien.io,亲自体验这个游戏并标注真正的 AI 数据。你可以成为一名 AI 工作者,边玩游戏边标注真正的 AI 数据,还可以赚取积分。这款游戏非常简约,界面直观。数据本身也很有趣。你可能需要标注一些非常有趣的图片,比如为我们的时尚数据做标注等。我们计划支持各种不同类型的模态和数据集。我们计划随着时间的推移不断添加更多的功能。

未来蓝图:构建全球最大的人工数据标注网络

BlockBeats:除了 YGG,你们还计划在未来与哪些加密项目合作?

Trevor:我们有一些有趣的想法,比如为数据标注创建一个数据标准。目前,这一领域还比较混乱,每个客户的需求都不一样,我们必须与每个客户进行定制集成。因此,我们正在与去中心化数据领域的其他人合作,处于建立这一标准的早期阶段,并计划将其作为公共产品发布。我们在 Polymath 时也做过类似的事情,我们发布了 ERC-1400,它现在成为了以太坊上代币化的默认标准之一。所以我们有一些关于创建标准的想法,并计划与过去帮助过我们的团队以及一些行业合作伙伴共同推动这一进程。这将使去中心化 AI 变得更加真实,也会让它更具互操作性,意味着数据可以更容易地在不同的步骤之间流动,因为没有一个人能够完成所有事情。

BlockBeats:Sapien AI 主网和移动应用的具体发布日期是什么时候?

Trevor:目前我们还没有具体的发布计划。我们现在专注于我们的核心 Web2 产品市场匹配。我们的增长非常好,现在已经有来自 71 个国家的标注员。今年我们在需求端的收入几乎每个月都在翻倍。我们只想继续成长,不断了解我们的客户,持续为他们提供服务。随着时间的推移,我们会对各种不同的策略和技术保持开放态度。

BlockBeats:我看到 Base 联合创始人 Rowan Stone 已经加入 Sapien AI 担任首席业务开发官,Sapien AI 会建立在哪条区块链公链上?是否有发行原生代币的计划?

Trevor:这些都是很有深度的问题。Rowan 非常棒,他和 Jesse Pollak 一起创立了 Base,Jesse 绝对是个传奇人物。Rowan 有着丰富的经验,在构建工业级 Web3 产品方面无人能及。他参与领导了「Onchain Summer」活动,这是我记忆中最成功的活动之一。他正在帮助我们制定某些领域的市场策略。但是,就像我刚才说的,我们目前非常专注于为现有客户提供服务,这是我们的主要焦点。在选择任何 Layer 1 或其他方面,我们还没有做出任何承诺或决定。但在未来,我们会继续考虑各种可能性。

BlockBeats:Sapien AI 在未来有什么计划或目标?您希望在接下来的几年中实现哪些里程碑?

Trevor:我们的使命是将全球人类数据标注员的数量增加 100 倍,并让任何人都能轻松接入这个网络。我们想建立世界上最大的人类数据标注员网络。我们认为这将是一个非常有价值的资产,所以我们想要建立并控制它,但最终会开放它。我们希望任何人都能接入并完全无需许可。如果我们能够构建全球最大的人工数据标注网络,这将解锁大量潜在的 AI 能力,因为我们拥有的高质量数据越多,AI 就越强大,也越能为所有人所用。我们希望它能为所有人服务,而不仅仅是那些负担得起数百万人类标注员网络的大型语言模型公司。现在,任何人都可以使用这个网络。你可以把它看作是一个「标注即服务」的平台。

去中心化的背后:创业者的任务是解决问题

BlockBeats:最后我想问问您对整个行业的观察和看法。您认为目前加密 AI 领域还存在哪些尚未被开掘的潜力?

Trevor:我对这个领域非常兴奋,这也是我们创立 Sapien AI 的原因。去中心化的 AI 可能会更加自主化,更加民主化,更加易于访问,也更加强大。这意味着 AI 代理可以有自己的原生货币进行交易,这也意味着你可以拥有更多的隐私,并且可以通过 ZK 技术确切地知道模型中包含什么。在防范方面,我们面临的是一个非常可怕的世界,在这个世界里,AI 变得越来越集中化,只有政府和少数几家大型科技公司才能接触到强大的模型。因此,开源和去中心化的 AI 是一种防御手段。对我们来说,我们更专注于数据方面,去中心化数据。这并不意味着你不能去中心化 AI 堆栈的其他部分,比如计算和算法本身。就像 Transformer 是算法方面的第一个创新,我们已经看到了更多的创新,但总是有改进的空间。去中心化并不意味着你应该这么做,仅仅因为你可以去中心化某些东西并不意味着你就应该这么做。最终必须要有真正的价值。但就像金融和 Web3 空间的其他部分一样,AI 肯定可以从去中心化中受益。

BlockBeats:对于想要进入加密 AI 领域的创业者,您最想给出什么建议?

Trevor:我建议要尽可能多地学习,真正理解技术栈和架构。你不一定要成为机器学习博士,但了解它的工作原理并进行研究很重要。从这里开始,随着时间的推移,你会逐渐更有机地理解问题。这是关键。如果你不了解它的工作原理,就无法理解问题所在。而如果你不知道问题在哪里,你就不应该成为创业者,因为创业者的工作就是解决问题。所以这与其他任何初创公司没有什么不同,你应该理解这个领域。你不必是该领域的全球顶尖专家,但要足够了解它,以便能够理解问题,然后尝试解决这些问题。

Sapien AI揭秘:Label to Earn引领AI零工经济_wishdown.com

福利游戏

相关文章

更多

精选合集

更多

大家都在玩

热门话题

大家都在看

更多