关灯
开启左侧

比Transformer好用!前谷歌大脑员工创业公司获4000万美元融资,Hinton、李飞飞等支持

[复制链接]
gaimy 发表于 2021-9-14 08:58:47 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题
 
  【新智元导读】NLP 模型提供商 Cohere 宣布获得 4000 万美元A轮融资。该公司由谷歌大脑前员工创立,核心模型源自 Transformer,并获得了 Geoffrey Hinton,李飞飞等 AI 界重量人物的支持。
  近日,自然语言处理 (NLP) 预训练模型提供商 Cohere 宣布了 4000 万美元的 A 轮融资。此次融资由 Index Ventures 领投,Section 32、Radical Ventures 等参投。Index 合伙人 Mike Volpi 加入 Cohere 董事会。
  Cohere 在业界源自名门,其核心 NLP 模型正是源自 Google Brain 开发的 Transformer,它可以理解、比较和生成复杂的文本,并不断改进训练数据。
  Cohere 的主要服务是提供预训练模型,模型已经过数亿份网页的阅读训练,能理解我们使用的词语的含义、情感和语气。用户无需超算基础设施,也不需要 AI 专业知识,就能通过 API 实现最先进的 NLP 功能。
  此外,Cohere 还获得了多位人工智能界的重量级人物的支持,包括 AI 先驱人物、图灵奖获得者 Geoffrey Hinton,以及李飞飞、Pieter Abbeel 和 Raquel Urtasun 等。
  Hinton 就此表示了支持,他表示:“超大语言模型让计算机能够更好地理解人类交流, Cohere 的团队正在构建的技术,将使自然语言理解的这场革命获得更加广泛地应用。”
  Cohere 由两位前 Google Brain 研究人员 Aidan Gomez 和 Nick Frosst 和前 Cortex 工程师 Ivan Zhang 创立,其使命是制造能够“理解世界”的机器,并让所有人都能安全地获取这种服务。
  源自 Transformer:尖端 NLP 模型,拿来即用,安全方便
  Cohere 现任 CEO Gomez 认为,Transformer 模型的问题之一,就是需要大量的训练数据和算力。
  “没有人可以方便访问这些高质量的自然语言模型;即使是 Facebook、亚马逊、苹果、Netflix 和谷歌等科技巨头也不行。我们想要做的是,支付这台超级计算机的成本,并让所有人都可以访问,否则这些技术就得不到真正利用。”
  Gomez 表示,在架构层面,这些模型的设计不仅可以收集单个单词的含义,还可以收集这个单词在其他单词的上下文中的含义。
  在 Transformer 架构的基础上,性能更强大的 BERT 诞生了,它可以用于理解几乎所有 Google 搜索功能中的查询结果。
  BERT 的模式是,首先通过处理来自网络的大量文本来训练 Transformer 模型,然后输入完整的句子,但故意省略一些单词,然后让模型找到最合适的单词来填空。
  “这种模型真正学会了理解语言,因为需要学习在上下文中理解适合该句子的内容。”在找词填空时,模型必须学会区分大量候选词之间的细微差别。在此过程中,模型学习了大量关于候选词及其所代表的事物和想法的有关知识。
  Gomez 说:“在另一端,BERT 对单词含义和特征的编码表示形式是非常丰富的,因为模型的全部目的就是要预测这些空白,这真的需要了解这些候选词到底是什么。”
  GPT-3 是“作文机器”,Cohere 是“全能机器”
  而与另一个广受欢迎的 NLP 模型 GPT-3 相比,Cohere 也有一些相似之处,GPT-3 在去年发布时凭借其显示出了令人惊叹的文本生成能力。该模型由 OpenAI 开发,两者都使用来自网络的大量文本进行了预训练,并且都通过 API 形式提供。
  而据 Gomez 介绍,二者之间的主要不同在于,GPT-3 是一种“生成”模型,旨在根据用户提供的提示,创建出从左到右移动的文本——类似于一台强大的自动写作机器。但其实,文本生成只是 NLP 的众多应用方向之一,Cohere 提供的是一个类似“全栈”NLP 功能的平台,包括情感分类、问答和文本分类等。
  如何防止 NLP 模型“学坏”
  去年,大型 NLP 模型的批评者对网络上的大量文本进行了训练,结果发现模型在学习中学会了训练数据中的人或观点的固有偏见,随后引发了大量争议。
  Gomez 并不回避这个问题,他坦言,训练模型确实可能会学会不该学的东西。除了会吸收互联网文本中的固有偏见之外,还可能吸收不经意间包含在训练数据中的错误信息。
  为此,Cohere 开发了新工具,并投入大量时间来确保模型不会摄取到这些不良数据。Cohere 在模型发布前会实施质量控制测试,查找问题,在模型发布后也会继续监控。此外还将发布“数据声明”,内容包括有关训练数据、其局限性和任何风险的信息。
  目前,李飞飞领导下的斯坦福大学的一个新团队已经成立,主要就是研究与 BERT 和 GPT-3 等“基础”技术相关的风险。

回复

使用道具 举报

 
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则


0关注

0粉丝

24957帖子

排行榜

关注我们

官方微信

唯一QQ:

1511923161

地址:广东清远市阳山县

Email:1511923161#qq.com

Copyright   ©2015-2021  网赚平台Powered by©网赚平台工作室