GPT-4背后的开发者:七大团队,三十余位华人

这个星期,OpenAI 大模型 GPT-4的发布让全球科技圈的技术竞争进入了白热化。几天之内,ChatGPT、必应搜索和 Microsoft365相继接入 GPT-4,微软的 AI 应用瞬间比竞争对手拉开一个身位,甚至有人说,新的工业革命开始了。
一方面我们被 GPT-4的效果所震撼,一方面我们也迫不及待的想要了解背后的技术,好奇它的训练方法、使用的算力等。
但遗憾的是,OpenAI 并不 Open。在公开的论文(其实更像技术报告)中,OpenAI 明确地说,GPT-4模型使用 RLHF 精调外,不会公开任何技术细节。
鉴于 GPT-4等大型模型的竞争性与安全影响,本报告不包含有关架构(包括模型大小)、硬件、训练计算、数据集构建、训练方法等更多详细信息。
不过,在此报告中,OpenAI 详细列出了贡献者及其负责的工作内容。这值得我们细致研究。这几百人的贡献者名单与分类,能让我了解到 GPT-4的成功背后包含了哪些部门、技术分枝的努力。
在这篇文章中,我们对有代表性的贡献者进行了盘点,期待能为读者带来启发。
研发人员占绝大多数
从组织架构的设置上看,GPT-4幕后的研发团队大致可分为七个部分:预训练(Pretraining)、长上下文(Long context)、视觉(Vision)、强化学习 & 对齐(RL & alignment)、评估 & 分析(Evaluation & analysis)、部署(Deployment),以及其他贡献者(Additional contributions)。
预训练部分的工作细分为:
计算机集群扩展(Compute cluster scaling)
数据(Data)
分布式训练基础设施(Distributed training infrastructure)
硬件正确性(Hardware correctness)
优化 & 架构(Optimization & architecture)
Training run babysitting
长上下文部分的工作细分为:
长上下文研究(Long context research)
长上下文内核(Long context kernels)
视觉部分的工作细分为:
架构研究(Architecture research)
计算机集群扩展(Compute cluster scaling)
分布式训练基础设施(Distributed training infrastructure)
硬件正确性(Hardware correctness)
数据(Data)
对齐数据(Alignment Data)
Training run babysitting
部署 & 后训练(Deployment & post-training)
强化学习 & 对齐部分的工作细分为:
数据集贡献(Dataset contributions)
数据基础设施(Data infrastructure)
ChatML 格式(ChatML format)
模型安全(Model safety)
Refusals
基础 RLHF 和 InstructGPT 工作(Foundational RLHF and InstructGPT work)
Flagship training runs
代码功能(Code capability)
评估 & 分析部分的工作细分为:
OpenAI Evals 库
模型等级评估基础设施(Model-graded evaluation infrastructure)
加速预测(Acceleration forecasting)
ChatGPT 评估
能力评估(Capability evaluations)
编码评估(Coding evaluations)
真实世界用例评估(Real-world use case evaluations)
污染调查(Contamination investigations)
指令遵循和 API 评估(Instruction following and API evals)
新功能评估(Novel capability discovery)
……
细读贡献者名单,不难发现,GPT-4项目团队的成员通常「身兼数职」。对于希望追赶 ChatGPT 的科技公司来说,OpenAI 提供的部门架构样板提供了一些可以学习的思路。另外,它对于 AI 领域人才的未来发展方向或许也有一些启示。
在 ChatGPT 发布之后,OpenAI 在人才招聘方面也做出了一些调整,招募了数十名前谷歌和 Meta 员工来创建人工智能聊天机器人。
在 OpenAI 上,谷歌作为「硅谷黄埔军校」的名头算是坐实了:根据 LeadGenius 和 Punks & Pinstripes 的数据显示,该公司的300多名员工(数据截止到2023年1月)中有许多来自谷歌和 DeepMind 的母公司 Alphabet。数据显示,OpenAI 目前雇佣了约59名谷歌前员工和约34名 Meta 前员工,同时包括几名苹果和亚马的前逊员工。
鉴于 OpenAI 在 GPT-4发布的第一时间就公开了所有贡献者名单,机器之心整理了一部分参与工作的华人学者。如果遗漏,欢迎补充。
预训练组
Trevor Cai
Trevor Cai 是 GPT-4项目中吞吐量团队的负责人。Trevor Cai 本硕毕业于南加州大学,2022年3月加入 OpenAI。在加入 OpenAI 之前,Trevor Cai 曾在 DeepMind 工作近5年,担任软件工程师。
袁启明
袁启明(Qiming Yuan)是 GPT-4项目数据集来源和处理团队的负责人。袁启明本科毕业于清华大学,硕士毕业于得克萨斯大学奥斯汀分校,2018年加入 OpenAI。此前,袁启明曾在微软工作近三年。
Che Chang
Che Chang 作为 OpenAI 的副总法律顾问参与了 GPT-4的研发,他博士毕业于美国西北大学,2021年加入 OpenAI,此前在 AWS 领导了人工智能 / 机器学习和市场业务的法律团队。最近一段时间,OpenAI 的法律团队还在招聘 AI 产品顾问。
欧阳龙
欧阳龙2019年加入 OpenAI,担任研究科学家。Long Ouyang 本科毕业于哈佛大学,博士毕业于斯坦福大学,曾在斯坦福大学任博士后研究员。欧阳龙也参与研发了 ChatGPT 相关的技术项目,他还是 InstructGPT 论文的第一作者。
翁丽莲
翁丽莲(Lilian Weng)是 OpenAI 人工智能应用研究的负责人,2018年加入 OpenAI,在 GPT-4项目中主要参与预训练、强化学习 & 对齐、模型安全等方面的工作。
Tao Xu
Tao Xu2019年加入 OpenAI,先后毕业于北京大学、康奈尔大学。Tao Xu 曾在微软的必应机器学习研究组工作四年。
Jie Tang
Jie Tang 在加州大学伯克利分校获得计算机科学博士学位,导师是 Pieter Abbeel。加入 OpenAI 前,他曾在初创公司和 Dropbox 工作约四年时间。Jie Tang 本科就读于哈佛大学,2008年获得计算机科学和经济学学士学位。
Ben Wang
Ben Wang 目前是宾夕法尼亚大学本科生,2021年加入 OpenAI。Ben Wang 参与了 GPT-4项目的预训练和长上下文方面的工作。
视觉组
Mark Chen
Mark Chen2018年加入 OpenAI,任研究科学家,毕业于麻省理工学院(MIT)。他参与了 GPT-4项目中视觉方面的工作。
Casey Chu
Casey Chu2020年加入 OpenAI,毕业于斯坦福大学计算数学专业。Casey Chu 的主要研究方向是多模态 AI 系统,他在 GPT-4项目中主要参与视觉方面的工作。
胡绳丽
胡绳丽(Shengli Hu)2022年加入 OpenAI,她硕士毕业于复旦大学、博士毕业于康奈尔大学。她的研究兴趣在于社会科学、计算语言学、计算机视觉和语音的跨学科研究。胡绳丽曾在自然语言处理、计算机视觉、语音和应用统计方面的顶级会议和期刊上发表过多篇论文,包括 CVPR、ACL、EMNLP、ECCV 等等,并获得过最佳论文奖提名。
Tianhao Zheng
Tianhao Zheng2022年加入 OpenAI。他本科毕业于清华大学,博士毕业于得克萨斯大学奥斯汀分校。再加入 OpenAI 之前,他曾先后在英伟达、谷歌、Twitter 工作过。Tianhao Zheng 在 GPT-4项目中主要参与了视觉方面的工作。
翁家翌
翁家翌(Jiayi Weng)2020年在清华大学计算机科学与技术系获得本科学位。本科在朱军教授组学习期间,主要参与了强化学习算法库 Tianshou(天授)的开发,该项目已获得5.9K GitHub Star。CMU 硕士毕业后,翁家翌加入 OpenAI 任研究工程师。
强化学习 & 对齐组
Chong Zhang
Chong Zhang2010年就读浙江大学计算机系,2014年在加拿大西蒙弗雷泽大学获得学士学位,随后在谷歌、苹果公司担任工程师。2019年就读加州大学洛杉矶分校,2021年获得计算机硕士学位后,在 OpenAI 工作至今。
Shengjia Zhao
Shengjia Zhao2016年本科毕业于清华大学,2022年在斯坦福大学获得计算机科学博士学位,师从 Stefano Ermon,随后加入 OpenAI。
Stephanie Lin
Stephanie Lin 本科和硕士期间分别就读于麻省理工学院和佐治亚理工学院。加入 OpenAI 之前,她曾是牛津大学研究学者。
Tong Mu
Tong Mu 本科就读于加州大学洛杉矶分校,后在斯坦福大学获得博士学位。2022年加入 OpenAI。
Jeff Wu
Jeff Wu 本硕均就读于麻省理工学院。他是初创公司 Terminal.com 的第二名员工,该公司被收购后,他曾在谷歌工作约2年的时间。2018年,Jeff Wu 加入 OpenAI。
肖凯
肖凯(Kai Xiao)在麻省理工学院获得了学士学位和博士学位,曾在微软、DeepMind 等机构实习。2022年9月加入 OpenAI。
Kevin Yu
Kevin Yu 在加州大学伯克利分校获得物理学学士学位及神经科学博士学位。2022年加入 OpenAI。
Haozhun Jin
Haozhun Jin2013年本科毕业于清华大学计算机系,2015年获得斯坦福大学硕士学位。2015年到2018年,他在 Meta 担任软件工程师,2023年1月加入 OpenAI。
顾世翔
顾世翔是出生于日本的加拿大华人,曾是谷歌研究院研究科学家,研究领域包括深度学习、强化学习、概率机器学习和机器人技术。他拥有剑桥大学和马普所智能系统研究所的机器学习博士学位,在多伦多大学获得了工程科学学士学位,论文指导教授为 Geoffrey Hinton。
评估 & 分析团队
Alvin Wang
Alvin Wang2022年8月加入 OpenAI,为评估 & 分析团队核心贡献者之一。此前他曾在 VMware、Tesla 等公司工作过几年。2013年本科毕业于南加州大学。
Angela Jiang
Angela Jiang 于2021年11月加入 OpenAI,在微软和谷歌有过短暂的工作经历,她本科毕业于西北大学,于 CMU 获得博士学位。
Jason Wei
Jason Wei 于今年2月加入 OpenAI,主要研究 ChatGPT。此前他是谷歌 Brain 的高级研究科学家,在那里推广了思维链提示,并共同领导了指令调优工作。他在谷歌和 Jeff Dean 等人共同撰写了关于大模型涌现能力的论文。
Juntang Zhuang
Juntang Zhuang 于2022年4月加入 OpenAI,此前曾在谷歌实习四个月。他本科毕业于清华大学,硕士毕业于耶鲁大学,并在耶鲁大学拿到博士学位。他的研究主要是为生物医学应用开发新的机器学习技术。
Derek Chen
Derek Chen 于2021年加入 OpenAI,是一名技术安全分析师。他毕业于美国东北大学,此前在谷歌工作过不到一年的时间。
宋飏
宋飏(Yang Song)目前在 OpenAI 担任研究员,并将于2024年1月加入加州理工学院电子系(Electrical Engineering)和计算数学科学系(Computing and Mathematical Sciences)担任助理教授。宋飏本科毕业于清华大学数理基础科学班,2022年获得斯坦福大学计算机科学博士学位,师从 Stefano Ermon。他的主要研究方向是机器学习,包含深度生成式模型(deep generative models),概率推理(probabilistic inference),人工智能安全性(AI safety),以及人工智能方法与其他科学领域的交叉(AI for science)。他是扩散模型(diffusion models)和分数匹配生成式模型(score-based generative models)的主要奠基人之一。他发表在 NeurIPS2019的工作首次在图片生成质量上实现了对生成对抗网络(GAN)的超越。博士期间他的一作论文获得了 ICLR2021杰出论文奖,相关研究获得了苹果奖学金、摩根大通奖学金,以及 WAIC 云帆奖。
模型部署
Michael Wu
Michael Wu2021年加入 OpenAI,主要的工作是人工智能应用研究。Michael Wu 毕业于 MIT,是 GPT-4项目的推理研究负责人。
Andrew Peng
Andrew Peng2022年底加入 OpenAI,他曾经在微软工作两年。Andrew Peng 毕业于加州大学伯克利分校,主要参与 GPT-4API 和 ChatML 部署方面的工作。
吴雪枫
吴雪枫(Sherwin Wu)2022年加入 OpenAI,主要的工作是人工智能应用及 API 开发。吴雪枫毕业于 MIT,在 GPT-4项目中主要参与 API 开发和 ChatML 部署方面的工作。
Jason Chen
Jason Chen 本科就读于麻省理工学院,2007年到2014年期间在谷歌担任软件工程师,2014年到2019年任职于初创公司 Apptimize,2019年到2023年2月任职于 Argo AI,2023年2月加入 OpenAI。
其他贡献者
Xin Hu
Xin Hu 于2022年6月加入 OpenAI,主要负责开发用于云安全、k8s 安全、认证 / 授权和访问控制的安全服务和平台。
此外,在 GPT-4的开发上 OpenAI 也对微软表示了感谢,特别是微软 Azure 服务为模型训练提供了基础架构设计和管理方面的支持,微软必应团队、安全团队也对 GPT-4的部署等工作作出了贡献。
明星直播带货,老套路能否拯救小红书商业化?
一向温吞吞的小红书开始加快商业化步伐。“在过去几年中,小红书把商业化的形态整体做了一遍梳理,但商业化仍处在萌芽阶段。在今年,准备‘跑’起来。”在前不久的小红书WILL商业大会上,小红书COO柯南表示。小红书跑起来的第一步就是构建科学种草的基础设施。站长网2023-03-16 13:17:040000拼多多疯狂做农业:100亿和3个故事
最近,拼多多发布2022年四季度及全年财报,年营收1306亿元,净利润315亿元,均创历史新高。在财报电话会议上,拼多多董事长兼CEO陈磊花了大量篇幅,介绍拼多多过去一年在农业领域的进展。他将拼多多形容为一家“还处于投入阶段的年轻公司”,公司去年的研发投入超过100亿元。热衷聊农业、更重视研发,是这两年拼多多的一大特点。站长网2023-03-24 16:46:190000学生代理月入过万,演出黄牛隐于校园
斗不完的黄牛党,正在加速“扩编”。近期,周杰伦演唱会主办方发布公告喊话黄牛,要求其停止兜售溢价门票。经公告所示,周杰伦演唱会太原站、呼和浩特站仅委托大麦、猫眼等六家单位(票务公司)进行票务销售,但目前在摩天轮票务、票牛网、淘宝等平台却出现了公开或隐匿兜售演唱会门票的情况,而这些非授权门票售价也远远高于票面价值。站长网2023-03-22 13:56:400001微软高管:谷歌的 Bard 与 Bing Chat 相比「远远落后」
谷歌终于在本周早些时候推出了其Bard聊天机器人的公开预览版。然而,微软的BingChat已经可以公开测试了几周。那么,微软对这种新的竞争有什么看法呢?日前微软公司广告和网络服务主管MikhailParakhin在推特上被一位用户问及他对Bard的看法,以及他是否同意其他人的看法,即他们「对其性能与必应人工智能相比如此之低感到震惊?」站长网2023-03-24 10:16:490000微软发出警告:禁止竞争对手使用必应数据库支持AI工具
最近,微软因据称威胁搜索引擎竞争对手而引起了一些争议。据悉,微软最近在与谷歌和其他搜索引擎竞争时,采取了一些不公平的竞争行为。据悉,微软威胁搜索引擎竞争对手,称如果他们继续使用微软的互联网搜索数据作为自家AI聊天产品的基础,微软将阻止这些公司获取相关数据。微软已告知至少两个客户,使用必应搜索索引数据库为其AI聊天工具提供信息的行为违反合同条款,微软可能会终止向这些企业提供访问数据库的许可证。站长网2023-03-25 10:44:000001