5亿美金估值的Captions:如何在红海市场打造“秘PG电子密Roadmap”?
栏目:PG娱乐 发布时间:2025-05-06
  PG电子,pg娱乐,PG电子试玩平台,PG电子技巧,PG电子下载   作为 AI 视频创作领域的领军企业 Captions 的联合创始人兼 CEO,Gaurav Misra 正引领着一场消费级 AI 产品的革命,公司于 2024 年完成了 C 轮融资,成功筹集了 6,000 万美元,估值增长至 5 亿美元。创立 Captions 之

  PG电子,pg娱乐,PG电子试玩平台,PG电子技巧,PG电子下载

5亿美金估值的Captions:如何在红海市场打造“秘PG电子密Roadmap”?

  作为 AI 视频创作领域的领军企业 Captions 的联合创始人兼 CEO,Gaurav Misra 正引领着一场消费级 AI 产品的革命,公司于 2024 年完成了 C 轮融资,成功筹集了 6,000 万美元,估值增长至 5 亿美元。创立 Captions 之前,Gaurav在 Snap 担任产品负责人,参与开发了多个服务数亿用户的核心功能。

  本期节目将深入探讨 Gaurav 如何突破传统产品开发思维,在竞争激烈的赛道中打造出让全球用户为之惊叹的 AI 产品。希望能为大家带来帮助,Enjoy!

  重点不在于单纯为了使用 AI 而使用,也不是借 AI 制造噱头、追求热度,而是要让 AI 切实解决实际问题、满足实用需求 。

  聚焦用户需求并关注有病毒式传播潜力的内容,快速进行产品优先级排序。采用增量开发与彻底的 MVP 方法,每周交付可营销产品,以保持团队专注并明确改进方向。

  产品开发中质量不应妥协,面对时间压力团队不应削减质量而应缩小范围,正确做法是审视构建元素,通过追问 “移除该元素产品是否仍可用” 来确定最小可用功能。

  在产品设计中,一些用户从未提出的,基于团队对问题、用户和技术的独特理解,以及可能会彻底改变用户行为方式的创新想法,有时要比用户明确要求的常规功能更有意义。

  传统 PM 和设计师的职能不再能完全满足企业的发展,如今更需要的是能兼顾用户体验设计、构建与推出产品的“设计工程师”。

  Gaurav 认为,当前是一个令人兴奋的时期,很少有像现在这样一切皆有可能的时刻。在几年前,创办公司和想出新点子都非常困难,似乎所有想法都已被尝试过。在这个前所未有的时代,每个尝试都可能奏效,机会无限,然而世界上却没有足够的人来挖掘这些可能性。

  这种状态不会永远持续,人们也终将赶上这一进程,但能够成为这场发展浪潮的一部分,也很令人感到幸运。

  当下的市场环境与几年前相比发生了巨大转变。在过去,即便开发者宣称推出了更优质的产品,用户也未必会为之驻足。而如今,即便并非采用最优解决方案,只要打出 “利用 AI 重新构思” 的旗号,便能吸引大量用户前来体验。当然,若产品无法兑现宣传中的功能与价值,用户体验后便会流失,然而一旦产品能够切实履约,便将迎来大规模用户增长的宝贵机遇。

  不过,产品开发的核心始终在于解决实际问题。不少人陷入 “只要产品酷炫,用户自会慕名而来” 的思维误区,但如果产品仅像供人短暂消遣便离去的游乐场,便难以形成真正的商业化。唯有切实解决用户实际问题,才是关键所在。

  重点不在于单纯为了使用 AI 而使用,也不是借 AI 制造噱头、追求热度,而是要让 AI 切实解决实际问题、满足实用需求。

  如今的不同之处在于,技术领域发生了巨大的变革,使得我们能够开发出以往无法实现的产品,攻克曾经难以解决的难题。而这,正是机遇涌现的根源所在。

  尤其在视频领域,可能性是无限的。Captions 的目标不是为专业人士构建工具,而是为那些没有相关技能、工具或时间的人提供工具,让他们能够跨越技能或时间的鸿沟去创建视频。这些人也许是企业家,时间紧张希望快速获得结果。

  在当今这个信息爆炸的时代,选择太多、可能性太广成为了产品开发面临的新挑战。在这样的情况下,优先级排序已成为一项越来越重要的技能,因为必须确定哪些信息值得关注。

  Gaurav 分享了他们所采用的框架,即聚焦于用户需求,同时留意那些具有病毒式传播潜力的内容。通常,人们愿意分享和讨论的内容,核心都有吸引人的地方。这种吸引力不一定适用于用户的反复使用,也不一定能构建起订阅制模式,但往往能找到引起共鸣的核心元素。

  如今的优势在于,不必事先搭建任何实体产品,只需讨论想法,人们就会积极参与分享。如此以来,在实际构建前就能测量产品的潜在接受度。通过观察社交媒体趋势可以很好地了解什么会引起用户共鸣。

  Gaurav 着重强调了增量开发的重要性。他们的每位工程师每周都要交付一个可营销的产品。这里的可营销产品定义为能向用户展示,并且用户有可能仅仅因为这个功能就选择订阅、付费,或者使用该应用的产品。这与基础功能有所不同,比如文字处理器中的对齐功能,它并不能吸引用户。然而可营销产品的功能却有这样的吸引力,即便应用还缺少一些基础功能,也能吸引用户使用。

  这种 MVP 的方法非常彻底:设计完成后不断精简,直至再做任何削减就会致使功能无法正常运行为止。如果初步反馈良好,用户会不顾问题继续使用,而他们的抱怨恰恰提供了明确的改进方向。每周交付新功能不仅能产生大量功能和产品方向,还能保持团队专注,将精力集中在受欢迎的功能上并加以拓展完善。

  Gaurav 认为质量通常不应被妥协。当时间压力增大时,许多团队错误地削减质量而非缩小范围。正确的方法应当是审视每个需要耗费时间去构建的元素,不断追问:如果移除这个元素,产品还能用吗?直到确定最小可用功能。

  例如:为视频添加图片功能时,可以先剥离背景移除、色调调整等附加功能,仅保留从相机选择图片并直接放入视频的核心功能。如果这个核心功能不实用,那么任何建立在其上的功能也毫无意义。

  这种方法的巧妙之处在于,用户会如实反馈最让他们困扰的问题。如果他们抱怨连背景移除功能都没有,那么下周就可以专注解决这个问题。这种响应速度会给用户留下团队高效的印象。而且,用户愿意提出抱怨本身就是 PMF 的信号——如果没人抱怨,反而是一个危险信号。

  对于耗时长达数周的长期项目,以及那些用户无法直接感知的后端基础设施建设工作,他们有一套独特的应对方法:专门为这些任务预留时间。比如,他们会将第四季度定为 “基础设施季度”,集中精力处理技术债务,对系统进行优化和修复 。

  对于创业公司而言,背负技术债务是在所难免的。这也是一种能让公司比大公司运转得更迅速的方式。大公司通常会立即偿还技术债务,或者在偿还他们作为创业公司时积累的债务。关键问题是:这是今天必须解决的问题,还是可以推迟解决的问题?

  技术债务就像财务债务一样,是为了创造杠杆而背负的。适当的技术债务是积极的,它让小团队能够构建原本无法实现的产品。未来偿还这些债务的工程师可能甚至是 AI agent,而不是人类。

  Gaurav 提出了一个经验法则:每承担一部分债务,都需要支付利息。由于选择了快速实现方式,每天会有 1%-2% 的时间用于维护 bug、解决崩溃等问题。如果累积了太多债务,团队可能会花费 80%-90% 的时间支付利息,没有时间做任何新事情,只能勉强维持运营。

  这通常是创业公司失败的前兆。从某种意义上说,你有一个技术债务跑道,一旦用完,如果在此期间没有创造足够的价值来雇佣工程师支付利息或偿还债务,就会陷入困境。

  面对那些会深刻影响后续所有技术构建方向的重大决策,必须多花时间审慎考量。就像经典方法论所说,倘若属于 “双向门” 决策 —— 也就是能够逆转、灵活调整的决策,不妨大胆抉择;但要是碰上 “单向门” 决策 —— 即一旦敲定便无法回头的决策,那就需要投入更多精力深入思考,确保决策精准落地、执行到位。

  Gaurav 表示他们的团队 100% 使用 AI 辅助工具,Cursor 和 Devin 都是日常必备。Devin 是一种高级工具,每月花费约 500 美元,它就像常驻 Slack 的 AI 工程师,能随时在线交流、提供技术支持。作为创业公司,他们在工具采用上更为灵活高效,能快速将这些先进工具投入使用。而大公司则需要先经过多位法律顾问的审批。

  Gaurav 介绍道,他们同时拥有设计团队、PM 团队和各种工程团队(iOS、Android、Web、后端、机器学习和研究)。产品开发有时从 PM 先行的方法开始,确定整体问题或新领域。但很多时候他们会反其道而行之,先设计一些东西,然后与 PM 一起审视设计,直到发现有趣的想法。这种逆向开发流程的优势在于,能够突破指标和数据的局限,发掘出那些常规路径难以触及的独特创意 。

  在 Roadmap 规划上,他们采用双轨制。Public Roadmap包含用户明确要求的功能,如背景移除、撤销重做、上传更长视频等。这些是经过优先级排序的功能,但每个竞争对手都知道这些需求,即使在执行上略胜一筹也不会带来决定性优势。

  而Secret Roadmap聚焦的则是用户从未提出过的功能设想。这些基于团队对问题、用户和技术的独特理解,以及可能会彻底改变用户行为方式的创新想法从不公开讨论,直接推出给用户。通过全公司季度头脑风暴,每个人(包括工程师、招聘人员、市场营销等)都贡献想法,投票排名,然后由产品团队评估可行性。这种方法能将所有最新趋势和进展转化为独特的内部 Roadmap。通常最大的胜利来自Secret Roadmap,而不是用户明确要求的常规功能。

  Snap 的 Secret Roadmap 概念非常引人关注,正是这种神秘使它更加吸引人。当被问及有哪些来自 Secret Roadmap 的成功功能时,Gaurav 分享了一个早期的 AI 功能案例。

  在 Snap 应用初获成功后,团队推出的首批 AI 功能中,“眼神接触(Eye contact)” 功能尤为亮眼。很多新手创作者在录制视频时,习惯照着屏幕外的脚本或提词器念词,这就导致他们的目光常常偏离摄像头,极大影响视频的观看体验。而 “眼神接触” 功能正是为解决这一痛点而生,它能智能调整创作者的眼睛位置,让他们在视频里始终像在直视镜头。

  Snap 是率先开发这项技术的公司,并且是与 NVIDIA 携手完成。有意思的是,当 Snap 刚开始与 NVIDIA 接洽时,NVIDIA 并不清楚这项功能的实际需求所在,不过仍以开放的态度提供技术支持,期望这项技术能在有价值的领域得到应用。而 Snap 敏锐洞察到创作者场景中的独特需求,将该想法纳入头脑风暴的成果,并最终成功推出这项功能,收获了巨大的成功 。

  Gaurav 表示虽然他希望在头脑风暴中可以使用 LLM,但目前尚未实现,主要困难在于上下文理解。理解用户和使用场景是非常抽象的过程。Gaurav 花大量时间与 PM 和设计师分享自己多年来的经验和理解,但这仍是一项挑战,因为连他自己都难以将这些感悟完全用语言精准表达。

  向 LLM 提供这种上下文更是难上加难,因为如何将无法言明的理解转化为文字表述本身就是一道棘手的难题。这让 Gaurav 想起了在 Snap 工作的经历,特别是 CEO Evan 对用户的独特理解。

  一个典型例子便是 Snap 宣称自己是一家相机公司,这一说法曾让许多人感到费解。追根溯源,这一理念源于 Snapchat 打开应用即呈现相机界面的设计,而这正是它与竞争对手的核心差异所在。当用户想要抓拍朋友有趣瞬间时,不会选择 Instagram 等其他应用,因为这些应用打开后不会直接显示相机界面,而是会优先选择 Snapchat。

  在谈到 Snap 作为最后一个成功推出并存活下来的社交网络(TikTok除外,毕竟 TikTok 更像是一个内容平台而非真正的社交网络),Gaurav 分享了他对 Snap 成功的深刻见解。

  Snap 的核心产品的 PMF 极其强大。从用户下载应用、自发分享传播,到主动邀请好友、发送快照,这一系列行为构建起的 PMF 极高。正因如此,有时甚至难以判断新开发的功能究竟是推动还是阻碍了增长,或者说应用的增长是否与团队的努力并无直接关联 —— 它仿佛在独立生长。

  这种情况有时会教给人们错误的经验,让人误以为自己做的与众不同的事情是正确的,而实际上可能是错误的,应用只是在这些错误决策之外仍然增长。Snap 做得好的一点是持续创新,这对面临大量竞争的公司至关重要。社交网络本质上是垄断性的,Facebook 等其他社交网络有充分理由阻止 Snapchat 的增长,而且他们确实尝试过,非常努力地尝试过。Snap 对抗这种情况的方式就是不断创新。

  Snap 的核心设置非常独特。CEO 非常注重产品,他本身就是一名设计师。他将设计团队作为公司核心。即便在公司规模扩张到 5,000 至 6,000 名员工时,设计团队仍然只有 10 至 12 人。

  长期以来,Snap 几乎没有 PM。PM 是随着变现需求的增长而引入的,一旦变现成为重要元素,PM 就开始参与进来。如今,公司各部门都有足够数量的 PM,但在创新发生的很长一段时间里,PM 的数量要少得多,设计团队才是主导力量。

  然而,这里的设计师并非普通的设计师,他们实际上也同时扮演着 PM 的角色,这正是 Snap 的秘密武器。他们既能完成设计工作,又能承担 PM 的重任,这无疑是一项艰巨的任务,尤其对于员工众多的大公司来说。这种独特模式让 CEO 得以精准把控应用每个功能的发布,他只需与这 10 - 12 人的核心设计团队沟通,就能全面了解所有影响用户体验的变更。

  众所周知 Snap 长期以来没有 PM,而是由设计师兼任 PM 的角色。这一点非常重要,因为许多人看到这种情况可能会认为只需雇佣设计师而不需要 PM,就能加快一切进程。但实际上,这些设计师的水平和能力才是关键因素。

  在 Snap,对这些设计师的期望不仅仅是设计技能,值得注意的是,他们都是独立贡献者(IC)设计师,没有下属。他们亲自设计一切,同时还需要具备领导技能,制定 Roadmap,撰写所有文档,与不同团队合作,确定发布计划,并全面了解技术和工程部分以及用户体验、用户界面、产品需求等各方面内容。

  这提醒我们,PM 的工作不可或缺,绝不是可有可无。重要的是,承担这份工作的人不仅要擅长,还得真心热爱。毕竟,不是所有设计师都愿意撰写文档、协调多方利益并推动达成共识。

  Gaurav 最初在 Snap 的工程团队工作,后来在 Snap 的最后两年加入了设计团队。他在那里创建了一个名为”Design Engineering(设计工程师)的职能,这是另一种组合。它不是设计师兼 PM,而是设计师兼工程师,一个能够思考用户体验、设计它并且也能构建和推出它的人。他们既尝试让设计师学习工程,也让工程师学习设计。

  创建这个职能的原因与众不同,目的是在公司规模扩大的同时继续创新。随着公司规模的扩大,拥有 500、1,000、2,000、3,000 名工程师时,做任何事情都变得非常困难。每个项目都需要六个月或一年的时间,每个产品都需要投入 500 名工程师和大量时间。因此,必须谨慎选择投资方向。如果投入 500 名工程师一年时间研发的新产品最终失败,后果将不堪设想。

  对于像 Snap 这样的公司来说尤其如此,因为其他公司一直在复制它们的做法,所以他们必须不断创新,创造新产品,并推动边界。Snap 的 CEO Evan 秉持的理念是:不与被复制的功能作斗争。比如 Stories 和 Creator 功能被直接复制,但他更倾向于扩大蛋糕,做新事物并推动边界,本质上是持续创新。然而,在公司规模扩大的情况下做到这一点变得非常困难。

  因此,他们想到创建一个小团队,可以预先测试许多想法。这个想法是创建一个由设计工程师组成的小团队,设计工程师团队的成员能够独立完成从产品设计到工程实现的全流程,快速组装出产品雏形,并直接集成到 Snapchat 应用中进行测试。他们会在澳大利亚开展区域测试,或是走进几所高中,观察不同用户群体的使用反馈。

  目前,我们几乎已经能够创建完全逼真的视频。最新的模型离实现这一目标仅差几厘米距离。但要达到完全无法区分的程度,可能还需要几年时间。这也取决于具体用例。

  当前的视频生成和文本到视频转换技术大多是无声视频,通常被视为静止视频或 B 卷(辅助主内容的补充视频素材)。然而,电影、电视节目、社交媒体帖子或广告的核心其实是对话或独白。B 卷只是起到辅助作用,比如在场景开始前展示几个城市镜头,然后才进入正题。

  Captions 公司专注于解决有声视频问题,即创建人物对话或独白的视频。这一领域目前研究不多,尚未完全解决。

  一类是使用神经渲染技术(与 Transformer 和扩散模型革命无关)的公司,能够创建半真实的输出,但这种技术缺乏通用性,需要针对个人进行训练;

  另一类是使用 LLM 进行无声文本到视频转换的公司,它们有能力做更多事情,但尚未达到这一前沿。从研究角度看,这个问题 100% 可解决,只是还没有人有时间去做。

  记录类包括个人视频(如与朋友在餐厅的记忆)和非个人视频(如记者记录事件的报道)。在这类视频中,AI 生成的内容毫无益处,全是负面影响。制造虚假现实来欺骗人们没有任何好处。

  讲故事类包括广告、社交媒体帖子、电视和电影。这些内容旨在娱乐,没有人会认为它们是真实的(如 Geico 广告中的壁虎)。

  如果能让更多人讲故事、娱乐他人并传递信息,AI 视频技术将产生纯粹的积极价值。如今,许多公司正致力于设计和开发产品,试图让技术在恶意使用时困难重重,而在正向应用中便捷高效,这无疑是一项艰巨挑战。

  字节跳动最近发布了一个令人惊叹的模型,只需输入一张照片,就能生成人物说话的视频,这与 Captions 聚焦的领域不谋而合。该模型也是头部企业推出的,首批能制作对话或独白视频的大型模型之一。和多数依赖基础技术的虚拟形象公司不同,字节跳动使用了真正的大规模扩散模型。

  尽管 AI 技术如此先进和惊人,将科幻变为现实,但大多数人仍然不了解它。技术的采用实际上比我们想象的要慢。企业需要找到如何推广这些产品,以触及所有可能从中受益的人。

  大约一年前,在广告中使用 AI 视频时,人们常常评论说这太假了。然而,随着技术的不断进步,这些评论突然消失了。AI 生成的表现甚至优于真人录制的内容,因为它可以尝试更多可能性,选择最佳方案。在本地化方面,AI 翻译的广告表现几乎与原始语言一样好。

  Gaurav 曾分享过他创业初期的经历。在公司创建初期,他们花了很多时间探索方向。公司成立后的第一件事是开发 Captions 应用,仅用两天就完成并发布了。令人惊讶的是,应用立即获得成功,很快就登上了应用商店排行榜的顶端,每天有约 600 个视频上传,但他们并没有为此做任何特别的营销推广。

  这种成功几乎让人感到不真实,因为他们原本认为需要花更多时间才能确定产品方向。这种想法反而使他们陷入了迷茫。尽管 Captions 开局顺利,团队却始终觉得还没找到 “真正的产品”,于是在接下来的一年半时间里,不断思考开发社交网络和其他项目。

  转机出现在一年半后,Gaurav 查看了自己的个人账户,发现里面积累了约 50 万美元的收入,而且收入还在持续增长。更令人惊讶的是,这一切完全是自发的——没有员工、没有更新、没有错误修复、没有客户支持,甚至有 2,000 个未回复的支持工单,但用户评价仍然很好。

  这无疑是个明确的信号,告诉他们应该专注于 Captions。尽管此前已在其他项目上投入诸多精力,他们还是果断调整方向,回归这款应用。当开始为 Captions 添加新功能后,应用迎来了爆发式增长。原本看似陡峭的增长曲线,在新的增长态势面前,竟显得平缓如水平线,而新的增长曲线之陡峭,让曾经的 “陡坡” 都相形见绌。

  Captions 之所以被认为微不足道,是因为它只是为用户录制的视频添加字幕。最初的想法是构建一个社交网络,但首先需要为这个社交网络构建一个创作工具。他们计划使用 AI 创建视频,而语音转文本作为一个已解决的问题,是一个明显的起点。

  关于构建新社交网络的可能性,Gaurav 认为这绝对可行。有趣的是,虽然他们曾经开发的社交网络已从应用商店下架,但至今仍有数千人在使用并发布内容,这说明了社交网络的力量——难以创建,也难以消亡。