对话Clipto.AI创始人康洪文：没有记忆的AI，只是一个“失忆”的聪明人

硬件准备就绪，软件仍需打磨

1945年，美国科学家Vannevar Bush在其极具影响力的论文《As We May Think》中，构想了一种名为Memex（记忆延展）的设备。他设想每个人都将拥有一台机器，能够存储个人阅读内容、照片、笔记和知识，并能像人类记忆一样，随时辅助用户回忆、关联和检索信息。这一构想被视为个人电脑、超文本以及互联网等诸多概念的早期思想萌芽。

在过去八十年的发展历程中，计算机、互联网和智能手机相继问世，存储容量呈指数级增长，人类积累的信息量也以前所未有的速度膨胀。然而，Bush所描绘的那个梦想，却始终未能完全实现。其根本原因在于，机器在存储信息方面表现出色，但却难以形成真正意义上的记忆；它们可以保存用户一生的数据，却无法在需要时准确找回某个特定瞬间。

直到近期，这一局面开始出现转机。

在过去一年里，人工智能行业经历了一场大规模的基础设施升级。端侧算力已不再是停留在概念阶段，而是逐渐成为消费电子产品的标配。英伟达推出了RTX Spark，将AI算力直接集成到PC中；英特尔的Lunar Lake和高通的Snapdragon X Elite，分别将笔记本电脑的NPU算力提升至60 TOPS和45 TOPS；苹果公司也持续将AI能力整合进其M系列芯片。

与此同时，模型技术也迎来了新的发展节点。Llama 3、千问、Gemma、Phi等开源模型在体积不断缩小的同时，能力持续增强。llama.cpp、MLX等推理框架的成熟，使得大型模型首次能够在普通个人设备上稳定运行。此外，Apple Intelligence、Copilot+ PC以及英伟达围绕端侧AI构建的开发工具链，进一步将模型深度嵌入操作系统。

从芯片到模型，再到系统，以及用户对“端侧AI”日益增长的信任，几乎所有基础设施层面都已准备就绪。

然而，将这些零散的元素组合起来，依然难以创造出一款能够让普通用户日复一日使用的AI产品。其症结不在于单一技术环节，而在于缺乏一个能够将模型、硬件、系统与个人数据有效整合的产品。

曾经备受瞩目的“消费级端侧设备”Rabbit R1和Humane AI Pin，因产品定位模糊而迅速黯然离场。Rabbit R1试图成为一个新的跨平台交互入口，却未能解答“为何要在手机之外额外购置一台设备”的疑问；Humane AI Pin则野心勃勃地想要取代手机，但其炫酷的硬件设计未能创造实际需求，反而增加了用户体验的复杂性。

更为关键的是，这些新兴的端侧设备，均未能解决一个核心痛点：即使在最接近用户个人数据库的位置，AI大脑仍常常陷入“失忆”的困境。

当前，行业迫切需要一个能够整合模型、端侧能力和记忆系统的参与者。

当业界普遍热议Agent（智能体）概念时，一个更根本性的问题浮出水面：Agent的长期存在究竟依赖于什么？

两年前，当整个行业仍沉浸在“云端更大模型”的理念中时，Clipto.AI的创始人康洪文就提出了一个与主流观点相悖的判断：真正的机遇将诞生于端侧算力和大模型能力交汇后所催生出的新一层基础设施。

在他看来，只有当端侧算力和大模型能力这两条技术曲线同时达到临界点，AI才有望真正成为每个人设备中的“第二大脑”，而不仅仅是一个简单的聊天机器人。

而真正的机会，不仅在于模型本身，更在于构建在模型之上的“Memory Layer”（记忆层）。

康洪文及其团队研发的Clipto产品，正是这一设想的实践平台。用户只需用自然语言描述所需内容，Clipto便能在数TB的本地视频、音频、图片和文档中，迅速定位到相关片段和信息。

然而，搜索仅仅是Clipto对外展示的首个能力。

在Clipto的后台，是一套由十余个端侧自研大模型、推理架构、算力调度系统以及数据组织能力共同构建的Memory Layer。它使得原本分散的海量数据能够持续沉淀为AI可调用的个人记忆，并能在毫秒级内，从海量内容中找回用户早已遗忘的信息。

2026年5月，Clipto发布新版Mac端应用程序后，成功登顶Product Hunt日榜第一，这表明端侧与记忆所构建的想象空间正逐步变为现实。

“拥有智慧却缺乏记忆，终究只是失忆之人”

过去一年，“Agent”已成为AI领域最热门的关键词。

几乎所有大型模型公司、创业公司都在谈论Agent，资本也纷纷涌入。从编程、办公到购物、客服，越来越多的人相信Agent将成为继ChatGPT之后AI产品的下一次革命。

Gartner在2026年4月的报告中，将业界对Agentic AI的态度描述为已达到“期望膨胀顶峰”。尽管超过六成的企业计划在未来两年内部署AI Agent，但迄今为止，仅有17%的企业完成了部署。

然而，在这场几乎无异议的追捧浪潮中，Clipto创始人康洪文却不断提出一个看似简单却鲜有人回答的问题：一个缺乏记忆的Agent，真的能够理解用户吗？

他认为，当前大多数Agent都建立在一个危险的假设之上：只要模型足够聪明，就能成为用户的得力助手。

事实恰恰相反。每一次启动Agent，它都仿佛初次与用户见面；它不知道用户昨天参加了什么会议，也不知道用户的照片存储在哪里，更不清楚过去一年积累了哪些文档。它能够进行推理，却缺乏经历；能够给出答案，却无法实现延续。

“一个聪明的人，如果没有记忆，也只是一个失忆的人。”康洪文说道。

这正是他过去二十多年来一直致力于研究的核心问题。

他研究的起点是机器如何理解世界。2004年，康洪文在微软亚洲研究院实习期间，曾尝试让Xbox自动分析用户拍摄的大量家庭照片和视频，并从中提取关键片段，自动生成家庭短片。

随后，他进入卡内基梅隆大学机器人研究所攻读博士学位，师从计算机视觉领域的学者Takeo Kanade，继续深耕图像与视频理解领域。在他看来，理解视频的本质就是理解现实世界。

近十年来，康洪文的研究方向转向了机器如何生成内容。2017年，他创立了AIGC公司“慧川智能”，其创作平台“智影”于2020年底被腾讯收购。加入腾讯后，康洪文继续负责文生图、文生视频和数字人等全栈AIGC产品的研发。

如今，在Clipto，康洪文将研究的焦点重新拉回了“理解”。他认为，内容生成已不再是AI最大的瓶颈，“真正缺失的是记忆”。

端侧大型模型的出现，使得这一技术路线首次迎来了成熟的时机。

康洪文向36氪透露，云端模型更像是“全球大脑”，负责学习公共知识、理解整个世界；而端侧AI则应扮演“个人记忆”的角色，专注于理解每一个具体的人。

他预测，未来AI的架构并非Cloud AI与Edge AI的简单竞争。真正的演进方向将是Cloud Intelligence + Edge Memory——云端负责世界知识，端侧负责个人记忆，而Agent则仅仅是连接两者的交互层。

“Agent只是处于最上层的交互界面，而真正决定其智能程度的，并非模型本身，而是其底层是否拥有一个持续生长的Memory Layer（记忆层）。”他强调，这在行业中是一个长期被忽视的架构问题。

“模型会不断升级，Agent也会被重构，但用户长期积累的记忆不会轻易迁移。”他补充道。

围绕“记忆层”，Clipto从底层重新构建了一整套端侧AI技术体系。

在康洪文看来，许多人对Memory的理解局限于模型拥有更长的上下文窗口，或是接入一个向量数据库。然而，真正的记忆层远不止于此。

“Memory不是一个模型，而是一整套系统。”他在采访中表示。

第一层，是模型。

多模态数据天然具有高度的异构性。视频、音频、图片、文档等不同类型的数据需要不同的理解方式。Clipto围绕人物识别、语音理解、OCR、场景分析、事件理解等能力，自主研发了十余个端侧AI模型。其中部分模型基于开源基础模型进行针对性后训练，部分则为完全自主研发。每一个模型都必须针对端侧算力进行重新设计，而非直接迁移云端模型。

第二层，是端侧算力架构。

与云端几乎无限的算力不同，端侧设备受到CPU、GPU、NPU、内存、存储带宽以及系统资源的共同制约。为了实现多个模型能够长期协同工作，Clipto从零开始搭建了端侧推理框架和算力调度系统。该系统能够根据设备资源动态调度不同模型，避免它们之间争抢计算资源。

康洪文介绍，Clipto的架构能够自动兼容各种配置的设备，甚至包括仅配备8GB内存的M1 MacBook。而在最新的M5 MacBook Pro上，Clipto可在约24小时内完成2TB本地视频的离线分析，而若完全依赖云端，同等处理成本约为400美元。

第三层，也是最关键的一层，是构建记忆本身。

模型能够理解内容，但并不会天然形成记忆。系统需要持续地将分散的多模态信息组织成时间、地点、人物、事件等结构化关系，并不断建立跨文件、跨时间、跨来源的关联，最终形成一个能够持续生长的个人记忆网络。

Agent调用时，不再是某个单一模型，而是这套不断积累、持续演化的记忆层。

在康洪文看来，这正是记忆层最困难之处。

它横跨模型研发、端侧推理、算力调度、多模态理解、数据组织、时空数据库、知识图谱以及检索系统等多个技术层级。任何一个模块都无法独立构成真正的Memory。只有将这些能力整合为一套长期运行、持续生长的系统，AI才真正拥有了“记忆”。

“模型会不断升级，Agent也会不断演进，但用户长期积累的记忆不会轻易迁移。真正的护城河，是围绕Memory建立起来的整套技术体系。”他对36氪总结道。

“如果说今天的大模型解决了AI如何理解世界的问题，那么Clipto解决的是AI如何长期记住一个人。”

Clipto：记忆的基础设施，而非创作工具

Clipto登顶Product Hunt日榜后，真正让康洪文感到意外的并非成绩本身，而是评论区用户的反馈。

按照惯例，大多数用户会讨论产品的使用体验和功能丰富度。然而，Clipto上线后，评论区出现了另一种声音：

不少开发者开始询问API是否开放，能否将Clipto作为Agent的长期记忆后端，甚至讨论如何将Clipto集成到自己的产品中——尽管当时Clipto甚至尚未发布SDK。

这释放出一个信号：用户关注的已不再仅仅是一个搜索工具，而是开始将其视为一层基础设施。

这一转变也超出了Clipto团队最初的预期。

起初，康洪文以为最先接受Clipto的会是视频创作者、摄影师等内容生产者。但随着用户增长，团队发现，快速增长的不仅是创作者群体，还包括金融分析师、律师、医生、咨询顾问等知识工作者。

根据官方数据，目前Clipto的用户中，约有1/3是创作者，其余2/3则来自金融、法律、医疗等行业的专业职场人士。

这意味着，“记忆管理”的需求，比内容创作领域更为广阔且更为刚性。

过去，人们普遍认为多模态数据管理仅限于视频编辑、影视制作等专业场景。实际上，每一位知识工作者都在不断产生音频、图片、会议记录和文档。会议录音、培训视频、手机截图、播客收藏、PDF文件……这些信息每天都在增长，却很少能被有效二次调用。

当AI能够真正理解这些数据后，“记忆管理”的需求便不再局限于创作者，而是扩展到所有人。

商业数据进一步印证了这一判断。Clipto上线三个月后即实现了盈亏平衡。2025年，公司的ARR（年度经常性收入）达到了1500万美元。

对于一家仍处于产品早期、且坚持端侧部署路线的AI公司而言，如此快速的商业化速度本身就是一个强烈的信号：市场愿意付费的，并不仅仅是一次性的AI能力，而是长期积累的个人记忆。Memory并非一个遥远的未来市场，而是一个已被验证的现实需求。

更重要的是，这同时也验证了Clipto团队的能力。当许多AI创业公司仍停留在模型能力验证或Demo阶段时，Clipto已率先完成了从底层模型、端侧基础设施、产品体验到商业化的完整闭环。这种跨越底层研发、产品设计和全球商业化的全面执行能力，本身构成了团队最重要的竞争壁垒。

互联网的发展史，本质上是一部基础设施不断演进的历史。

在PC互联网时代，Google建立了信息检索的基础设施，构建了人类的公共记忆（Collective Memory），让人们能够“找到世界上的信息”；在移动互联网时代，Meta和微信构建了社交关系的基础设施，让人们能够“连接世界上的人”；进入AI时代，OpenAI解决了“如何推理”的问题，而接下来将面临的，不再是“世界知道什么”，而是“我自己经历了什么”，从而让人们能够“被AI真正理解”。

这正是下一代基础设施的机遇所在。

Clipto致力于解决的是每个人的个人记忆（Personal Memory）。

它并不创造新的内容，而是持续理解、组织和连接用户过去积累的数字生活，让这些原本沉睡的数据，成为Agent可以长期调用的上下文。

因此，在康洪文看来，未来AI应用的真正竞争焦点，并非模型能力或Agent的执行能力，而是谁能率先建立起这层长期存在的Memory Layer。

“模型可以随时切换，Agent也可以重构，但用户长期积累的记忆一旦形成，迁移成本极高。”

“过去十年，AI公司争夺的是Intelligence；未来十年，真正不可替代、也最难迁移的，将是Memory。”

围绕Clipto的构想、端侧AI、记忆层，36氪近期与Clipto.AI创始人康洪文进行了深入交流。以下是我们整理的部分观点：

36氪：Clipto为何选择从音视频搜索切入？

康洪文： 主要有两个考量。首先，文本和文件等数据已有相对成熟的解决方案，但音视频这类重度多模态数据一直服务不佳，且单位处理成本较高；其次，音视频数据天然更多地存在于端侧（体量巨大），这完美契合了我们“端侧优先”的场景定位。我们的种子用户群体，正是那些拥有大量音视频数据、对隐私高度重视且现有解决方案服务不佳的用户。

36氪：Clipto的产品市场契合度（PMF）为何能迅速达成？关键决策是什么？

康洪文： 我们采取了“以终为始”的策略，怀揣宏大愿景的同时，也逼迫自己尽快进行商业化验证。我们做出了两个关键决策：第一，以App形态切入，最高效地将端侧AI能力交付给用户。未来，该App可以灵活部署在PC、手机、智能设备等任何终端硬件上。第二，从第一天起就瞄准全球市场。许多西方国家用户已养成付费订阅的习惯，市场确定性更高。我们选择将精力投入到确定性更高的事务上。

36氪：行业对端侧AI最大的误解是什么？

康洪文： 很多人认为“下一个Ollama就能做”。但我们真正构建的是一套完整的Memory Layer。第一层是模型，我们在多模态理解方面自研了十余个端侧AI模型，部分基于开源模型进行后训练，部分为自主研发，实现专业级、多模态理解本身就是巨大的技术挑战。第二层是基础设施，端侧和云端是截然不同的技术体系，从推理框架、算力调度到系统优化，都需要重新设计，以确保多个模型能在有限的设备资源下长期稳定协同运行。第三层是记忆构建，模型能理解内容，但不会自然形成记忆。系统不仅要理解每个文件，更要持续建立跨文件、跨时间、跨来源的关联，将孤立的数据组织成一个不断生长的个人记忆网络。真正困难的并非某一层技术，而是将模型、基础设施和记忆构建长期协同成一套系统，这构成了Memory Layer的核心技术门槛。

36氪：Clipto定义的“记忆”与模型记忆、Context有何区别？

康洪文： 当前行业所说的“Memory”主要有两种。一种是模型记忆，本质上是参数中的统计性知识，更适合学习公共知识、用户偏好和行为模式。另一种是Context，它解决的是单次任务中的短期上下文，帮助模型完成当前对话，但生命周期很短。Clipto关注的是第三种记忆。我们聚焦于用户长期积累的真实个人数据，包括视频、音频、图片、文档和会议记录。这些数据并非抽象概念，而是个人真实经历和工作的沉淀。例如，模型可能知道你近期在讨论产品定价，也知道你更关注欧美市场，这是统计性的“记忆”。但它永远无法准确回答：“5月18日下午那场融资会议里，John对欧洲定价策略到底说了什么？”因为这些具体、可追溯的事实，不应编码进模型参数，而应作为个人记忆长期保存，并随时被AI精准调用。因此，我们认为模型负责学习公共知识，Memory Layer负责保存个人知识。

36氪：记忆层是否会被模型厂商所取代？

康洪文： 我认为不会。我一直相信，未来AI将逐渐形成新的分工。模型负责Intelligence，持续学习和编码公共知识；Memory Layer则负责保存和组织每个人独有的长期记忆。两者解决的问题完全不同。模型的价值源于规模化，服务于所有用户；Memory Layer的价值在于个性化，需要持续理解、组织和管理每个人的数据。因此，模型厂商未必天然擅长构建Memory Layer，正如Google擅长搜索，但并未天然解决个人记忆问题。我们更相信，未来的Agent会不断变化，模型也会不断升级，但Memory Layer将成为长期存在的基础

別讓背景故事拖垮節奏，大膽刪減是關鍵！

這是關於撰寫角色背景系列文章的開端。後續我會分享更多實用技巧，敬請期待！別忘了在留言區告訴我，你還想看到哪些主題的內容！

2026年5月20日
23
3

分享文章