早在1945年,美国科学家Vannevar Bush在其极具影响力的文章《As We May Think》中,便提出了一个名为Memex(记忆延展)的构想。
他设想的设备能够存储个人的阅读、照片、笔记和知识,并能像人类记忆一样,随时辅助用户回忆、关联和检索信息。这一设想被认为是个人计算机、超文本及互联网的早期思想萌芽。
在过去的八十年里,尽管计算机、互联网和智能手机相继问世,存储容量呈指数级增长,人类积累的信息也以前所未有的速度膨胀,但Bush所描绘的那个梦想,却始终未能完全实现。
究其原因,机器擅长存储信息,却无法形成记忆;它们能保存海量数据,却难以在需要时精准找回特定瞬间。
然而,这一局面正在发生改变。
过去一年,人工智能行业经历了基础设施的集体性升级。
端侧算力已不再是概念,而是成为消费电子产品的标准配置:英伟达的RTX Spark将AI算力直接集成到PC中;英特尔的Lunar Lake和高通的Snapdragon X Elite分别将笔记本的NPU算力提升至60 TOPS和45 TOPS;苹果也持续将AI能力融入其M系列芯片。
同时,模型技术也迎来转折点。Llama 3、千问、Gemma、Phi等开源模型在缩小体积的同时不断提升能力;llama.cpp、MLX等推理框架的成熟,使得大模型能够稳定运行在普通个人设备上。此外,Apple Intelligence、Copilot+ PC以及英伟达围绕端侧AI构建的开发工具链,进一步将模型嵌入操作系统。
从芯片到模型,再到操作系统,以及市场教育带来的用户信任,“端侧AI”的各项基础设施已基本就绪。
然而,将这些零散的组件组合起来,依然难以创造出让普通用户每日使用的AI产品。问题并非出在单一技术环节,而是缺乏一个能够将模型、硬件、系统与个人数据有效整合的产品。
曾一度备受瞩目的“消费级端侧设备”Rabbit R1和Humane AI Pin,因产品定义上的失误,很快便被市场淘汰。Rabbit R1试图成为新的跨设备交互入口,却未能解答“为何要在手机之外再购买一台设备”的疑问;Humane AI Pin则野心勃勃地想取代手机,但其炫酷的硬件并未创造实际需求,反而增加了用户体验的复杂性。
更关键的是,这些新兴的端侧设备,未能解决一个核心痛点:即便它们紧邻用户的个人数据库,AI大脑却常常陷入“失忆”的困境。
行业内迫切需要一个能够整合模型、端侧能力和记忆系统的玩家。
当大家都在热议Agent时,一个更根本的问题浮现出来:Agent的长期存在依赖于什么?
两年前,当行业普遍聚焦于“云端更大的模型”时,Clipto.AI创始人康洪文却提出了一个与主流观点相悖的判断:
真正的机遇将诞生于端侧算力和大模型能力交汇之后形成的新一层基础设施。
他认为,只有当端侧算力和大模型能力两条技术曲线同时达到临界点,AI才有望真正成为每个人设备中的“第二大脑”,而非仅仅是聊天机器人。
而真正的机会,不仅在于模型本身,更在于其上构建的“Memory Layer(记忆层)”。
康洪文及其团队研发的产品Clipto,正是这一设想的实践平台。
用户只需用自然语言描述所需内容,Clipto便能在数TB的本地视频、音频、图片和文档中,快速定位到相关片段和信息。
但这仅仅是Clipto对外展现的初步能力。
Clipto背后,是由十余个自研端侧大模型、推理架构、算力调度系统以及数据组织能力共同构建的Memory Layer——它使海量分散的数据得以沉淀,转化为AI可调用的个人记忆,并在毫秒级内找回用户可能已遗忘的信息。
2026年5月,新版Mac端App发布后,Clipto登顶Product Hunt日榜,端侧与记忆构建的潜力正逐渐显现。
过去一年,“Agent”已成为AI行业最热门的词汇。
各大模型公司、创业企业乃至资本都在追逐Agent,并相信它将继ChatGPT之后,引领AI产品的下一次革命,应用于编程、办公、购物、客服等诸多领域。
Gartner在2026年4月的报告中,将业界对Agentic AI的态度描述为达到“期望膨胀顶峰(the Peak of Inflated Expectations)”,尽管超过六成企业计划在未来两年部署AI Agent,但目前仅有17%的企业已完成部署。
然而,在这场几乎无异议的追捧中,Clipto创始人康洪文却持续提出一个看似简单却少有人回答的问题:一个缺乏记忆的Agent,真的能理解用户吗?
在他看来,当前多数Agent基于一个危险的假设:只要模型足够智能,就能成为用户的得力助手。
但事实恰恰相反。每一次与Agent互动,都如同初次见面;它不知道你昨日的会议内容,不清楚你的照片存储位置,也不了解你过去一年的文档积累。它能进行推理,却缺乏经历;能提供答案,却无法延续。
“一个聪明的人,如果没有记忆,也只是一个失忆的人。”康洪文说道。
这正是他过去二十多年来一直潜心研究的课题。
最初十年,康洪文专注于机器如何理解世界。2004年,他在微软亚洲研究院实习期间,致力于让Xbox能够自动分析用户拍摄的大量家庭照片和视频,从数小时的素材中提取关键片段并自动生成家庭短片。
随后,他前往卡内基梅隆大学机器人研究所攻读博士学位,师从计算机视觉领域的学者Takeo Kanade,继续研究图像与视频理解。他认为,理解视频的本质在于理解现实世界。
近十年,康洪文的研究重心转向机器如何生成内容。2017年,他创立了AIGC公司“慧川智能”,其创作平台“智影”于2020年底被腾讯收购。加入腾讯后,康洪文继续负责文生图、文生视频和数字人等全栈AIGC产品的研发。
如今,在Clipto,康洪文将问题重新拉回到“理解”层面,因为他认为生成技术已非AI的最大瓶颈,“真正缺失的是记忆”。
端侧大模型的出现,为这条技术路线的成熟提供了契机。
康洪文向36氪解释,云端模型更像是“全球大脑”,负责学习公共知识、理解世界;而端侧AI则应扮演“个人记忆”的角色,理解每个个体。他预测,未来AI的架构并非Cloud AI与Edge AI的简单竞争,而是Cloud Intelligence与Edge Memory的融合,Agent仅作为连接两者的交互层。
“Agent只是最上层的交互界面,决定其智能程度的,不仅是模型本身,更在于其底层是否拥有持续生长的Memory Layer。”他强调,这被行业长期忽视了一个架构性问题。
“模型会迭代更新,Agent也会被重构,但用户长期积累的记忆不易迁移。”他补充道。
围绕“记忆层”,Clipto从底层构建了一整套端侧AI技术体系。
康洪文认为,许多人理解的“Memory”仅限于模型拥有更长的Context或接入向量数据库,但真正的记忆层远不止于此。
"Memory不是一个模型,而是一整套系统。"他在采访中表示。
第一层,是模型。
多模态数据天然具有高度异构性,视频、音频、图片、文档等每种数据都需要不同的理解方式。Clipto针对人物识别、语音理解、OCR、场景分析、事件理解等能力,自研了十余个端侧AI模型,部分基于开源基础模型进行微调,部分为完全自主研发。每个模型都针对端侧算力进行了重新设计,而非简单迁移云端模型。
第二层,是端侧算力架构。
与云端近乎无限的算力不同,端侧设备受到CPU、GPU、NPU、内存、存储带宽及系统资源的限制。为确保多个模型能长期协同工作,Clipto从零搭建了端侧推理框架和算力调度系统,根据设备资源动态调度不同模型,避免资源争抢。
康洪文介绍,Clipto的架构兼容多种配置的设备,包括仅配备8GB内存的M1 MacBook。在最新的M5 MacBook Pro上,Clipto能在约24小时内完成2TB本地视频的离线分析,而同等处理在云端成本约为400美元。
第三层,也是最关键的一层,构建记忆本身。
模型能够理解内容,但不会自然形成记忆。系统需要持续将分散的多模态信息组织成时间、地点、人物、事件等结构化关系,并不断建立跨文件、跨时间、跨来源的关联,最终形成一个持续生长的个人记忆网络。
Agent调用的将不再是单一模型,而是这套不断积累、持续演化的记忆层。
康洪文认为,这正是记忆层最困难的部分。
它涉及模型研发、端侧推理、算力调度、多模态理解、数据组织、时空数据库、知识图谱及检索系统等多个技术层级。任何单一模块都无法构成真正的Memory,唯有将这些能力整合成一套长期运行、持续生长的系统,AI才能真正拥有“记忆”。
"模型会不断升级,Agent也会不断演进,但用户长期积累的记忆不会轻易迁移。真正的护城河,是围绕Memory建立起来的整套技术体系。"他总结道。
如果说当前的大模型解决了AI如何理解世界的问题,那么Clipto则致力于解决AI如何长期记住一个人。
Clipto登顶Product Hunt日榜后,最令康洪文意外的并非成绩本身,而是评论区的用户反馈。
通常,用户会集中讨论产品的易用性或功能丰富度,但Clipto的用户评论区出现了另一种声音:
不少开发者询问API是否开放,能否将Clipto作为Agent的长期记忆后端,甚至讨论如何将其集成到自己的产品中——而此时,Clipto尚未发布SDK。
这表明,用户已将其视为一种基础设施,而非仅仅是搜索工具。
这一趋势也超出了Clipto团队的最初预期。
起初,康洪文认为视频创作者、摄影师等内容生产者将是首批用户。但随着用户增长,团队发现,除了创作者群体,金融分析师、律师、医生、咨询顾问等知识工作者也迅速增加。
根据官方数据,目前Clipto用户中,约1/3为创作者,其余2/3则来自金融、法律、医疗等行业的专业人士。
这意味着,记忆管理的需求,比内容创作的空间更为广阔且刚性。
过去,人们普遍认为多模态数据管理是视频编辑、影视制作等专业场景才需要解决的问题。然而,事实上,每一位知识工作者都在不断产生音频、图片、会议记录和文档。会议录音、培训视频、手机截图、播客收藏、PDF文件等信息日益增多,却很少能被有效调用。
当AI能够真正理解这些数据后,“记忆管理”的需求将从创作者扩展到所有人。
商业数据进一步印证了这一判断。Clipto上线三个月后即实现盈亏平衡,2025年,公司ARR(年度经常性收入)达到1500万美元。
对于一家仍处于产品早期且坚持端侧部署路线的AI公司而言,如此快的商业化速度本身就传递了一个强烈信号:市场愿意为的不仅仅是AI能力本身,而是长期积累的个人记忆。Memory并非一个虚幻的未来市场,而是一个已被验证的现实需求。
更重要的是,这也证明了Clipto团队的能力。当许多AI创业公司仍停留在模型能力验证或Demo阶段时,Clipto已率先完成了从底层模型、端侧基础设施、产品体验到商业化的完整闭环。这种跨越底层研发、产品设计和全球商业化的全面执行能力,构成了团队最重要的竞争壁垒。
互联网发展史,本质上是一部基础设施不断演进的历史。
在PC互联网时代,Google建立了信息检索的基础设施,构建了人类的公共记忆(Collective Memory),让人们能够“找到世界上的信息”;移动互联网时代,Meta和微信构建了社交关系的基础设施,让人们能够“连接世界上的人”;AI时代,OpenAI解决了“如何推理”的问题,接下来将面临的不再是“世界知道什么”,而是“我自己经历了什么”,让人们能够“被AI真正理解”。
这正是下一代基础设施的机遇所在。
Clipto旨在解决的是每个人的个人记忆(Personal Memory)。
它不创造新内容,而是持续理解、组织和连接用户过去积累的数字生活,使这些沉睡的数据成为Agent可长期调用的上下文。
因此,康洪文认为,未来AI应用的真正竞争,不在于模型能力或Agent的执行力,而在于谁能率先建立起这层长期存在的Memory Layer。
“模型可以随时切换,Agent也可以重构,但用户长期积累的记忆一旦形成,迁移成本极高。”
过去十年,AI公司争夺的是Intelligence;未来十年,真正不可替代且最难迁移的,将是Memory。
围绕Clipto的构想、端侧AI、记忆层,36氪近期与Clipto.AI创始人康洪文进行了深入交流。以下为部分观点整理:
36氪:Clipto为何选择从音视频搜索切入?
康洪文:主要基于两点考虑。
首先,文本和文件数据已有相对成熟的解决方案,但音视频这类重多模态数据一直未能得到良好服务,且单位处理成本较高;
其次,音视频数据天然更多地存在于端侧(体量大),这完美契合了我们端侧优先的场景定位。我们的种子用户群体,是那些拥有大量音视频数据、对隐私和数据价值高度重视、且现有解决方案服务不佳的用户。
36氪:Clipto的PMF(产品市场契合度)为何能快速实现?关键决策是什么?
康洪文:“以终为始”,我们拥有宏大愿景,但同时也迫使自己尽快进行商业化验证。
我们做了两个关键决策。第一,以App形态切入,最高效地将端侧AI能力传递给用户;未来,App可以灵活部署在PC、手机、智能设备等任何终端硬件上。
第二,从第一天起就主打全球市场。许多西方国家的用户订阅付费习惯成熟,市场确定性高。我们选择将精力投入到高确定性的领域。
36氪:行业对端侧AI的最大误解是什么?
康洪文:普遍认为“下一个Ollama就能搞定”。
但我们真正构建的是一套完整的Memory Layer。
第一层是模型。我们围绕多模态理解,自研了十余个端侧AI模型,部分基于开源基础模型进行后训练,部分为完全自主研发,实现专业级、多模态理解本身就是巨大的技术挑战。
第二层是基础设施。端侧与云端的技术体系截然不同。从推理框架、算力调度到系统优化,都需要重新设计,以确保多个模型能在有限的设备资源下长期稳定协同运行。
第三层是记忆构建。模型能理解内容,但不会天然形成记忆。系统不仅需理解每个文件,更要持续建立跨文件、跨时间、跨来源的关联,将孤立数据组织成一个不断生长的个人记忆网络。
真正的难度不在于单层技术,而是将模型、基础设施和记忆构建长期协同成一套系统。这正是我们认为Memory Layer具备的真正技术门槛。
36氪:Clipto定义的“记忆”与模型记忆、Context有何区别?
康洪文:
当前行业提及的“Memory”,主要包含两种。
一种是模型记忆,本质上是参数中的统计性知识,适用于学习公共知识、用户偏好和行为模式。
1 条评论
江南体育用户
2026年6月15日欢迎您在此分享您对本文的任何想法、评论或提问。我们的专业编辑团队将认真阅读并及时回复,与您一同深入探讨体育世界的精彩与奥秘!
发表您的看法