DeepSeek新论文被称“硅基生命进化论”,海量文字压缩成图,模仿人脑重塑AI视觉记忆边界,赢硅谷大佬力挺
创始人
2025-10-22 10:30:06
0

出品|搜狐科技

作者|郑松毅

DeepSeek再次“低调”震惊世界!

他们新发布并开源的OCR模型,从根本上改变了AI游戏规则。Github开源项目DeepSeek-OCR,一夜收获超4k星。相关论文(《DeepSeek OCR:上下文光学压缩》)解释了这一研究成果。

很多人好奇,什么是OCR?

传统OCR如同“文字扫描仪”,通过光学技术将图像中的文字提取转换为计算机和人都能理解的格式。比如,在将大量票据、证件、表单等数据电子化时,OCR发挥关键作用。

但DeepSeek却反其道而行之——将文本信息“绘制”为视觉图像,再通过视觉模型实现高效理解。如此创新尝试就是为了解决大模型的核心痛点——处理长文本时面临的计算挑战。

效果有多惊艳?10页密密麻麻的文本报告,被压缩成一张图片,AI能够一眼读懂它。这样的信息处理效率意味着大幅降低了计算复杂度,用最直接的方式节约成本。

论文发布后,意料之内的好评如潮,有网友直接将其称为“硅基生命进化论”。

最近还在锐评AI发展的OpenAI创始团队成员、特斯拉前AI总监Karpathy,对DeepSeek新成果直言喜爱,并指出“早就该让视觉成为AI核心,而非依赖烂透了的文本分词器。”

更有业内大佬感叹,“当文本能被转化为视觉可理解的结构,语言与视觉的统一或许不再是理论。这可能是通往 AGI(通用人工智能)的关键一步。”

DeepSeek新研究:把大量文字压缩到图片,让模型直接看图理解

本质上来说,DeepSeek-OCR是将视觉与语言模态深度融合,通过“视觉-文本压缩”建立自然映射关系,为多模态大模型提供了新的技术路径。

之前的大模型可以说是“带着脚铐的舞者”,虽有强大的语言理解能力,却被低效的信息输入方式严重束缚。

拿模型阅读长篇文本来说,每页财报、论文都包含数千个token,传统方式下只能逐字逐句识别,导致计算量爆炸。这种低效作业让大模型在法律、金融等领域的应用举步维艰。

而DeepSeek这次用到了一个巧妙思维——既然一张图片能装下成千上万的文字,那是不是大量文字信息也能被压缩到一张图片里,让模型直接看图理解就好了。

为实现这一设想,DeepSeek为OCR模型配备了三件套——图像编码器、映射层和文本解码器。其中,图像编码器DeepEncoder(负责把图片转成高度压缩的视觉token)参数为380M,文本解码器(负责从压缩的视觉token里重建文字)是一个deepseekv2-3b的模型,参数为3B。

整体训练数据由4部分组成,包括OCR1.0数据(传统OCR任务,如图像OCR和文档OCR)、OCR2.0数据(复杂图像解析任务,如几何、图表等)、通用视觉数据(用于注入通用图像理解能力)、及纯文本数据(用于确保模型的语言能力)。

别看模型参数不大,但就研究结果发现,当文本压缩率小于10倍时,模型OCR解码准确率高达97%,及时压缩率高达20倍时,准确率依旧能保持在60%。在A100-40G显卡环境下,单日可生成超过20万页的模型训练数据。

也就是说,如果普通 OCR 需要 10,000 个 token 才能读完整篇文档,这个模型可能只用 1,000 个就能搞定,且能高准确度地理解信息。

受益于训练数据多样性,论文提到DeepSeek-OCR不仅能识别文字,还能理解文档布局、图表结构。从某种角度说,这已经不是传统的OCR,而更接近“文档理解引擎”。

论文中提到的一个基准叫OmniDocBench,就是专门用来测试复杂文档理解能力的。DeepSeek-OCR 在这个基准上,用更少的视觉 token 数量就超过了 GOT-OCR 2.0 和 MinerU 2.0,这俩都是目前较顶尖的开源 OCR 模型,可谓十分能打。

让AI记忆模式更像人类

在论文中,DeepSeek还谈到了一直困扰业界的AI“记忆”和“遗忘”机制。

深度学习模型的记忆以分布式参数形式存储,这种非结构化存储导致传统神经网络在学习新任务时,旧知识的参数空间会被新知识覆盖,模型无法做到像人类一样进行连贯推理。

而DeepSeek的想法是,通过视觉-文本压缩范式和动态分层遗忘机制,让AI“记住该记住的,忘记该忘记的”。

其核心思路是将文本信息转化为视觉token,通过光学压缩实现高效记忆管理,同时模拟人类遗忘曲线动态调整信息留存。

在这个过程中,核心组件DeepEncoder发挥关键作用,50-100个视觉tokens即可还原1000字文本,实现近 10 倍的计算量节省。

这种压缩并非简单的信息降维,而是通过“注意力机制+结构化训练”,优先保留对模型推理最关键的信息。类似人类阅读时“先抓标题再看细节”的认知模式,去除不重要的信息噪声。

关于如何让模型的记忆模式更像人类,研究者做了进一步解释:对于近期记忆,可以将其渲染成高分辨率图像,用多token数量保留高保真信息。而对于远期记忆,可以缩放成更小、更模糊的图像,用少量token来保留信息,从而实现信息的自然遗忘和压缩。

虽然当前还仅是研究前期探索阶段,但DeepSeek的创新思路,确实让AI越来越像人类了。

三名作者

本篇论文共有3名作者:Haoran Wei、Yaofeng Sun、Yukun Li。

论文一作Haoran Wei曾主导开发爆火项目GOT-OCR2.0,此次的DeepSeek-OCR也可以说是延续了此前项目的创新技术路径。根据此前论文信息显示,Haoran Wei还曾就职于阶跃星辰。

Yaofeng Sun毕业于北京大学图灵班计算机科学专业,于2023年加入DeepSeek,先后参与DeepSeek-r1、DeepSeek-v3、DeepSeek-v2等模型的研究。

Yukun Li也参与了包括DeepSeek-v2/v3在内的多款模型研究,谷歌学术论文引用量近万。

相关内容

福建“十四五”卫生健康事业...
21日,福建省人民政府新闻办公室召开“高质量完成‘十四五’规划,在...
2025-10-22 09:10:58
海西新药“登陆”港交所
海西新药“登陆”港交所系福建省创新药与仿制药研发领域领军企业记者从...
2025-10-22 09:09:49
徐州景区游乐设备经久耐用
徐州景区游乐设备经久耐用的秘密 在主题乐园和景区中,游乐设备是吸...
2025-10-22 09:09:10
北京旅行社口碑好的推荐:2...
北京作为历史文化名城,每年吸引着数以亿计的游客。无论是初次到访还是...
2025-10-22 09:09:05
俄美峰会推迟,俄方拒绝沿当...
据凤凰卫视报道,对于有关美国总统特朗普暂无计划与普京会晤的报道,俄...
2025-10-22 09:08:50
1516个!在广州,公园真...
当“绿水青山就是金山银山”理念走过二十载春秋,美丽中国建设在神州大...
2025-10-22 09:07:20
职教国潮中的“青春守艺人”
“月印寒潭,台光相映”——山东科技职业学院麓台学社社团的名称,取自...
2025-10-22 09:04:49
广交会成客流“强引擎” 深...
深圳新闻网2025年10月22日讯(深圳特区报记者 吴梓欣)近日,...
2025-10-22 09:04:34
露营地外卖“送达难”?有招...
□ 南京日报/紫金山新闻记者 李花 于志兵 金秋时节的建邺区江心洲...
2025-10-22 09:03:54

热门资讯

围棋班十年,我学会了对黑白格子... "5岁学围棋,10岁放弃,15年后我终于明白:为什么90%的孩子不适合学围棋?" 记得第一次摸到黑白...
申真谞下得过吴清源吗 申真谞下得过吴清源吗?这可真是个饶有趣味的围棋界关公战秦琼式问题。要比较不同时代的棋手,尤其是像吴清...
国台办:“倚美谋独”“以武谋独... 10月22日,国务院台办举行例行新闻发布会。有记者问:日前,美台举行所谓“防务工业会议”,“美台商业...
两年换5任总理,法国中间派为何... 本报驻法国特派记者 尚凯元 本报特约记者 岳 雯 编者的话:法国政坛今秋再度陷入紧张。勒科尔尼总理一...
山东最低温跌破0℃!10月为何... 一场冷空气,秋日变冬景。10月以来,齐鲁大地经历持续秋雨后,又迎下半年以来最强冷空气,多地气温断崖式...
国台办:台湾是中国的台湾 决不... 10月22日,国务院台办举行例行新闻发布会。总台记者提问:台媒报道,美国军工新创公司创办人拉奇近日称...
福建:消防比武砺精兵 21日,为期4天的2025年福建省消防救援队伍岗位练兵“龙虎榜”比武竞赛在福州打响。福建全省10个支...
原创 勇... “不要总是听从他们! ”22岁的波杰姆斯基在季前赛击败湖人后,面对记者关于如何与库里、巴特勒等巨星搭...
10月20日短道速滑世界赛奖牌... 蒙特利尔那个冰场,10月20日凌晨的记分牌亮出来的时候,可能很多熬夜看比赛的中国冰迷心里都咯噔了一下...