o3出圈玩法“看图猜位置”，豆包也安排上了！还是人人免费用那种 - 迅易网

分享好友最新资讯首页最新资讯分类切换频道

o3出圈玩法“看图猜位置”，豆包也安排上了！还是人人免费用那种

2025-08-23 18:30

o3出圈玩法“看图猜位置”，豆包也安排上了！

而且不只是猜位置那么简单，玩法“更上了一层楼”，例如我们给出下面这张图：

醒目的东方明珠，一眼便知是上海。但现在的问题是：

你知道这是几几年吗？

对我们人类来说可能会有点难以判断，不过在豆包这里，现在可以精确回答：1999年左右。

这就是豆包APP最新的一个功能——升级了视觉推理，图片也能深度思考！

具体而言，现在豆包的深度思考过程不再只是文字的处理，对图片也能进行分析。

操作上也非常简单，只需开启深度思考模式，然后拍照或上传图片即可：

而且细看豆包APP分析的整个深度思考的过程，也是有点意思在身上的。

例如它先会以图搜图，大致判断一下图片位置是上海；然后再调用图片分析工具（包括放大、裁剪和旋转等等），根据图片中的具体细节内容，进一步分析确定年份的证据。

总而言之，是属于边思考边搜边巧用工具的那种。

那么接下来，一波实测，走起！

这第一关，咱先来点好玩的——让AI识别AI。

左右两边的西红柿都非常逼真，仅凭肉眼实在难以区分。

而豆包一击即中，一番思索后得出了正确答案：右侧为AI生成。

展开其推理过程，才发现它是通过“放大细节”得出结论的。

尤其是右图左下角的西红柿暴露了身份，其蒂部呈现出不自然的卷曲和分叉blabla。

既然它“眼力”不错，咱们接着整个大的——请找出下图中熊猫里的足球。

人类 VS AI，计时开始……

很好，肉眼找了一圈又一圈，最后还是只能求助于AI。

豆包APP给的答案是酱婶儿的：

怕你还是找不到，所以在思考过程中特意“放大”了足球所在的区域。

注意看，这里同样涉及到豆包对图片分析工具的调用，整个过程如下：

初步识别→可疑区域锁定
放大区域→局部图案对比
空间定位→精准叙述

看来一些比较考眼力的小游戏，尤为适合请豆包APP这位外援。

此外，作为一款日常工具，平时看到任何不懂的东西也都可以随时丢给豆包APP。

例如网上冲浪时，看到有人分享一款小众乐器，这就第一时间问问豆包：

豆包老师直接开课，采用最直接的方法——相似图片检索，确认这是少数民族鄂温克族的口弦琴。

又或者遇到云南这样的“新奇物种大省”，反手也是一个求助的动作。

原来这是云贵一带的小苦瓜，学名翅果藤，可以素炒、凉拌或晒干泡茶。

对于这种可能豆包自己都少见的东西，它会结合图片检索+文字检索来双重保障信息准确。

这下好了，以后人人都有一个7x24小时响应的生活助手了。

而且它的本事可不止帮忙搞定生活琐事，用来提升工作效率一样拿得出手。

这不，让无数父母越来越头疼的作业辅导，现在也能全权交给豆包APP了。

为了加大难度，这里我们直接上今年IMO（国际数学奥林匹克竞赛）的第一题：

看不懂不要紧，直接交给豆包——在经过明显时间更长的思考后，它通过一步步推理最终给出了正确答案。

有一说一，答案是否正确我等凡人也看不太懂，所以交给了ChatGPT这个第三方裁判，让它来对比一下豆包APP和网上公开的人类选手给出的正确答案是否一致。

ChatGPT经过分析后认为，虽然解答方法不一样，但二者的结论是一致的。

与此同时，豆包APP也能用于日常工作——比如将一份财报数据一键提取成表格。

话不多说，直接丢一份苹果公司财报试试：

逐一检查后，豆包有效hold住了数据准确性的考验，而且还支持横向全屏查看。

当识图准确性这个“拦路虎”搞定后，豆包APP能够发挥作用的空间也就更广泛了，包括但不限于：

从上面种种的实测中，我们不难发现豆包的思考链所具备的一个亮点——边想边搜。

传统AI的思考过程，大多采用的是“先搜后想”模式，也就是先一次性抓取海量信息，然后基于已经搜到的这些信息进行推理，范围相对有限、灵活性不足。

而豆包APP的“边想边搜”更像是一个“动态推理+多轮搜索”的过程。

在这个模式下，AI会根据推理的需要，在深度思考的过程中多次调用搜索、图片分析等不同工具来获取和验证信息，从而提供更加全面、准确的结果。

这个完整的思考链条，会根据用户问题的具体情况，灵活地接入图片理解和信息搜索。

例如，在思考推理过程中，它既可能需要通过文字信息去检索和分析图片（文搜图），也可能需要根据图片内容去反向查找相关信息（图搜文、图搜图）。

为了更直观地展示这个过程，我们尝试用它来找一部记忆模糊的童年动画片：

而就是这样寥寥几句，豆包APP通过多轮关键词检索和图片分析，帮忙成功找到了《Super Why》这部童年经典。

图搜图就和开头展示的例子类似，在此不再过多赘述。

至于在思考过程中展现图搜文，下面根据某张技术截图反向查找原始论文出处的例子就淋漓尽致地展现了这种能力。

豆包APP通过3轮搜索+调用图片分析工具，一步步锁定了这是OpenAI发表的论文《Training language models to follow instructions with human feedback》。

而经过实际对比，这张图也的确是该论文中的Figure 1。

Okk，林林总总体验下来，豆包APP现在确实属于边思考边搜边巧用工具的“六边形战士”了。

一句话，以后遇到啥问题都能随手一拍或截图丢给它。

事实上，不止豆包APP，如今几乎整个行业都在朝视觉推理这个方向狂飙突进。

今年以来，以OpenAI为代表推出的o3、o4-mini等推理模型，几乎凭一己之力将图像纳入推理链，开启了多模态深度理解的新范式。

随后，视觉推理能力迅速成为衡量大模型综合实力的新技术门槛，在国内外掀起了新一轮竞速热潮。

细究起来，这背后其实有两大核心驱动力：一曰技术，二曰需求。

一方面，多模态技术的持续发展，为视觉推理提供了强有力的技术支撑。

由于主流大模型均采用Transformer架构，它具备天然的多模态融合能力，能够对文字、图像、音频等不同模态的信息进行统一编码和高效处理。

因此，带图推理在技术上实际并非遥不可及。

而且发展多模态目前已成为AI圈的共识之一，显而易见，作为多模态智能重要组成部分的视觉推理，也大概率将随之水涨船高，成为竞逐热点之一。

更不必提，视觉推理也确实存在真真切切的行业及用户需求。

从行业角度来看，视觉推理是落地多种应用场景的关键能力。

比如在工业制造领域，视觉推理可用于无序分拣、晶圆缺陷检测、电池极片3D轮廓测量等复杂场景；在医疗领域，视觉推理能够助力手术导航、病理图像分析等应用……如此种种不胜枚举。

而对普通用户来说，鉴于现实中图文混合的信息越来越多，人们越来越需要的不只是“识图”，而是真正理解图中的逻辑与内容。

就像我们在实测环节看到的那样，在图像问答、文档解析等多个场景中，具备视觉推理能力的模型已经可以像人类一样识别细节、分析关系、做出判断，极大提升了信息获取和处理的效率。

综上所述，可以说技术的成熟与需求的涌现，在此时此刻实现了高度契合，从而带动了视觉推理能力迅速升温，成为新阶段的核心看点之一。

当然，大道理归大道理。对我们普通用户来说，最直接的变化是：o3、o4-mini等需要氪金才能用的功能，如今已经能在豆包APP里低门槛、免费用上。

豆包这波，也算是真正把“带图推理”打下来了~

p.s. 豆包APP现已全量上线带图推理功能，不过需要更新至最新的9.5.0版本才能体验哦。

最新文章

南宁市青秀区2025年秋季学期小学一年级新生摸底调查公告

为有序推进城区2025年招生工作，经研究，决定于3月12日—18日开展2025年秋季学期小学一年级新生摸底工作。具体事项安排如下：一

“五一”成都“乡”当潮，10条乡村旅游路线发布！

“乡当美”——观花线路线路1：成都市区-彭州-温江-崇州崇州、新都、彭州……有欧式浪漫花海与中式田园风光，满足游客对不同花卉

双重身份的人性书写与文化根脉的深描——评李敬宇长篇小说《沉沙》的现实关照与历史叙事

李风宇与南京作家李敬宇相识已久，我在《雨花》杂志当编辑期间，他在《雨花》杂志上不仅发表了中短篇小说，还发表了中篇散文《老

家庭用手机远程监控器

作为守护家人安全的一道防线，正在逐渐得到更多家庭用户的青睐，它的主要优势表现如下：1.百万高清、广角镜头、自动红外切换；2.

健康微课·甩肉行动｜终身“重”事！专家教你量身定制减重食谱

编者按：在2025年全国两会期间，“减肥”冲上热搜。3月9日，在十四届全国人大三次会议民生主题记者会上，国家卫生健康委员会主任

内置6个M.2硬盘位，可搭建全闪NAS，千元级迷你主机零刻ME mini

搜狐新闻（随机频道）媒体代发新闻稿发布平台_媒介_为客户提供_企业

【搜狐新闻（随机频道）媒体代发新闻稿发布平台】随着信息传播的多元化和互联网技术的发展，新闻稿的发布渠道也变得极为丰富。

2024公认拍照最好的3款手机，画质细腻堪比单反，几乎零差评

以前拍照人们都会比较喜欢买单反数码相机，可是随着科技进步，手机拍照越来越清晰。大家反而不再喜欢用数码相机拍照，出门在外

2025年首只10倍股诞生，大牛股的基因有哪些？高手这样看

每经编辑：吴永久周一，PCB产业链表现强劲，这也刺激了铜箔、覆铜板股票大涨。此外，固态电池概念也表现出色。消息面上，7月25日

点点互动再出一SLG新品！砍树+战舰+SLG？能否再造一《寒霜启示录》？

1月9日，点点互动在全球160多个市场上线了SLG新游《小舰舰超勇》（欧美版本名为《High Seas Hero》）。根据点点数据预估，截止至

推荐文章

网签即入学、交房即交证！广州从化发布楼市新政

相关文章

免费AI智能新闻稿写作助手：一键生成专业稿件，全方位提升写作效率与质量-2024ai知识

同样演“彭德怀”，董勇、丁勇岱和周小斌放在一起看，差别就出来了

（周运）Alex 12星座一周运势（8.4—8.10）

拖累“十年最佳”《焚城》的元素里，刘德华有份

“围剿”B站- DoNews专栏

GTX 1060就可以体验“武侠朋克”，《影之刃零》硬件配置分析

从加密货币到2900%的暴利！2024年的11种“疯狂”交易

2025年旅游市场展望：“情绪价值”释放让旅游真正生活化，出入境游继续“双向奔赴”

科技赋能健康生活，2025HNC中国国际健康产品展在沪举行

世遗游、工业游、温泉游、古建游……40多条精品旅游线路，开启“泉”年好运之旅