DeepSeek识图把梁文锋认成张一鸣 识图功能不稳定引发关注

  6月18日,DeepSeek网页及APP端新增了“识图模式”,并显示“图片理解功能内测中”。同一天,DeepSeek多模态团队负责人陈小康在社交媒体上发文称,视觉模式已在网页和应用上正式上线。

  

  6月19日,实测发现DeepSeek的识图功能并不太稳定。上传一张DeepSeek创始人梁文锋的照片时,系统将其识别为字节跳动的张一鸣;再上传另一张梁文锋的照片,结果依然如此。上传张一鸣的照片时,DeepSeek识别正确。但在新对话中再次上传张一鸣的照片,DeepSeek将其识别为寒武纪创始人陈天石;接着上传梁文锋的照片,系统仍然认为是陈天石。多次对话中,DeepSeek还曾表示“无法回答问题”。

  

  DeepSeek解释说,目前的“识图功能”其实是“读图”。支持的图像文件上传和视觉识别为OCR模型,即读取图像中的文本,擅长从上传的图像(如PDF、Word、Excel、PPT、JPG等)中读取文本,并处理该文本;而不是多模态视觉语言模型(VLM),无法以像素级别“看到”物体、人脸或场景。对于将梁文锋识别成其他人,DeepSeek表示自己没有人脸识别模块,不会“看脸”只会“看字”,如果照片中只有一张脸,系统只能回复图片中没有文字内容。

  

  测试中,上传带有文字的图片,如“货拉拉被约谈”的新闻封面,DeepSeek基本可以识别出图中内容,但将图中的“货拉拉”误认为“货拉业”,并指出可能是图片中的字打错了。对于“新东方集团总结大会”的视频截图,DeepSeek可识别出图中的信息,并且精确捕捉到俞敏洪也在图片中。对于怀素的草书作品,DeepSeek可以识别部分文字,但将“玉露凋伤枫树林”误认为“王右丞诗枫桥”。对于Yum! Brands宣布出售必胜客业务的英文公告截图,DeepSeek则能正确识别并翻译。DeepSeek识图把梁文锋认成张一鸣 识图功能不稳定引发关注

评论

发表回复