English version: click here.
昨天,我和女儿去了一家意大利餐厅吃饭。她坐在那里翻看着菜单,而我则像往常一样,拿起手机拍了几张菜单的照片,然后交给 ChatGPT 让它帮我点菜。
当 AI 给出推荐时,我发现它点的份量足够三个人吃。女儿好奇地问:“你要点的那个名字很奇怪的甜点在哪儿?我怎么没看到?” 我低头仔细检查菜单,才意识到一个问题——服务员刚刚只给了我们饮料单、本日精选和主菜菜单,没有甜点菜单。餐厅通常会等顾客吃完主菜后才提供甜点菜单。但 ChatGPT 似乎比我们更早知道这一点,它不仅参考了我拍的照片,还直接从它的“记忆”中取出了这家餐厅的甜点菜单,并据此为我们推荐了甜点。
这让我感到有些不对劲。如果 AI 仅仅是基于我拍的菜单照片进行推荐,那它的推理过程应该是“多模态理解 + 逻辑推理”——先读取菜单内容,再结合上下文进行推理。但现在看来,它直接取回了一个我自己没有提供的信息,也就是说,它并不是完全依据我的输入,而是绕开了我的数据,调用了自己已有的知识。这就像是在做数学题时,AI 不是自己计算,而是直接去查答案;又或者让它根据新闻报道分析趋势,结果它直接找了篇总结文章,而不是自己推理。这样的方式,未免有点“作弊”的感觉。
如果 AI 真的只是从我提供的图片中学习信息,那无可厚非。但如果它直接从知识库里取出完整的菜单,那就是“知识回忆 + 信息检索”了,而不再是单纯的推理。我开始思考,如果要让 AI 只依赖我提供的菜单来分析,而不调用它的记忆,是否可行?比如,我可以告诉它:“请仅根据我提供的菜单图片进行分析,不要使用你已有的知识。”但问题是,这样的限制可能会让 AI 变得“笨”一些。
当 AI 只能依赖图片,而不能使用外部知识时,它会出现一些问题,比如:
- 无法识别某些特殊菜名,比如地方特色菜或者品牌特定的菜品。
- 无法理解菜单的隐含信息,比如某道甜点可能是无糖的,但菜单上并未明确说明。
- 无法参考用户评价或流行度,无法提供基于大众口味的推荐。
举个例子,假设甜点菜单上写着:“黑森林” 一般人都知道黑森林指的是一种巧克力蛋糕,但如果 AI 没有“记忆”,它执行的任务大约可以这样分析:首先,做一个“命名实体识别”(NER),找到里面的名词“森林”,然后进行“句法依存分析”(Dependency Parsing),发现这是形容词修饰的一个名词短语,然后它觉得已经找到了答案,机械地按字面意思理解——黑森林?这是一片黑乎乎的森林吗?你要去露营?它无法准确知道这是一种甜点。换句话说,让 AI 只基于图像进行分析,虽然能确保它不会作弊,但也会让它的理解能力下降。
那么,有没有折中的办法?如果我不希望 AI 直接调用完整的菜单,但又希望它能结合已有的知识提供更有价值的推荐,也许可以这样提示它:
- “请主要根据我提供的菜单图片进行分析,但如果需要,可以适当结合你的知识提供有价值的推荐。”
- “请先完全基于我的菜单图片进行分析,如果有不确定的地方,你可以再参考你的知识。”
- “请不要直接从已有的知识库中取回整个菜单,但可以结合你的知识,帮助理解菜单上的内容。”
这样,AI 就不会完全依赖外部知识,也不会变得过于机械化,而是能在合理的范围内进行推理。
如果 AI 只根据上传的菜单来点菜,那它主要是在做多模态理解 + 逻辑推理。但如果它直接取回已有的菜单,那它就更像是在做“知识回忆 + 信息检索”。这个界限并不总是清晰的,但作为用户,我们可以通过更精准的提示,去引导 AI 走我们想要的路线。而真正的默契,就是AI知道用户的预期和边界在哪里,然后与用户“对齐”,get aligned。这是我下学期课程的内容:“自然语言理解”

发表评论