多模态功能 — 看图、语音、数据分析

ChatGPT 不只是文字对话——它还「看得见」「听得见」还能「动手算」。本教程教你使用 ChatGPT 的多模态功能。

一、图片识别与分析

ChatGPT 能看懂图片，回答关于图片的任何问题。

# 翻译菜单
[上传餐厅菜单的照片]
请帮我翻译这份英文菜单，并推荐几道适合中国人口味的菜。

# 识别植物
[拍摄一棵树的树叶照片]
这是什么植物？它有什么特点和养护方法？

# 解读商品
[上传一件衣服的照片]
这件衣服适合什么场合穿？搭配建议是什么？

# 数学题
[上传数学题照片]
这道题怎么做？请一步一步详细解释解题思路，不要直接给答案。

# 作业检查
[上传写完的作业照片]
请帮我检查这几道题做得对不对。如果有错的，帮我指出错误并讲解正确做法。

# 手写文字识别
[上传手写笔记照片]
请把这张手写笔记转换成可编辑的电子文字。

# 文档分析
[上传一份报表的照片]
帮我提取这份报表中的关键数据，并按月份做一个简要的趋势分析。

适用于打字不方便的时候：

技巧：在安静的环境中说话，识别准确率更高。

GPT-4o 模型支持真实的时间对话：

适用场景：

# 启动对话
我想练习英语口语对话。请你扮演我的英语外教，我们来聊一下旅行话题。
请注意：
1. 全程使用英语对话
2. 如果我犯语法错误，在我说完后再纠正
3. 如果发现我用了某个好词好句，给予鼓励

GPT-4 / GPT-4o 用户可以使用代码解释器功能，AI 可以编写并运行代码来分析数据。

[上传 sales_data.csv]

请帮我分析这份销售数据：
1. 总销售额是多少？
2. 哪个部门的销售额最高？
3. 按月画一个销售趋势折线图
4. 找出销售额最高的前5个产品

[上传一张包含数据的柱状图照片]

请从这张图中提取数据，整理成表格形式，并告诉我你能观察到什么趋势。

[上传 data.csv]

把这个 CSV 文件转换为 JSON 格式，并保存为一个新文件让我下载。

除了图片，你还可以上传文字文件让 AI 处理。

[上传一篇PDF文档或TXT文件]
请帮我总结这篇文章的主要内容，列出：
1. 核心论点（最多3个）
2. 关键数据或事实
3. 作者的建议或结论

[上传3份不同产品的说明书PDF]
请对比这三款扫地机器人的功能特点，用表格形式呈现。

[上传一份合同草案]
请帮我检查这份合同有哪些需要注意的法律风险点，并逐条给出修改建议。

[上传一张产品照片] + [上传产品参数表Excel]

根据这张产品照片和参数表，帮我写一段电商产品详情页文案。
要求包含：
- 产品亮点（基于照片观察）
- 参数对比（基于表格数据）
- 目标用户画像

第1轮：[上传Q1销售数据] 这是第一季度的数据，先帮我做个简单的统计。
第2轮：好的，现在请画上1月和2月的对比柱状图。
第3轮：再画一个各部门销售额占比的饼图。

学会了多模态功能，ChatGPT 已经不只是「聊天机器人」了。接下来学习第四课 GPTs 定制与高级玩法 — 创建你自己的专属 AI 助手。

💡 今日练习：拍一张你身边的物品照片，让 ChatGPT 识别它并讲一个与它有关的小故事。再试试上传一份文件让它总结内容。