多模态功能 — 看图、语音、数据分析
ChatGPT 不只是文字对话——它还「看得见」「听得见」还能「动手算」。本教程教你使用 ChatGPT 的多模态功能。
一、图片识别与分析
Section titled “一、图片识别与分析”ChatGPT 能看懂图片,回答关于图片的任何问题。
- 在输入框旁边找到 图片图标(📎 或 + 号)
- 选择「上传图片」
- 可以上传一张或多张图片
- 输入你想问的问题
1. 识物与翻译
Section titled “1. 识物与翻译”# 翻译菜单[上传餐厅菜单的照片]请帮我翻译这份英文菜单,并推荐几道适合中国人口味的菜。
# 识别植物[拍摄一棵树的树叶照片]这是什么植物?它有什么特点和养护方法?
# 解读商品[上传一件衣服的照片]这件衣服适合什么场合穿?搭配建议是什么?2. 解题辅导
Section titled “2. 解题辅导”# 数学题[上传数学题照片]这道题怎么做?请一步一步详细解释解题思路,不要直接给答案。
# 作业检查[上传写完的作业照片]请帮我检查这几道题做得对不对。如果有错的,帮我指出错误并讲解正确做法。3. 文档处理
Section titled “3. 文档处理”# 手写文字识别[上传手写笔记照片]请把这张手写笔记转换成可编辑的电子文字。
# 文档分析[上传一份报表的照片]帮我提取这份报表中的关键数据,并按月份做一个简要的趋势分析。图片使用技巧
Section titled “图片使用技巧”| 技巧 | 说明 |
|---|---|
| 清晰度 | 图片越清晰,识别越准确 |
| 多张图片 | 可同时上传多张做对比分析 |
| 组合提问 | 图片+文字一起发,给出更多上下文 |
| 追问 | 对第一轮的回答不满意可以继续追问 |
二、语音输入与语音对话
Section titled “二、语音输入与语音对话”语音输入(转文字)
Section titled “语音输入(转文字)”适用于打字不方便的时候:
- 在移动端 App 上点击输入框旁的 麦克风图标 🎤
- 对着手机说话
- ChatGPT 会自动把你的语音转成文字
- 确认文字无误后发送
技巧:在安静的环境中说话,识别准确率更高。
语音对话(GPT-4o 语音模式)
Section titled “语音对话(GPT-4o 语音模式)”GPT-4o 模型支持真实的时间对话:
- 在 App 中点击右下角的 耳机图标 🎧
- 进入语音通话模式
- 像打电话一样对话,AI 会即时用语音回答
适用场景:
- 开车时的语音问答
- 做家务时听 AI 讲故事或新闻
- 练习英语口语对话
- 睡前让 AI 给你讲睡前故事
英语口语练习示例
Section titled “英语口语练习示例”# 启动对话我想练习英语口语对话。请你扮演我的英语外教,我们来聊一下旅行话题。请注意:1. 全程使用英语对话2. 如果我犯语法错误,在我说完后再纠正3. 如果发现我用了某个好词好句,给予鼓励三、代码解释器(Advanced Data Analysis)
Section titled “三、代码解释器(Advanced Data Analysis)”GPT-4 / GPT-4o 用户可以使用代码解释器功能,AI 可以编写并运行代码来分析数据。
- 数据处理:读取 CSV、Excel、JSON 文件,进行数据清洗和统计
- 数据可视化:生成图表(折线图、柱状图、散点图等)
- 数学计算:复杂的数学运算、统计分析
- 文件转换:文件格式转换(如 CSV 转 JSON)
- 上传文件(CSV、Excel、TXT、JSON 等)
- 描述你想分析什么
- AI 会运行代码并返回结果和图表
案例1:销售数据分析
Section titled “案例1:销售数据分析”[上传 sales_data.csv]
请帮我分析这份销售数据:1. 总销售额是多少?2. 哪个部门的销售额最高?3. 按月画一个销售趋势折线图4. 找出销售额最高的前5个产品案例2:图片转数据
Section titled “案例2:图片转数据”[上传一张包含数据的柱状图照片]
请从这张图中提取数据,整理成表格形式,并告诉我你能观察到什么趋势。案例3:文件转换
Section titled “案例3:文件转换”[上传 data.csv]
把这个 CSV 文件转换为 JSON 格式,并保存为一个新文件让我下载。支持的常见文件格式
Section titled “支持的常见文件格式”| 格式 | 扩展名 | 说明 |
|---|---|---|
| 电子表格 | .csv, .xlsx, .xls | Excel 数据文件 |
| 文本文档 | .txt, .md, .log | 纯文本文件 |
| JSON 数据 | .json | JavaScript 对象标记 |
| Python 脚本 | .py | Python 代码文件 |
| HTML 页面 | .html | 网页文件 |
| 图片 | .jpg, .png, .webp | 图片文件(同时可分析内容) |
四、文件上传与总结
Section titled “四、文件上传与总结”除了图片,你还可以上传文字文件让 AI 处理。
[上传一篇PDF文档或TXT文件]请帮我总结这篇文章的主要内容,列出:1. 核心论点(最多3个)2. 关键数据或事实3. 作者的建议或结论对比多份文档
Section titled “对比多份文档”[上传3份不同产品的说明书PDF]请对比这三款扫地机器人的功能特点,用表格形式呈现。[上传一份合同草案]请帮我检查这份合同有哪些需要注意的法律风险点,并逐条给出修改建议。五、多模态组合使用技巧
Section titled “五、多模态组合使用技巧”组合1:图片 + 文字 + 文件
Section titled “组合1:图片 + 文字 + 文件”[上传一张产品照片] + [上传产品参数表Excel]
根据这张产品照片和参数表,帮我写一段电商产品详情页文案。要求包含:- 产品亮点(基于照片观察)- 参数对比(基于表格数据)- 目标用户画像组合2:多次上传逐步分析
Section titled “组合2:多次上传逐步分析”第1轮:[上传Q1销售数据] 这是第一季度的数据,先帮我做个简单的统计。第2轮:好的,现在请画上1月和2月的对比柱状图。第3轮:再画一个各部门销售额占比的饼图。六、注意事项
Section titled “六、注意事项”| 事项 | 说明 |
|---|---|
| 隐私保护 | 不要上传包含个人敏感信息的图片(身份证、银行卡等) |
| 图片质量 | 截图、扫描件比拍照更清晰,识别更准 |
| 文件大小 | 上传的文件不宜过大,建议单个文件 ≤ 50MB |
| 版权意识 | 上传的图片不要侵犯他人版权 |
| 结果验证 | 代码解释器生成的结果你需要自行验证 |
学会了多模态功能,ChatGPT 已经不只是「聊天机器人」了。接下来学习第四课 GPTs 定制与高级玩法 — 创建你自己的专属 AI 助手。
💡 今日练习:拍一张你身边的物品照片,让 ChatGPT 识别它并讲一个与它有关的小故事。再试试上传一份文件让它总结内容。