人工智能在音频、视觉、多模态领域的应用
人工智能多模态的应用场景
学习价值
学习体系
- 掌握音频转文字
- 掌握文字转语音
- 掌握图像识别
- 掌握文生图
知识模块
- L1.人工智能在音频、视觉、多模态领域的应用
环境准备
请将个人的token替换到以下变量中,如果能正常发送请求,则证明环境正常:
import openai
import os
os.environ["OPENAI_API_KEY"] = "你的个人token" # 将个人token替换到这个位置
os.environ["OPENAI_BASE_URL"] = "https://apitoken.ceba.ceshiren.com/openai/v1/"
os.environ["OPENAI_API_BASE"] = "https://apitoken.ceba.ceshiren.com/openai/v1/"
# 发送消息
# model 指定模型
# message 代表发给大模型的信息
response = openai.chat.completions.create(
model='gpt-3.5-turbo',
messages=[{'role': 'user', 'content': '你好,你是谁?'}],
temperature=0
)
# 打印大模型的返回值
answer = response.choices[0].message.content
print(answer)
实战需求
音频转文字
假设你现在已经面试结束,需要针对于你自己的面试内容进行复盘。为了提高复盘效率,你把语音直接转换成了文字。
提前准备一段不超过1分钟的音频,可以是任何内容(不能涉黄、牵涉暴力与政治内容),使用人工智能模型,将其转换为文本。
注意: 初始化 client 请使用以下代码
client = OpenAI(base_url="https://apitoken.ceba.ceshiren.com/openai/v1/"
, api_key="你的token",)
文字转语音
假设你现在需要拍摄vlog,vlog 的画面和声音是分开的。你已经准备好了vlog的配音文字,需要将它转换成成语音。
提前准备一段不超过100字的文本,可以是任何内容(不能涉黄、牵涉暴力与政治内容),使用人工智能模型,将其转换为语音。
注意: 初始化 client 请使用以下代码
client = OpenAI(base_url="https://apitoken.ceba.ceshiren.com/openai/v1/"
, api_key="你的token",)
情感分析(图像识别中的内容)
请输入一段你准备好的文字(英文),判断情感是积极的还是消极的。
相关知识点
实战1
教程地址 | 教程视频地址 | 时间位置 |
---|---|---|
音频转文字 | 音频转文字 | 全部 |
文字转语音 | 文字转语音 | 全部 |
图像识别 | 图像识别 | 全部 |
文生图(仅了解) | 文生图(仅了解) | 全部 |
实战代码
音频转文字
参考相关知识点教程:音频转文字
文字转语音
参考相关知识点教程:文字转语音
情感分析
参考相关知识点教程:图像识别
- 场景1,女朋友给男朋友发消息:我很好。
- 场景2,男朋友给女朋友发消息:你要这么想我也没办法。
- 其他场景可以自行尝试。
总结
- 人工智能多模态的应用场景。
- 如何使用人工智能将音频转文字。
- 如何使用人工智能将文字转语音。
- 如何使用人工智能进行情感分析。