音频
概述
Starnion 的音频功能会自动将上传的语音文件转录为文字(语音转文字 / STT),并让您将结果保存为会议纪要、备忘录、日记条目等。
上传会议录音,整个内容会在几秒钟内转换为文字。然后您可以立即用”总结一下”或”只提取决定事项”等命令整理它。所有上传的音频文件及其转录文本都收集在音频图库中。
支持格式
| 格式 | 扩展名 | STT支持 | 播放 |
|---|---|---|---|
| MP3 | .mp3 | 是 | 是 |
| WAV | .wav | 是 | 是 |
| M4A | .m4a | 是 | 是 |
| OGG | .ogg | 是 | 是 |
上传音频
在聊天中附加音频
点击聊天输入框中的文件附件按钮,或将音频文件拖放到聊天窗口中进行上传。
用户:[附加 会议录音.mp3] 请转录这个。
AI: 正在将语音转为文字...
[转录文本]
金组长:今天的议程是新服务上线时间表。
李助理:开发预计在四月底完成。
朴副总监:市场准备工作可以从五月初开始。
金组长:那我们将上线日期定为5月15日。
总时长:3分24秒。
从音频图库上传
进入顶部菜单 > 音频 标签,然后点击上传按钮或通过拖放添加文件。
语音转文字(STT)
上传的音频会自动进行STT处理。转录文本保存在音频图库中,可以随时查看。
使用转录文本的示例:
用户:[附加 课程录音.mp3] 总结关键要点。
AI: 课程摘要(总计45分钟):
主题:Python数据分析入门
关键要点:
1. 创建和操作Pandas DataFrame
2. 处理缺失值(dropna, fillna)
3. 分组聚合(groupby)
4. 可视化基础(matplotlib)
实践作业:使用泰坦尼克数据集分析生存率
自动会议纪要:
用户:[附加 会议.wav] 整理成会议纪要格式。
AI: [市场团队会议纪要 — 2025年3月8日]
参会者:金组长、李助理、朴副总监
日期时间:2025-03-08 14:00
1. 议程:Q2市场策略
2. 讨论:
- 讨论将SNS广告预算增加50%
- 推进2个网红合作项目
3. 决定事项:
- 4月启动Instagram广告
- 5月推进YouTuber合作
4. 下次会议:3月22日下午2:00
使用转录文本
通过STT转换的文字可以有多种用途。
保存为备忘录:
用户:[附加 想法语音备忘.m4a] 把这个保存为备忘录。
AI: 语音内容已保存为备忘录:
标题:应用想法备忘录(2025-03-08)
内容:给运动追踪应用添加AI教练功能,
用语音记录组数的功能...
保存为日记条目:
用户:[附加 今天.mp3] 把这个保存为今天的日记。
AI: 语音内容已保存为日记条目:
[2025年3月8日]
今天有团队会议。因为是新项目的开始
有点紧张,但团队成员们帮了很多忙...
记账功能集成:
用户:[附加 购物记录.mp3] 把今天的购物记录到账本。
(语音:"我去超市买了蔬菜15000韩元,肉32000韩元,饮料8000韩元。")
AI: 从语音录音中识别到的支出项目:
- 蔬菜:15,000韩元
- 肉类:32,000韩元
- 饮料:8,000韩元
合计55,000韩元已记录为餐饮支出。
音频图库
在 音频 标签中,您可以查看所有已上传的音频文件。
图库筛选
| 筛选 | 描述 |
|---|---|
| 全部 | 所有音频文件 |
| 已上传 | 直接上传的文件 |
| 已生成 | 通过TTS创建的音频 |
| 网页聊天 | 通过网页附加的文件 |
| Telegram | 通过Telegram发送的文件 |
图库中可以做什么
- 播放音频(浏览器内)
- 查看和编辑转录文本
- 查看文件信息(文件名、大小、上传时间)
- 删除文件
编辑转录文本
如果STT结果不准确,您可以直接编辑。点击音频图库中相关文件,打开并编辑转录文本。
TTS——收听 AI 响应
当您想以音频而非文字接收 AI 响应时使用此功能。
用户:朗读今天的日程。
AI: [🔊 音频播放]
"您好!以下是您3月8日的日程。
上午10:00有团队会议,
下午2:00安排了客户会议。
晚上7:00设置了运动提醒。"
使用示例
会议录音 → 自动摘要:
用户:[附加 90分钟规划会议.mp3] 用10个要点总结。
AI: 规划会议摘要(原始:90分钟):
1. Q3新功能:确认添加社交登录
2. UI改进:深色模式支持排名第一优先级
3. 预算:批准额外招募2名开发人员
4. 日程:Beta上线目标6月30日
5. 市场:成立App Store优化专项团队
...(共10个要点)
课程录音 → 学习笔记:
用户:[附加 英语课程.m4a] 整理陌生的词汇和表达。
AI: 课程中的关键表达:
- "leverage"(利用):"We need to leverage our existing data"
- "bottleneck"(瓶颈):"This is a bottleneck in our process"
- "iterate"(迭代):"Let's iterate on this design"
共整理15个表达。要制作成单词卡片吗?
采访录音 → 文字整理:
用户:[附加 采访.wav] 整理成问答格式。
AI: 采访问答:
Q:您认为目前工作中最重要的是什么?
A:我认为是团队成员之间的沟通和信任...
Q:您的职业目标是什么?
A:我的目标是在5年内成长为技术领导者...
💬 Telegram 使用示例
用自然语言和尼昂对话即可。无需特殊命令 – 像日常聊天一样说话就行!
语音消息转录
[发送语音消息] 帮我转成文字
→ 将语音转录为文字
[附加会议录音文件] 帮我总结一下
→ 将录音转为文字后总结要点
音频文件活用
[附加英语课程录音] 帮我整理不认识的单词
→ 从课程内容中提取重要表达和词汇
[附加采访录音] 整理成问答格式
→ 将采访内容整理为问答形式
使用技巧与常见问题
Q. 可以转录长文件(1小时以上)吗? A. 长文件可能需要相当长的时间处理。对于30分钟以上的文件,分割成多个部分后再上传处理速度会更快。
Q. 多人同时说话时识别效果不好。 A. 多人同时说话或有明显背景噪音时,准确率可能下降。在安静环境中录制的文件识别率更高。
Q. 韩语以外的语言也能识别吗? A. 支持包括英语、日语、中文在内的主要语言。混合语言文件也能在一定程度上识别。
Q. 可以下载转录文字吗? A. 您可以在音频图库中查看和复制转录文本。在聊天中请求”显示转录文本”可以将完整内容以文字形式输出。
Q. 可以上传电话通话录音吗? A. 技术上可以,但处理未经对方同意录制的通话可能涉及法律问题。请查阅您所在司法管辖区的适用法律。