CoView 软件使用说明
本页面覆盖 CoView 的完整使用方式,包括功能说明、任务操作流程、语音协作机制以及设置窗口所有关键参数含义。
快速上手
步骤 1:安装和配置密钥
Windows 安装说明
- 下载 `CoView-2.0.0-Windows-Setup.exe`。
- 双击安装包,按向导完成安装即可。
- 首次启动后,进入设置页面继续配置模型密钥与语音能力。
macOS 安装说明
- 打开 `CoView-2.0.0-macOS.dmg`。
- 将 `CoView.app` 拖动到 `应用程序` 文件夹中。
- 如果 macOS 提示无法验证 CoView,请打开 `终端` 并运行:
sudo xattr -rd com.apple.quarantine /Applications/CoView.app
- 打开 `系统设置 > 隐私与安全性`。
- 在下面两项中为 CoView 开启权限:
- `辅助功能`
- `录屏与系统录音`
这些权限是必需的,用于让 CoView 在你的授权下观察屏幕,并执行鼠标和键盘操作。
配置密钥
- 右击悬浮球打开 CoView 设置窗口,进入模型或服务配置区域。
- 支持所有OpenAI-compatible 接口的AI 模型和模型厂家。
- 建议优先使用阿里云百炼模型与 API Key,稳定性和兼容性更适合当前版本。API 获取入口:阿里云百炼 API Key 获取
- 语言功能目前只支持阿里云语音模型;语音相关 API 获取入口与模型 API 相同:前往获取阿里云 API Key
- 如果你启用了语音功能,还需要在语音配置中选择对应的阿里云语音服务或兼容地址。
- 保存后建议先执行一次简单任务,确认模型连接、界面观察和基础操作都正常。
步骤 2:连接模型与语音
- 选择 LLM 提供商与模型版本(用于任务理解和规划),模型必须选择支持视觉识别的多模态模型,否则 CoView 无法正确观察当前屏幕并完成界面理解。
- 配置 ASR 引擎、麦克风设备与唤醒词(用于语音交互)。
- 可选配置 TTS(语音播报)与语音打断策略。
步骤 3:执行第一个任务
- 在同窗输入目标,例如“打开设置给我更换壁纸”。
- 观察 CoView 对当前屏幕的理解和执行计划。
- 确认执行后,等待动作完成并查看最终回报。
步骤 4:语音唤醒与语音交互
- 先在设置中完成麦克风、ASR 引擎、唤醒词和语音模型配置,并确认语音功能已经启用。
- 保持 CoView 在后台运行后,直接说出你设置的唤醒词,例如“你好小彤”、“hey Lucy“或你自定义的其他唤醒词。
- 当悬浮同窗弹出、出现聆听状态或提示音时,说明 CoView 已进入语音接收状态。
- 随后直接说出你的任务,例如“帮我总结当前页面内容”或“打开系统设置”。
- 在 CoView 运行期间说出“退出程序”或者“close program”即可停止当前任务并退出 CoView 运行。
- 如果识别不稳定,优先检查麦克风设备、环境噪声、唤醒词是否清晰,以及阿里云语音模型密钥是否配置正确。
快捷键介绍
CoView 提供默认交互快捷键,用于快速呼出同窗、收起面板和提交任务。不同系统的默认快捷键不同,建议优先按产品默认值使用。
Windows 系统快捷键
- 呼出 / 聚焦同窗:`Ctrl + Alt + I`。
- 收起悬浮面板:`Ctrl + Alt + O`。
- 提交输入框任务:`Enter`。
- 停止当前任务:点击停止按钮,或在运行中再次使用呼出快捷键进行中断。
macOS 系统快捷键
- 呼出 / 聚焦同窗:`Control + Option + I`。
- 收起悬浮面板:`Control + Option + O`。
- 提交输入框任务:`Enter`。
- 停止当前任务:点击停止按钮,或在运行中再次使用呼出快捷键进行中断。
快捷键如何使用
- 保持 CoView 在后台运行。
- 在任意界面按下系统对应的“呼出 / 聚焦同窗”快捷键。
- 等待悬浮同窗弹出后,用自然语言输入任务,例如“复制选中的文本”或“帮我总结这个页面”。
- 输入完成后按 `Enter` 提交任务,CoView 会基于当前界面开始观察、理解并执行后续动作。
- 如果你暂时不需要同窗显示,可以使用对应系统的“收起悬浮面板”快捷键。
后续版本将推出快捷键自定义功能,你可以根据自己的系统习惯和与其他软件的快捷键冲突情况,自行设置更适合的组合键。写任务时也建议优先使用自然语言描述目标,而不是直接描述平台快捷键。
标准使用流程
CoView 的核心流程是:输入任务 → 观察环境 → 理解意图 → 执行动作 → 回报结果 → 反馈重规划。
1. 输入任务
支持文字、语音、快捷键唤醒输入,任务会进入同一会话上下文。
2. 观察与读取
读取当前屏幕和前台应用状态,为后续决策提供上下文依据。
3. 推理与决策
结合模型能力与历史上下文,输出下一步动作或询问确认。
4. 行动与回报
执行点击、输入、读取、Agent 分流等动作并输出执行结果。
5. 反馈与重规划
根据界面变化自动更新计划,避免任务中断后直接失败。
语音协作指南
语音工作机制
- 唤醒:通过唤醒词激活语音状态并弹出同窗提示。
- 聆听:麦克风采集 + VAD 检测 + 降噪处理。
- 转写:ASR 将语音转换为文本命令。
- 理解:判断命令是“执行任务”还是“控制指令”。
常用控制口令
| 口令类型 | 示例 | 作用 |
|---|---|---|
| 开始任务 | “帮我整理当前页面重点” | 进入任务执行流程 |
| 停止任务 | “停止当前工作” | 立即中断当前动作链 |
| 继续聆听 | “继续听” | 回到监听状态等待新命令 |
| 退出控制 | “退出程序” | 触发安全退出流程 |
设置窗口全部参数说明
以下内容已按 CoView 当前设置窗口的真实分组整理,并全部使用软件界面中的中文参数名展示,不再直接展示代码里的参数变量名。
通用
用于填写当前主模型服务的 API Key,是连接大模型服务的必要凭证。
用于填写模型服务的请求地址,接入不同模型平台或兼容服务时需要正确配置。
填写当前使用的模型名称。这里应选择支持视觉识别的多模态模型。
控制模型在任务执行时采用的思考模式,不同模式会影响回复风格和规划方式。
决定模型推理时投入的深度和力度,数值更高通常意味着更充分的分析,但耗时也可能更长。
控制会话中保留多少文本记忆,用于维持上下文连续性。
控制可保留的图像观察记忆数量,影响跨步骤的视觉连续理解。
决定保留多少历史任务记录,便于后续复用上下文。
限制单次任务最多推进多少轮动作,用来平衡完成度与执行成本。
悬浮球
设置悬浮球使用的静态图片或动图资源,影响桌面形象展示。
开启后,悬浮球动图会持续播放,而不是只在特定状态下播放。
当鼠标离开或状态切换后,是否把动画重置回初始状态。
语音交互
控制 CoView 是否可以把回复内容播报出来。
用于连接语音合成服务的密钥。
语音合成服务的接口地址。
选择用于播报的语音模型。
控制播报的人声风格。
控制播报时的说话速度。
控制播报音量大小。
控制播报时的高低音变化。
决定是否开启语音输入、语音识别和语音控制能力。
选择当前接入的语音识别服务提供方。
连接语音识别服务时使用的 API Key。
语音识别接口地址,接入兼容服务时需要填写。
选择具体使用的识别模型。
控制语音识别采用的语言设置。
用于定义中断播报时的语音控制口令文本。
开启后会尽量忽略 CoView 自己播报出来的声音,减少误识别。
在空闲一段时间后自动收起语音交互界面,减少遮挡。
是否显示当前正在录音或聆听的状态提示。
控制是否开启本地唤醒词检测能力。
选择本地唤醒词检测所使用的引擎。
设置中文环境下使用的唤醒词内容。
设置英文环境下使用的唤醒词内容。
控制唤醒词识别的敏感度,阈值越合理越能平衡误唤醒和漏唤醒。
两次唤醒之间的最短间隔,避免连续误触发。
被唤醒后若长时间未收到语音输入,会自动退出等待状态。
是否显示本地唤醒相关的状态提示信息。
伴随推荐
控制是否在你工作过程中主动给出辅助建议。
控制伴随推荐是否使用更深入的推理方式来生成建议。
决定推荐内容在界面上停留多久后自动消失。
在界面稳定一段时间后再触发建议,减少频繁干扰。
用于统计你在短时间内切换界面的频率。
达到该阈值后,系统会判断当前操作过于频繁并调整建议策略。
在一次高频切换后暂停推荐一段时间,避免打扰。
后台代码代理
选择后台代码代理默认使用的服务提供方。
指定后台代码任务默认执行的工作目录。
控制后台最多可以同时运行多少个代码任务。
限制后台代码任务的默认最长执行时间。
高级
决定任务执行时如何向你汇报过程信息。
控制执行多少步后汇报一次当前进度。
在执行工具动作后等待一小段时间再截图,避免读取到尚未稳定的界面。
控制鼠标从一个位置移动到另一个位置所需的时间。
用于避免鼠标自动化操作在异常情况下持续失控。
控制麦克风音频采集的采样率。
决定每次处理音频数据时使用的块大小。
用于判断当前声音是否达到“开始识别”的能量门槛。
控制说话持续多久后,系统才认定用户已经开始讲话。
控制安静持续多久后,系统认定一句话已经结束。
用于保留说话开始前的一小段音频,减少句首被截断的问题。
限制单句语音输入允许持续的最长时间。
开启后会在实时语音交互中尝试消除系统回放造成的回声。
控制回声消除算法每次处理音频时使用的帧长度。
用于估算系统播放音频与麦克风采集之间的延迟。
在回声消除过程中同时进行背景降噪。
自动调整输入音量,帮助保持更稳定的语音信号强度。
选择用于区分“任务指令”和“控制口令”的分类模型。
常见问题
Q1: 为什么 CoView 能回复文字,但看不懂屏幕或不能继续执行界面任务?
最常见原因是当前模型不是支持视觉识别的多模态模型,或者模型接口虽然兼容 OpenAI 风格,但没有真正具备图像理解能力。请优先检查“模型名称”“基础地址”和“接口密钥”是否正确,并确认使用的是支持视觉理解的模型。
Q2: macOS 安装后为什么无法正常控制界面?
macOS 需要在“系统设置 > 隐私与安全性”中为 CoView 开启“辅助功能”和“录屏与系统录音”权限。如果系统提示应用无法验证,还需要先执行去除隔离命令,再重新打开应用。
Q3: 语音唤醒或语音识别为什么没有反应?
请依次检查 4 项内容:是否开启了“启用语音交互”或“启用本地唤醒”;麦克风权限是否已授权;阿里云语音识别相关密钥是否配置正确;本地唤醒词模型是否已经下载完成。默认唤醒词为“你好小彤”和“hey Lucy”。
Q4: 为什么语音输入可以用,但播报时仍然会有回声或识别到自己的播报声音?
项目支持可选的 WebRTC 回声消除,如果该依赖不可用,语音输入通常仍可正常工作,只是 TTS 回声过滤效果会弱一些。此时建议同时开启“过滤播报回声”,并尽量降低外放音量和麦克风音量。
Q5: Windows 上为什么有些窗口能操作,有些高权限窗口不能操作?
普通应用通常可以直接运行和控制;如果目标窗口本身是管理员权限启动的,CoView 也需要在相同权限级别下运行,即以管理员权限运行CoView ,才能稳定执行对应操作。这在系统设置、安装程序或部分受保护窗口中尤其常见。
联系我们
QQ群:859824745