CoView 软件使用说明

本页面覆盖 CoView 的完整使用方式，包括功能说明、任务操作流程、语音协作机制以及设置窗口所有关键参数含义。

快速上手

Quick Start Demo 安装、配置与首次使用演示

步骤 1：安装和配置密钥

Windows 安装说明

下载 `CoView-2.0.0-Windows-Setup.exe`。
双击安装包，按向导完成安装即可。
首次启动后，进入设置页面继续配置模型密钥与语音能力。

前往下载 Windows 安装包

macOS 安装说明

打开 `CoView-2.0.0-macOS.dmg`。
将 `CoView.app` 拖动到 `应用程序` 文件夹中。
如果 macOS 提示无法验证 CoView，请打开 `终端` 并运行：

sudo xattr -rd com.apple.quarantine /Applications/CoView.app

打开 `系统设置 > 隐私与安全性`。
在下面两项中为 CoView 开启权限：

`辅助功能`
`录屏与系统录音`

这些权限是必需的，用于让 CoView 在你的授权下观察屏幕，并执行鼠标和键盘操作。

前往下载 macOS 安装包

配置密钥

右击悬浮球打开 CoView 设置窗口，进入模型或服务配置区域。
支持所有OpenAI-compatible 接口的AI 模型和模型厂家。
建议优先使用阿里云百炼模型与 API Key，稳定性和兼容性更适合当前版本。API 获取入口：阿里云百炼 API Key 获取
语言功能目前只支持阿里云语音模型；语音相关 API 获取入口与模型 API 相同：前往获取阿里云 API Key
如果你启用了语音功能，还需要在语音配置中选择对应的阿里云语音服务或兼容地址。
保存后建议先执行一次简单任务，确认模型连接、界面观察和基础操作都正常。

步骤 2：连接模型与语音

选择 LLM 提供商与模型版本（用于任务理解和规划），模型必须选择支持视觉识别的多模态模型，否则 CoView 无法正确观察当前屏幕并完成界面理解。
配置 ASR 引擎、麦克风设备与唤醒词（用于语音交互）。
可选配置 TTS（语音播报）与语音打断策略。

步骤 3：执行第一个任务

在同窗输入目标，例如“打开设置给我更换壁纸”。
观察 CoView 对当前屏幕的理解和执行计划。
确认执行后，等待动作完成并查看最终回报。

步骤 4：语音唤醒与语音交互

先在设置中完成麦克风、ASR 引擎、唤醒词和语音模型配置，并确认语音功能已经启用。
保持 CoView 在后台运行后，直接说出你设置的唤醒词，例如“你好小彤”、“hey Lucy“或你自定义的其他唤醒词。
当悬浮同窗弹出、出现聆听状态或提示音时，说明 CoView 已进入语音接收状态。
随后直接说出你的任务，例如“帮我总结当前页面内容”或“打开系统设置”。
在 CoView 运行期间说出“退出程序”或者“close program”即可停止当前任务并退出 CoView 运行。
如果识别不稳定，优先检查麦克风设备、环境噪声、唤醒词是否清晰，以及阿里云语音模型密钥是否配置正确。

快捷键介绍

CoView 提供默认交互快捷键，用于快速呼出同窗、收起面板和提交任务。不同系统的默认快捷键不同，建议优先按产品默认值使用。

Windows 系统快捷键

呼出 / 聚焦同窗：`Ctrl + Alt + I`。
收起悬浮面板：`Ctrl + Alt + O`。
提交输入框任务：`Enter`。
停止当前任务：点击停止按钮，或在运行中再次使用呼出快捷键进行中断。

macOS 系统快捷键

呼出 / 聚焦同窗：`Control + Option + I`。
收起悬浮面板：`Control + Option + O`。
提交输入框任务：`Enter`。
停止当前任务：点击停止按钮，或在运行中再次使用呼出快捷键进行中断。

快捷键如何使用

保持 CoView 在后台运行。
在任意界面按下系统对应的“呼出 / 聚焦同窗”快捷键。
等待悬浮同窗弹出后，用自然语言输入任务，例如“复制选中的文本”或“帮我总结这个页面”。
输入完成后按 `Enter` 提交任务，CoView 会基于当前界面开始观察、理解并执行后续动作。
如果你暂时不需要同窗显示，可以使用对应系统的“收起悬浮面板”快捷键。

后续版本将推出快捷键自定义功能，你可以根据自己的系统习惯和与其他软件的快捷键冲突情况，自行设置更适合的组合键。写任务时也建议优先使用自然语言描述目标，而不是直接描述平台快捷键。

标准使用流程

CoView 的核心流程是：输入任务 → 观察环境 → 理解意图 → 执行动作 → 回报结果 → 反馈重规划。

1. 输入任务

支持文字、语音、快捷键唤醒输入，任务会进入同一会话上下文。

2. 观察与读取

读取当前屏幕和前台应用状态，为后续决策提供上下文依据。

3. 推理与决策

结合模型能力与历史上下文，输出下一步动作或询问确认。

4. 行动与回报

执行点击、输入、读取、Agent 分流等动作并输出执行结果。

5. 反馈与重规划

根据界面变化自动更新计划，避免任务中断后直接失败。

语音协作指南

语音工作机制

唤醒：通过唤醒词激活语音状态并弹出同窗提示。
聆听：麦克风采集 + VAD 检测 + 降噪处理。
转写：ASR 将语音转换为文本命令。
理解：判断命令是“执行任务”还是“控制指令”。

常用控制口令

口令类型	示例	作用
开始任务	“帮我整理当前页面重点”	进入任务执行流程
停止任务	“停止当前工作”	立即中断当前动作链
继续聆听	“继续听”	回到监听状态等待新命令
退出控制	“退出程序”	触发安全退出流程

设置窗口全部参数说明

以下内容已按 CoView 当前设置窗口的真实分组整理，并全部使用软件界面中的中文参数名展示，不再直接展示代码里的参数变量名。

🧩通用

接口密钥接口配置

用于填写当前主模型服务的 API Key，是连接大模型服务的必要凭证。

基础地址接口配置

用于填写模型服务的请求地址，接入不同模型平台或兼容服务时需要正确配置。

模型名称接口配置

填写当前使用的模型名称。这里应选择支持视觉识别的多模态模型。

思考类型智能配置

控制模型在任务执行时采用的思考模式，不同模式会影响回复风格和规划方式。

推理强度智能配置

决定模型推理时投入的深度和力度，数值更高通常意味着更充分的分析，但耗时也可能更长。

最大文本记忆记忆配置

控制会话中保留多少文本记忆，用于维持上下文连续性。

最大图像记忆记忆配置

控制可保留的图像观察记忆数量，影响跨步骤的视觉连续理解。

历史任务条数记忆配置

决定保留多少历史任务记录，便于后续复用上下文。

默认最大迭代执行行为

限制单次任务最多推进多少轮动作，用来平衡完成度与执行成本。

🫧悬浮球

图片/动图悬浮球外观

设置悬浮球使用的静态图片或动图资源，影响桌面形象展示。

动图始终播放悬浮球外观

开启后，悬浮球动图会持续播放，而不是只在特定状态下播放。

离开重置悬浮球外观

当鼠标离开或状态切换后，是否把动画重置回初始状态。

🎙️语音交互

启用语音合成语音播报配置

控制 CoView 是否可以把回复内容播报出来。

语音合成密钥语音播报配置

用于连接语音合成服务的密钥。

语音合成地址语音播报配置

语音合成服务的接口地址。

语音合成模型语音播报配置

选择用于播报的语音模型。

音色语音播报配置

控制播报的人声风格。

语速语音播报配置

控制播报时的说话速度。

音量语音播报配置

控制播报音量大小。

音调语音播报配置

控制播报时的高低音变化。

启用语音交互语音输入与交互

决定是否开启语音输入、语音识别和语音控制能力。

语音识别服务语音输入与交互

选择当前接入的语音识别服务提供方。

语音识别密钥语音输入与交互

连接语音识别服务时使用的 API Key。

语音识别地址语音输入与交互

语音识别接口地址，接入兼容服务时需要填写。

语音识别模型语音输入与交互

选择具体使用的识别模型。

识别语言语音输入与交互

控制语音识别采用的语言设置。

停止播报文案语音输入与交互

用于定义中断播报时的语音控制口令文本。

过滤播报回声语音输入与交互

开启后会尽量忽略 CoView 自己播报出来的声音，减少误识别。

空闲自动收起语音输入与交互

在空闲一段时间后自动收起语音交互界面，减少遮挡。

录音状态提示语音输入与交互

是否显示当前正在录音或聆听的状态提示。

启用本地唤醒本地语音唤醒

控制是否开启本地唤醒词检测能力。

唤醒引擎本地语音唤醒

选择本地唤醒词检测所使用的引擎。

中文唤醒词本地语音唤醒

设置中文环境下使用的唤醒词内容。

英文唤醒词本地语音唤醒

设置英文环境下使用的唤醒词内容。

命中阈值本地语音唤醒

控制唤醒词识别的敏感度，阈值越合理越能平衡误唤醒和漏唤醒。

冷却时间本地语音唤醒

两次唤醒之间的最短间隔，避免连续误触发。

唤醒后等待超时本地语音唤醒

被唤醒后若长时间未收到语音输入，会自动退出等待状态。

状态提示本地语音唤醒

是否显示本地唤醒相关的状态提示信息。

💡伴随推荐

启用伴随推荐伴随推荐

控制是否在你工作过程中主动给出辅助建议。

开启深度思考伴随推荐

控制伴随推荐是否使用更深入的推理方式来生成建议。

建议显示时长伴随推荐

决定推荐内容在界面上停留多久后自动消失。

稳定等待伴随推荐

在界面稳定一段时间后再触发建议，减少频繁干扰。

高频统计窗口伴随推荐

用于统计你在短时间内切换界面的频率。

高频切换阈值伴随推荐

达到该阈值后，系统会判断当前操作过于频繁并调整建议策略。

抑制冷却时间伴随推荐

在一次高频切换后暂停推荐一段时间，避免打扰。

💻后台代码代理

默认提供方代码代理

选择后台代码代理默认使用的服务提供方。

默认工作目录代码代理

指定后台代码任务默认执行的工作目录。

最大并发任务代码代理

控制后台最多可以同时运行多少个代码任务。

默认超时代码代理

限制后台代码任务的默认最长执行时间。

🛠️高级

过程汇报模式执行配置

决定任务执行时如何向你汇报过程信息。

汇报间隔执行配置

控制执行多少步后汇报一次当前进度。

工具后截图缓冲执行配置

在执行工具动作后等待一小段时间再截图，避免读取到尚未稳定的界面。

移动时长鼠标配置

控制鼠标从一个位置移动到另一个位置所需的时间。

安全保护鼠标配置

用于避免鼠标自动化操作在异常情况下持续失控。

采样率语音检测参数

控制麦克风音频采集的采样率。

音频块大小语音检测参数

决定每次处理音频数据时使用的块大小。

语音检测能量阈值语音检测参数

用于判断当前声音是否达到“开始识别”的能量门槛。

开始说话判定语音检测参数

控制说话持续多久后，系统才认定用户已经开始讲话。

结束静音判定语音检测参数

控制安静持续多久后，系统认定一句话已经结束。

句首缓冲语音检测参数

用于保留说话开始前的一小段音频，减少句首被截断的问题。

单句最长语音检测参数

限制单句语音输入允许持续的最长时间。

实时通信回声消除回声消除

开启后会在实时语音交互中尝试消除系统回放造成的回声。

回声消除帧长回声消除

控制回声消除算法每次处理音频时使用的帧长度。

回声消除延迟估计回声消除

用于估算系统播放音频与麦克风采集之间的延迟。

回声消除降噪回声消除

在回声消除过程中同时进行背景降噪。

回声消除自动增益回声消除

自动调整输入音量，帮助保持更稳定的语音信号强度。

意图分类模型意图分类

选择用于区分“任务指令”和“控制口令”的分类模型。

常见问题

Q1: 为什么 CoView 能回复文字，但看不懂屏幕或不能继续执行界面任务？

最常见原因是当前模型不是支持视觉识别的多模态模型，或者模型接口虽然兼容 OpenAI 风格，但没有真正具备图像理解能力。请优先检查“模型名称”“基础地址”和“接口密钥”是否正确，并确认使用的是支持视觉理解的模型。

Q2: macOS 安装后为什么无法正常控制界面？

macOS 需要在“系统设置 > 隐私与安全性”中为 CoView 开启“辅助功能”和“录屏与系统录音”权限。如果系统提示应用无法验证，还需要先执行去除隔离命令，再重新打开应用。

Q3: 语音唤醒或语音识别为什么没有反应？

请依次检查 4 项内容：是否开启了“启用语音交互”或“启用本地唤醒”；麦克风权限是否已授权；阿里云语音识别相关密钥是否配置正确；本地唤醒词模型是否已经下载完成。默认唤醒词为“你好小彤”和“hey Lucy”。

Q4: 为什么语音输入可以用，但播报时仍然会有回声或识别到自己的播报声音？

项目支持可选的 WebRTC 回声消除，如果该依赖不可用，语音输入通常仍可正常工作，只是 TTS 回声过滤效果会弱一些。此时建议同时开启“过滤播报回声”，并尽量降低外放音量和麦克风音量。

Q5: Windows 上为什么有些窗口能操作，有些高权限窗口不能操作？

普通应用通常可以直接运行和控制；如果目标窗口本身是管理员权限启动的，CoView 也需要在相同权限级别下运行，即以管理员权限运行CoView ，才能稳定执行对应操作。这在系统设置、安装程序或部分受保护窗口中尤其常见。

联系我们

QQ群：859824745