https://github.com/chicogong/conversational-ai-agent

TRTC-based Conversational AI Agent Platform - real-time voice/video AI interactions
https://github.com/chicogong/conversational-ai-agent

a2a ai-agent asr conversational-ai express golang llm mcp nodejs openai python real-time tencent-cloud trtc tts typescript vad voice-assistant voice-chat voiceprint

Last synced: 4 months ago
JSON representation

TRTC-based Conversational AI Agent Platform - real-time voice/video AI interactions

Host: GitHub
URL: https://github.com/chicogong/conversational-ai-agent
Owner: chicogong
License: mit
Created: 2025-05-06T11:31:59.000Z (about 1 year ago)
Default Branch: master
Last Pushed: 2025-12-23T12:30:46.000Z (6 months ago)
Last Synced: 2025-12-25T01:52:27.849Z (6 months ago)
Topics: a2a, ai-agent, asr, conversational-ai, express, golang, llm, mcp, nodejs, openai, python, real-time, tencent-cloud, trtc, tts, typescript, vad, voice-assistant, voice-chat, voiceprint
Language: HTML
Size: 15 MB
Stars: 0
Watchers: 1
Forks: 0
Open Issues: 10
Metadata Files:
- Readme: README.md
- License: LICENSE

Awesome Lists containing this project

README

# 🚀 Conversationsal AI Agent

[![Conversationsal AI Agent](https://img.shields.io/badge/Conversationsal_AI_Agent-2.0.0-blue.svg)](https://cloud.tencent.com/product/trtc)
[![AI Agent](https://img.shields.io/badge/AI_Agent-2.0.0-blue.svg)](https://cloud.tencent.com/document/product/647/110584)
[![Node.js](https://img.shields.io/badge/Node.js-18.0.0-green.svg)](https://nodejs.org/)
[![License](https://img.shields.io/badge/License-MIT-yellow.svg)](LICENSE)
[![PRs Welcome](https://img.shields.io/badge/PRs-welcome-brightgreen.svg)](CONTRIBUTING.md)

## ✨ 产品简介

Conversationsal AI Agent 是一个快速 AI 应用构建平台，让您轻松打造智能语音交互应用。通过简单的配置，即可实现多种 AI 对话场景，如智能客服、语音助手、情感陪聊等。

[Deepwiki for Conversationsal AI Agent](https://deepwiki.com/chicogong/conversationsal-ai-agent)

## 🌟 核心特性

- 🎯 **快速集成**：基于 TRTC SDK，快速实现音视频通话功能
- 🤖 **AI能力丰富**：集成多种 AI 能力，满足不同场景需求
- ⚙️ **灵活配置**：支持自定义 Agent 配置，轻松扩展新功能
- 🛡️ **稳定可靠**：依托 TRTC 强大的音视频能力，确保通话质量
- 🎨 **简单易用**：提供简洁的 API 接口，降低开发门槛
- 🌐 **多Agent支持**：支持多种Agent类型，满足不同场景需求

## 💯 核心亮点

### 体验优化

- ✅ **自然交互**：支持语义断句、自然停顿和思考时间
- ✅ **环境适应**：声纹识别技术支持嘈杂环境下的对话，有效过滤背景人声
- ✅ **真实感提升**：支持环境音模拟，增强对话真实感

### 技术优化

- ⚡ **响应速度**：采用分句策略实现首句快速返回，欢迎语预请求降低耗时
- 🔊 **语音质量**：服务端噪声过滤，ASR降噪参数优化
- 🤝 **交互体验**：智能附和语增加拟人化交互，VAD打断优化，单字过滤减少误打断

### 高级功能

- 📊 **服务端回调**：支持延迟统计、内容审核、通话记录存储
- 📱 **客户端回调**：实时字幕展示、状态展示、异常处理、通话统计

## 🔄 系统架构

下图展示了Conversational AI Agent的核心处理流程，包括语音输入处理、AI生成和输出环节：

### 主要组件

- **语音输入处理**：包含ASR语音识别、AI VAD、声纹识别和情感识别等模块
- **AI生成服务**：支持LLM、LLM+RAG、MCP、A2A、Dify、知识引擎等多种生成方式
- **语音输出处理**：采用拟人化实时TTS技术，提供高质量的语音合成

整个系统通过流式处理实现低延迟、高质量的实时对话体验。

## 🎮 Agent Card 展示

我们的平台支持多种 Agent 类型，每种 Agent 都有其独特的应用场景：

| Agent 类型 | 核心功能 | 适用场景 | 实现状态 |
| -------------- | -------------------------------------------------------------------------------- | ---------------------- | --------- |
| 外呼客服 Agent | 自动外呼、智能话术、质量监控 | 营销、客服回访 | ✅ 已实现 |
| 甜妹陪聊 Agent | 自然交互、情感超拟人对话、个性化陪伴 | 社交、娱乐 | ✅ 已实现 |
| 声纹锁定 Agent | 声纹锁定、过滤周边人声、保证高质量通话 | 办公室，街道等嘈杂场景 | ✅ 已实现 |
| MCP Agent | 接入[MCP](https://github.com/modelcontextprotocol)扩展工具调用等功能 | 更便捷的工具调用 | ✅ 已实现 |
| A2A Agent | 接入[A2A](https://github.com/google/A2A)协议 | 多Agent对话 | 🔄 开发中 |
| Coze Agent | 接入 [Coze](https://www.coze.com) 平台能力 | 快速构建智能对话应用 | 🔄 开发中 |
| Dify Agent | 接入 [Dify](https://dify.ai) 平台能力 | 企业级 AI 应用开发 | 🔄 开发中 |
| 知识引擎 Agent | 接入[腾讯云知识引擎](https://cloud.tencent.com/product/lke) 企业级知识库解决方案 | 智能问答、知识库查询 | 🔄 开发中 |

如果需要某个Agent可以留言，我们会尽快为您提供。
当然，您也可以根据您的需求，创建自己的Agent。
也可以将您的AgentCard贡献到这个项目中，让更多的人使用您的Agent。

## 🚀 快速开始

### 1. 安装依赖

```bash
npm install
```

### 2. 配置环境变量

复制 `env.example` 文件为 `.env`，并填入您的实际配置值：

```bash
cp env.example .env
# 然后编辑 .env 文件，填入您的配置信息
```

主要环境变量包括：

- 腾讯云API凭证（TENCENT_SECRET_ID, TENCENT_SECRET_KEY）：从[腾讯云 API 密钥](https://console.cloud.tencent.com/cam/capi)获取
- TRTC配置（TRTC_SDK_APP_ID, TRTC_SECRET_KEY）：从[TRTC 控制台](https://console.cloud.tencent.com/trtc/app)获取
- LLM配置（LLM_API_KEY, LLM_API_URL, LLM_MODEL）：从您的 LLM 服务提供商获取
- TTS配置：
- 腾讯云 TTS: AppId从[TTS 控制台](https://console.cloud.tencent.com/tts)获取，SecretId和SecretKey从[腾讯云 API 密钥](https://console.cloud.tencent.com/cam/capi)获取
- Minimax TTS: GroupId, APIKey, VoiceType从 Minimax 控制台获取

### 3. 使用配置向导创建Agent(可选)

运行以下命令来创建您的自定义AI助手：

```bash
npm run create
```

按照提示输入您的配置信息，向导将自动创建Agent配置文件。

### 4. 启动应用

```bash
npm start
```

## 🛠️ 自定义Agent配置

### 配置向导

设置向导将要求您提供以下信息：

- **基本信息**：助手ID、名称、描述、能力列表、语音类型、个性
- **行为配置**：欢迎消息、打断模式
- **语音识别配置**：语言模型、热词列表
- **大语言模型配置**：LLM类型、历史长度、系统提示词
- **文本转语音配置**：TTS提供商、语音模型、语速

## 📦 项目结构

```
conversational-ai-agent/
│
├── public/ # 静态资源
│ ├── index.html # 主页面
│ └── assets/ # 图片等静态资源
│
├── src/ # 源代码目录
│ ├── js/ # JavaScript 文件
│ │ ├── api.js # API 调用相关
│ │ ├── app.js # 应用主逻辑
│ │ ├── trtc-client.js # TRTC客户端
│ │ ├── metrics.js # 指标相关
│ │ ├── constants.js # 常量定义
│ │ ├── agent-card.js # 代理卡片
│ │ └── ui.js # UI 相关
│ │
│ ├── styles/ # CSS 样式文件
│ │ └── styles.css # 主样式文件
│ │
│ └── agent_cards/ # 代理卡片配置
│ ├── assets/ # 代理卡片资源
│ ├── scripts/ # 配置工具脚本
│ │ └── create_agent.js # AI-Agent创建工具
│ ├── sweet_girl.js # 代理配置
│ ├── mcp_tencent_map.js # 代理配置
│ ├── default.js # 默认代理
│ └── index.js # 导出配置
│
├── docs/ # 文档
│
├── server.js # 服务器入口文件
├── env.example # 环境变量示例
├── package.json # 项目配置
└── README.md # 项目说明
```

## 🤝 贡献指南

我们欢迎任何形式的贡献！请查看我们的 [贡献指南](CONTRIBUTING.md) 了解更多信息。

## 📄 许可证

本项目采用 [MIT 许可证](LICENSE)。

## 📞 联系我们

- 邮箱：chicogong@tencent.com
- TRTC-AI文档：[产品文档](https://cloud.tencent.com/document/product/647/110584)
- 问题反馈：[GitHub Issues](https://github.com/yourusername/trtc-ai-build-quickly/issues)
- 提交工单：[提交工单](https://cloud.tencent.com/online-service?from=doc_647)

## 🙏

感谢您使用Conversationsal AI Agent !!

_{Built with ❤️ by chico}

ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Awesome

https://github.com/chicogong/conversational-ai-agent

Awesome Lists containing this project

README