https://github.com/TommyZihao/vlm_arm
机械臂+大模型+多模态=人机协作具身智能体
https://github.com/TommyZihao/vlm_arm
Last synced: 2 months ago
JSON representation
机械臂+大模型+多模态=人机协作具身智能体
- Host: GitHub
- URL: https://github.com/TommyZihao/vlm_arm
- Owner: TommyZihao
- Created: 2024-05-23T11:15:08.000Z (over 1 year ago)
- Default Branch: main
- Last Pushed: 2025-03-28T05:12:17.000Z (8 months ago)
- Last Synced: 2025-05-22T09:14:59.494Z (6 months ago)
- Language: Jupyter Notebook
- Size: 22.2 MB
- Stars: 812
- Watchers: 8
- Forks: 143
- Open Issues: 2
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
- awesome-robotics-ee-opensource - GitHub
README
# 机械臂+大模型+多模态=人机协作具身智能体
作者:同济子豪兄

## 相关视频
机械臂接入GPT4o大模型,秒变多模态AI贾维斯:https://www.bilibili.com/video/BV18w4m1U7Fi
听得懂人话、看得懂图像、指哪打哪的机械臂是怎么炼成的:https://www.bilibili.com/video/BV1Cn4y1R7V2
同济子豪兄亚马逊中国峰会演讲:多模态生成式AI的N种玩法:https://www.bilibili.com/video/BV1Pi421U7D6
首发实测!百度文心大模型4.0 Turbo接入机械臂智能体:https://www.bilibili.com/video/BV16M4m1m7Z1
【通义灵码】AI帮我啃祖传代码是什么体验?:https://www.bilibili.com/video/BV1Qz421i7Nd
我的抓药机械臂做了一个违背祖宗的决定:https://www.bilibili.com/video/BV1yr421K7Qs
耗时六个月,我造出了《三体》中机器人刺杀罗辑的KILLER病毒:https://www.bilibili.com/video/BV1Wm42137kR
## 原理

目标:听人话、看图像、找坐标、排动作、定格式
智能体Agent大语言模型:Yi-Large、Claude 3 Opus、文心大模型4.0 Turbo
多模态视觉理解大模型:GPT4v、GPT4o、Yi-Vision、Claude 3 Opus、智谱CogVLM2-Grounding、通义千问Qwen-VL-Max
## 机械臂及配件
机械臂:大象机器人Mycobot 280 Pi
开发板:树莓派4B Ubuntu 20.04
配件:摄像头法兰、吸泵
购买同款:淘宝搜大象机器人,报子豪兄粉丝可以打九五折
## 注意事项
复现教程:https://njapov1vnz.feishu.cn/docx/Qosedmc5NoYK7IxVoMBcD47jn9b?from=from_copylink
开机教程:https://njapov1vnz.feishu.cn/docx/SJQXdIWfUo85HjxXyEBc0Wpfnqc?from=from_copylink
- 需要安装Python 3.12及所需工具包
- 需要把API_KEY.py中的KEY换成你自己的KEY
- 需要确认麦克风ID和扬声器设备
- 需要确认摄像头和语音正常
## 特别感谢
零一万物 马诺
百度飞桨 刘聪琳
大象机器人售后技术支持团队
恒之未来 宋佩恒
能源算力融合(哈密)研究院算力与计算服务研究所 杨耀东
上海人工智能实验室 李佳伦
华中科技大学网络空间安全学院TAI团队 章航滔
渭南师范学院 田文博