English | 简体中文
Agent Lego 是一个开源的多功能工具 API 库,用于扩展和增强基于大型语言模型(LLM)的智能体(Agent),具有以下突出特点:
- 丰富的多模态扩展工具集,包括视觉感知、图像生成和编辑、语音处理和视觉语言推理等。
- 灵活的工具接口,允许用户轻松扩展具有任意类型参数和输出的自定义工具。
- 与基于LLM的代理程序框架轻松集成,如 LangChain、Transformers Agent、Lagent。
- 支持部署工具服务和远程访问,这对于需要大型机器学习模型(例如 ViT)或特殊环境(例如 GPU 和 CUDA)的工具特别有用。
AgentLego._720p.mp4
安装 AgentLego 包
pip install agentlego
安装工具特定的依赖
一些工具需要额外的软件包,请查看工具的自述文件,并确认所有要求都得到满足。
例如,如果我们想要使用ImageDescription
工具。我们需要查看工具 readme 的 Set up 小节并安装所需的软件。
pip install -U openmim
mim install -U mmpretrain
from agentlego import list_tools, load_tool
print(list_tools()) # list tools in AgentLego
image_caption_tool = load_tool('ImageDescription', device='cuda')
print(image_caption_tool.description)
image = './examples/demo.png'
caption = image_caption_tool(image)
通用能力
- Calculator: 使用 Python 解释器进行计算
- GoogleSearch: 使用 Google 搜索
语音相关
- TextToSpeech: 将输入文本转换为音频。
- SpeechToText: 将音频转录为文本。
图像处理相关
- ImageDescription: 描述输入图像。
- OCR: 从照片中识别文本。
- VQA: 根据图片回答问题。
- HumanBodyPose: 估计图像中人体的姿态或关键点,并绘制人体姿态图像
- HumanFaceLandmark: 识别图像中人脸的关键点,并绘制带有关键点的图像。
- ImageToCanny: 从图像中提取边缘图像。
- ImageToDepth: 生成图像的深度图像。
- ImageToScribble: 生成一张图像的涂鸦草图。
- ObjectDetection: 检测图像中的所有物体。
- TextToBbox: 检测图像中的给定对象。
- Segment Anything 系列工具
- SegmentAnything: 分割图像中的所有物体。
- SegmentObject: 根据给定的物体名称,在图像中分割出特定的物体。
AIGC 相关
- TextToImage: 根据输入文本生成一张图片。
- ImageExpansion: 根据图像的内容扩展图像的周边区域。
- ObjectRemove: 删除图像中的特定对象。
- ObjectReplace: 替换图像中的特定对象。
- ImageStylization: 根据指令修改一张图片。
- ControlNet 系列工具
- CannyTextToImage: 根据 Canny 边缘图像和描述生成图像。
- DepthTextToImage: 根据深度图像和描述生成图像。
- PoseToImage: 根据人体姿势图像和描述生成图像。
- ScribbleTextToImage: 根据涂鸦草图和描述生成图像。
- ImageBind 系列工具
- AudioToImage: 根据音频生成图像。
- ThermalToImage: 根据热成像图生成一张图像。
- AudioImageToImage: 根据音频和图像生成新的图像。
- AudioTextToImage: 从音频和文本提示生成图像。
该项目采用Apache 2.0 开源许可证。