简介

Agent Lego 是一个开源的多功能工具 API 库，用于扩展和增强基于大型语言模型（LLM）的智能体（Agent），具有以下突出特点：

丰富的多模态扩展工具集，包括视觉感知、图像生成和编辑、语音处理和视觉语言推理等。
灵活的工具接口，允许用户轻松扩展具有任意类型参数和输出的自定义工具。
与基于LLM的代理程序框架轻松集成，如 LangChain、Transformers Agent、Lagent。
支持部署工具服务和远程访问，这对于需要大型机器学习模型（例如 ViT）或特殊环境（例如 GPU 和 CUDA）的工具特别有用。

AgentLego._720p.mp4

快速开始

安装环境

安装 AgentLego 包

pip install agentlego

安装工具特定的依赖

一些工具需要额外的软件包，请查看工具的自述文件，并确认所有要求都得到满足。

例如，如果我们想要使用ImageDescription工具。我们需要查看工具 readme 的 Set up 小节并安装所需的软件。

pip install -U openmim
mim install -U mmpretrain

直接使用工具

from agentlego import list_tools, load_tool

print(list_tools())  # list tools in AgentLego

image_caption_tool = load_tool('ImageDescription', device='cuda')
print(image_caption_tool.description)
image = './examples/demo.png'
caption = image_caption_tool(image)

集成至智能体框架

Lagent
Transformers Agent
VisualChatGPT

工具列表

通用能力

Calculator: 使用 Python 解释器进行计算
GoogleSearch: 使用 Google 搜索

语音相关

TextToSpeech: 将输入文本转换为音频。
SpeechToText: 将音频转录为文本。

图像处理相关

ImageDescription: 描述输入图像。
OCR: 从照片中识别文本。
VQA: 根据图片回答问题。
HumanBodyPose: 估计图像中人体的姿态或关键点，并绘制人体姿态图像
HumanFaceLandmark: 识别图像中人脸的关键点，并绘制带有关键点的图像。
ImageToCanny: 从图像中提取边缘图像。
ImageToDepth: 生成图像的深度图像。
ImageToScribble: 生成一张图像的涂鸦草图。
ObjectDetection: 检测图像中的所有物体。
TextToBbox: 检测图像中的给定对象。
Segment Anything 系列工具
- SegmentAnything: 分割图像中的所有物体。
- SegmentObject: 根据给定的物体名称，在图像中分割出特定的物体。

AIGC 相关

TextToImage: 根据输入文本生成一张图片。
ImageExpansion: 根据图像的内容扩展图像的周边区域。
ObjectRemove: 删除图像中的特定对象。
ObjectReplace: 替换图像中的特定对象。
ImageStylization: 根据指令修改一张图片。
ControlNet 系列工具
- CannyTextToImage: 根据 Canny 边缘图像和描述生成图像。
- DepthTextToImage: 根据深度图像和描述生成图像。
- PoseToImage: 根据人体姿势图像和描述生成图像。
- ScribbleTextToImage: 根据涂鸦草图和描述生成图像。
ImageBind 系列工具
- AudioToImage: 根据音频生成图像。
- ThermalToImage: 根据热成像图生成一张图像。
- AudioImageToImage: 根据音频和图像生成新的图像。
- AudioTextToImage: 从音频和文本提示生成图像。

开源许可证

该项目采用Apache 2.0 开源许可证。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README_zh-CN.md

README_zh-CN.md

简介

快速开始

安装环境

直接使用工具

集成至智能体框架

工具列表

开源许可证

Files

README_zh-CN.md

Latest commit

History

README_zh-CN.md

File metadata and controls

简介

快速开始

安装环境

直接使用工具

集成至智能体框架

工具列表

开源许可证