跳转至

XPULink API Cookbook

零基础设施烦恼,构建强大的 AI 应用 - 面向 www.xpulink.ai 平台的完整示例集合 🚀

🎯 没有 GPU?没问题!

  • 100% 云端托管: 所有模型运行在 XPULink 基础设施上
  • 零配置: 无需 CUDA、无需驱动、无需昂贵硬件
  • 即时访问: 只需 API Key,几分钟内即可开始

基于 vLLM - 企业级性能

  • 15-30 倍速度提升 相比传统推理框架
  • 50% 内存效率提升 采用 PagedAttention 技术
  • 高并发: 同时处理数千个请求
  • 低延迟: 优化的 CUDA 内核带来极速响应

🔌 OpenAI 兼容 API

  • 可直接替代 OpenAI API
  • 支持 LangChain、LlamaIndex 等主流框架
  • 从 OpenAI 迁移只需最少代码修改

💰 经济实惠

  • 按需付费
  • 无闲置基础设施成本
  • 透明定价

📚 内容概览

本 Cookbook 提供生产就绪的示例:

功能 描述 适用场景
🤖 文本生成 基于 Qwen3-32B 的基础 LLM 推理 聊天、内容生成
📄 RAG 系统 基于 BGE-M3 Embedding 的 PDF 问答 文档分析、知识库
🎯 LoRA 微调 自定义模型训练 领域适配、风格迁移
🏭 设备监控 Agent 工业物联网诊断 预测性维护、异常检测
📊 模型评估 使用 OpenBench 进行基准测试 模型对比、性能分析

所有示例现已使用 LiteLLM 实现优雅的、生产就绪的自定义 API 集成!


🚀 快速开始

前置要求

安装

# 克隆仓库
git clone https://github.com/xpulinkAI/cookbook.git
cd cookbook

# 安装依赖
pip install -r requirements.txt

# 设置 API Key
echo "XPULINK_API_KEY=your_api_key_here" > .env

第一次 API 调用(30 秒!)

from litellm import completion

response = completion(
    model="openai/qwen3-32b",
    messages=[{"role": "user", "content": "你好!"}],
    api_key="your_api_key",
    api_base="https://www.xpulink.ai/v1",
    custom_llm_provider="openai"
)

print(response.choices[0].message.content)

就这么简单!无需 GPU 配置,无需模型下载,纯粹的 API 魔法。


📖 示例

1. 💬 文本生成

使用 LLM 的最简方式

cd function_call
python text_model.py

您将获得: - OpenAI 兼容的聊天补全 - 流式输出支持 - 函数调用(如可用) - 完全控制 temperature、tokens 等参数

为什么使用 XPULink 更简单: - ✅ 无需下载模型(数 GB 数据) - ✅ 无需 GPU - ✅ 即时 API 访问 - ✅ 自动扩展基础设施

快速开始


2. 📄 RAG 系统(检索增强生成)

为您的文档构建 ChatGPT

cd RAG

# 将 PDF 放入 data/
mkdir -p data
cp your_document.pdf data/

# 运行系统
python pdf_rag_bge_m3.py

特性: - 🌍 BGE-M3 Embedding: 一流的多语言模型 - 📚 PDF 处理: 自动文本提取和分块 - 🔍 语义搜索: 为任何问题找到相关上下文 - 🤖 LLM 集成: 基于您的文档生成答案 - 💾 向量存储: 使用 LlamaIndex 实现高效检索

为什么在 XPULink 上使用 RAG: - ✅ 无需 Embedding 服务器: BGE-M3 已为您托管 - ✅ 无需 LLM 托管: Qwen3-32B 随时可用 - ✅ 自动重试: 内置错误处理 - ✅ LiteLLM 集成: 简洁、可维护的代码

使用场景: - 企业知识库 - 客服机器人 - 研究论文分析 - 法律文档搜索

详见 RAG 文档


3. 🎯 LoRA 微调

在云端定制模型以满足您的特定需求!

cd LoRA

# 交互式 Notebook(推荐)
jupyter notebook lora_finetune_example.ipynb

# 或使用 Python 脚本
python lora_finetune.py

什么是 LoRA? - 参数高效: 只训练 0.1% 的模型参数 - 快速: 分钟到小时(vs. 全量微调需要数天) - 便宜: 更低的计算成本 - 有效: 接近全量微调的质量

为什么在 XPULink 上微调: - ✅ 云端训练: 本地零 GPU 需求 - ✅ 托管基础设施: 我们处理一切 - ✅ 简单 API: 上传、配置、训练、部署 - ✅ 快速周转: 快速获得结果

适用场景: - 🏢 企业: 注入公司知识 - 🏥 领域专家: 医疗、法律、金融术语 - ✍️ 风格: 自定义语气、格式、个性 - 🎯 任务优化: 代码生成、文本摘要等

详见 LoRA 微调文档


4. 🏭 设备监控 Agent

AI 驱动的预测性维护

cd Agent

# 交互式演示
jupyter notebook device_agent_example.ipynb

# 或快速测试
python simple_example.py

能力: - 📊 实时分析: 多传感器数据解读 - 📝 日志智能: 错误日志模式识别 - 🔧 维护规划: 预测性调度 - 📈 趋势分析: 识别退化模式 - 📋 自动报告: 结构化诊断输出

行业应用: - 制造业:生产线监控 - 能源:发电设备 - 交通:车队管理 - 数据中心:服务器健康监控

详见 Agent 文档


5. 📊 模型评估

使用 OpenBench 对您的模型进行基准测试

cd Evaluation

# 安装 OpenBench
pip install openbench

# 运行评估
openbench evaluate \
  --model-type openai \
  --model-name qwen3-32b \
  --api-key $XPULINK_API_KEY \
  --base-url https://www.xpulink.ai/v1 \
  --benchmark mmlu

支持的基准测试: - MMLU(大规模多任务语言理解) - GSM8K(数学推理) - HellaSwag(常识推理) - 自定义基准测试

详见 OpenBench 评估文档


🏗️ 架构

基于 vLLM - 最快的推理引擎

XPULink 使用 vLLM(Very Large Language Model)进行所有模型服务:

特性 vLLM (XPULink) 传统框架
吞吐量 15-30 倍提升 1 倍基准
内存 💾 50% 更高效 标准
延迟 🚀 动态批处理 静态批处理
并发 🌐 数千用户 有限
API OpenAI 兼容 自定义

核心技术: - PagedAttention: 革命性的内存管理 - 连续批处理: 无需等待批次完成 - 张量并行: 多 GPU 扩展 - 量化: FP16、INT8 支持

了解更多: vLLM GitHub


🛠️ 技术栈

LiteLLM 集成

所有示例使用 LiteLLM 实现优雅的 API 集成:

from litellm import completion

# 跨所有提供商的简洁一致 API
response = completion(
    model="openai/qwen3-32b",
    messages=[...],
    api_key=api_key,
    api_base="https://www.xpulink.ai/v1",
    custom_llm_provider="openai"
)

为什么选择 LiteLLM: - ✅ 无需 Hack: 无需变通或 monkey-patching - ✅ 生产就绪: 被数千开发者使用 - ✅ 统一接口: 支持 100+ LLM 提供商 - ✅ 内置重试: 自动错误处理 - ✅ 轻松迁移: 一行代码切换提供商


💡 最佳实践

API Key 安全

# ✅ 正确做法:使用环境变量
XPULINK_API_KEY=your_key python script.py

# ❌ 错误做法:硬编码密钥
api_key = "sk-..."  # 永远不要这样做!

错误处理

# LiteLLM 提供自动重试
response = completion(
    model="openai/qwen3-32b",
    messages=[...],
    api_key=api_key,
    api_base="https://www.xpulink.ai/v1",
    custom_llm_provider="openai",
    num_retries=3  # 失败时自动重试
)

性能优化

  • 根据用例使用适当的 temperature
  • 设置合理的 max_tokens 限制
  • 尽可能批量处理请求
  • 实时应用使用流式输出

🤝 支持与社区

获取帮助

贡献

欢迎贡献!请: 1. Fork 仓库 2. 创建功能分支 3. 提交 Pull Request


📜 许可证

MIT 许可证 - 详见 LICENSE 文件


"无需 GPU 配置,无需模型下载 - 我在 10 分钟内就运行了一个 RAG 系统!" — Sarah, ML 工程师

"微调 API 为我们节省了数周的基础设施工作。只需上传和训练。" — Mike, 创业公司创始人

"vLLM 性能 + OpenAI 兼容性 = 完美组合" — Alex, DevOps 负责人


🚀 准备好开始了吗?

  1. 获取 API Key: www.xpulink.ai
  2. 选择示例: 从 RAG 或文本生成开始
  3. 运行代码: 复制、粘贴、定制
  4. 部署生产: 自信地扩展

开始体验无需信用卡! 🎉


由 XPULink 团队用 ❤️ 构建

基于 vLLM | OpenAI 兼容 | 生产就绪