XPULink API Cookbook¶

零基础设施烦恼，构建强大的 AI 应用 - 面向 www.xpulink.ai 平台的完整示例集合 🚀

为什么选择 XPULink？¶

🎯 没有 GPU？没问题！¶

100% 云端托管: 所有模型运行在 XPULink 基础设施上
零配置: 无需 CUDA、无需驱动、无需昂贵硬件
即时访问: 只需 API Key，几分钟内即可开始

⚡ 基于 vLLM - 企业级性能¶

15-30 倍速度提升 相比传统推理框架
50% 内存效率提升 采用 PagedAttention 技术
高并发: 同时处理数千个请求
低延迟: 优化的 CUDA 内核带来极速响应

🔌 OpenAI 兼容 API¶

可直接替代 OpenAI API
支持 LangChain、LlamaIndex 等主流框架
从 OpenAI 迁移只需最少代码修改

💰 经济实惠¶

按需付费
无闲置基础设施成本
透明定价

📚 内容概览¶

本 Cookbook 提供生产就绪的示例：

功能	描述	适用场景
🤖 文本生成	基于 Qwen3-32B 的基础 LLM 推理	聊天、内容生成
📄 RAG 系统	基于 BGE-M3 Embedding 的 PDF 问答	文档分析、知识库
🎯 LoRA 微调	自定义模型训练	领域适配、风格迁移
🏭 设备监控 Agent	工业物联网诊断	预测性维护、异常检测
📊 模型评估	使用 OpenBench 进行基准测试	模型对比、性能分析

所有示例现已使用 LiteLLM 实现优雅的、生产就绪的自定义 API 集成！

🚀 快速开始¶

前置要求¶

Python 3.8+
从 www.xpulink.ai 获取 XPULink API Key

安装¶

# 克隆仓库
git clone https://github.com/xpulinkAI/cookbook.git
cd cookbook

# 安装依赖
pip install -r requirements.txt

# 设置 API Key
echo "XPULINK_API_KEY=your_api_key_here" > .env

第一次 API 调用（30 秒！）¶

from litellm import completion

response = completion(
    model="openai/qwen3-32b",
    messages=[{"role": "user", "content": "你好！"}],
    api_key="your_api_key",
    api_base="https://www.xpulink.ai/v1",
    custom_llm_provider="openai"
)

print(response.choices[0].message.content)

就这么简单！无需 GPU 配置，无需模型下载，纯粹的 API 魔法。 ✨

📖 示例¶

1. 💬 文本生成¶

使用 LLM 的最简方式

cd function_call
python text_model.py

您将获得: - OpenAI 兼容的聊天补全 - 流式输出支持 - 函数调用（如可用） - 完全控制 temperature、tokens 等参数

为什么使用 XPULink 更简单: - ✅ 无需下载模型（数 GB 数据） - ✅ 无需 GPU - ✅ 即时 API 访问 - ✅ 自动扩展基础设施

快速开始

2. 📄 RAG 系统（检索增强生成）¶

为您的文档构建 ChatGPT

cd RAG

# 将 PDF 放入 data/
mkdir -p data
cp your_document.pdf data/

# 运行系统
python pdf_rag_bge_m3.py

特性: - 🌍 BGE-M3 Embedding: 一流的多语言模型 - 📚 PDF 处理: 自动文本提取和分块 - 🔍 语义搜索: 为任何问题找到相关上下文 - 🤖 LLM 集成: 基于您的文档生成答案 - 💾 向量存储: 使用 LlamaIndex 实现高效检索

为什么在 XPULink 上使用 RAG: - ✅ 无需 Embedding 服务器: BGE-M3 已为您托管 - ✅ 无需 LLM 托管: Qwen3-32B 随时可用 - ✅ 自动重试: 内置错误处理 - ✅ LiteLLM 集成: 简洁、可维护的代码

使用场景: - 企业知识库 - 客服机器人 - 研究论文分析 - 法律文档搜索

详见 RAG 文档。

3. 🎯 LoRA 微调¶

在云端定制模型以满足您的特定需求！

cd LoRA

# 交互式 Notebook（推荐）
jupyter notebook lora_finetune_example.ipynb

# 或使用 Python 脚本
python lora_finetune.py

什么是 LoRA？ - 参数高效: 只训练 0.1% 的模型参数 - 快速: 分钟到小时（vs. 全量微调需要数天） - 便宜: 更低的计算成本 - 有效: 接近全量微调的质量

为什么在 XPULink 上微调: - ✅ 云端训练: 本地零 GPU 需求 - ✅ 托管基础设施: 我们处理一切 - ✅ 简单 API: 上传、配置、训练、部署 - ✅ 快速周转: 快速获得结果

适用场景: - 🏢 企业: 注入公司知识 - 🏥 领域专家: 医疗、法律、金融术语 - ✍️ 风格: 自定义语气、格式、个性 - 🎯 任务优化: 代码生成、文本摘要等

详见 LoRA 微调文档。

4. 🏭 设备监控 Agent¶

AI 驱动的预测性维护

cd Agent

# 交互式演示
jupyter notebook device_agent_example.ipynb

# 或快速测试
python simple_example.py

能力: - 📊 实时分析: 多传感器数据解读 - 📝 日志智能: 错误日志模式识别 - 🔧 维护规划: 预测性调度 - 📈 趋势分析: 识别退化模式 - 📋 自动报告: 结构化诊断输出

行业应用: - 制造业：生产线监控 - 能源：发电设备 - 交通：车队管理 - 数据中心：服务器健康监控

详见 Agent 文档。

5. 📊 模型评估¶

使用 OpenBench 对您的模型进行基准测试

cd Evaluation

# 安装 OpenBench
pip install openbench

# 运行评估
openbench evaluate \
  --model-type openai \
  --model-name qwen3-32b \
  --api-key $XPULINK_API_KEY \
  --base-url https://www.xpulink.ai/v1 \
  --benchmark mmlu

支持的基准测试: - MMLU（大规模多任务语言理解） - GSM8K（数学推理） - HellaSwag（常识推理） - 自定义基准测试

详见 OpenBench 评估文档。

🏗️ 架构¶

基于 vLLM - 最快的推理引擎¶

XPULink 使用 vLLM（Very Large Language Model）进行所有模型服务：

特性	vLLM (XPULink)	传统框架
吞吐量	⚡ 15-30 倍提升	1 倍基准
内存	💾 50% 更高效	标准
延迟	🚀 动态批处理	静态批处理
并发	🌐 数千用户	有限
API	✅ OpenAI 兼容	自定义

核心技术: - PagedAttention: 革命性的内存管理 - 连续批处理: 无需等待批次完成 - 张量并行: 多 GPU 扩展 - 量化: FP16、INT8 支持

了解更多: vLLM GitHub

🛠️ 技术栈¶

LiteLLM 集成¶

所有示例使用 LiteLLM 实现优雅的 API 集成：

from litellm import completion

# 跨所有提供商的简洁一致 API
response = completion(
    model="openai/qwen3-32b",
    messages=[...],
    api_key=api_key,
    api_base="https://www.xpulink.ai/v1",
    custom_llm_provider="openai"
)

为什么选择 LiteLLM: - ✅ 无需 Hack: 无需变通或 monkey-patching - ✅ 生产就绪: 被数千开发者使用 - ✅ 统一接口: 支持 100+ LLM 提供商 - ✅ 内置重试: 自动错误处理 - ✅ 轻松迁移: 一行代码切换提供商

💡 最佳实践¶

API Key 安全¶

# ✅ 正确做法：使用环境变量
XPULINK_API_KEY=your_key python script.py

# ❌ 错误做法：硬编码密钥
api_key = "sk-..."  # 永远不要这样做！

错误处理¶

# LiteLLM 提供自动重试
response = completion(
    model="openai/qwen3-32b",
    messages=[...],
    api_key=api_key,
    api_base="https://www.xpulink.ai/v1",
    custom_llm_provider="openai",
    num_retries=3  # 失败时自动重试
)

性能优化¶

根据用例使用适当的 temperature
设置合理的 max_tokens 限制
尽可能批量处理请求
实时应用使用流式输出

🤝 支持与社区¶

获取帮助¶

📚 文档: docs.xpulink.ai
💬 问题: 在 GitHub 上提交 Issue
📧 邮箱: tech-support@xpulink.ai
🌐 官网: www.xpulink.ai

贡献¶

欢迎贡献！请： 1. Fork 仓库 2. 创建功能分支 3. 提交 Pull Request

📜 许可证¶

MIT 许可证 - 详见 LICENSE 文件

🌟 为什么开发者喜欢 XPULink¶

"无需 GPU 配置，无需模型下载 - 我在 10 分钟内就运行了一个 RAG 系统！" — Sarah, ML 工程师

"微调 API 为我们节省了数周的基础设施工作。只需上传和训练。" — Mike, 创业公司创始人

"vLLM 性能 + OpenAI 兼容性 = 完美组合" — Alex, DevOps 负责人

🚀 准备好开始了吗？¶

获取 API Key: www.xpulink.ai
选择示例: 从 RAG 或文本生成开始
运行代码: 复制、粘贴、定制
部署生产: 自信地扩展

开始体验无需信用卡！ 🎉

由 XPULink 团队用 ❤️ 构建

基于 vLLM | OpenAI 兼容 | 生产就绪