XPULink API Cookbook¶
零基础设施烦恼,构建强大的 AI 应用 - 面向 www.xpulink.ai 平台的完整示例集合 🚀
为什么选择 XPULink?¶
🎯 没有 GPU?没问题!¶
- 100% 云端托管: 所有模型运行在 XPULink 基础设施上
- 零配置: 无需 CUDA、无需驱动、无需昂贵硬件
- 即时访问: 只需 API Key,几分钟内即可开始
⚡ 基于 vLLM - 企业级性能¶
- 15-30 倍速度提升 相比传统推理框架
- 50% 内存效率提升 采用 PagedAttention 技术
- 高并发: 同时处理数千个请求
- 低延迟: 优化的 CUDA 内核带来极速响应
🔌 OpenAI 兼容 API¶
- 可直接替代 OpenAI API
- 支持 LangChain、LlamaIndex 等主流框架
- 从 OpenAI 迁移只需最少代码修改
💰 经济实惠¶
- 按需付费
- 无闲置基础设施成本
- 透明定价
📚 内容概览¶
本 Cookbook 提供生产就绪的示例:
| 功能 | 描述 | 适用场景 |
|---|---|---|
| 🤖 文本生成 | 基于 Qwen3-32B 的基础 LLM 推理 | 聊天、内容生成 |
| 📄 RAG 系统 | 基于 BGE-M3 Embedding 的 PDF 问答 | 文档分析、知识库 |
| 🎯 LoRA 微调 | 自定义模型训练 | 领域适配、风格迁移 |
| 🏭 设备监控 Agent | 工业物联网诊断 | 预测性维护、异常检测 |
| 📊 模型评估 | 使用 OpenBench 进行基准测试 | 模型对比、性能分析 |
所有示例现已使用 LiteLLM 实现优雅的、生产就绪的自定义 API 集成!
🚀 快速开始¶
前置要求¶
- Python 3.8+
- 从 www.xpulink.ai 获取 XPULink API Key
安装¶
# 克隆仓库
git clone https://github.com/xpulinkAI/cookbook.git
cd cookbook
# 安装依赖
pip install -r requirements.txt
# 设置 API Key
echo "XPULINK_API_KEY=your_api_key_here" > .env
第一次 API 调用(30 秒!)¶
from litellm import completion
response = completion(
model="openai/qwen3-32b",
messages=[{"role": "user", "content": "你好!"}],
api_key="your_api_key",
api_base="https://www.xpulink.ai/v1",
custom_llm_provider="openai"
)
print(response.choices[0].message.content)
就这么简单!无需 GPU 配置,无需模型下载,纯粹的 API 魔法。 ✨
📖 示例¶
1. 💬 文本生成¶
使用 LLM 的最简方式
cd function_call
python text_model.py
您将获得: - OpenAI 兼容的聊天补全 - 流式输出支持 - 函数调用(如可用) - 完全控制 temperature、tokens 等参数
为什么使用 XPULink 更简单: - ✅ 无需下载模型(数 GB 数据) - ✅ 无需 GPU - ✅ 即时 API 访问 - ✅ 自动扩展基础设施
2. 📄 RAG 系统(检索增强生成)¶
为您的文档构建 ChatGPT
cd RAG
# 将 PDF 放入 data/
mkdir -p data
cp your_document.pdf data/
# 运行系统
python pdf_rag_bge_m3.py
特性: - 🌍 BGE-M3 Embedding: 一流的多语言模型 - 📚 PDF 处理: 自动文本提取和分块 - 🔍 语义搜索: 为任何问题找到相关上下文 - 🤖 LLM 集成: 基于您的文档生成答案 - 💾 向量存储: 使用 LlamaIndex 实现高效检索
为什么在 XPULink 上使用 RAG: - ✅ 无需 Embedding 服务器: BGE-M3 已为您托管 - ✅ 无需 LLM 托管: Qwen3-32B 随时可用 - ✅ 自动重试: 内置错误处理 - ✅ LiteLLM 集成: 简洁、可维护的代码
使用场景: - 企业知识库 - 客服机器人 - 研究论文分析 - 法律文档搜索
详见 RAG 文档。
3. 🎯 LoRA 微调¶
在云端定制模型以满足您的特定需求!
cd LoRA
# 交互式 Notebook(推荐)
jupyter notebook lora_finetune_example.ipynb
# 或使用 Python 脚本
python lora_finetune.py
什么是 LoRA? - 参数高效: 只训练 0.1% 的模型参数 - 快速: 分钟到小时(vs. 全量微调需要数天) - 便宜: 更低的计算成本 - 有效: 接近全量微调的质量
为什么在 XPULink 上微调: - ✅ 云端训练: 本地零 GPU 需求 - ✅ 托管基础设施: 我们处理一切 - ✅ 简单 API: 上传、配置、训练、部署 - ✅ 快速周转: 快速获得结果
适用场景: - 🏢 企业: 注入公司知识 - 🏥 领域专家: 医疗、法律、金融术语 - ✍️ 风格: 自定义语气、格式、个性 - 🎯 任务优化: 代码生成、文本摘要等
详见 LoRA 微调文档。
4. 🏭 设备监控 Agent¶
AI 驱动的预测性维护
cd Agent
# 交互式演示
jupyter notebook device_agent_example.ipynb
# 或快速测试
python simple_example.py
能力: - 📊 实时分析: 多传感器数据解读 - 📝 日志智能: 错误日志模式识别 - 🔧 维护规划: 预测性调度 - 📈 趋势分析: 识别退化模式 - 📋 自动报告: 结构化诊断输出
行业应用: - 制造业:生产线监控 - 能源:发电设备 - 交通:车队管理 - 数据中心:服务器健康监控
详见 Agent 文档。
5. 📊 模型评估¶
使用 OpenBench 对您的模型进行基准测试
cd Evaluation
# 安装 OpenBench
pip install openbench
# 运行评估
openbench evaluate \
--model-type openai \
--model-name qwen3-32b \
--api-key $XPULINK_API_KEY \
--base-url https://www.xpulink.ai/v1 \
--benchmark mmlu
支持的基准测试: - MMLU(大规模多任务语言理解) - GSM8K(数学推理) - HellaSwag(常识推理) - 自定义基准测试
详见 OpenBench 评估文档。
🏗️ 架构¶
基于 vLLM - 最快的推理引擎¶
XPULink 使用 vLLM(Very Large Language Model)进行所有模型服务:
| 特性 | vLLM (XPULink) | 传统框架 |
|---|---|---|
| 吞吐量 | ⚡ 15-30 倍提升 | 1 倍基准 |
| 内存 | 💾 50% 更高效 | 标准 |
| 延迟 | 🚀 动态批处理 | 静态批处理 |
| 并发 | 🌐 数千用户 | 有限 |
| API | ✅ OpenAI 兼容 | 自定义 |
核心技术: - PagedAttention: 革命性的内存管理 - 连续批处理: 无需等待批次完成 - 张量并行: 多 GPU 扩展 - 量化: FP16、INT8 支持
了解更多: vLLM GitHub
🛠️ 技术栈¶
LiteLLM 集成¶
所有示例使用 LiteLLM 实现优雅的 API 集成:
from litellm import completion
# 跨所有提供商的简洁一致 API
response = completion(
model="openai/qwen3-32b",
messages=[...],
api_key=api_key,
api_base="https://www.xpulink.ai/v1",
custom_llm_provider="openai"
)
为什么选择 LiteLLM: - ✅ 无需 Hack: 无需变通或 monkey-patching - ✅ 生产就绪: 被数千开发者使用 - ✅ 统一接口: 支持 100+ LLM 提供商 - ✅ 内置重试: 自动错误处理 - ✅ 轻松迁移: 一行代码切换提供商
💡 最佳实践¶
API Key 安全¶
# ✅ 正确做法:使用环境变量
XPULINK_API_KEY=your_key python script.py
# ❌ 错误做法:硬编码密钥
api_key = "sk-..." # 永远不要这样做!
错误处理¶
# LiteLLM 提供自动重试
response = completion(
model="openai/qwen3-32b",
messages=[...],
api_key=api_key,
api_base="https://www.xpulink.ai/v1",
custom_llm_provider="openai",
num_retries=3 # 失败时自动重试
)
性能优化¶
- 根据用例使用适当的
temperature - 设置合理的
max_tokens限制 - 尽可能批量处理请求
- 实时应用使用流式输出
🤝 支持与社区¶
获取帮助¶
- 📚 文档: docs.xpulink.ai
- 💬 问题: 在 GitHub 上提交 Issue
- 📧 邮箱: tech-support@xpulink.ai
- 🌐 官网: www.xpulink.ai
贡献¶
欢迎贡献!请: 1. Fork 仓库 2. 创建功能分支 3. 提交 Pull Request
📜 许可证¶
MIT 许可证 - 详见 LICENSE 文件
🌟 为什么开发者喜欢 XPULink¶
"无需 GPU 配置,无需模型下载 - 我在 10 分钟内就运行了一个 RAG 系统!" — Sarah, ML 工程师
"微调 API 为我们节省了数周的基础设施工作。只需上传和训练。" — Mike, 创业公司创始人
"vLLM 性能 + OpenAI 兼容性 = 完美组合" — Alex, DevOps 负责人
🚀 准备好开始了吗?¶
- 获取 API Key: www.xpulink.ai
- 选择示例: 从 RAG 或文本生成开始
- 运行代码: 复制、粘贴、定制
- 部署生产: 自信地扩展
开始体验无需信用卡! 🎉
由 XPULink 团队用 ❤️ 构建
基于 vLLM | OpenAI 兼容 | 生产就绪