LLaMA Factory微调合并后模型的api调用简单流程（阿里云云平台上操作）3

重点：vllm 版本小于等于0.6.5。还有其他环境下载可以看报错一个个地下载。

池上桜

368人浏览 · 2025-01-24 23:36:07

池上桜 · 2025-01-24 23:36:07 发布

yaml文件/mnt/workspace/LLaMA-Factory/vllm_api.yaml

model_name_or_path: /mnt/workspace/LLaMA-Factory/models/Qwen2-VL-2B-Instruct
adapter_name_or_path: /mnt/workspace/LLaMA-Factory/saves/Qwen2-VL-2B-Instruct/lora/train_2025-01-19-16-13-00
template: qwen2_vl
finetuning_type: lora
infer_backend: vllm
vllm_enforce_eager: true

# llamafactory-cli chat lora_vllm.yaml
# llamafactory-cli webchat lora_vllm.yaml
# API_PORT=8000 llamafactory-cli api lora_vllm.yaml

终端运行

API_PORT=8000 llamafactory-cli api vllm_api.yaml

下载环境

重点：vllm 版本小于等于0.6.5

还有其他环境下载可以看报错一个个地下载

运行实例

本地下载

import requests
import base64

# 请求 URL
url = "http://localhost:8000/v1/chat/completions"

# 请求头
headers = {
    "Content-Type": "application/json"
}

# 请求体（包含模型、消息和图片数据）
data = {
    "model": "Qwen/Qwen2-VL-2B-Instruct",
    "messages": [{
        'role': 'user',
        'content': [{
            'type': 'text',
            'text': '请描述这张图片',
        }, {
            'type': 'image_url',
            "image_url": {
            "url": f"/mnt/workspace/LLaMA-Factory/data/mllm_demo_data/page1.jpg"
             }#使用本地图片的形式
        }],
    }]
}


# 发送 POST 请求
response = requests.post(url, headers=headers, json=data)

# 输出响应结果
if response.status_code == 200:
    print("请求成功！")
    print(response.json())
else:
    print(f"请求失败，状态码: {response.status_code}")
    print(response.text)

网络下载

import requests
import requests
 
url = "http://localhost:8000/v1/chat/completions"
 
# 请求头
headers = {
    "Content-Type": "application/json"
}
 
# 请求体（包含模型、消息和图片数据）
data = {
    "model": "Qwen/Qwen2-VL-2B-Instruct",
    "messages": [{
        'role':
        'user',
        'content': [{
            'type': 'text',
            'text': '中文描述一下这张图片',
        }, {
            'type': 'image_url',
            'image_url': {
                'url':
                'https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg',
            },
        }],
    }]
}
 
# 发送 POST 请求
response = requests.post(url, headers=headers, json=data)
 
# 输出响应结果
if response.status_code == 200:
    print("请求成功！")
    print(response.json())
else:
    print(f"请求失败，状态码: {response.status_code}")
    print(response.text)

加入社区！打开量化的大门，首批课程上线啦！

更多推荐

终极指南：5步复现Spring Boot安全风险CVE-2016-1000027

Spring Boot安全风险CVE-2016-1000027是一个严重的Java反序列化问题，允许攻击者通过恶意序列化数据执行任意代码。本文将详细解析这一问题的原理、复现方法和修复方案。## 🔍 问题背景与原理剖析CVE-2016-1000027问题源于Spring Framework中的`HttpInvokerServiceExporter`和`RemoteInvocationSer

量化交易与投资社区

终极指南：如何避免RateLimitExceededException的Laravel API安全防护

在构建RESTful API时，避免RateLimitExceededException是每个开发者必须掌握的关键技能。Dingo API作为Laravel和Lumen框架的强大RESTful API包，提供了完整的速率限制机制来保护你的应用程序免受恶意请求和过量访问。本文将为你详细介绍如何配置和使用这些安全功能。## 🛡️ 什么是速率限制及其重要性速率限制是API安全的第一道防线，它能