YAML Metadata Warning: empty or missing yaml metadata in repo card (https://huggingface.co/docs/hub/model-cards#model-card-metadata)

Qwen3-8B-Python-RAG-AgentCI

一个基于 Qwen3-8B 微调的中文 Python 学习与问答模型,结合 AgentCI-RAG 架构,从经典 Python 教材中自动构建高质量 QA 数据,用于增强模型在 Python 基础、进阶与工程实践方面的理解与表达能力。


📌 项目简介

本项目以 Qwen3-8B 为基座模型,使用自行实现的 AgentCI 改造版 RAG 系统,从多本经典 Python 中文教材中:

  • 自动清洗文本
  • 智能切分语义片段
  • 构造高质量 Question–Answer 对
  • 用于监督微调(SFT / QLoRA)

目标是得到一个:

  • 更擅长中文 Python 学习场景
  • 回答风格清晰、教学友好
  • 理解教材式知识结构的通用 Python 助手模型。

🧠 基座模型

  • Base Model:Qwen3-8B
  • 语言:中文为主
  • 微调方式:SFT(基于 RAG 自动构建 QA 数据)
  • 参数规模:8B

📚 数据来源(文本级)

微调数据来源于以下公开出版的 Python 教材(仅用于研究与模型能力提升):

  • 《Python 基础教程 第3版》
  • 《Python 编程:从入门到实践》
  • 《Python 学习手册(原书第4版)》
  • 《Python 设计模式 第2版》
  • 《流畅的 Python(图灵程序设计丛书)》
  • 《流畅的 Python》

⚠️ 说明

  • 本项目未直接发布原始书籍内容
  • 仅使用清洗、重构后的 QA 数据用于模型训练
  • 模型输出不保证与原文一一对应

🔧 数据构建流程(AgentCI-RAG)

数据并非人工编写,而是通过自研 AgentCI RAG 流程自动生成:

  1. 文本清洗

    • 去除目录、页眉页脚、无关说明
    • 统一编码与格式
  2. 语义切分

    • 基于语义长度与上下文完整性切块
    • 避免硬切 token
  3. QA 自动生成

    • 基于切分文本生成教学向 QA
    • 覆盖概念理解、示例解释、对比分析
  4. 质量过滤

    • 去除重复、低信息量 QA
    • 清理格式异常数据
  5. 用于模型 SFT 微调


🧪 模型能力特点

  • ✅ 更擅长回答 Python 基础概念
  • ✅ 对「为什么要这么写」解释更完整
  • ✅ 偏教材式、教学式表达
  • ✅ 适合:
    • 初学者学习
    • 查漏补缺
    • 中文 Python 问答
Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support