{"id":51416245,"url":"https://github.com/horn-studio/intel_unslothfix","last_synced_at":"2026-07-04T20:00:24.081Z","repository":{"id":369332122,"uuid":"1289404431","full_name":"Horn-Studio/Intel_UnslothFix","owner":"Horn-Studio","description":"Produced by号角工作室/适用于Windows11与WSL2的针对Intel Arc独显的Unsloth的微调问题修复 Produced by Horn Studio / Unsloth Fine-Tuning Fixes for Intel Arc dGPUs on Windows 11 \u0026 WSL2","archived":false,"fork":false,"pushed_at":"2026-07-04T18:20:54.000Z","size":155,"stargazers_count":1,"open_issues_count":0,"forks_count":0,"subscribers_count":0,"default_branch":"main","last_synced_at":"2026-07-04T19:14:32.909Z","etag":null,"topics":["a770","arc","fix","intel","unsloth","wsl2"],"latest_commit_sha":null,"homepage":"","language":"Python","has_issues":true,"has_wiki":null,"has_pages":null,"mirror_url":null,"source_name":null,"license":"gpl-3.0","status":null,"scm":"git","pull_requests_enabled":true,"icon_url":"https://github.com/Horn-Studio.png","metadata":{"files":{"readme":"README.md","changelog":null,"contributing":null,"funding":null,"license":"LICENSE","code_of_conduct":null,"threat_model":null,"audit":null,"citation":null,"codeowners":null,"security":null,"support":null,"governance":null,"roadmap":null,"authors":null,"dei":null,"publiccode":null,"codemeta":null,"zenodo":null,"notice":null,"maintainers":null,"copyright":null,"agents":null,"dco":null,"cla":null}},"created_at":"2026-07-04T17:52:28.000Z","updated_at":"2026-07-04T18:20:57.000Z","dependencies_parsed_at":null,"dependency_job_id":null,"html_url":"https://github.com/Horn-Studio/Intel_UnslothFix","commit_stats":null,"previous_names":["horn-studio/intel_unslothfix"],"tags_count":2,"template":false,"template_full_name":null,"purl":"pkg:github/Horn-Studio/Intel_UnslothFix","repository_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/Horn-Studio%2FIntel_UnslothFix","tags_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/Horn-Studio%2FIntel_UnslothFix/tags","releases_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/Horn-Studio%2FIntel_UnslothFix/releases","manifests_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/Horn-Studio%2FIntel_UnslothFix/manifests","owner_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners/Horn-Studio","download_url":"https://codeload.github.com/Horn-Studio/Intel_UnslothFix/tar.gz/refs/heads/main","sbom_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/Horn-Studio%2FIntel_UnslothFix/sbom","scorecard":null,"host":{"name":"GitHub","url":"https://github.com","kind":"github","repositories_count":286080680,"owners_count":35133834,"icon_url":"https://github.com/github.png","version":null,"created_at":"2022-05-30T11:31:42.601Z","updated_at":"2026-05-26T15:22:16.424Z","status":"online","status_checked_at":"2026-07-04T02:00:05.987Z","response_time":113,"last_error":null,"robots_txt_status":"success","robots_txt_updated_at":"2025-07-24T06:49:26.215Z","robots_txt_url":"https://github.com/robots.txt","online":true,"can_crawl_api":true,"host_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub","repositories_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories","repository_names_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repository_names","owners_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners"}},"keywords":["a770","arc","fix","intel","unsloth","wsl2"],"created_at":"2026-07-04T20:00:13.539Z","updated_at":"2026-07-04T20:00:24.047Z","avatar_url":"https://github.com/Horn-Studio.png","language":"Python","funding_links":[],"categories":[],"sub_categories":[],"readme":"\u003cdiv align=\"center\"\u003e\n\n**[简体中文](#简体中文) | [繁體中文](#繁體中文) | [English](#english) | [日本語](#日本語) | [Русский](#русский)**\n\n\u003c/div\u003e\n\n---\n\n# \u003ca id=\"简体中文\"\u003e\u003c/a\u003e简体中文\n\n# Intel Arc A770 + Unsloth 双端微调指南\n\n\u003e **Windows 端**：Windows 11 上使用 Intel Arc A770 16GB 对 4bit 量化模型（全量模型大概率也可以，此处选择 Qwen3-8b-bnb-4bit）进行 LoRA 微调。由于 Triton 的 Intel XPU backend 在 Windows 上未经完整测试，直接运行会产生大量 MSVC/GCC 兼容性问题。本仓库的一部分旨在提供一个解决方案。\n\u003e\n\u003e **WSL2/Linux 端**：原权重 \u003c 16GB 的非量化模型（如 Qwen3.5-4B、Qwen3-1.7B 等），本指南基于 Intel Arc A770 16GB 作为设备，Qwen3.5-4B 作为模型。\n\n---\n\n# Intel Arc A770 + Unsloth + Windows 微调脚本\n\n\u003e **适用场景**：Windows 11 上使用 Intel Arc A770 16GB 对 4bit 量化模型（全量模型大概率也可以，此处选择 Qwen3-8b-bnb-4bit）进行 LoRA 微调\n\u003e \n\u003e 由于 Triton 的 Intel XPU backend 在 Windows 上未经完整测试，直接运行会产生大量 MSVC/GCC 兼容性问题。本仓库的一部分旨在提供一个解决方案\n\n---\n\n## 一、功能\n\n- 在 **Windows 11** 上使用 **Intel Arc A770** 进行 **Qwen3-8B-BNB（仅为示例，其他模型自行测试）** 模型的 Unsloth LoRA 微调\n- 自动检测并加载 Intel oneAPI + MSVC 编译环境\n- 自动修复 Triton 在 Windows MSVC 下的 GCC 参数兼容性问题\n- 自动修复 MSVC 头文件/库文件路径缺失问题\n- 支持训练完成后导出 LoRA / 16bit 完整权重 / GGUF（由于没有跑完过所以最后是否能够转完整权重和 ggud 还未知，自行有耐心测试）\n\n---\n\n## 二、前提安装\n\n### 硬件\n- **GPU**: Intel Arc 独显（核心显卡理论可行未测试，B系列理论可行未测试）\n- **系统**: Windows 11 \n\n### 软件\n\n| 组件 | 版本/要求 | 用途 |\n|------|----------|------|\n| Intel Arc 显卡驱动 | 最新版 (31.0.101.xxx+) | GPU 计算 |\n| Intel oneAPI Base Toolkit 和 DeepLearning Toolkit | 2025.2 和最新版 | SYCL / Level Zero 运行时 |\n| Level Zero SDK | 1.28.x - 1.30.x | Triton XPU backend |\n| Visual Studio 2022 | Community/Professional/Enterprise | MSVC C++ 编译器 |\n| Python | 3.13 (Windows 版) | 运行环境 |\n| PyTorch | 2.12.1+xpu (Intel 官方 wheel) | XPU 深度学习框架 |\n| Unsloth | 2026.6.9 | 快速微调框架 |\n\n### VS 2022 必须安装的工作负载\n- **\"使用 C++ 的桌面开发\"**\n- **MSVC v143 - VS 2022 C++ x64/x86 生成工具**\n- **Windows 11 SDK**\n\n---\n\n## 三、适用模型\n\n| 模型 | 格式 | 状态 |\n|------|------|------|\n| Qwen3-8B-BNB | 4-bit BNB (unsloth 预量化) | ✅ 已验证可行但速度极慢 |\n\n\u003e 其他模型未经测试。理论上只要是 Unsloth 支持的、通过 BNB 4-bit 加载的模型均可使用，但可能需要额外调整。\n\n---\n\n## 四、为 Intel Arc 修复的 Bug\n\n### 1. Triton GCC 参数透传给 MSVC 导致 D8021 错误\n**现象**: `cl: 命令行 error D8021 :无效的数值参数\"/Wno-psabi\"` \n**原因**: Triton Intel XPU backend 按 GCC 风格生成编译命令，直接传给 `cl.exe` \n**修复**: 拦截 `triton.runtime.build._build`，过滤 `-Wno-psabi`、`-Wno-deprecated-declarations`、`-fPIC` 等 GCC 参数，并将 `-D`/`-I`/`-L`/`-l`/`-shared` 转换为 MSVC 风格 `/D`/`-I`/`-LIBPATH:`/`lib`/`/LD`\n\n### 2. MSVC 找不到 C++ 标准库头文件（`cstddef` 等）\n**现象**: `fatal error C1083: 无法打开包括文件: \"cstddef\"` \n**原因**: `vcvars64.bat` 只设置了 `PATH`，没设置 `INCLUDE` 和 `LIB` 环境变量 \n**修复**: 从 `cl.exe` 路径自动推断 MSVC 工具链根目录，补全 `INCLUDE`（MSVC include + Windows SDK ucrt/shared/um + ATL/MFC）和 `LIB`（MSVC lib/x64 + Windows SDK lib）\n\n### 3. SYCL 头文件要求 C++17\n**现象**: `error C2338: static_assert failed: 'DPCPP does not support C++ version earlier than C++17.'` \n**原因**: MSVC 默认 C++14，SYCL 头文件用 `__cplusplus` 宏检查版本 \n**修复**: 编译命令添加 `/std:c++17` 和 `/Zc:__cplusplus`（后者让 MSVC 正确设置 `__cplusplus` 宏为 `201703L`）\n\n### 4. 链接时找不到 `python313.lib`\n**现象**: `LINK : fatal error LNK1104: 无法打开文件\"python313.lib\"` \n**原因**: Triton 编译 Python 扩展（`.pyd`）时，`library_dirs` 只包含 `Library/bin` 和 `Library/lib`，没有 `libs` \n**修复**: 自动检测 `Python313/libs` 目录并添加到 `/LIBPATH`\n\n### 5. 链接器要求入口点（缺少 `/LD`）\n**现象**: `LINK : fatal error LNK1561: 必须定义入口点` \n**原因**: `.pyd` 本质是 DLL，需要 `/LD` 标志，但编译命令中没有 \n**修复**: 在编译命令中添加 `/LD`（创建 DLL）\n\n### 6. Triton JIT 编译极慢（缓存不生效）\n**现象**: 训练第一步耗时 20+ 分钟，GPU 利用率接近 0% \n**原因**: Windows 上 Triton Intel XPU backend 的 JIT kernel 缓存机制有问题，每次 step 都可能重新编译 SPIR-V \n**缓解**: 设置 `TRITON_CACHE_DIR` 和 `TRITON_DISABLE_AUTOTUNE=1` 减少重复编译开销\n\n---\n\n## 五、仍存问题\n\n- **训练速度极慢**: 即使修复了编译问题，Windows 上 Triton XPU backend 的 JIT kernel 执行效率远低于 Linux，GPU 利用率长期低于 10%，单步训练仍需数分钟至数十分钟\n- **Triton 缓存不完全可靠**: `TRITON_CACHE_DIR` 有时无法命中，导致同一 kernel 多次重新编译\n- **Level Zero SDK 版本不一致**: 环境变量 `ZE_PATH` 指向 1.30.0，但 Triton 编译命令中可能出现 1.28.2 路径，需手动统一\n- **xformers 不支持**: Intel XPU 无法使用 xformers（仅 CUDA），Unsloth 的部分 FlashAttention 优化失效\n- **mem_get_info 跨平台差异**: `torch.xpu.memory.mem_get_info()` 在 Windows Intel Arc 驱动上可用，但在 WSL2/Linux 上不可用（跨平台脚本需注意）\n\n---\n\n## 六、版本说明（Release）\n\n第八个版本才是能够开始跑起来的模型，前七个版本都没有完整修复 bug 使其正常开始调试\n\n---\n\n## 七、快速开始\n\n```powershell\n# 1. 确保已安装所有前提软件（见上文）\n# 2. 下载 Release 并解压\n# 3. 修改脚本顶部的 CONFIG 区域（模型路径、数据集路径等）\n# 4. 运行\n```\n\n---\n\n## 八、配置说明\n\n```python\nCONFIG = {\n \"model_path\": r\"H:/Qwen3-8B-unsloth-bnb-4bit\", # 模型路径\n \"dataset_path\": r\"D:/dataset.json\", # 数据集路径\n \"output_dir\": r\"H:/unsloth_train/outputs\", # 输出目录\n \"max_seq_length\": 1024,\n \"lora_r\": 16,\n \"lora_alpha\": 16,\n \"learning_rate\": 2e-4,\n \"batch_size\": 1, # 根据显存调整\n \"grad_accum\": 4, # 总 batch = batch_size * grad_accum\n \"max_steps\": 3000,\n \"warmup_steps\": 5,\n}\n```\n\n---\n\n## 九、微小故障排查\n\n| 出现的问题 | 现象 | 解决方案 |\n|---|---|---|\n| **Triton GCC 参数报错** | `D8021 :无效的数值参数\"/Wno-psabi\"` | 使用 v2+ 版本，已过滤 GCC 参数 |\n| **找不到 C++ 头文件** | `fatal error C1083: \"cstddef\"` | 使用 v4+ 版本，自动修复 INCLUDE |\n| **SYCL 要求 C++17** | `DPCPP does not support C++ version earlier than C++17` | 使用 v5+ 版本，已添加 `/std:c++17` |\n| **找不到 python313.lib** | `LNK1104: 无法打开文件\"python313.lib\"` | 使用 v6+ 版本，自动添加 Python libs |\n| **必须定义入口点** | `LNK1561: 必须定义入口点` | 使用 v7+ 版本，已添加 `/LD` |\n| **训练第一步极慢** | 20+ 分钟，GPU 利用率 0% | 使用 v8 版本，设置 `TRITON_CACHE_DIR`；若仍极慢，建议迁移到 WSL2/Linux |\n| **Windows 原生训练不可接受** | 1523s/it，GPU 利用率 6% | **必须迁移到 WSL2/Linux**，Windows 上 Triton XPU backend 未经优化 |\n| **Level Zero 版本不一致** | 编译命令中出现不同版本路径 | 统一环境变量 `ZE_PATH` 与实际安装的 SDK 版本 |\n\n---\n\n## 十、性能对比\n\n| 环境 | 模型 | 速度 | GPU 利用率 |\n|---|---|---|---|\n| Windows 11 | Qwen3-8B bnb-4bit | 1523s/it | 6% |\n| WSL2 Ubuntu 24.04 | Qwen3-8B bnb-4bit | 11-15s/it | 70-85% |\n\n\u003e **结论**: Windows 上只能解决\"能跑\"的问题，无法解决\"快\"的问题。如需实际训练，强烈建议迁移到 WSL2/Linux。\n\n---\n\n## 十一、一键重建脚本（Windows 环境检查）\n\n```powershell\n# 检查必要环境变量\n$env:ZE_PATH\n$env:CC\n\n# 检查 VS 2022 安装\nTest-Path \"C:\\Program Files\\Microsoft Visual Studio2\\Community\\VC\\Auxiliary\\Build\u000bcvars64.bat\"\n\n# 检查 Python 版本\npython --version # 应为 3.13\n\n# 检查 PyTorch XPU\npython -c \"import torch; print(torch.__version__); print(torch.xpu.is_available())\"\n\n# 检查 Triton\npython -c \"import triton; print(triton.__version__)\"\n```\n\n---\n\n## 十二、未来预计更新的功能\n\n1. **添加终端版图形化**：提升易用性\n2. **最后导出 merged 与 gguf**：导出待测试\n3. **Windows 速度优化**：等待 Intel/Triton 官方修复 XPU backend 在 Windows 上的性能或尝试移植包\n\n---\n\n\u003e **最后**：祝训练胜利！如需实际训练，请移步 WSL2/Linux\n\n---\n\n---\n\n# Intel Arc A770 + Unsloth + WSL2 微调模型脚本\n\n\u003e **适用场景**：原权重 \u003c 16GB 的非量化模型（如 Qwen3.5-4B、Qwen3-1.7B 等），本指南基于 Intel Arc A770 16GB 作为设备，Qwen3.5-4B 作为模型\n\u003e \n\n---\n\n## 一、硬件/环境要求\n\n- **GPU**: Intel Arc 独显设备（核心显卡为测试请自查，B系列理论可行但未测试）\n- **OS**: Windows 11 21H2+，开启 WSL2\n- **WSL2 发行版**: Ubuntu 24.04 (Noble) ，22.04 的 Intel GPU 驱动包名和仓库路径不同，26.04 的 Python 版本过高不适用\n- **Python**: 3.12\n\n\n---\n\n## 二、WSL2 Ubuntu 24.04 安装\n\n在 Windows PowerShell（管理员）中执行：\n\n```powershell\n# 更新 WSL\nwsl --update\n\n# 安装 Ubuntu 24.04\nwsl --install Ubuntu-24.04\nwsl --set-default Ubuntu-24.04\n#如果提示找不到那就是微软服务器间歇抽风，请通过 store rg 下载 Ubuntu 安装包自行安装\n\n# 验证版本\nwsl --list --verbose\n# 应显示 Ubuntu-24.04 Running 版本 2\n```\n\n---\n\n## 三、Intel GPU 驱动和运行时配置\n\n进入 WSL2 Ubuntu 24.04 终端，执行（如果出现缺失包等问题请自行 sudo apt 安装或者询问 AI）：\n\n```bash\n# 1. 更新系统\nsudo apt update \u0026\u0026 sudo apt upgrade -y\n\n# 2. 安装基础工具\nsudo apt install -y gpg-agent wget build-essential python3.12-dev\n\n# 3. 添加 Intel GPU 仓库（Noble 版本）\nwget -qO - https://repositories.intel.com/gpu/intel-graphics.key | \\\n sudo gpg --dearmor --output /usr/share/keyrings/intel-graphics.gpg\n\necho 'deb [arch=amd64,i386 signed-by=/usr/share/keyrings/intel-graphics.gpg] https://repositories.intel.com/gpu/ubuntu noble unified' | \\\n sudo tee /etc/apt/sources.list.d/intel.gpu.noble.list\n\nsudo apt update\n\n# 4. 安装 Intel GPU 运行时（关键包）\nsudo apt install -y libze-dev intel-opencl-icd intel-media-va-driver-non-free \\\n libmfx1 libvpl2 libegl-mesa0 libegl1-mesa-dev libgbm1 libgl1-mesa-dev \\\n libgl1-mesa-dri libglapi-mesa libgles2-mesa-dev libglx-mesa0 libigdgmm12 \\\n libxatracker2 mesa-va-drivers mesa-vdpau-drivers mesa-vulkan-drivers va-driver-all\n\n# 5. 将用户加入 render 组（GPU 访问权限）\nsudo gpasswd -a ${USER} render\nnewgrp render\n\n# 6. 验证 GPU 可见性\nls /dev/dri\n# 应看到 renderD128 和 card0\n\nclinfo | grep \"Device Name\"\n# 应显示 Intel(R) Arc(TM) A770 Graphics 或者 0x5860 之类\n```\n\n\u003e **⚠️绝对注意**：\n\u003e - 不要装完整版 oneAPI Base Toolkit（会污染 LD_LIBRARY_PATH，导致 PyTorch 库冲突）\n\u003e - 如果之前装过 oneAPI 并配置了 /etc/profile.d/oneapi.sh，**务必删除**：\n\u003e ```bash\n\u003e sudo rm /etc/profile.d/oneapi.sh\n\u003e ```\n\u003e - 如果 sycl-ls 后来因版本冲突坏了，**不影响 PyTorch 训练**，不用管。\n\n---\n\n## 四、PyTorch XPU 环境安装（虚拟环境名为 unsloth_env）\n\n```bash\n# 1. 创建虚拟环境\npython3 -m venv ~/unsloth_env\nsource ~/unsloth_env/bin/activate\n\n# 2. 升级 pip\npip install --upgrade pip setuptools wheel\n\n# 3. 安装 PyTorch XPU 完整栈（自带 pytorch-triton-xpu，不要单独装 triton）\npip install torch==2.7.1+xpu torchvision==0.22.1+xpu torchaudio==2.7.1+xpu \\\n intel-cmplr-lib-rt intel-cmplr-lib-ur intel-cmplr-lic-rt intel-sycl-rt \\\n pytorch-triton-xpu tcmlib umf intel-pti \\\n --index-url https://download.pytorch.org/whl/xpu \\\n --extra-index-url https://pypi.org/simple\n\n# 4. 验证 PyTorch XPU\npython -c \"import torch; print('PyTorch:', torch.__version__); print('XPU:', torch.xpu.is_available())\"\n\n# 5. 验证 Triton XPU（正确的验证方式）\npython -c \"\nimport torch\nimport triton\nimport triton.language as tl\n\n@triton.jit\ndef test_kernel(x_ptr, out_ptr, n_elements, BLOCK_SIZE: tl.constexpr):\n pid = tl.program_id(axis=0)\n block_start = pid * BLOCK_SIZE\n offsets = block_start + tl.arange(0, BLOCK_SIZE)\n mask = offsets \u003c n_elements\n x = tl.load(x_ptr + offsets, mask=mask)\n tl.store(out_ptr + offsets, x, mask=mask)\n\nx = torch.rand(128, device='xpu')\nout = torch.empty_like(x)\nn_elements = x.numel()\ngrid = lambda meta: (triton.cdiv(n_elements, meta['BLOCK_SIZE']),)\ntest_kernel[grid](x, out, n_elements, BLOCK_SIZE=128)\nprint('Triton XPU test passed!')\n\"\n```\n\n\u003e **⚠️注意事项**：\n\u003e - **不要** `pip install triton`（会覆盖 pytorch-triton-xpu，导致 Intel XPU backend 丢失，且安装的是通用版 triton 不包含 xpu 算子支持）\n\u003e - **不要** `pip install xformers`（只支持 CUDA，会连带安装 NVIDIA 驱动）\n\u003e - **不要** `pip install intel_extension_for_pytorch`（PyTorch 2.7.1+xpu 已有原生 XPU 支持，IPEX 会引入版本冲突）\n\n---\n\n## 五、Unsloth 安装\n\n```bash\nsource ~/unsloth_env/bin/activate\n\n# 1. 安装 Unsloth（必须保持无依赖安装）\npip install --no-deps unsloth unsloth-zoo\n\n# 2. 手动安装 Unsloth 的其他依赖（跳过 xformers 和 triton）\npip install transformers==5.5.0 datasets==4.3.0 trl==0.24.0 \\\n cut_cross_entropy hf_transfer msgspec torchao tyro diffusers \\\n nest-asyncio pydantic peft accelerate bitsandbytes \\\n huggingface-hub tokenizers protobuf numpy scipy tqdm regex \\\n sentencepiece safetensors psutil packaging\n```\n\n---\n\n## 六、该脚本做出的修复\n\n### torch.xpu.memory.mem_get_info() 不支持\nPyTorch issue #164057，Arc A770 WSL2/Linux 驱动未实现此 API。\n**修复**：monkey-patch 返回固定值。\n\n### torch.xpu.get_device_properties() 可能崩溃\n**修复**：异常时返回 FakeProps。\n\n### Intel XPU 在 WSL2 下缺失显存分配函数\n**修复**：设置环境变量 `UR_L0_ENABLE_RELAXED_ALLOCATION_LIMITS=1` 和 `PYTORCH_XPU_ALLOC_CONF=expandable_segments:True`。\n\n### transformers caching_allocator_warmup 导致 OOM\n**修复**：在 `import unsloth` 之前禁用。\n\n### Triton JIT 编译慢（Intel XPU 通病）\n**修复**：设置 `TRITON_CACHE_DIR` 缓存编译结果，设置 `IPEX_XPU_ONEDNN_LAYOUT=1` 加速内存吞吐量。\n\n### Unsloth fix_untrained_tokens 与 meta tensor 冲突\n**修复**：禁用该函数。\n\n---\n\n## 七、完整训练代码（v11 优化版）\n\n已提供于 release 或仓库中，请自行查找，最终可用版本为 v12，前 11 个版本都没有完整修复上述问题\n\n---\n\n## 八、一键重建脚本\n\n如果你搞炸了环境，直接运行这个脚本重建：\n\n```bash\nset -e\n\necho \"\u003e\u003e\u003e 开始重建环境...\"\n\n# 1. 删除旧环境\nrm -rf ~/unsloth_env\n\n# 2. 创建新环境\npython3 -m venv ~/unsloth_env\nsource ~/unsloth_env/bin/activate\n\n# 3. 升级 pip\npip install --upgrade pip setuptools wheel\n\n# 4. 安装 PyTorch XPU \necho \"\u003e\u003e\u003e 安装 PyTorch XPU...\"\npip install torch==2.7.1+xpu torchvision==0.22.1+xpu torchaudio==2.7.1+xpu \\\n intel-cmplr-lib-rt intel-cmplr-lib-ur intel-cmplr-lic-rt intel-sycl-rt \\\n pytorch-triton-xpu tcmlib umf intel-pti \\\n --index-url https://download.pytorch.org/whl/xpu \\\n --extra-index-url https://pypi.org/simple\n\n# 5. 验证 PyTorch XPU\npython -c \"import torch; print('PyTorch:', torch.__version__); print('XPU:', torch.xpu.is_available())\"\n\n# 6. 验证 Triton XPU\necho \"\u003e\u003e\u003e 验证 Triton XPU...\"\npython -c \"\nimport torch\nimport triton\nimport triton.language as tl\n\n@triton.jit\ndef test_kernel(x_ptr, out_ptr, n_elements, BLOCK_SIZE: tl.constexpr):\n pid = tl.program_id(axis=0)\n block_start = pid * BLOCK_SIZE\n offsets = block_start + tl.arange(0, BLOCK_SIZE)\n mask = offsets \u003c n_elements\n x = tl.load(x_ptr + offsets, mask=mask)\n tl.store(out_ptr + offsets, x, mask=mask)\n\nx = torch.rand(128, device='xpu')\nout = torch.empty_like(x)\nn_elements = x.numel()\ngrid = lambda meta: (triton.cdiv(n_elements, meta['BLOCK_SIZE']),)\ntest_kernel[grid](x, out, n_elements, BLOCK_SIZE=128)\nprint('Triton XPU test passed!')\n\"\n\n# 7. 安装 Unsloth（不覆盖 PyTorch）\necho \"\u003e\u003e\u003e 安装 Unsloth...\"\npip install --no-deps unsloth unsloth-zoo\n\n# 8. 手动安装其他依赖（跳过 xformers 和 triton）\npip install transformers==5.5.0 datasets==4.3.0 trl==0.24.0 \\\n cut_cross_entropy hf_transfer msgspec torchao tyro diffusers \\\n nest-asyncio pydantic peft accelerate bitsandbytes \\\n huggingface-hub tokenizers protobuf numpy scipy tqdm regex \\\n sentencepiece safetensors psutil packaging\n```\n\n---\n\n## 九、运行训练\n\n**预期输出**：\n- 模型加载到 `xpu:0`，显存占用约 8-10GB\n- 第一步可能较慢（Triton JIT 编译），约 10-20 秒\n- 第二步起稳定约 **11-15 秒/步**\n- GPU 利用率 70-85%\n\n---\n\n## 十、微小故障排查\n\n| 出现的问题 | 现象 | 解决方案 |\n|---|---|---|\n| **Ubuntu 22.04 驱动包名不对** | `libze1` 找不到，`sycl-ls` 报错 | 换 **24.04 (noble)**，包名是 `libze-dev` |\n| **oneAPI 污染 LD_LIBRARY_PATH** | PyTorch 报 `libur_loader.so` 版本冲突 | 删除 `/etc/profile.d/oneapi.sh`，不加载 oneAPI 环境变量 |\n| **通用 triton 覆盖 xpu 版** | `0 active drivers` 或 `cannot import intel` | **不要** `pip install triton`，只用 `pytorch-triton-xpu` |\n| **bitsandbytes 4-bit 不支持 XPU** | `cdequantize_blockwise_fp32` 报错 | 改用 bf16 加载，不用 4-bit |\n| **accelerate device_map 训练冲突** | `Can't train model loaded with device_map='auto'` | 模型全进 GPU（`device_map=\"xpu\"` + `low_cpu_mem_usage=True`） |\n| **meta tensor backward 报错** | `Cannot copy out of meta tensor` | 确保模型全在 GPU，不 offload 到 CPU |\n| **Triton JIT 编译极慢** | 第一步 10-20 分钟 | 正常现象，设置 `TRITON_CACHE_DIR` 缓存，后续重启会快 |\n| **Windows 原生训练极慢** | 1523s/it，GPU 利用率 6% | **必须迁移到 WSL2**，Windows 上 Triton XPU backend 未经优化 |\n| **HuggingFace 联网超时** | `Timed out after 120s` | `local_files_only=True` 强制离线加载 |\n| **模型内存双份** | CPU 内存和 GPU 显存各一份 | `low_cpu_mem_usage=True` + `device_map=\"xpu\"` |\n\n---\n\n## 十一、性能对比\n\n| 环境 | 模型 | 速度 | GPU 利用率 |\n|---|---|---|---|\n| Windows 11 | Qwen3-8B bnb-4bit | 1523s/it | 6% |\n| WSL2 Ubuntu 24.04 | Qwen3.5-4B bf16 | **11-15s/it** | **70-85%** |\n\n---\n\n## 十二、未来预计更新的功能\n\n1. **添加终端版图形化**：提升易用性\n2. **最后导出 merged 与 gguf**：`自动下载 llama.cpp 导出\n3. **4bit 模型支持**：Intel XPU bitsandbytes 4bit 支持懒烂得要命等我去修\n\n---\n\n\u003e **最后**：祝训练胜利！\n\n---\n\n---\n\n# \u003ca id=\"繁體中文\"\u003e\u003c/a\u003e繁體中文\n\n# Intel Arc A770 + Unsloth 雙端微調指南\n\n\u003e **Windows 端**：Windows 11 上使用 Intel Arc A770 16GB 對 4bit 量化模型（全量模型大概率也可以，此處選擇 Qwen3-8b-bnb-4bit）進行 LoRA 微調。由於 Triton 的 Intel XPU backend 在 Windows 上未經完整測試，直接執行會產生大量 MSVC/GCC 相容性問題。本倉庫的一部分旨在提供一個解決方案。\n\u003e\n\u003e **WSL2/Linux 端**：原始權重 \u003c 16GB 的非量化模型（如 Qwen3.5-4B、Qwen3-1.7B 等），本指南基於 Intel Arc A770 16GB 作為裝置，Qwen3.5-4B 作為模型。\n\n---\n\n# Intel Arc A770 + Unsloth + Windows 微調腳本\n\n\u003e **適用場景**：Windows 11 上使用 Intel Arc A770 16GB 對 4bit 量化模型（全量模型大概率也可以，此處選擇 Qwen3-8b-bnb-4bit）進行 LoRA 微調\n\u003e \n\u003e 由於 Triton 的 Intel XPU backend 在 Windows 上未經完整測試，直接執行會產生大量 MSVC/GCC 相容性問題。本倉庫的一部分旨在提供一個解決方案\n\n---\n\n## 一、功能\n\n- 在 **Windows 11** 上使用 **Intel Arc A770** 進行 **Qwen3-8B-BNB（僅為範例，其他模型自行測試）** 模型的 Unsloth LoRA 微調\n- 自動偵測並載入 Intel oneAPI + MSVC 編譯環境\n- 自動修復 Triton 在 Windows MSVC 下的 GCC 參數相容性問題\n- 自動修復 MSVC 標頭檔/函式庫路徑缺失問題\n- 支援訓練完成後匯出 LoRA / 16bit 完整權重 / GGUF（由於沒有跑完過所以最後是否能夠轉完整權重和 gguf 還未知，自行有耐心測試）\n\n---\n\n## 二、前提安裝\n\n### 硬體\n- **GPU**: Intel Arc 獨顯（核心顯示卡理論可行未測試，B系列理論可行未測試）\n- **系統**: Windows 11 \n\n### 軟體\n\n| 元件 | 版本/要求 | 用途 |\n|------|----------|------|\n| Intel Arc 顯示卡驅動 | 最新版 (31.0.101.xxx+) | GPU 計算 |\n| Intel oneAPI Base Toolkit 和 DeepLearning Toolkit | 2025.2 和最新版 | SYCL / Level Zero 執行階段 |\n| Level Zero SDK | 1.28.x - 1.30.x | Triton XPU backend |\n| Visual Studio 2022 | Community/Professional/Enterprise | MSVC C++ 編譯器 |\n| Python | 3.13 (Windows 版) | 執行環境 |\n| PyTorch | 2.12.1+xpu (Intel 官方 wheel) | XPU 深度學習框架 |\n| Unsloth | 2026.6.9 | 快速微調框架 |\n\n### VS 2022 必須安裝的工作負載\n- **\"使用 C++ 的桌面開發\"**\n- **MSVC v143 - VS 2022 C++ x64/x86 生成工具**\n- **Windows 11 SDK**\n\n---\n\n## 三、適用模型\n\n| 模型 | 格式 | 狀態 |\n|------|------|------|\n| Qwen3-8B-BNB | 4-bit BNB (unsloth 預量化) | ✅ 已驗證可行但速度極慢 |\n\n\u003e 其他模型未經測試。理論上只要是 Unsloth 支援的、透過 BNB 4-bit 載入的模型均可使用，但可能需要額外調整。\n\n---\n\n## 四、為 Intel Arc 修復的 Bug\n\n### 1. Triton GCC 參數透傳給 MSVC 導致 D8021 錯誤\n**現象**: `cl: 命令列 error D8021 :無效的數值參數\"/Wno-psabi\"` \n**原因**: Triton Intel XPU backend 按 GCC 風格產生編譯命令，直接傳給 `cl.exe` \n**修復**: 攔截 `triton.runtime.build._build`，過濾 `-Wno-psabi`、`-Wno-deprecated-declarations`、`-fPIC` 等 GCC 參數，並將 `-D`/`-I`/`-L`/`-l`/`-shared` 轉換為 MSVC 風格 `/D`/`-I`/`-LIBPATH:`/`lib`/`/LD`\n\n### 2. MSVC 找不到 C++ 標準函式庫標頭檔（`cstddef` 等）\n**現象**: `fatal error C1083: 無法開啟包含檔案: \"cstddef\"` \n**原因**: `vcvars64.bat` 只設定了 `PATH`，沒設定 `INCLUDE` 和 `LIB` 環境變數 \n**修復**: 從 `cl.exe` 路徑自動推斷 MSVC 工具鏈根目錄，補全 `INCLUDE`（MSVC include + Windows SDK ucrt/shared/um + ATL/MFC）和 `LIB`（MSVC lib/x64 + Windows SDK lib）\n\n### 3. SYCL 標頭檔要求 C++17\n**現象**: `error C2338: static_assert failed: 'DPCPP does not support C++ version earlier than C++17.'` \n**原因**: MSVC 預設 C++14，SYCL 標頭檔用 `__cplusplus` 巨集檢查版本 \n**修復**: 編譯命令新增 `/std:c++17` 和 `/Zc:__cplusplus`（後者讓 MSVC 正確設定 `__cplusplus` 巨集為 `201703L`）\n\n### 4. 連結時找不到 `python313.lib`\n**現象**: `LINK : fatal error LNK1104: 無法開啟檔案\"python313.lib\"` \n**原因**: Triton 編譯 Python 擴充（`.pyd`）時，`library_dirs` 只包含 `Library/bin` 和 `Library/lib`，沒有 `libs` \n**修復**: 自動偵測 `Python313/libs` 目錄並新增到 `/LIBPATH`\n\n### 5. 連結器要求進入點（缺少 `/LD`）\n**現象**: `LINK : fatal error LNK1561: 必須定義進入點` \n**原因**: `.pyd` 本質是 DLL，需要 `/LD` 旗標，但編譯命令中沒有 \n**修復**: 在編譯命令中新增 `/LD`（建立 DLL）\n\n### 6. Triton JIT 編譯極慢（快取不生效）\n**現象**: 訓練第一步耗時 20+ 分鐘，GPU 利用率接近 0% \n**原因**: Windows 上 Triton Intel XPU backend 的 JIT kernel 快取機制有問題，每次 step 都可能重新編譯 SPIR-V \n**緩解**: 設定 `TRITON_CACHE_DIR` 和 `TRITON_DISABLE_AUTOTUNE=1` 減少重複編譯開銷\n\n---\n\n## 五、仍存問題\n\n- **訓練速度極慢**: 即使修復了編譯問題，Windows 上 Triton XPU backend 的 JIT kernel 執行效率遠低於 Linux，GPU 利用率長期低於 10%，單步訓練仍需數分鐘至數十分鐘\n- **Triton 快取不完全可靠**: `TRITON_CACHE_DIR` 有時無法命中，導致同一 kernel 多次重新編譯\n- **Level Zero SDK 版本不一致**: 環境變數 `ZE_PATH` 指向 1.30.0，但 Triton 編譯命令中可能出現 1.28.2 路徑，需手動統一\n- **xformers 不支援**: Intel XPU 無法使用 xformers（僅 CUDA），Unsloth 的部分 FlashAttention 最佳化失效\n- **mem_get_info 跨平台差異**: `torch.xpu.memory.mem_get_info()` 在 Windows Intel Arc 驅動上可用，但在 WSL2/Linux 上不可用（跨平台腳本需注意）\n\n---\n\n## 六、版本說明（Release）\n\n第八個版本才是能夠開始跑起來的模型，前七個版本都沒有完整修復 bug 使其正常開始偵錯\n\n---\n\n## 七、快速開始\n\n```powershell\n# 1. 確保已安裝所有前提軟體（見上文）\n# 2. 下載 Release 並解壓縮\n# 3. 修改腳本頂部的 CONFIG 區域（模型路徑、資料集路徑等）\n# 4. 執行\n```\n\n---\n\n## 八、配置說明\n\n```python\nCONFIG = {\n \"model_path\": r\"H:/Qwen3-8B-unsloth-bnb-4bit\", # 模型路徑\n \"dataset_path\": r\"D:/dataset.json\", # 資料集路徑\n \"output_dir\": r\"H:/unsloth_train/outputs\", # 輸出目錄\n \"max_seq_length\": 1024,\n \"lora_r\": 16,\n \"lora_alpha\": 16,\n \"learning_rate\": 2e-4,\n \"batch_size\": 1, # 根據顯存調整\n \"grad_accum\": 4, # 總 batch = batch_size * grad_accum\n \"max_steps\": 3000,\n \"warmup_steps\": 5,\n}\n```\n\n---\n\n## 九、微小故障排查\n\n| 出現的問題 | 現象 | 解決方案 |\n|---|---|---|\n| **Triton GCC 參數報錯** | `D8021 :無效的數值參數\"/Wno-psabi\"` | 使用 v2+ 版本，已過濾 GCC 參數 |\n| **找不到 C++ 標頭檔** | `fatal error C1083: \"cstddef\"` | 使用 v4+ 版本，自動修復 INCLUDE |\n| **SYCL 要求 C++17** | `DPCPP does not support C++ version earlier than C++17` | 使用 v5+ 版本，已新增 `/std:c++17` |\n| **找不到 python313.lib** | `LNK1104: 無法開啟檔案\"python313.lib\"` | 使用 v6+ 版本，自動新增 Python libs |\n| **必須定義進入點** | `LNK1561: 必須定義進入點` | 使用 v7+ 版本，已新增 `/LD` |\n| **訓練第一步極慢** | 20+ 分鐘，GPU 利用率 0% | 使用 v8 版本，設定 `TRITON_CACHE_DIR`；若仍極慢，建議遷移到 WSL2/Linux |\n| **Windows 原生訓練不可接受** | 1523s/it，GPU 利用率 6% | **必須遷移到 WSL2/Linux**，Windows 上 Triton XPU backend 未經最佳化 |\n| **Level Zero 版本不一致** | 編譯命令中出現不同版本路徑 | 統一環境變數 `ZE_PATH` 與實際安裝的 SDK 版本 |\n\n---\n\n## 十、效能比較\n\n| 環境 | 模型 | 速度 | GPU 利用率 |\n|---|---|---|---|\n| Windows 11 | Qwen3-8B bnb-4bit | 1523s/it | 6% |\n| WSL2 Ubuntu 24.04 | Qwen3-8B bnb-4bit | 11-15s/it | 70-85% |\n\n\u003e **結論**: Windows 上只能解決\"能跑\"的問題，無法解決\"快\"的問題。如需實際訓練，強烈建議遷移到 WSL2/Linux。\n\n---\n\n## 十一、一鍵重建腳本（Windows 環境檢查）\n\n```powershell\n# 檢查必要環境變數\n$env:ZE_PATH\n$env:CC\n\n# 檢查 VS 2022 安裝\nTest-Path \"C:\\Program Files\\Microsoft Visual Studio2\\Community\\VC\\Auxiliary\\Build\u000bcvars64.bat\"\n\n# 檢查 Python 版本\npython --version # 應為 3.13\n\n# 檢查 PyTorch XPU\npython -c \"import torch; print(torch.__version__); print(torch.xpu.is_available())\"\n\n# 檢查 Triton\npython -c \"import triton; print(triton.__version__)\"\n```\n\n---\n\n## 十二、未來預計更新的功能\n\n1. **新增終端機版圖形化**：提升易用性\n2. **最後匯出 merged 與 gguf**：匯出待測試\n3. **Windows 速度最佳化**：等待 Intel/Triton 官方修復 XPU backend 在 Windows 上的效能或嘗試移植套件\n\n---\n\n\u003e **最後**：祝訓練勝利！如需實際訓練，請移步 WSL2/Linux\n\n---\n\n---\n\n# Intel Arc A770 + Unsloth + WSL2 微調模型腳本\n\n\u003e **適用場景**：原始權重 \u003c 16GB 的非量化模型（如 Qwen3.5-4B、Qwen3-1.7B 等），本指南基於 Intel Arc A770 16GB 作為裝置，Qwen3.5-4B 作為模型\n\u003e \n\n---\n\n## 一、硬體/環境需求\n\n- **GPU**: Intel Arc 獨顯裝置（核心顯示卡請自行測試，B系列理論可行但未測試）\n- **OS**: Windows 11 21H2+，開啟 WSL2\n- **WSL2 發行版**: Ubuntu 24.04 (Noble)，22.04 的 Intel GPU 驅動套件名稱和倉庫路徑不同，26.04 的 Python 版本過高不適用\n- **Python**: 3.12\n\n\n---\n\n## 二、WSL2 Ubuntu 24.04 安裝\n\n在 Windows PowerShell（管理員）中執行：\n\n```powershell\n# 更新 WSL\nwsl --update\n\n# 安裝 Ubuntu 24.04\nwsl --install Ubuntu-24.04\nwsl --set-default Ubuntu-24.04\n#如果提示找不到那就是微軟伺服器間歇性故障，請透過 store 或自行下載 Ubuntu 安裝包進行安裝\n\n# 驗證版本\nwsl --list --verbose\n# 應顯示 Ubuntu-24.04 Running 版本 2\n```\n\n---\n\n## 三、Intel GPU 驅動和執行階段配置\n\n進入 WSL2 Ubuntu 24.04 終端機，執行（如果出現缺失套件等問題請自行 sudo apt 安裝或者詢問 AI）：\n\n```bash\n# 1. 更新系統\nsudo apt update \u0026\u0026 sudo apt upgrade -y\n\n# 2. 安裝基礎工具\nsudo apt install -y gpg-agent wget build-essential python3.12-dev\n\n# 3. 新增 Intel GPU 倉庫（Noble 版本）\nwget -qO - https://repositories.intel.com/gpu/intel-graphics.key | \\\n sudo gpg --dearmor --output /usr/share/keyrings/intel-graphics.gpg\n\necho 'deb [arch=amd64,i386 signed-by=/usr/share/keyrings/intel-graphics.gpg] https://repositories.intel.com/gpu/ubuntu noble unified' | \\\n sudo tee /etc/apt/sources.list.d/intel.gpu.noble.list\n\nsudo apt update\n\n# 4. 安裝 Intel GPU 執行階段（關鍵套件）\nsudo apt install -y libze-dev intel-opencl-icd intel-media-va-driver-non-free \\\n libmfx1 libvpl2 libegl-mesa0 libegl1-mesa-dev libgbm1 libgl1-mesa-dev \\\n libgl1-mesa-dri libglapi-mesa libgles2-mesa-dev libglx-mesa0 libigdgmm12 \\\n libxatracker2 mesa-va-drivers mesa-vdpau-drivers mesa-vulkan-drivers va-driver-all\n\n# 5. 將使用者加入 render 群組（GPU 存取權限）\nsudo gpasswd -a ${USER} render\nnewgrp render\n\n# 6. 驗證 GPU 可見性\nls /dev/dri\n# 應看到 renderD128 和 card0\n\nclinfo | grep \"Device Name\"\n# 應顯示 Intel(R) Arc(TM) A770 Graphics 或者 0x5860 之類\n```\n\n\u003e **⚠️絕對注意**：\n\u003e - 不要安裝完整版 oneAPI Base Toolkit（會污染 LD_LIBRARY_PATH，導致 PyTorch 函式庫衝突）\n\u003e - 如果之前安裝過 oneAPI 並設定了 /etc/profile.d/oneapi.sh，**務必刪除**：\n\u003e ```bash\n\u003e sudo rm /etc/profile.d/oneapi.sh\n\u003e ```\n\u003e - 如果 sycl-ls 後來因版本衝突損壞，**不影響 PyTorch 訓練**，不用管。\n\n---\n\n## 四、PyTorch XPU 環境安裝（虛擬環境名為 unsloth_env）\n\n```bash\n# 1. 建立虛擬環境\npython3 -m venv ~/unsloth_env\nsource ~/unsloth_env/bin/activate\n\n# 2. 升級 pip\npip install --upgrade pip setuptools wheel\n\n# 3. 安裝 PyTorch XPU 完整堆疊（內建 pytorch-triton-xpu，不要單獨安裝 triton）\npip install torch==2.7.1+xpu torchvision==0.22.1+xpu torchaudio==2.7.1+xpu \\\n intel-cmplr-lib-rt intel-cmplr-lib-ur intel-cmplr-lic-rt intel-sycl-rt \\\n pytorch-triton-xpu tcmlib umf intel-pti \\\n --index-url https://download.pytorch.org/whl/xpu \\\n --extra-index-url https://pypi.org/simple\n\n# 4. 驗證 PyTorch XPU\npython -c \"import torch; print('PyTorch:', torch.__version__); print('XPU:', torch.xpu.is_available())\"\n\n# 5. 驗證 Triton XPU（正確的驗證方式）\npython -c \"\nimport torch\nimport triton\nimport triton.language as tl\n\n@triton.jit\ndef test_kernel(x_ptr, out_ptr, n_elements, BLOCK_SIZE: tl.constexpr):\n pid = tl.program_id(axis=0)\n block_start = pid * BLOCK_SIZE\n offsets = block_start + tl.arange(0, BLOCK_SIZE)\n mask = offsets \u003c n_elements\n x = tl.load(x_ptr + offsets, mask=mask)\n tl.store(out_ptr + offsets, x, mask=mask)\n\nx = torch.rand(128, device='xpu')\nout = torch.empty_like(x)\nn_elements = x.numel()\ngrid = lambda meta: (triton.cdiv(n_elements, meta['BLOCK_SIZE']),)\ntest_kernel[grid](x, out, n_elements, BLOCK_SIZE=128)\nprint('Triton XPU test passed!')\n\"\n```\n\n\u003e **⚠️注意事項**：\n\u003e - **不要** `pip install triton`（會覆蓋 pytorch-triton-xpu，導致 Intel XPU backend 遺失，且安裝的是通用版 triton 不包含 xpu 算子支援）\n\u003e - **不要** `pip install xformers`（只支援 CUDA，會連帶安裝 NVIDIA 驅動）\n\u003e - **不要** `pip install intel_extension_for_pytorch`（PyTorch 2.7.1+xpu 已有原生 XPU 支援，IPEX 會引入版本衝突）\n\n---\n\n## 五、Unsloth 安裝\n\n```bash\nsource ~/unsloth_env/bin/activate\n\n# 1. 安裝 Unsloth（必須保持無依賴安裝）\npip install --no-deps unsloth unsloth-zoo\n\n# 2. 手動安裝 Unsloth 的其他相依套件（跳過 xformers 和 triton）\npip install transformers==5.5.0 datasets==4.3.0 trl==0.24.0 \\\n cut_cross_entropy hf_transfer msgspec torchao tyro diffusers \\\n nest-asyncio pydantic peft accelerate bitsandbytes \\\n huggingface-hub tokenizers protobuf numpy scipy tqdm regex \\\n sentencepiece safetensors psutil packaging\n```\n\n---\n\n## 六、此腳本做出的修復\n\n### torch.xpu.memory.mem_get_info() 不支援\nPyTorch issue #164057，Arc A770 WSL2/Linux 驅動未實作此 API。\n**修復**：monkey-patch 回傳固定值。\n\n### torch.xpu.get_device_properties() 可能當機\n**修復**：異常時回傳 FakeProps。\n\n### Intel XPU 在 WSL2 下缺失顯存分配函數\n**修復**：設定環境變數 `UR_L0_ENABLE_RELAXED_ALLOCATION_LIMITS=1` 和 `PYTORCH_XPU_ALLOC_CONF=expandable_segments:True`。\n\n### transformers caching_allocator_warmup 導致 OOM\n**修復**：在 `import unsloth` 之前停用。\n\n### Triton JIT 編譯慢（Intel XPU 通病）\n**修復**：設定 `TRITON_CACHE_DIR` 快取編譯結果，設定 `IPEX_XPU_ONEDNN_LAYOUT=1` 加速記憶體吞吐量。\n\n### Unsloth fix_untrained_tokens 與 meta tensor 衝突\n**修復**：停用此函數。\n\n---\n\n## 七、完整訓練程式碼（v11 最佳化版）\n\n已提供於 release 或倉庫中，請自行尋找，最終可用版本為 v12，前 11 個版本都沒有完整修復上述問題\n\n---\n\n## 八、一鍵重建腳本\n\n如果你搞壞了環境，直接執行此腳本重建：\n\n```bash\nset -e\n\necho \"\u003e\u003e\u003e 開始重建環境...\"\n\n# 1. 刪除舊環境\nrm -rf ~/unsloth_env\n\n# 2. 建立新環境\npython3 -m venv ~/unsloth_env\nsource ~/unsloth_env/bin/activate\n\n# 3. 升級 pip\npip install --upgrade pip setuptools wheel\n\n# 4. 安裝 PyTorch XPU \necho \"\u003e\u003e\u003e 安裝 PyTorch XPU...\"\npip install torch==2.7.1+xpu torchvision==0.22.1+xpu torchaudio==2.7.1+xpu \\\n intel-cmplr-lib-rt intel-cmplr-lib-ur intel-cmplr-lic-rt intel-sycl-rt \\\n pytorch-triton-xpu tcmlib umf intel-pti \\\n --index-url https://download.pytorch.org/whl/xpu \\\n --extra-index-url https://pypi.org/simple\n\n# 5. 驗證 PyTorch XPU\npython -c \"import torch; print('PyTorch:', torch.__version__); print('XPU:', torch.xpu.is_available())\"\n\n# 6. 驗證 Triton XPU\necho \"\u003e\u003e\u003e 驗證 Triton XPU...\"\npython -c \"\nimport torch\nimport triton\nimport triton.language as tl\n\n@triton.jit\ndef test_kernel(x_ptr, out_ptr, n_elements, BLOCK_SIZE: tl.constexpr):\n pid = tl.program_id(axis=0)\n block_start = pid * BLOCK_SIZE\n offsets = block_start + tl.arange(0, BLOCK_SIZE)\n mask = offsets \u003c n_elements\n x = tl.load(x_ptr + offsets, mask=mask)\n tl.store(out_ptr + offsets, x, mask=mask)\n\nx = torch.rand(128, device='xpu')\nout = torch.empty_like(x)\nn_elements = x.numel()\ngrid = lambda meta: (triton.cdiv(n_elements, meta['BLOCK_SIZE']),)\ntest_kernel[grid](x, out, n_elements, BLOCK_SIZE=128)\nprint('Triton XPU test passed!')\n\"\n\n# 7. 安裝 Unsloth（不覆蓋 PyTorch）\necho \"\u003e\u003e\u003e 安裝 Unsloth...\"\npip install --no-deps unsloth unsloth-zoo\n\n# 8. 手動安裝其他相依套件（跳過 xformers 和 triton）\npip install transformers==5.5.0 datasets==4.3.0 trl==0.24.0 \\\n cut_cross_entropy hf_transfer msgspec torchao tyro diffusers \\\n nest-asyncio pydantic peft accelerate bitsandbytes \\\n huggingface-hub tokenizers protobuf numpy scipy tqdm regex \\\n sentencepiece safetensors psutil packaging\n```\n\n---\n\n## 九、執行訓練\n\n**預期輸出**：\n- 模型載入到 `xpu:0`，顯存佔用約 8-10GB\n- 第一步可能較慢（Triton JIT 編譯），約 10-20 秒\n- 第二步起穩定約 **11-15 秒/步**\n- GPU 利用率 70-85%\n\n---\n\n## 十、微小故障排查\n\n| 出現的問題 | 現象 | 解決方案 |\n|---|---|---|\n| **Ubuntu 22.04 驅動套件名稱不對** | `libze1` 找不到，`sycl-ls` 報錯 | 換 **24.04 (noble)**，套件名稱是 `libze-dev` |\n| **oneAPI 污染 LD_LIBRARY_PATH** | PyTorch 報 `libur_loader.so` 版本衝突 | 刪除 `/etc/profile.d/oneapi.sh`，不載入 oneAPI 環境變數 |\n| **通用 triton 覆蓋 xpu 版** | `0 active drivers` 或 `cannot import intel` | **不要** `pip install triton`，只用 `pytorch-triton-xpu` |\n| **bitsandbytes 4-bit 不支援 XPU** | `cdequantize_blockwise_fp32` 報錯 | 改用 bf16 載入，不用 4-bit |\n| **accelerate device_map 訓練衝突** | `Can't train model loaded with device_map='auto'` | 模型全進 GPU（`device_map=\"xpu\"` + `low_cpu_mem_usage=True`） |\n| **meta tensor backward 報錯** | `Cannot copy out of meta tensor` | 確保模型全在 GPU，不 offload 到 CPU |\n| **Triton JIT 編譯極慢** | 第一步 10-20 分鐘 | 正常現象，設定 `TRITON_CACHE_DIR` 快取，後續重啟會快 |\n| **Windows 原生訓練極慢** | 1523s/it，GPU 利用率 6% | **必須遷移到 WSL2**，Windows 上 Triton XPU backend 未經最佳化 |\n| **HuggingFace 連線逾時** | `Timed out after 120s` | `local_files_only=True` 強制離線載入 |\n| **模型記憶體雙份** | CPU 記憶體和 GPU 顯存各一份 | `low_cpu_mem_usage=True` + `device_map=\"xpu\"` |\n\n---\n\n## 十一、效能比較\n\n| 環境 | 模型 | 速度 | GPU 利用率 |\n|---|---|---|---|\n| Windows 11 | Qwen3-8B bnb-4bit | 1523s/it | 6% |\n| WSL2 Ubuntu 24.04 | Qwen3.5-4B bf16 | **11-15s/it** | **70-85%** |\n\n---\n\n## 十二、未來預計更新的功能\n\n1. **新增終端機版圖形化**：提升易用性\n2. **最後匯出 merged 與 gguf**：`自動下載 llama.cpp 匯出\n3. **4bit 模型支援**：Intel XPU bitsandbytes 4bit 支援爛得要命等我去修\n\n---\n\n\u003e **最後**：祝訓練勝利！\n\n---\n\n---\n\n# \u003ca id=\"english\"\u003e\u003c/a\u003eEnglish\n\n# Intel Arc A770 + Unsloth Dual-Platform Fine-Tuning Guide\n\n\u003e **Windows**: Use Intel Arc A770 16GB on Windows 11 for LoRA fine-tuning of 4-bit quantized models (full-precision models likely work too; Qwen3-8b-bnb-4bit is used here as an example). Since Triton's Intel XPU backend has not been fully tested on Windows, running it directly produces numerous MSVC/GCC compatibility issues. Part of this repository aims to provide a solution.\n\u003e\n\u003e **WSL2/Linux**: Non-quantized models with original weights \u003c 16GB (e.g., Qwen3.5-4B, Qwen3-1.7B, etc.). This guide uses Intel Arc A770 16GB as the device and Qwen3.5-4B as the model.\n\n---\n\n# Intel Arc A770 + Unsloth + Windows Fine-Tuning Script\n\n\u003e **Use Case**: LoRA fine-tuning of 4-bit quantized models (full-precision models likely work too; Qwen3-8b-bnb-4bit is used here as an example) using Intel Arc A770 16GB on Windows 11.\n\u003e\n\u003e Since Triton's Intel XPU backend has not been fully tested on Windows, running it directly produces numerous MSVC/GCC compatibility issues. Part of this repository aims to provide a solution.\n\n---\n\n## I. Features\n\n- **Qwen3-8B-BNB (example only; test other models yourself)** model Unsloth LoRA fine-tuning on **Windows 11** using **Intel Arc A770**\n- Auto-detect and load Intel oneAPI + MSVC compilation environment\n- Auto-fix Triton GCC parameter compatibility issues under Windows MSVC\n- Auto-fix missing MSVC header/library path issues\n- Support exporting LoRA / 16-bit full weights / GGUF after training (since a full run has not been completed, whether final conversion to full weights and GGUF works is unknown; test patiently at your own discretion)\n\n---\n\n## II. Prerequisites\n\n### Hardware\n- **GPU**: Intel Arc discrete GPU (integrated graphics theoretically work but untested; B-series theoretically work but untested)\n- **OS**: Windows 11\n\n### Software\n\n| Component | Version/Requirement | Purpose |\n|-----------|---------------------|---------|\n| Intel Arc Graphics Driver | Latest (31.0.101.xxx+) | GPU compute |\n| Intel oneAPI Base Toolkit \u0026 DeepLearning Toolkit | 2025.2 \u0026 latest | SYCL / Level Zero runtime |\n| Level Zero SDK | 1.28.x - 1.30.x | Triton XPU backend |\n| Visual Studio 2022 | Community/Professional/Enterprise | MSVC C++ compiler |\n| Python | 3.13 (Windows version) | Runtime environment |\n| PyTorch | 2.12.1+xpu (Intel official wheel) | XPU deep learning framework |\n| Unsloth | 2026.6.9 | Fast fine-tuning framework |\n\n### VS 2022 Required Workloads\n- **\"Desktop development with C++\"**\n- **MSVC v143 - VS 2022 C++ x64/x86 build tools**\n- **Windows 11 SDK**\n\n---\n\n## III. Supported Models\n\n| Model | Format | Status |\n|-------|--------|--------|\n| Qwen3-8B-BNB | 4-bit BNB (unsloth pre-quantized) | ✅ Verified working but extremely slow |\n\n\u003e Other models are untested. In theory, any model supported by Unsloth and loadable via BNB 4-bit should work, but additional adjustments may be needed.\n\n---\n\n## IV. Bugs Fixed for Intel Arc\n\n### 1. Triton GCC parameters passed through to MSVC causing D8021 error\n**Symptom**: `cl: Command line error D8021 : invalid numeric argument \"/Wno-psabi\"` \n**Cause**: Triton Intel XPU backend generates compilation commands in GCC style and passes them directly to `cl.exe` \n**Fix**: Intercept `triton.runtime.build._build`, filter out GCC parameters such as `-Wno-psabi`, `-Wno-deprecated-declarations`, `-fPIC`, and convert `-D`/`-I`/`-L`/`-l`/`-shared` to MSVC style `/D`/`-I`/`-LIBPATH:`/`lib`/`/LD`\n\n### 2. MSVC cannot find C++ standard library headers (`cstddef`, etc.)\n**Symptom**: `fatal error C1083: Cannot open include file: \"cstddef\"` \n**Cause**: `vcvars64.bat` only sets `PATH`, not `INCLUDE` and `LIB` environment variables \n**Fix**: Automatically infer the MSVC toolchain root directory from the `cl.exe` path, and supplement `INCLUDE` (MSVC include + Windows SDK ucrt/shared/um + ATL/MFC) and `LIB` (MSVC lib/x64 + Windows SDK lib)\n\n### 3. SYCL headers require C++17\n**Symptom**: `error C2338: static_assert failed: 'DPCPP does not support C++ version earlier than C++17.'` \n**Cause**: MSVC defaults to C++14, and SYCL headers check version via the `__cplusplus` macro \n**Fix**: Add `/std:c++17` and `/Zc:__cplusplus` to compilation commands (the latter makes MSVC correctly set the `__cplusplus` macro to `201703L`)\n\n### 4. Linker cannot find `python313.lib`\n**Symptom**: `LINK : fatal error LNK1104: cannot open file \"python313.lib\"` \n**Cause**: When Triton compiles Python extensions (`.pyd`), `library_dirs` only contains `Library/bin` and `Library/lib`, not `libs` \n**Fix**: Automatically detect the `Python313/libs` directory and add it to `/LIBPATH`\n\n### 5. Linker requires entry point (missing `/LD`)\n**Symptom**: `LINK : fatal error LNK1561: entry point must be defined` \n**Cause**: `.pyd` is essentially a DLL and requires the `/LD` flag, which is missing from the compilation command \n**Fix**: Add `/LD` (create DLL) to the compilation command\n\n### 6. Triton JIT compilation extremely slow (cache not effective)\n**Symptom**: First training step takes 20+ minutes, GPU utilization near 0% \n**Cause**: On Windows, Triton Intel XPU backend's JIT kernel caching mechanism has issues, potentially recompiling SPIR-V on every step \n**Mitigation**: Set `TRITON_CACHE_DIR` and `TRITON_DISABLE_AUTOTUNE=1` to reduce repeated compilation overhead\n\n---\n\n## V. Remaining Issues\n\n- **Extremely slow training speed**: Even after fixing compilation issues, Triton XPU backend JIT kernel execution efficiency on Windows is far lower than on Linux. GPU utilization remains below 10% for extended periods, and a single training step still takes several minutes to tens of minutes.\n- **Triton cache not fully reliable**: `TRITON_CACHE_DIR` sometimes fails to hit, causing the same kernel to be recompiled multiple times.\n- **Level Zero SDK version inconsistency**: Environment variable `ZE_PATH` points to 1.30.0, but Triton compilation commands may reference 1.28.2 paths; manual unification required.\n- **xformers not supported**: Intel XPU cannot use xformers (CUDA only), so some of Unsloth's FlashAttention optimizations are ineffective.\n- **mem_get_info cross-platform differences**: `torch.xpu.memory.mem_get_info()` works on Windows Intel Arc drivers but is unavailable on WSL2/Linux (cross-platform scripts should take note).\n\n---\n\n## VI. Version Notes (Release)\n\nThe eighth version is the first one that can actually start running the model; the first seven versions did not fully fix bugs to enable normal debugging.\n\n---\n\n## VII. Quick Start\n\n```powershell\n# 1. Ensure all prerequisite software is installed (see above)\n# 2. Download the Release and extract it\n# 3. Modify the CONFIG section at the top of the script (model path, dataset path, etc.)\n# 4. Run\n```\n\n---\n\n## VIII. Configuration\n\n```python\nCONFIG = {\n \"model_path\": r\"H:/Qwen3-8B-unsloth-bnb-4bit\", # Model path\n \"dataset_path\": r\"D:/dataset.json\", # Dataset path\n \"output_dir\": r\"H:/unsloth_train/outputs\", # Output directory\n \"max_seq_length\": 1024,\n \"lora_r\": 16,\n \"lora_alpha\": 16,\n \"learning_rate\": 2e-4,\n \"batch_size\": 1, # Adjust according to VRAM\n \"grad_accum\": 4, # Total batch = batch_size * grad_accum\n \"max_steps\": 3000,\n \"warmup_steps\": 5,\n}\n```\n\n---\n\n## IX. Troubleshooting\n\n| Issue | Symptom | Solution |\n|-------|---------|----------|\n| **Triton GCC parameter error** | `D8021 : invalid numeric argument \"/Wno-psabi\"` | Use v2+; GCC parameters are filtered |\n| **Cannot find C++ headers** | `fatal error C1083: \"cstddef\"` | Use v4+; INCLUDE is auto-fixed |\n| **SYCL requires C++17** | `DPCPP does not support C++ version earlier than C++17` | Use v5+; `/std:c++17` is added |\n| **Cannot find python313.lib** | `LNK1104: cannot open file \"python313.lib\"` | Use v6+; Python libs are auto-added |\n| **Entry point must be defined** | `LNK1561: entry point must be defined` | Use v7+; `/LD` is added |\n| **First training step extremely slow** | 20+ minutes, GPU utilization 0% | Use v8; set `TRITON_CACHE_DIR`; if still extremely slow, migrate to WSL2/Linux |\n| **Windows native training unacceptable** | 1523s/it, GPU utilization 6% | **Must migrate to WSL2/Linux**; Triton XPU backend is unoptimized on Windows |\n| **Level Zero version inconsistency** | Different version paths appear in compilation commands | Unify environment variable `ZE_PATH` with the actually installed SDK version |\n\n---\n\n## X. Performance Comparison\n\n| Environment | Model | Speed | GPU Utilization |\n|-------------|-------|-------|-----------------|\n| Windows 11 | Qwen3-8B bnb-4bit | 1523s/it | 6% |\n| WSL2 Ubuntu 24.04 | Qwen3-8B bnb-4bit | 11-15s/it | 70-85% |\n\n\u003e **Conclusion**: On Windows, we can only solve the \"can it run\" problem, not the \"can it run fast\" problem. For actual training, strongly recommend migrating to WSL2/Linux.\n\n---\n\n## XI. One-Click Rebuild Script (Windows Environment Check)\n\n```powershell\n# Check required environment variables\n$env:ZE_PATH\n$env:CC\n\n# Check VS 2022 installation\nTest-Path \"C:\\Program Files\\Microsoft Visual Studio2\\Community\\VC\\Auxiliary\\Build\u000bcvars64.bat\"\n\n# Check Python version\npython --version # Should be 3.13\n\n# Check PyTorch XPU\npython -c \"import torch; print(torch.__version__); print(torch.xpu.is_available())\"\n\n# Check Triton\npython -c \"import triton; print(triton.__version__)\"\n```\n\n---\n\n## XII. Future Planned Updates\n\n1. **Add terminal GUI**: Improve usability\n2. **Final export merged \u0026 gguf**: Export pending testing\n3. **Windows speed optimization**: Wait for Intel/Triton official fixes for XPU backend performance on Windows, or attempt porting packages\n\n---\n\n\u003e **Finally**: Good luck with training! For actual training, please move to WSL2/Linux.\n\n---\n\n---\n\n# Intel Arc A770 + Unsloth + WSL2 Fine-Tuning Script\n\n\u003e **Use Case**: Non-quantized models with original weights \u003c 16GB (e.g., Qwen3.5-4B, Qwen3-1.7B, etc.). This guide uses Intel Arc A770 16GB as the device and Qwen3.5-4B as the model.\n\n---\n\n## I. Hardware / Environment Requirements\n\n- **GPU**: Intel Arc discrete GPU (integrated graphics untested; B-series theoretically work but untested)\n- **OS**: Windows 11 21H2+, WSL2 enabled\n- **WSL2 Distro**: Ubuntu 24.04 (Noble). 22.04 has different Intel GPU driver package names and repository paths; 26.04 has a Python version that is too high and not suitable.\n- **Python**: 3.12\n\n---\n\n## II. WSL2 Ubuntu 24.04 Installation\n\nExecute in Windows PowerShell (Administrator):\n\n```powershell\n# Update WSL\nwsl --update\n\n# Install Ubuntu 24.04\nwsl --install Ubuntu-24.04\nwsl --set-default Ubuntu-24.04\n# If it says not found, Microsoft servers are intermittently down; download the Ubuntu installer from the Store yourself\n\n# Verify version\nwsl --list --verbose\n# Should show Ubuntu-24.04 Running version 2\n```\n\n---\n\n## III. Intel GPU Driver and Runtime Configuration\n\nEnter the WSL2 Ubuntu 24.04 terminal and execute (if missing packages occur, install with sudo apt yourself or ask an AI):\n\n```bash\n# 1. Update system\nsudo apt update \u0026\u0026 sudo apt upgrade -y\n\n# 2. Install basic tools\nsudo apt install -y gpg-agent wget build-essential python3.12-dev\n\n# 3. Add Intel GPU repository (Noble version)\nwget -qO - https://repositories.intel.com/gpu/intel-graphics.key | \\\n sudo gpg --dearmor --output /usr/share/keyrings/intel-graphics.gpg\n\necho 'deb [arch=amd64,i386 signed-by=/usr/share/keyrings/intel-graphics.gpg] https://repositories.intel.com/gpu/ubuntu noble unified' | \\\n sudo tee /etc/apt/sources.list.d/intel.gpu.noble.list\n\nsudo apt update\n\n# 4. Install Intel GPU runtime (critical packages)\nsudo apt install -y libze-dev intel-opencl-icd intel-media-va-driver-non-free \\\n libmfx1 libvpl2 libegl-mesa0 libegl1-mesa-dev libgbm1 libgl1-mesa-dev \\\n libgl1-mesa-dri libglapi-mesa libgles2-mesa-dev libglx-mesa0 libigdgmm12 \\\n libxatracker2 mesa-va-drivers mesa-vdpau-drivers mesa-vulkan-drivers va-driver-all\n\n# 5. Add user to render group (GPU access permission)\nsudo gpasswd -a ${USER} render\nnewgrp render\n\n# 6. Verify GPU visibility\nls /dev/dri\n# Should see renderD128 and card0\n\nclinfo | grep \"Device Name\"\n# Should show Intel(R) Arc(TM) A770 Graphics or something like 0x5860\n```\n\n\u003e **⚠️ Absolute Attention**:\n\u003e - Do NOT install the full oneAPI Base Toolkit (it will pollute LD_LIBRARY_PATH and cause PyTorch library conflicts)\n\u003e - If you previously installed oneAPI and configured /etc/profile.d/oneapi.sh, **you MUST delete it**:\n\u003e ```bash\n\u003e sudo rm /etc/profile.d/oneapi.sh\n\u003e ```\n\u003e - If sycl-ls breaks later due to version conflicts, **it does not affect PyTorch training**; ignore it.\n\n---\n\n## IV. PyTorch XPU Environment Installation (virtual environment name: unsloth_env)\n\n```bash\n# 1. Create virtual environment\npython3 -m venv ~/unsloth_env\nsource ~/unsloth_env/bin/activate\n\n# 2. Upgrade pip\npip install --upgrade pip setuptools wheel\n\n# 3. Install PyTorch XPU full stack (includes pytorch-triton-xpu; do NOT install triton separately)\npip install torch==2.7.1+xpu torchvision==0.22.1+xpu torchaudio==2.7.1+xpu \\\n intel-cmplr-lib-rt intel-cmplr-lib-ur intel-cmplr-lic-rt intel-sycl-rt \\\n pytorch-triton-xpu tcmlib umf intel-pti \\\n --index-url https://download.pytorch.org/whl/xpu \\\n --extra-index-url https://pypi.org/simple\n\n# 4. Verify PyTorch XPU\npython -c \"import torch; print('PyTorch:', torch.__version__); print('XPU:', torch.xpu.is_available())\"\n\n# 5. Verify Triton XPU (correct verification method)\npython -c \"\nimport torch\nimport triton\nimport triton.language as tl\n\n@triton.jit\ndef test_kernel(x_ptr, out_ptr, n_elements, BLOCK_SIZE: tl.constexpr):\n pid = tl.program_id(axis=0)\n block_start = pid * BLOCK_SIZE\n offsets = block_start + tl.arange(0, BLOCK_SIZE)\n mask = offsets \u003c n_elements\n x = tl.load(x_ptr + offsets, mask=mask)\n tl.store(out_ptr + offsets, x, mask=mask)\n\nx = torch.rand(128, device='xpu')\nout = torch.empty_like(x)\nn_elements = x.numel()\ngrid = lambda meta: (triton.cdiv(n_elements, meta['BLOCK_SIZE']),)\ntest_kernel[grid](x, out, n_elements, BLOCK_SIZE=128)\nprint('Triton XPU test passed!')\n\"\n```\n\n\u003e **⚠️ Notes**:\n\u003e - **Do NOT** `pip install triton` (it will overwrite pytorch-triton-xpu, causing the Intel XPU backend to be lost, and the generic triton installed does not include XPU operator support)\n\u003e - **Do NOT** `pip install xformers` (CUDA only; will pull in NVIDIA drivers)\n\u003e - **Do NOT** `pip install intel_extension_for_pytorch` (PyTorch 2.7.1+xpu already has native XPU support; IPEX will introduce version conflicts)\n\n---\n\n## V. Unsloth Installation\n\n```bash\nsource ~/unsloth_env/bin/activate\n\n# 1. Install Unsloth (must keep no-deps)\npip install --no-deps unsloth unsloth-zoo\n\n# 2. Manually install other Unsloth dependencies (skip xformers and triton)\npip install transformers==5.5.0 datasets==4.3.0 trl==0.24.0 \\\n cut_cross_entropy hf_transfer msgspec torchao tyro diffusers \\\n nest-asyncio pydantic peft accelerate bitsandbytes \\\n huggingface-hub tokenizers protobuf numpy scipy tqdm regex \\\n sentencepiece safetensors psutil packaging\n```\n\n---\n\n## VI. Fixes Applied by This Script\n\n### torch.xpu.memory.mem_get_info() not supported\nPyTorch issue #164057, Arc A770 WSL2/Linux driver has not implemented this API.\n**Fix**: Monkey-patch to return fixed values.\n\n### torch.xpu.get_device_properties() may crash\n**Fix**: Return FakeProps on exception.\n\n### Intel XPU missing VRAM allocation functions under WSL2\n**Fix**: Set environment variables `UR_L0_ENABLE_RELAXED_ALLOCATION_LIMITS=1` and `PYTORCH_XPU_ALLOC_CONF=expandable_segments:True`.\n\n### transformers caching_allocator_warmup causes OOM\n**Fix**: Disable before `import unsloth`.\n\n### Triton JIT compilation slow (common Intel XPU issue)\n**Fix**: Set `TRITON_CACHE_DIR` to cache compilation results; set `IPEX_XPU_ONEDNN_LAYOUT=1` to accelerate memory throughput.\n\n### Unsloth fix_untrained_tokens conflicts with meta tensor\n**Fix**: Disable this function.\n\n---\n\n## VII. Complete Training Code (v11 Optimized)\n\nProvided in releases or the repository; please find it yourself. The final working version is v12; the first 11 versions did not fully fix the above issues.\n\n---\n\n## VIII. One-Click Rebuild Script\n\nIf you break your environment, run this script to rebuild:\n\n```bash\nset -e\n\necho \"\u003e\u003e\u003e Starting environment rebuild...\"\n\n# 1. Delete old environment\nrm -rf ~/unsloth_env\n\n# 2. Create new environment\npython3 -m venv ~/unsloth_env\nsource ~/unsloth_env/bin/activate\n\n# 3. Upgrade pip\npip install --upgrade pip setuptools wheel\n\n# 4. Install PyTorch XPU\necho \"\u003e\u003e\u003e Installing PyTorch XPU...\"\npip install torch==2.7.1+xpu torchvision==0.22.1+xpu torchaudio==2.7.1+xpu \\\n intel-cmplr-lib-rt intel-cmplr-lib-ur intel-cmplr-lic-rt intel-sycl-rt \\\n pytorch-triton-xpu tcmlib umf intel-pti \\\n --index-url https://download.pytorch.org/whl/xpu \\\n --extra-index-url https://pypi.org/simple\n\n# 5. Verify PyTorch XPU\npython -c \"import torch; print('PyTorch:', torch.__version__); print('XPU:', torch.xpu.is_available())\"\n\n# 6. Verify Triton XPU\necho \"\u003e\u003e\u003e Verifying Triton XPU...\"\npython -c \"\nimport torch\nimport triton\nimport triton.language as tl\n\n@triton.jit\ndef test_kernel(x_ptr, out_ptr, n_elements, BLOCK_SIZE: tl.constexpr):\n pid = tl.program_id(axis=0)\n block_start = pid * BLOCK_SIZE\n offsets = block_start + tl.arange(0, BLOCK_SIZE)\n mask = offsets \u003c n_elements\n x = tl.load(x_ptr + offsets, mask=mask)\n tl.store(out_ptr + offsets, x, mask=mask)\n\nx = torch.rand(128, device='xpu')\nout = torch.empty_like(x)\nn_elements = x.numel()\ngrid = lambda meta: (triton.cdiv(n_elements, meta['BLOCK_SIZE']),)\ntest_kernel[grid](x, out, n_elements, BLOCK_SIZE=128)\nprint('Triton XPU test passed!')\n\"\n\n# 7. Install Unsloth (do not overwrite PyTorch)\necho \"\u003e\u003e\u003e Installing Unsloth...\"\npip install --no-deps unsloth unsloth-zoo\n\n# 8. Manually install other dependencies (skip xformers and triton)\npip install transformers==5.5.0 datasets==4.3.0 trl==0.24.0 \\\n cut_cross_entropy hf_transfer msgspec torchao tyro diffusers \\\n nest-asyncio pydantic peft accelerate bitsandbytes \\\n huggingface-hub tokenizers protobuf numpy scipy tqdm regex \\\n sentencepiece safetensors psutil packaging\n```\n\n---\n\n## IX. Running Training\n\n**Expected Output**:\n- Model loaded to `xpu:0`, VRAM usage approximately 8-10GB\n- First step may be slow (Triton JIT compilation), approximately 10-20 seconds\n- From the second step onward, stable at approximately **11-15 seconds/step**\n- GPU utilization 70-85%\n\n---\n\n## X. Troubleshooting\n\n| Issue | Symptom | Solution |\n|-------|---------|----------|\n| **Ubuntu 22.04 driver package name wrong** | `libze1` not found, `sycl-ls` errors | Switch to **24.04 (noble)**; package name is `libze-dev` |\n| **oneAPI pollutes LD_LIBRARY_PATH** | PyTorch reports `libur_loader.so` version conflict | Delete `/etc/profile.d/oneapi.sh`, do not load oneAPI environment variables |\n| **Generic triton overwrites XPU version** | `0 active drivers` or `cannot import intel` | **Do NOT** `pip install triton`; only use `pytorch-triton-xpu` |\n| **bitsandbytes 4-bit not supported on XPU** | `cdequantize_blockwise_fp32` error | Use bf16 loading instead of 4-bit |\n| **accelerate device_map training conflict** | `Can't train model loaded with device_map='auto'` | Load entire model into GPU (`device_map=\"xpu\"` + `low_cpu_mem_usage=True`) |\n| **meta tensor backward error** | `Cannot copy out of meta tensor` | Ensure model is fully on GPU, no offload to CPU |\n| **Triton JIT compilation extremely slow** | First step 10-20 minutes | Normal behavior; set `TRITON_CACHE_DIR` to cache; subsequent restarts will be faster |\n| **Windows native training extremely slow** | 1523s/it, GPU utilization 6% | **Must migrate to WSL2**; Triton XPU backend is unoptimized on Windows |\n| **HuggingFace network timeout** | `Timed out after 120s` | `local_files_only=True` to force offline loading |\n| **Model memory duplicated** | CPU RAM and GPU VRAM each have a copy | `low_cpu_mem_usage=True` + `device_map=\"xpu\"` |\n\n---\n\n## XI. Performance Comparison\n\n| Environment | Model | Speed | GPU Utilization |\n|-------------|-------|-------|-----------------|\n| Windows 11 | Qwen3-8B bnb-4bit | 1523s/it | 6% |\n| WSL2 Ubuntu 24.04 | Qwen3.5-4B bf16 | **11-15s/it** | **70-85%** |\n\n---\n\n## XII. Future Planned Updates\n\n1. **Add terminal GUI**: Improve usability\n2. **Final export merged \u0026 gguf**: `Auto-download llama.cpp for export\n3. **4-bit model support**: Intel XPU bitsandbytes 4-bit support is terribly broken; I'll fix it when I get to it\n\n---\n\n\u003e **Finally**: Good luck with training!\n\n---\n\n---\n\n# \u003ca id=\"日本語\"\u003e\u003c/a\u003e日本語\n\n# Intel Arc A770 + Unsloth デュアルプラットフォームファインチューニングガイド\n\n\u003e **Windows 側**: Windows 11 上で Intel Arc A770 16GB を使用し、4bit 量子化モデル（フルプレシジョンモデルもおそらく動作しますが、ここでは Qwen3-8b-bnb-4bit を例として選択）の LoRA ファインチューニングを行います。Triton の Intel XPU バックエンドは Windows 上で完全にテストされていないため、直接実行すると多数の MSVC/GCC 互換性問題が発生します。このリポジトリの一部はその解決策を提供することを目的としています。\n\u003e\n\u003e **WSL2/Linux 側**: 元の重みが 16GB 未満の非量子化モデル（例：Qwen3.5-4B、Qwen3-1.7B など）。このガイドでは Intel Arc A770 16GB をデバイスとして、Qwen3.5-4B をモデルとして使用します。\n\n---\n\n# Intel Arc A770 + Unsloth + Windows ファインチューニングスクリプト\n\n\u003e **使用場面**: Windows 11 上で Intel Arc A770 16GB を使用し、4bit 量子化モデル（フルプレシジョンモデルもおそらく動作しますが、ここでは Qwen3-8b-bnb-4bit を例として選択）の LoRA ファインチューニング。\n\u003e\n\u003e Triton の Intel XPU バックエンドは Windows 上で完全にテストされていないため、直接実行すると多数の MSVC/GCC 互換性問題が発生します。このリポジトリの一部はその解決策を提供することを目的としています。\n\n---\n\n## 一、機能\n\n- **Windows 11** 上で **Intel Arc A770** を使用した **Qwen3-8B-BNB（あくまで例であり、他のモデルは各自でテストしてください）** モデルの Unsloth LoRA ファインチューニング\n- Intel oneAPI + MSVC コンパイル環境の自動検出と読み込み\n- Windows MSVC 下での Triton GCC パラメータ互換性問題の自動修正\n- MSVC ヘッダー/ライブラリパス欠落問題の自動修正\n- トレーニング完了後の LoRA / 16bit フルウェイト / GGUF エクスポートをサポート（完全な実行が完了していないため、最終的にフルウェイトと GGUF への変換が可能かどうかは不明です。各自で忍耐強くテストしてください）\n\n---\n\n## 二、前提インストール\n\n### ハードウェア\n- **GPU**: Intel Arc ディスクリート GPU（統合グラフィックスは理論上動作する可能性がありますが未テスト、Bシリーズも理論上動作する可能性がありますが未テスト）\n- **システム**: Windows 11\n\n### ソフトウェア\n\n| コンポーネント | バージョン/要件 | 用途 |\n|-------------|--------------|------|\n| Intel Arc グラフィックスドライバ | 最新版 (31.0.101.xxx+) | GPU 計算 |\n| Intel oneAPI Base Toolkit \u0026 DeepLearning Toolkit | 2025.2 \u0026 最新版 | SYCL / Level Zero ランタイム |\n| Level Zero SDK | 1.28.x - 1.30.x | Triton XPU バックエンド |\n| Visual Studio 2022 | Community/Professional/Enterprise | MSVC C++ コンパイラ |\n| Python | 3.13 (Windows 版) | 実行環境 |\n| PyTorch | 2.12.1+xpu (Intel 公式 wheel) | XPU ディープラーニングフレームワーク |\n| Unsloth | 2026.6.9 | 高速ファインチューニングフレームワーク |\n\n### VS 2022 必須ワークロード\n- **\"C++ によるデスクトップ開発\"**\n- **MSVC v143 - VS 2022 C++ x64/x86 ビルドツール**\n- **Windows 11 SDK**\n\n---\n\n## 三、対応モデル\n\n| モデル | フォーマット | 状態 |\n|-------|------------|------|\n| Qwen3-8B-BNB | 4-bit BNB (unsloth 事前量子化) | ✅ 動作確認済みだが極めて遅い |\n\n\u003e 他のモデルは未テストです。理論上、Unsloth がサポートし、BNB 4-bit で読み込み可能なモデルであれば動作するはずですが、追加の調整が必要になる場合があります。\n\n---\n\n## 四、Intel Arc 向けに修正したバグ\n\n### 1. Triton GCC パラメータが MSVC に透過して D8021 エラーが発生\n**現象**: `cl: コマンドラインエラー D8021 : 無効な数値引数 \"/Wno-psabi\"` \n**原因**: Triton Intel XPU バックエンドが GCC スタイルでコンパイルコマンドを生成し、`cl.exe` に直接渡す \n**修正**: `triton.runtime.build._build` をインターセプトし、`-Wno-psabi`、`-Wno-deprecated-declarations`、`-fPIC` などの GCC パラメータをフィルタリングし、`-D`/`-I`/`-L`/`-l`/`-shared` を MSVC スタイル `/D`/`-I`/`-LIBPATH:`/`lib`/`/LD` に変換\n\n### 2. MSVC が C++ 標準ライブラリヘッダー（`cstddef` など）を見つけられない\n**現象**: `fatal error C1083: インクルードファイルを開けません: \"cstddef\"` \n**原因**: `vcvars64.bat` は `PATH` のみ設定し、`INCLUDE` と `LIB` 環境変数は設定しない \n**修正**: `cl.exe` パスから MSVC ツールチェーンルートディレクトリを自動推定し、`INCLUDE`（MSVC include + Windows SDK ucrt/shared/um + ATL/MFC）と `LIB`（MSVC lib/x64 + Windows SDK lib）を補完\n\n### 3. SYCL ヘッダーが C++17 を要求\n**現象**: `error C2338: static_assert failed: 'DPCPP does not support C++ version earlier than C++17.'` \n**原因**: MSVC はデフォルトで C++14、SYCL ヘッダーは `__cplusplus` マクロでバージョンをチェック \n**修正**: コンパイルコマンドに `/std:c++17` と `/Zc:__cplusplus` を追加（後者は MSVC に `__cplusplus` マクロを `201703L` に正しく設定させる）\n\n### 4. リンク時に `python313.lib` が見つからない\n**現象**: `LINK : 致命的エラー LNK1104: ファイル \"python313.lib\" を開けません` \n**原因**: Triton が Python 拡張（`.pyd`）をコンパイルする際、`library_dirs` は `Library/bin` と `Library/lib` のみを含み、`libs` は含まない \n**修正**: `Python313/libs` ディレクトリを自動検出し、`/LIBPATH` に追加\n\n### 5. リンカーがエントリポイントを要求（`/LD` 欠落）\n**現象**: `LINK : 致命的エラー LNK1561: エントリポイントを定義する必要があります` \n**原因**: `.pyd` は本質的に DLL であり、`/LD` フラグが必要だが、コンパイルコマンドにない \n**修正**: コンパイルコマンドに `/LD`（DLL の作成）を追加\n\n### 6. Triton JIT コンパイルが極めて遅い（キャッシュが効かない）\n**現象**: トレーニングの最初のステップに 20 分以上かかり、GPU 利用率がほぼ 0% \n**原因**: Windows 上の Triton Intel XPU バックエンドの JIT カーネルキャッシュメカニズムに問題があり、毎ステップで SPIR-V を再コンパイルする可能性がある \n**緩和**: `TRITON_CACHE_DIR` と `TRITON_DISABLE_AUTOTUNE=1` を設定し、繰り返しコンパイルのオーバーヘッドを削減\n\n---\n\n## 五、残存問題\n\n- **トレーニング速度が極めて遅い**: コンパイル問題を修正しても、Windows 上の Triton XPU バックエンド JIT カーネル実行効率は Linux よりはるかに低い。GPU 利用率は長期間 10% を下回り、単一ステップのトレーニングにも数分から数十分かかる。\n- **Triton キャッシュが完全に信頼できない**: `TRITON_CACHE_DIR` がヒットしない場合があり、同じカーネルが複数回再コンパイルされる。\n- **Level Zero SDK バージョン不一致**: 環境変数 `ZE_PATH` は 1.30.0 を指すが、Triton コンパイルコマンドでは 1.28.2 のパスが参照されることがあり、手動での統一が必要。\n- **xformers 非対応**: Intel XPU は xformers を使用できない（CUDA のみ）、Unsloth の一部の FlashAttention 最適化が無効になる。\n- **mem_get_info クロスプラットフォーム差異**: `torch.xpu.memory.mem_get_info()` は Windows Intel Arc ドライバーでは動作するが、WSL2/Linux では使用不可（クロスプラットフォームスクリプトは注意が必要）。\n\n---\n\n## 六、バージョン説明（Release）\n\n8 番目のバージョンが初めてモデルを実際に実行できるようになったものです。最初の 7 つのバージョンは、正常なデバッグを可能にするためのバグを完全に修正していませんでした。\n\n---\n\n## 七、クイックスタート\n\n```powershell\n# 1. すべての前提ソフトウェアがインストールされていることを確認（上記参照）\n# 2. Release をダウンロードして展開\n# 3. スクリプト上部の CONFIG セクションを修正（モデルパス、データセットパスなど）\n# 4. 実行\n```\n\n---\n\n## 八、設定\n\n```python\nCONFIG = {\n \"model_path\": r\"H:/Qwen3-8B-unsloth-bnb-4bit\", # モデルパス\n \"dataset_path\": r\"D:/dataset.json\", # データセットパス\n \"output_dir\": r\"H:/unsloth_train/outputs\", # 出力ディレクトリ\n \"max_seq_length\": 1024,\n \"lora_r\": 16,\n \"lora_alpha\": 16,\n \"learning_rate\": 2e-4,\n \"batch_size\": 1, # VRAM に応じて調整\n \"grad_accum\": 4, # 総 batch = batch_size * grad_accum\n \"max_steps\": 3000,\n \"warmup_steps\": 5,\n}\n```\n\n---\n\n## 九、トラブルシューティング\n\n| 問題 | 現象 | 解決策 |\n|------|------|--------|\n| **Triton GCC パラメータエラー** | `D8021 : 無効な数値引数 \"/Wno-psabi\"` | v2+ を使用；GCC パラメータはフィルタリング済み |\n| **C++ ヘッダーが見つからない** | `fatal error C1083: \"cstddef\"` | v4+ を使用；INCLUDE は自動修正 |\n| **SYCL が C++17 を要求** | `DPCPP does not support C++ version earlier than C++17` | v5+ を使用；`/std:c++17` を追加 |\n| **python313.lib が見つからない** | `LNK1104: ファイル \"python313.lib\" を開けません` | v6+ を使用；Python libs は自動追加 |\n| **エントリポイントを定義する必要がある** | `LNK1561: エントリポイントを定義する必要があります` | v7+ を使用；`/LD` を追加 |\n| **トレーニング最初のステップが極めて遅い** | 20+ 分、GPU 利用率 0% | v8 を使用；`TRITON_CACHE_DIR` を設定；それでも極めて遅い場合は WSL2/Linux へ移行 |\n| **Windows ネイティブトレーニングが許容できない** | 1523s/it、GPU 利用率 6% | **WSL2/Linux へ移行が必須**；Windows 上の Triton XPU バックエンドは最適化されていない |\n| **Level Zero バージョン不一致** | コンパイルコマンドに異なるバージョンパスが出現 | 環境変数 `ZE_PATH` を実際にインストールされた SDK バージョンと統一 |\n\n---\n\n## 十、パフォーマンス比較\n\n| 環境 | モデル | 速度 | GPU 利用率 |\n|------|--------|------|-----------|\n| Windows 11 | Qwen3-8B bnb-4bit | 1523s/it | 6% |\n| WSL2 Ubuntu 24.04 | Qwen3-8B bnb-4bit | 11-15s/it | 70-85% |\n\n\u003e **結論**: Windows では「動作するか」という問題のみ解決でき、「速いか」という問題は解決できません。実際のトレーニングには、WSL2/Linux への移行を強く推奨します。\n\n---\n\n## 十一、ワンクリックリビルドスクリプト（Windows 環境チェック）\n\n```powershell\n# 必要な環境変数を確認\n$env:ZE_PATH\n$env:CC\n\n# VS 2022 インストールを確認\nTest-Path \"C:\\Program Files\\Microsoft Visual Studio2\\Community\\VC\\Auxiliary\\Build\u000bcvars64.bat\"\n\n# Python バージョンを確認\npython --version # 3.13 であるべき\n\n# PyTorch XPU を確認\npython -c \"import torch; print(torch.__version__); print(torch.xpu.is_available())\"\n\n# Triton を確認\npython -c \"import triton; print(triton.__version__)\"\n```\n\n---\n\n## 十二、今後の予定アップデート\n\n1. **ターミナル GUI の追加**: 使いやすさの向上\n2. **最終エクスポート merged \u0026 gguf**: エクスポートはテスト待ち\n3. **Windows 速度最適化**: Intel/Triton による Windows 上の XPU バックエンドパフォーマンスの公式修正を待つ、またはパッケージの移植を試みる\n\n---\n\n\u003e **最後に**: トレーニングが成功しますように！実際のトレーニングには WSL2/Linux をご利用ください。\n\n---\n\n---\n\n# Intel Arc A770 + Unsloth + WSL2 ファインチューニングスクリプト\n\n\u003e **使用場面**: 元の重みが 16GB 未満の非量子化モデル（例：Qwen3.5-4B、Qwen3-1.7B など）。このガイドでは Intel Arc A770 16GB をデバイスとして、Qwen3.5-4B をモデルとして使用します。\n\n---\n\n## 一、ハードウェア / 環境要件\n\n- **GPU**: Intel Arc ディスクリート GPU（統合グラフィックスは未テスト；Bシリーズは理論上動作する可能性がありますが未テスト）\n- **OS**: Windows 11 21H2+、WSL2 有効化\n- **WSL2 ディストリビューション**: Ubuntu 24.04 (Noble)。22.04 は Intel GPU ドライバーのパッケージ名とリポジトリパスが異なる；26.04 は Python バージョンが高すぎて適さない。\n- **Python**: 3.12\n\n---\n\n## 二、WSL2 Ubuntu 24.04 インストール\n\nWindows PowerShell（管理者）で実行：\n\n```powershell\n# WSL を更新\nwsl --update\n\n# Ubuntu 24.04 をインストール\nwsl --install Ubuntu-24.04\nwsl --set-default Ubuntu-24.04\n# 見つからないと表示された場合、Microsoft サーバーが一時的にダウンしています；ストアから Ubuntu インストーラーを自分でダウンロードしてください\n\n# バージョンを確認\nwsl --list --verbose\n# Ubuntu-24.04 Running version 2 と表示されるべき\n```\n\n---\n\n## 三、Intel GPU ドライバーとランタイム設定\n\nWSL2 Ubuntu 24.04 ターミナルに入り、実行（パッケージ欠落などの問題が発生した場合は、自分で sudo apt でインストールするか AI に尋ねてください）：\n\n```bash\n# 1. システムを更新\nsudo apt update \u0026\u0026 sudo apt upgrade -y\n\n# 2. 基本ツールをインストール\nsudo apt install -y gpg-agent wget build-essential python3.12-dev\n\n# 3. Intel GPU リポジトリを追加（Noble バージョン）\nwget -qO - https://repositories.intel.com/gpu/intel-graphics.key | \\\n sudo gpg --dearmor --output /usr/share/keyrings/intel-graphics.gpg\n\necho 'deb [arch=amd64,i386 signed-by=/usr/share/keyrings/intel-graphics.gpg] https://repositories.intel.com/gpu/ubuntu noble unified' | \\\n sudo tee /etc/apt/sources.list.d/intel.gpu.noble.list\n\nsudo apt update\n\n# 4. Intel GPU ランタイムをインストール（重要パッケージ）\nsudo apt install -y libze-dev intel-opencl-icd intel-media-va-driver-non-free \\\n libmfx1 libvpl2 libegl-mesa0 libegl1-mesa-dev libgbm1 libgl1-mesa-dev \\\n libgl1-mesa-dri libglapi-mesa libgles2-mesa-dev libglx-mesa0 libigdgmm12 \\\n libxatracker2 mesa-va-drivers mesa-vdpau-drivers mesa-vulkan-drivers va-driver-all\n\n# 5. ユーザーを render グループに追加（GPU アクセス権限）\nsudo gpasswd -a ${USER} render\nnewgrp render\n\n# 6. GPU 可視性を確認\nls /dev/dri\n# renderD128 と card0 が見えるべき\n\nclinfo | grep \"Device Name\"\n# Intel(R) Arc(TM) A770 Graphics または 0x5860 などが表示されるべき\n```\n\n\u003e **⚠️絶対注意**:\n\u003e - フル版の oneAPI Base Toolkit はインストールしないでください（LD_LIBRARY_PATH を汚染し、PyTorch ライブラリの競合を引き起こします）\n\u003e - 以前に oneAPI をインストールし /etc/profile.d/oneapi.sh を設定した場合、**必ず削除してください**:\n\u003e ```bash\n\u003e sudo rm /etc/profile.d/oneapi.sh\n\u003e ```\n\u003e - sycl-ls が後にバージョン競合で壊れた場合、**PyTorch トレーニングには影響しません**；無視してください。\n\n---\n\n## 四、PyTorch XPU 環境インストール（仮想環境名：unsloth_env）\n\n```bash\n# 1. 仮想環境を作成\npython3 -m venv ~/unsloth_env\nsource ~/unsloth_env/bin/activate\n\n# 2. pip をアップグレード\npip install --upgrade pip setuptools wheel\n\n# 3. PyTorch XPU フルスタックをインストール（pytorch-triton-xpu 同梱；triton は個別にインストールしない）\npip install torch==2.7.1+xpu torchvision==0.22.1+xpu torchaudio==2.7.1+xpu \\\n intel-cmplr-lib-rt intel-cmplr-lib-ur intel-cmplr-lic-rt intel-sycl-rt \\\n pytorch-triton-xpu tcmlib umf intel-pti \\\n --index-url https://download.pytorch.org/whl/xpu \\\n --extra-index-url https://pypi.org/simple\n\n# 4. PyTorch XPU を確認\npython -c \"import torch; print('PyTorch:', torch.__version__); print('XPU:', torch.xpu.is_available())\"\n\n# 5. Triton XPU を確認（正しい確認方法）\npython -c \"\nimport torch\nimport triton\nimport triton.language as tl\n\n@triton.jit\ndef test_kernel(x_ptr, out_ptr, n_elements, BLOCK_SIZE: tl.constexpr):\n pid = tl.program_id(axis=0)\n block_start = pid * BLOCK_SIZE\n offsets = block_start + tl.arange(0, BLOCK_SIZE)\n mask = offsets \u003c n_elements\n x = tl.load(x_ptr + offsets, mask=mask)\n tl.store(out_ptr + offsets, x, mask=mask)\n\nx = torch.rand(128, device='xpu')\nout = torch.empty_like(x)\nn_elements = x.numel()\ngrid = lambda meta: (triton.cdiv(n_elements, meta['BLOCK_SIZE']),)\ntest_kernel[grid](x, out, n_elements, BLOCK_SIZE=128)\nprint('Triton XPU test passed!')\n\"\n```\n\n\u003e **⚠️注意事項**:\n\u003e - **`pip install triton` はしないでください**（pytorch-triton-xpu を上書きし、Intel XPU バックエンドが失われ、インストールされる汎用版 triton は XPU オペレータサポートを含みません）\n\u003e - **`pip install xformers` はしないでください**（CUDA のみ；NVIDIA ドライバーを引き込みます）\n\u003e - **`pip install intel_extension_for_pytorch` はしないでください**（PyTorch 2.7.1+xpu は既にネイティブ XPU サポートを持ち、IPEX はバージョン競合を引き起こします）\n\n---\n\n## 五、Unsloth インストール\n\n```bash\nsource ~/unsloth_env/bin/activate\n\n# 1. Unsloth をインストール（依存関係なしでインストールする必要がある）\npip install --no-deps unsloth unsloth-zoo\n\n# 2. Unsloth のその他の依存関係を手動インストール（xformers と triton はスキップ）\npip install transformers==5.5.0 datasets==4.3.0 trl==0.24.0 \\\n cut_cross_entropy hf_transfer msgspec torchao tyro diffusers \\\n nest-asyncio pydantic peft accelerate bitsandbytes \\\n huggingface-hub tokenizers protobuf numpy scipy tqdm regex \\\n sentencepiece safetensors psutil packaging\n```\n\n---\n\n## 六、このスクリプトが適用した修正\n\n### torch.xpu.memory.mem_get_info() 非対応\nPyTorch issue #164057、Arc A770 WSL2/Linux ドライバーはこの API を実装していません。\n**修正**: monkey-patch で固定値を返す。\n\n### torch.xpu.get_device_properties() がクラッシュする可能性\n**修正**: 例外時に FakeProps を返す。\n\n### WSL2 下での Intel XPU 顕存割り当て関数の欠落\n**修正**: 環境変数 `UR_L0_ENABLE_RELAXED_ALLOCATION_LIMITS=1` と `PYTORCH_XPU_ALLOC_CONF=expandable_segments:True` を設定。\n\n### transformers caching_allocator_warmup が OOM を引き起こす\n**修正**: `import unsloth` の前に無効化。\n\n### Triton JIT コンパイルが遅い（Intel XPU の共通問題）\n**修正**: `TRITON_CACHE_DIR` を設定してコンパイル結果をキャッシュ、`IPEX_XPU_ONEDNN_LAYOUT=1` を設定してメモリスループットを加速。\n\n### Unsloth fix_untrained_tokens と meta tensor の競合\n**修正**: この関数を無効化。\n\n---\n\n## 七、完全なトレーニングコード（v11 最適化版）\n\nリリースまたはリポジトリに提供されています。自分で探してください。最終的に動作するバージョンは v12 であり、最初の 11 バージョンは上記の問題を完全に修正していませんでした。\n\n---\n\n## 八、ワンクリックリビルドスクリプト\n\n環境を破壊した場合、このスクリプトを実行してリビルドしてください：\n\n```bash\nset -e\n\necho \"\u003e\u003e\u003e 環境のリビルドを開始...\"\n\n# 1. 古い環境を削除\nrm -rf ~/unsloth_env\n\n# 2. 新しい環境を作成\npython3 -m venv ~/unsloth_env\nsource ~/unsloth_env/bin/activate\n\n# 3. pip をアップグレード\npip install --upgrade pip setuptools wheel\n\n# 4. PyTorch XPU をインストール\necho \"\u003e\u003e\u003e PyTorch XPU をインストール...\"\npip install torch==2.7.1+xpu torchvision==0.22.1+xpu torchaudio==2.7.1+xpu \\\n intel-cmplr-lib-rt intel-cmplr-lib-ur intel-cmplr-lic-rt intel-sycl-rt \\\n pytorch-triton-xpu tcmlib umf intel-pti \\\n --index-url https://download.pytorch.org/whl/xpu \\\n --extra-index-url https://pypi.org/simple\n\n# 5. PyTorch XPU を確認\npython -c \"import torch; print('PyTorch:', torch.__version__); print('XPU:', torch.xpu.is_available())\"\n\n# 6. Triton XPU を確認\necho \"\u003e\u003e\u003e Triton XPU を確認...\"\npython -c \"\nimport torch\nimport triton\nimport triton.language as tl\n\n@triton.jit\ndef test_kernel(x_ptr, out_ptr, n_elements, BLOCK_SIZE: tl.constexpr):\n pid = tl.program_id(axis=0)\n block_start = pid * BLOCK_SIZE\n offsets = block_start + tl.arange(0, BLOCK_SIZE)\n mask = offsets \u003c n_elements\n x = tl.load(x_ptr + offsets, mask=mask)\n tl.store(out_ptr + offsets, x, mask=mask)\n\nx = torch.rand(128, device='xpu')\nout = torch.empty_like(x)\nn_elements = x.numel()\ngrid = lambda meta: (triton.cdiv(n_elements, meta['BLOCK_SIZE']),)\ntest_kernel[grid](x, out, n_elements, BLOCK_SIZE=128)\nprint('Triton XPU test passed!')\n\"\n\n# 7. Unsloth をインストール（PyTorch を上書きしない）\necho \"\u003e\u003e\u003e Unsloth をインストール...\"\npip install --no-deps unsloth unsloth-zoo\n\n# 8. その他の依存関係を手動インストール（xformers と triton はスキップ）\npip install transformers==5.5.0 datasets==4.3.0 trl==0.24.0 \\\n cut_cross_entropy hf_transfer msgspec torchao tyro diffusers \\\n nest-asyncio pydantic peft accelerate bitsandbytes \\\n huggingface-hub tokenizers protobuf numpy scipy tqdm regex \\\n sentencepiece safetensors psutil packaging\n```\n\n---\n\n## 九、トレーニングの実行\n\n**期待される出力**:\n- モデルが `xpu:0` に読み込まれ、VRAM 使用量は約 8-10GB\n- 最初のステップは遅い可能性がある（Triton JIT コンパイル）、約 10-20 秒\n- 2 ステップ目からは安定して約 **11-15 秒/ステップ**\n- GPU 利用率 70-85%\n\n---\n\n## 十、トラブルシューティング\n\n| 問題 | 現象 | 解決策 |\n|------|------|--------|\n| **Ubuntu 22.04 ドライバーパッケージ名が違う** | `libze1` が見つからない、`sycl-ls` エラー | **24.04 (noble)** に変更；パッケージ名は `libze-dev` |\n| **oneAPI が LD_LIBRARY_PATH を汚染** | PyTorch が `libur_loader.so` バージョン競合を報告 | `/etc/profile.d/oneapi.sh` を削除し、oneAPI 環境変数を読み込まない |\n| **汎用 triton が xpu 版を上書き** | `0 active drivers` または `cannot import intel` | **`pip install triton` はしない**、`pytorch-triton-xpu` のみを使用 |\n| **bitsandbytes 4-bit が XPU をサポートしない** | `cdequantize_blockwise_fp32` エラー | bf16 読み込みに変更し、4-bit を使用しない |\n| **accelerate device_map トレーニング競合** | `Can't train model loaded with device_map='auto'` | モデルを GPU 全体に読み込む（`device_map=\"xpu\"` + `low_cpu_mem_usage=True`） |\n| **meta tensor backward エラー** | `Cannot copy out of meta tensor` | モデルが GPU 上に完全にあることを確認し、CPU へのオフロードをしない |\n| **Triton JIT コンパイルが極めて遅い** | 最初のステップに 10-20 分 | 正常な動作；`TRITON_CACHE_DIR` を設定してキャッシュ；後続の再起動は速くなる |\n| **Windows ネイティブトレーニングが極めて遅い** | 1523s/it、GPU 利用率 6% | **WSL2 への移行が必須**；Windows 上の Triton XPU バックエンドは最適化されていない |\n| **HuggingFace 接続タイムアウト** | `Timed out after 120s` | `local_files_only=True` で強制オフライン読み込み |\n| **モデルメモリが二重** | CPU メモリと GPU VRAM にそれぞれコピーがある | `low_cpu_mem_usage=True` + `device_map=\"xpu\"` |\n\n---\n\n## 十一、パフォーマンス比較\n\n| 環境 | モデル | 速度 | GPU 利用率 |\n|------|--------|------|-----------|\n| Windows 11 | Qwen3-8B bnb-4bit | 1523s/it | 6% |\n| WSL2 Ubuntu 24.04 | Qwen3.5-4B bf16 | **11-15s/it** | **70-85%** |\n\n---\n\n## 十二、今後の予定アップデート\n\n1. **ターミナル GUI の追加**: 使いやすさの向上\n2. **最終エクスポート merged と gguf**: `llama.cpp の自動ダウンロードとエクスポート\n3. **4bit モデルサポート**: Intel XPU bitsandbytes 4bit サポートはひどく壊れているので、私が修正するのを待ってください\n\n---\n\n\u003e **最後に**: トレーニングが成功しますように！\n\n---\n\n---\n\n# \u003ca id=\"русский\"\u003e\u003c/a\u003eРусский\n\n# Intel Arc A770 + Unsloth Руководство по двухплатформенной тонкой настройке\n\n\u003e **Windows**: Использование Intel Arc A770 16GB на Windows 11 для LoRA тонкой настройки 4-битных квантованных моделей (полноточные модели, вероятно, тоже работают; здесь в качестве примера используется Qwen3-8b-bnb-4bit). Поскольку бэкенд Intel XPU для Triton не был полностью протестирован на Windows, прямой запуск вызывает множество проблем совместимости MSVC/GCC. Часть этого репозитория направлена на предоставление решения.\n\u003e\n\u003e **WSL2/Linux**: Неквантованные модели с исходными весами \u003c 16GB (например, Qwen3.5-4B, Qwen3-1.7B и т.д.). В этом руководстве в качестве устройства используется Intel Arc A770 16GB, а в качестве модели — Qwen3.5-4B.\n\n---\n\n# Intel Arc A770 + Unsloth + Windows Скрипт тонкой настройки\n\n\u003e **Сценарий использования**: LoRA тонкая настройка 4-битных квантованных моделей (полноточные модели, вероятно, тоже работают; здесь в качестве примера используется Qwen3-8b-bnb-4bit) с использованием Intel Arc A770 16GB на Windows 11.\n\u003e\n\u003e Поскольку бэкенд Intel XPU для Triton не был полностью протестирован на Windows, прямой запуск вызывает множество проблем совместимости MSVC/GCC. Часть этого репозитория направлена на предоставление решения.\n\n---\n\n## I. Функции\n\n- **Qwen3-8B-BNB (только пример; тестируйте другие модели самостоятельно)** модель Unsloth LoRA тонкой настройки на **Windows 11** с использованием **Intel Arc A770**\n- Автоматическое обнаружение и загрузка среды компиляции Intel oneAPI + MSVC\n- Автоматическое исправление проблем совместимости параметров GCC Triton под Windows MSVC\n- Автоматическое исправление проблем с отсутствующими путями заголовков/библиотек MSVC\n- Поддержка экспорта LoRA / 16-битных полных весов / GGUF после обучения (поскольку полный запуск не был завершен, неизвестно, работает ли окончательное преобразование в полные веса и GGUF; тестируйте терпеливо на свое усмотрение)\n\n---\n\n## II. Предварительные требования\n\n### Аппаратное обеспечение\n- **GPU**: Дискретный GPU Intel Arc (интегрированная графика теоретически работает, но не тестировалась; B-серия теоретически работает, но не тестировалась)\n- **ОС**: Windows 11\n\n### Программное обеспечение\n\n| Компонент | Версия/Требование | Назначение |\n|-----------|------------------|------------|\n| Драйвер графики Intel Arc | Последняя версия (31.0.101.xxx+) | GPU вычисления |\n| Intel oneAPI Base Toolkit \u0026 DeepLearning Toolkit | 2025.2 и последняя | SYCL / Level Zero рантайм |\n| Level Zero SDK | 1.28.x - 1.30.x | Бэкенд Triton XPU |\n| Visual Studio 2022 | Community/Professional/Enterprise | Компилятор MSVC C++ |\n| Python | 3.13 (Windows версия) | Среда выполнения |\n| PyTorch | 2.12.1+xpu (официальный wheel Intel) | Фреймворк глубокого обучения XPU |\n| Unsloth | 2026.6.9 | Фреймворк быстрой тонкой настройки |\n\n### Обязательные рабочие нагрузки VS 2022\n- **\"Разработка классических приложений на C++\"**\n- **MSVC v143 - VS 2022 C++ x64/x86 инструменты сборки**\n- **Windows 11 SDK**\n\n---\n\n## III. Поддерживаемые модели\n\n| Модель | Формат | Статус |\n|--------|--------|--------|\n| Qwen3-8B-BNB | 4-bit BNB (предварительная квантование unsloth) | ✅ Проверено работает, но крайне медленно |\n\n\u003e Другие модели не тестировались. Теоретически любая модель, поддерживаемая Unsloth и загружаемая через BNB 4-bit, должна работать, но могут потребоваться дополнительные настройки.\n\n---\n\n## IV. Исправленные баги для Intel Arc\n\n### 1. Параметры GCC Triton передаются MSVC, вызывая ошибку D8021\n**Симптом**: `cl: Ошибка командной строки D8021 : недопустимый числовой аргумент \"/Wno-psabi\"` \n**Причина**: Бэкенд Triton Intel XPU генерирует команды компиляции в стиле GCC и передает их напрямую `cl.exe` \n**Исправление**: Перехват `triton.runtime.build._build`, фильтрация параметров GCC, таких как `-Wno-psabi`, `-Wno-deprecated-declarations`, `-fPIC`, и преобразование `-D`/`-I`/`-L`/`-l`/`-shared` в стиль MSVC `/D`/`-I`/`-LIBPATH:`/`lib`/`/LD`\n\n### 2. MSVC не может найти заголовки стандартной библиотеки C++ (`cstddef` и т.д.)\n**Симптом**: `fatal error C1083: Не удается открыть включаемый файл: \"cstddef\"` \n**Причина**: `vcvars64.bat` устанавливает только `PATH`, а не переменные среды `INCLUDE` и `LIB` \n**Исправление**: Автоматическое определение корневого каталога цепочки инструментов MSVC из пути `cl.exe` и дополнение `INCLUDE` (MSVC include + Windows SDK ucrt/shared/um + ATL/MFC) и `LIB` (MSVC lib/x64 + Windows SDK lib)\n\n### 3. Заголовки SYCL требуют C++17\n**Симптом**: `error C2338: static_assert failed: 'DPCPP does not support C++ version earlier than C++17.'` \n**Причина**: MSVC по умолчанию использует C++14, а заголовки SYCL проверяют версию через макрос `__cplusplus` \n**Исправление**: Добавление `/std:c++17` и `/Zc:__cplusplus` в команды компиляции (последнее заставляет MSVC правильно установить макрос `__cplusplus` на `201703L`)\n\n### 4. Компоновщик не может найти `python313.lib`\n**Симптом**: `LINK : Фатальная ошибка LNK1104: не удается открыть файл \"python313.lib\"` \n**Причина**: При компиляции расширений Python (`.pyd`) Triton `library_dirs` содержит только `Library/bin` и `Library/lib`, но не `libs` \n**Исправление**: Автоматическое обнаружение каталога `Python313/libs` и добавление его в `/LIBPATH`\n\n### 5. Компоновщик требует точку входа (отсутствует `/LD`)\n**Симптом**: `LINK : Фатальная ошибка LNK1561: точка входа должна быть определена` \n**Причина**: `.pyd` по сути является DLL и требует флаг `/LD`, который отсутствует в команде компиляции \n**Исправление**: Добавление `/LD` (создание DLL) в команду компиляции\n\n### 6. Чрезвычайно медленная JIT-компиляция Triton (кэш не работает)\n**Симптом**: Первый шаг обучения занимает 20+ минут, использование GPU близко к 0% \n**Причина**: Механизм кэширования JIT-ядер бэкенда Triton Intel XPU на Windows имеет проблемы, потенциально перекомпилируя SPIR-V на каждом шаге \n**Смягчение**: Установка `TRITON_CACHE_DIR` и `TRITON_DISABLE_AUTOTUNE=1` для уменьшения накладных расходов на повторную компиляцию\n\n---\n\n## V. Оставшиеся проблемы\n\n- **Чрезвычайно медленная скорость обучения**: Даже после исправления проблем компиляции, эффективность выполнения JIT-ядер бэкенда Triton XPU на Windows намного ниже, чем на Linux. Использование GPU остается ниже 10% в течение длительных периодов, и один шаг обучения по-прежнему занимает несколько минут до десятков минут.\n- **Кэш Triton не полностью надежен**: `TRITON_CACHE_DIR` иногда не срабатывает, вызывая многократную перекомпиляцию одного и того же ядра.\n- **Несоответствие версий Level Zero SDK**: Переменная среды `ZE_PATH` указывает на 1.30.0, но команды компиляции Triton могут ссылаться на пути 1.28.2; требуется ручное унифицирование.\n- **xformers не поддерживается**: Intel XPU не может использовать xformers (только CUDA), поэтому некоторые оптимизации FlashAttention от Unsloth неэффективны.\n- **Различия mem_get_info между платформами**: `torch.xpu.memory.mem_get_info()` работает на драйверах Windows Intel Arc, но недоступен на WSL2/Linux (кроссплатформенные скрипты должны учитывать это).\n\n---\n\n## VI. Примечания к версиям (Release)\n\nВосьмая версия — первая, которая может фактически начать запуск модели; первые семь версий не полностью исправили баги для нормальной отладки.\n\n---\n\n## VII. Быстрый старт\n\n```powershell\n# 1. Убедитесь, что все необходимое ПО установлено (см. выше)\n# 2. Скачайте Release и распакуйте\n# 3. Измените секцию CONFIG в верхней части скрипта (путь к модели, путь к датасету и т.д.)\n# 4. Запустите\n```\n\n---\n\n## VIII. Конфигурация\n\n```python\nCONFIG = {\n \"model_path\": r\"H:/Qwen3-8B-unsloth-bnb-4bit\", # Путь к модели\n \"dataset_path\": r\"D:/dataset.json\", # Путь к датасету\n \"output_dir\": r\"H:/unsloth_train/outputs\", # Выходной каталог\n \"max_seq_length\": 1024,\n \"lora_r\": 16,\n \"lora_alpha\": 16,\n \"learning_rate\": 2e-4,\n \"batch_size\": 1, # Настроить в зависимости от VRAM\n \"grad_accum\": 4, # Общий batch = batch_size * grad_accum\n \"max_steps\": 3000,\n \"warmup_steps\": 5,\n}\n```\n\n---\n\n## IX. Устранение неполадок\n\n| Проблема | Симптом | Решение |\n|----------|---------|---------|\n| **Ошибка параметра Triton GCC** | `D8021 : недопустимый числовой аргумент \"/Wno-psabi\"` | Используйте v2+; параметры GCC отфильтрованы |\n| **Не найдены заголовки C++** | `fatal error C1083: \"cstddef\"` | Используйте v4+; INCLUDE исправлен автоматически |\n| **SYCL требует C++17** | `DPCPP does not support C++ version earlier than C++17` | Используйте v5+; добавлен `/std:c++17` |\n| **Не найден python313.lib** | `LNK1104: не удается открыть файл \"python313.lib\"` | Используйте v6+; библиотеки Python добавлены автоматически |\n| **Точка входа должна быть определена** | `LNK1561: точка входа должна быть определена` | Используйте v7+; добавлен `/LD` |\n| **Первый шаг обучения чрезвычайно медленный** | 20+ минут, использование GPU 0% | Используйте v8; установите `TRITON_CACHE_DIR`; если все еще очень медленно, перейдите на WSL2/Linux |\n| **Неприемлемая скорость нативного обучения на Windows** | 1523s/it, использование GPU 6% | **Необходим переход на WSL2/Linux**; бэкенд Triton XPU на Windows не оптимизирован |\n| **Несоответствие версий Level Zero** | В командах компиляции появляются пути разных версий | Унифицируйте переменную среды `ZE_PATH` с фактически установленной версией SDK |\n\n---\n\n## X. Сравнение производительности\n\n| Среда | Модель | Скорость | Использование GPU |\n|-------|--------|----------|-------------------|\n| Windows 11 | Qwen3-8B bnb-4bit | 1523s/it | 6% |\n| WSL2 Ubuntu 24.04 | Qwen3-8B bnb-4bit | 11-15s/it | 70-85% |\n\n\u003e **Вывод**: На Windows мы можем решить только проблему \"будет ли это работать\", но не проблему \"будет ли это работать быстро\". Для реального обучения настоятельно рекомендуется переход на WSL2/Linux.\n\n---\n\n## XI. Скрипт восстановления в один клик (проверка среды Windows)\n\n```powershell\n# Проверьте необходимые переменные среды\n$env:ZE_PATH\n$env:CC\n\n# Проверьте установку VS 2022\nTest-Path \"C:\\Program Files\\Microsoft Visual Studio2\\Community\\VC\\Auxiliary\\Build\u000bcvars64.bat\"\n\n# Проверьте версию Python\npython --version # Должно быть 3.13\n\n# Проверьте PyTorch XPU\npython -c \"import torch; print(torch.__version__); print(","project_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fhorn-studio%2Fintel_unslothfix","html_url":"https://awesome.ecosyste.ms/projects/github.com%2Fhorn-studio%2Fintel_unslothfix","lists_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fhorn-studio%2Fintel_unslothfix/lists"}