从头训练中文错别字纠错模型 (二) 2026-02-13 09:56 机器学习 rust 约 1038 字 预计阅读 5 分钟 代码解释 训练数据处理(dataset.py) 主要流程就是从文本文件(训练数据)中逐行加载数据(每行包含一个错误文本和一个正确文本,使用制表符分隔) 然后通过传入的tokenizer将这些文本转换为模型可以接受的张量格式(对应代码中56和66行)返回。 注意:填充-100的逻辑主要是为了在计算损失时忽略填充位置的标签,因为这些位置不应该对模型的训练产生影响。PyTorch 的交叉熵损失函数会自动 阅读更多
从头训练中文错别字纠错模型 (一) 2026-01-21 19:36 机器学习 rust 约 588 字 预计阅读 2 分钟 源码位置 pengxiaochao/csc 整个源码已经包含了训练好的模型和简单训练需要准备的数据集 背景 中文错别字纠错(Chinese Spelling Check,CSC)是一个非常简单的大模型应用场景,训练的成本也比较低,非常适合入门机器学习和自然语言处理。 去年(2025年)我的某个KPI项目就是实践做一个中文错别字纠错模型。 最终我实现的代码是很基础的模型,并无法非常优秀地在生产环境运 阅读更多
X(原Twitter)推荐算法中文简介 2026-01-21 06:57 tools 约 2825 字 预计阅读 14 分钟 X(推特) "为你推荐" 信息流推荐算法文档 源码地址: GitHub - x-algorithm 概述 本推荐系统是驱动 X 平台 "为你推荐"(For You)信息流的核心算法。它结合了两种内容来源: 关注网络内容(In-Network) :来自用户关注账户的帖子 关注网络外内容(Out-of-Network) :通过机器学习召回的全平台内容 所有候选内容使用基于 Grok Transfor 阅读更多
Smartctl Exporter 在群晖上的使用 2026-01-08 21:37 tools 约 391 字 预计阅读 1 分钟 家里的NAS使用了很久,上一次硬盘坏了一块,为了防止忽然再出现损坏,决定监控一下硬盘状态。 安装 Smartctl Exporter 因为群晖自带的 smartctl 版本过低,不支持 JSON 输出格式,需要安装一个新版本。 在“套件中心 > 设置 > 套件来源”中添加 https://packages.synocommunity.com/ 作为套件来源,然后安装 SynoCli Disk To 阅读更多
Tonic版本从0.13.1更新到0.14.2踩坑记录 2026-01-04 19:05 rust 约 163 字 预计阅读 1 分钟 问题描述 之前有一个rust的gRPC项目,使用的是tonic 0.13.1版本,最近尝试将tonic升级到0.14.2版本,结果在编译时遇到了如下错误: error[E0412]: cannot find type `i64` in module `super` --> src/proto-gen/category.rs:132:72 | 132 | request: i 阅读更多
如何判断 Tailscale 直连还是中继 2025-12-11 08:29 tools 约 164 字 预计阅读 1 分钟 背景 Tailscale 是一个基于 WireGuard 的零配置 VPN 解决方案,允许用户轻松地在不同设备之间建立安全的连接。在某些情况下,Tailscale 会选择通过中继服务器(DERP)进行通信,而不是直接连接(P2P打洞)。这可能会影响性能和延迟。 判断方法 使用 tailscale status --peers 命令查看连接状态,会看到类似如下的输出: 100.x.x.x 阅读更多
使用 Seaweedfs 代替 Minio 2025-12-05 00:04 tools 约 643 字 预计阅读 3 分钟 原因 因为众所周知的原因 Minio切换开源项目为仅维护状态 ,所以需要寻找替代方案来继续使用类似S3的存储服务。 在论坛和推上有不少人推荐了 Seaweedfs 作为替代方案。 在这里记录一下Debian 13系统下,使用Seaweedfs代替Minio的过程。 安装Seaweedfs 1. 下载最新二进制文件 (请根据实际情况替换版本号) wget https://github.com/sea 阅读更多
nginx-acme模块无法申请证书解决方案 2025-12-03 19:56 tools 约 866 字 预计阅读 4 分钟 问题描述 为了省略每次手动申请SSL证书的麻烦,自己手工编译了nginx,并使用了 nginx-acme 模块来自动申请和续订证书。但是在实际使用过程中,发现无法成功申请证书。 使用了官方的文档进行配置: nginx的http模块增加 # 配置 DNS 解析器(用于 ACME 客户端与 CA 服务器通信) resolver 127.0.0.1:53; # 定义一个名为 “au92” 的 ACME 阅读更多
检查Linux硬盘占用,清理Docker残留数据 2025-11-26 12:39 tools 约 194 字 预计阅读 1 分钟 PVE一个LXC部署了一些打包任务,最近发现备份文件越来越大。但实际编译中间产物没有那么大的文件。 检查磁盘占用 首先使用如下命令检查磁盘占用情况(exclude的目录是挂载的NAS的共享目录): sudo du -h --max-depth=1 / --exclude=/mnt 2>/dev/null | sort -h 问了ChatGTP说也可以使用如下命令可以自动跳过挂载点对应的外部文件系统 阅读更多
快速切换网关和DNS配置(Linux) 2025-11-20 08:22 tools 约 93 字 预计阅读 1 分钟 上脚本 #!/bin/bash # 目标网关 GW1="192.168.3.8" GW2="192.168.3.2" # 网卡名称(你的 LXC 为 eth0) IFACE="eth0" # 读取当前默认网关 CURRENT_GW=$(ip route | awk '/default/ {print $3}') echo "Current gateway: $CURRENT_GW" # 选择切换目 阅读更多