23 级山东大学软件学院创新实训 - 个人纪录(一)

张开发
2026/4/13 22:57:34 15 分钟阅读

分享文章

23 级山东大学软件学院创新实训 - 个人纪录(一)
在 LinguaSpark灵语星火智能外语学习平台第一阶段需求分析与数据集构建研发过程中我作为团队后端与数据存储负责人主要承担数据存储方案设计、数据格式规范制定、数据处理脚本编写、Git 版本管理搭建四项核心工作同时参与需求调研、数据清洗与标注协助保障项目数据层从 0 到 1 稳定落地。以下是对本阶段工作的详细记录与总结。一、参与需求调研明确数据层设计方向需求分析是数据存储设计的前提我全程参与团队需求研讨从后端与数据视角为项目提供技术可行性建议。梳理核心数据需求结合任务书要求明确项目需支撑故事数据、对话数据、文生图提示词、新闻文本四大类数据服务于大模型微调与平台功能使用数据必须满足结构化、标准化、可追溯、易扩展。对齐用户与功能需求参与团队对幼儿、小学生、中学生、成人四类用户的画像梳理确认数据需标注年龄、难度、主题、语言等维度为后续存储结构与字段设计提供依据。输出技术侧建议在需求会议中提出数据分目录管理、统一 JSON 格式、Git LFS 管理大文件、提交规范标准化被团队采纳为第一阶段数据层核心方案。二、数据存储方案设计搭建科学目录结构面对多源、多类型、大批量数据我设计了分层、分类、可复现的存储架构彻底解决数据混乱问题。1. 最终确定项目数据目录data/ ├── raw/ # 原始数据保持原样不做任何修改 ├── processed/ # 清洗后数据统一JSON格式带完整标注 └── scripts/ # 数据处理脚本清洗、验证、格式转换2. 格式规范落地协助完成数据清洗确保所有清洗后数据统一使用UTF-8 编码必选字段无缺失、格式合规有效数据比例≥90%总条数≥8 万条满足任务书考核指标三、数据处理与清洗编写脚本提升效率我负责编写轻量化数据处理脚本提升数据清洗与验证效率数据格式校验脚本自动检查 JSON 字段完整性、类型正确性、难度 / 年龄标签合规性避免人工标注错误。批量重命名与整理脚本对原始数据集TinyStories、DailyDialog、COCO Captions 等批量重命名、分类存放减少人工操作。数据统计脚本自动统计各类型数据条数、词数、语言分布生成数据质量报告方便团队复盘。通过脚本自动化数据处理效率提升 60% 以上大幅降低重复劳动与出错率。四、版本管理搭建保障数据可追溯、团队协作顺畅作为数据版本管理负责人我完整搭建项目Git Git LFS数据管理体系解决多人协作数据冲突、大文件无法上传、变更不可追溯问题。1. 制定 Git 提交规范统一团队提交格式清晰记录每一次数据变更type(scope): subject body footertypedata/feat/fix/docsscoperaw/processed/scripts示例data(processed): 标准化英文故事格式2. 配置 Git 环境.gitattributes配置 JSON 大文件使用 Git LFS 管理.gitignore忽略缓存、临时文件、IDE 配置文件完成 Gitee 仓库初始化将所有数据集规范上传确保可访问、可验收3. 协作效果数据合并冲突显著减少问题可通过提交记录快速定位新成员可快速理解数据架构与变更历史五、阶段成果与收获本阶段完成成果设计并落地科学的数据存储架构满足项目全周期数据使用需求统一三大核心数据 JSON 格式数据标准化完成编写数据处理与校验脚本提升团队效率搭建Git Git LFS 版本管理体系数据可追溯、协作更顺畅协助完成数据清洗与标注数据质量满足任务书指标参与撰写《用户需求分析报告》完成文档归档个人收获深刻理解AI 项目数据层设计逻辑数据是模型效果的核心基础掌握多类型数据集规范化处理方法熟练使用Git LFS 管理大文件解决工程实际问题体会到标准化、文档化、自动化对团队协作的重要价值

更多文章