| 项目信息 | 内容描述 |
|---|---|
| 课程 | 2025数据采集与融合技术 |
| 组名、项目简介 | 组名: 基米大哈气 项目背景: 针对B站视频评论信息量大、内容杂乱的问题,提供智能化的筛选与分类方案,帮助用户快速了解视频评论风向。 项目目标: 开发一个支持评论爬取、智能分类、违禁词管理及可视化分析的综合系统,实现对评论内容的精准筛选与多维度展示。 技术路线: 前端采用 React + React Router 实现组件化开发;后端使用 Flask + MySQL 管理数据与接口;核心算法基于本地部署的 Qwen2.5 大模型,并应用 LoRA 微调与 4位量化技术优化性能;系统最终部署于 华为云平台。 |
| 团队成员学号 | 102302113(王光诚)、102302115(方朴)、102302119(庄靖轩)、102302120(刘熠黄)、102302121(许友钿)、102302122(许志安)、102302123(许洋)、102302147(傅乐宜) |
| 这个项目的目标 | 1. 智能分类: 结合视频类型(如游戏、二次元),将评论自动归类为正常、争论、广告、@某人、无意义五大类。 2. 数据可视化: 提供评论统计、分类分布、高频词云及评论变化曲线图,直观展示数据特征。 3. 违禁词管理: 支持实时增删查改违禁词库,保障过滤机制的高效性。 4. 自动化爬取: 用户只需输入B站链接,系统即可自动抓取评论并进行智能处理,爬取过程中支持播放背景音乐。 |
| 其他参考文献 | [1]Joshua Ainslie, James Lee-Thorp, Michiel de Jong, Yury Zemlyanskiy, Federico Lebr´on, and SumitSanghai. GQA: Training generalized multi-query Transformer models from multi-head checkpoints. InEMNLP, pp. 4895–4901. Association for Computational Linguistics, 2023. |
| 码云链接(由于git上上传不了大于1GB的文件,所以我们将所有源码都放到了github上,小组成员间底代码不分开) | 项目代码(GitHub): https://github.com/liuliuliuliu617-maker/-/tree/master 项目演示网址: http://1.94.247.8/(31 号前可以查看,之后代金券应该过期了) |
固原市网站建设_网站建设公司_Banner设计_seo优化