济宁市网站建设_网站建设公司_服务器维护_seo优化
2025/12/22 23:00:36 网站建设 项目流程

一、食材、菜谱数据库整理

在组员爬取的生鲜商品信息和菜谱数据存在字段冗余、数值缺失、内容重复等问题,无法直接用于我们的项目。因此,我主要负责对这些原始数据进行系统化整理与清洗。
具体工作包括:

1.字段规范化处理

对不同来源的数据字段进行统一命名,例如保留商品名关键字,去除多余的修饰词,使我们页面上的品名更加直观。

2.数据去重与筛选

针对重复爬取的生鲜商品和菜谱信息,利用主键字段和内容比对方式进行去重,保留信息完整、质量较高的数据记录,提高数据库整体可靠性。

3.缺失值与异常值处理

对价格、简介等缺失的的数据进行补充或删除。

4.数据格式统一

将不同格式的数据统一为项目所需的数据库格式,为后续页面展示、查询和功能实现打下基础。

清洗前

image

清洗后

image

通过以上整理与清洗工作,使原本杂乱的原始数据转变为可直接使用的数据库。

二、页面前端逻辑调整与优化

我调整了首页“水果”部分的展示逻辑,将前面的图片换成了拥有菜谱的食材。

image

三、综合实践报告的撰写与整合

最后,我承担了综合实践报告的撰写与整合工作。对项目过程进行整体的复盘和总结,也对技术路线、分工情况和成果进行系统梳理。

四、心得体会

在数据清洗中,我更深刻认识到数据清洗在实际项目中的重要性。在实际爬虫的过程中,可能由于页面反爬、具体字段匹配有差错等种种问题,导致爬取下来的原始数据无法直接为数据库所用,这是就需要对数据进行清洗和处理。一开始我用了pandas库对里面的数据进行提炼,但是发现提取关键词的功能很鸡肋,总是还有特别多冗余的信息,于是我再多次清洗以后再自己检查补全了。
能和大家一起完成这样一个项目,非常感谢同组大家的付出,不厌其烦地帮助我解决一些我工作上出现的问题,我也学习到了更多的前后端、数据库、数据采集等等方面的知识。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询