海南藏族自治州网站建设_网站建设公司_交互流畅度_seo优化
2026/1/10 16:17:37 网站建设 项目流程

2 相关技术与开发环境

在进行设计的时候,需要先了解需要掌握相关的技术才可以,然后还要确定使用的开发环境,这里采用了Pycharm来作为编译代码的开发工具。
2.1相关技术简介
2.1.1 Python简介
1991年,吉多·范罗苏姆开发出了Python脚本语言。Python脚本语言是一个具有良好的解释性、编译性、互动性等一系列特性的面向对象编程脚本语言。它最大的特点和优势之一是有丰富的标准库,Python提供的第三方库主要可以实现web软件开发、图形绘制等多个功能。比较著名的库有:Django、Flask、Tornado、Matplotlib、SciPy、NumPy、PyQt、WxPython、PIL、TensorFlow等。所以Python可以让用户在编程的过程中用最少的代码来表达自己的想法。
2.1.2 XPath简介
Xpath编程语言被设计以来就可以提供给xslt、xquery以及xpointery使用。Xpath提供很多标准库函数。Xpath的内置函数就有100个。其中字符串函数主要有string(object)、concat(string1,string2)、format-number(num)等;布尔函数主要有true()、false()、lang(string)等;数字函数主要有number(object)、floor(number)、round(number)。
2.1.3 Scrapy框架简介
Scrapy框架是适用于Python的网站数据爬虫框架。该框架常常被用在数据采集、数据存储、数据清洗等程序。
利用Scrapy框架可以快速实现一个网站爬虫,抓取指定网站内容。尽管Scrapy的框架最初是为了它被用来在网络上抓取,但它也被认为是很容易通过访问api提取结构性数据。Srapy框架文件具有以下6个主要的文件目录结构:items、middlewares、pipelines、settings、spiders、scrapy.cfg。Scrapy的架构图如图2-1所示。

图2-1scrapy架构图(绿线是数据流向)

3 可行性与需求分析

想要写好系统的功能,就要提前对系统的所有功能都设计好,思路清晰,考虑能预见的所有情况,也要好好考虑。通过对功能的设计,让系统的结构更加合理。
3.1 可行性分析
3.1.1 技术可行性
数据可视化分析科技是利用多种可视化界面和一体化分析数据理论的方法,帮企业和用户快速解读复杂数据的分析技术。可详细分为数据采集、数据持久化、数据清洗、数据可视化4个步骤。数据采集的执行过程可分为:确定获取内容、分析网页布局、下载Html页面、解析页面内容、存入数据库。解析网页内容有Xpath和正则表达式两种方法。数据持久化可以通过Python中的Pymysql模块将获取到的数据存入Mysql完成数据持久化。数据清洗与提取可以使用Pandas库可以对采集到的数据进行统计与处理。数据可视化可以通过Excel工具或者第三方库Matplotlib进行可视化分析。
3.1.2 经济可行性
在互联网大数据的背景下,可以使用大数据对于电影内容进行可视化的分析。可以通过数据采集,发现观众的电影喜好内容是什么,把对应的电影推荐给观众,实现大数据营销和预测电影票房。还可以把一部热门电影的几千万条用户评论数据进行搜集、整理,就可以通过寻找筛选出其中有利的一些东西做成电影品牌,这样可以精细地理解用户的电影爱好,对电影下一步的创作和发展具有很好的指导性。
3.1.3 操作可行性
本系统界面清晰易懂,功能简单,页面响应速度快。能够让用户能快速了解系统。只要你了解过操作系统用户都可以使用这个程序,它的可操作性是其他替代软件无法比拟的。可以让用户简单地看到电影的数据,电影的各个数据非常简单的展示。因此,该系统具有很大的可操作性。
3.2需求分析
3.2.1 系统功能需求分析
系统的使用者主要是影评人员,对系统的可视化模块进行查看,将数据汇报给片方,片方根据影评人员汇报的数据对电影信息进行相应的处理。本系统主要实现了数据采集模块和可视化功能模块。如图3-1系统用例图所示。

图3-1系统用例图

4 数据可视化总体设计

系统总体设计与实现,先进行总体架构设计,并对数据库进行创建,对数据表进行创建,连接数据库准备工作,使各个模块成功连接起来。
4.1 数据可视化架构设计
本次系统主要分为数据采集、数据库和数据可视化。数据采集主要采用Scrapy框架,主要通过豆瓣网站的网页URL采集豆瓣电影网站上的电影信息和短评文本等。数据库主要采用Mysql关系型数据库,主要存储从豆瓣电影数据平台采集的电影信息、短评文本等[3]。
数据可视化主要采用Matplotlib库和数据可视化工具来进行分析并输出成图表。数据可视化系统的简单架构如图4-1所示。

图4-1数据可视化系统的简单架构图
4.2 系统功能模块设计
该系统可以大概分为2个功能模块:数据采集和数据可视化。其中数据采集功能模块,主要是负责从网上自动采集数据并直接存入数据库。采用的当下热门的Scrapy框架和Mysql。数据可视化功能模块,主要负责将清洗后的数据通过图表方式展示出来。采用的当下流行的第三方库Matplotlib、Jieba等。系统功能结构如图4-2所示。

图4-2系统功能结构图
4.2.1 数据采集功能模块设计
此模块主要采集所需的电影数据,并对采集到的数据进行清洗和存储。
(1)数据采集类型
本次设计的爬虫系统主要收集豆瓣电影网站上的两个电影数据类型,第一个数据类型是电影的基本信息包括电影名、电影Id、豆瓣评分、主演、导演、简介等。电影基本信息采集结果如图4-3所示。

图4-3电影基本信息采集
5 数据可视化系统实现
5.1 数据采集功能实现
电影的数据采集主要使用基于Python开发的爬虫轻量级框架Scrapy框架实现数据采集[9]。因为这两类数据有一个采集顺序。在实际采集的过程中,先要采集电影的基本信息,存入数据库电影基本信息表中。再根据电影基本信息表中的电影的Id构造出电影短评的URL用来采集指定电影的前200个短评信息,存入数据库短评信息表中。上述关于存入数据库的关键代码如下图所示:

数据采集流程图如5-1所示。

图5-1数据采集流程图

6 数据可视化结果展示

随着电影行业的飞速发展,越来越多的电影公司开始希望通过用户对不同电影的评分变化来了解用户想看电影的需求和喜好。电影评分主要是观众对于电影从期待和接受的角度对于电影内容进行的一种评价和回馈,一方面是取决于电影本身质量,另一方面则是取决于观众本身对电影的这种接受需求,即电影在多大程度上与电影对于观众的这种期待以及视域已经达到了融合[12]。本次课题主要从以下几点来为用户提供详细的观看建议与推荐,为电影行业制片人等提供可用的观众喜好数据。第一,从关键词分析观众看点。第二,从短评评分占比角度分析用户对电影的接受程度。第三,从不同电影的评分变化角度分析最近热门中国大陆作品质量。第四,从豆瓣评分集中趋势的角度分析最近热门中国大陆作品质量。第五,从演员担任不同电影的主演次数的角度分析观众接受度。最后,从不同类型的电影数量角度分析观众喜欢的电影类型。
6.1 关键词分析观众看点
《疯狂动物城》短评文本词云图如图6.1所示。从图6.1可知,这部影片是动画类型。影片角色有狐狸、兔子、树懒等。图中存在“最佳”、“好看”、“不错”、“细节”、“可以”等“关键字”,可以分析出这部影片作品质量比较高,观众对这部影片持支持态度。喜欢动画类型但是找不到好电影的就可以尝试观看该影片,电影制片方也能借此分析出观众们喜欢的看点是什么。

图6.1《疯狂动物城》短评文本词云图
6.3 从不同类型的电影数量角度分析观众喜欢的电影类型
中国大陆电影的类型信息有19种,我比较喜欢观看的类型有爱情、动画、动作、犯罪、古装、家庭、剧情、真人秀等,TOP250电影比较如图6.3所示。
从图6.3可知,剧情类型的电影最受欢迎,第二受欢迎的是喜剧类型。第三是动作类型,有117部。受众比较少的电影类型是传记、犯罪、古装、家庭、音乐、惊悚等等。可以分析出电影市场的剧情类型的电影需求量最高,因为国人受众最多的电影类型是剧情。

图6-3中国大陆最近热门不同类型的电影数量比较

文章底部可以获取博主的联系方式,获取源码、查看详细的视频演示,或者了解其他版本的信息。
所有项目都经过了严格的测试和完善。对于本系统,我们提供全方位的支持,包括修改时间和标题,以及完整的安装、部署、运行和调试服务,确保系统能在你的电脑上顺利运行。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询