万宁市网站建设_网站建设公司_留言板_seo优化
2025/12/25 17:28:44 网站建设 项目流程

一、Result文件数据说明
原始数据包含以下核心字段,字段含义及示例如下:

  • Ip:106.39.41.166(访问IP,可关联城市信息)

  • Date:10/Nov/2016:00:01:02 +0800(访问日期时间,带时区)

  • Day:10(访问日期中的“日”)

  • Traffic:54(访问产生的流量)

  • Type:video(内容类型,含视频video、文章article两类)

  • Id:8701(对应视频或文章的唯一ID)

二、测试要求

2.1 数据清洗

需完成两阶段数据清洗,并将清洗后的数据导入Hive数据库。

第一阶段:原始日志信息提取

从原始日志中提取以下关键信息,提取示例如下:

  • ip: 199.30.25.88

  • time: 10/Nov/2016:00:01:03 +0800

  • traffic: 62

  • 文章:article/11325(格式为“类型/ID”)

  • 视频:video/3235(格式为“类型/ID”)

第二阶段:精细化数据处理

对提取后的信息进行格式标准化与字段拆分,处理规则如下:

  • ip → 关联城市(city):通过IP地址匹配对应城市信息

  • date → 标准化时间(time):转换为“2016-11-10 00:01:03”格式

  • 提取day字段:保留日期中的“日”(如10),格式为字符串

  • traffic:保留原始数值,后续转换为对应数据类型

  • 拆分type与id:从“类型/ID”格式中拆分出type(article/video)和纯数字ID

Hive数据库表结构

创建Hive表用于存储清洗后的数据,建表语句如下:

create table data( ip string, time string, day string, traffic bigint, type string, id string );

2.2 数据分析(基于Hive)

基于清洗后的Hive表数据,完成以下三项统计分析:

  1. 统计最受欢迎的视频/文章Top10:按内容(video/article)的访问次数排序,取前10名

  2. 按地市统计最受欢迎的Top10内容:以IP关联的城市为维度,统计各城市访问量最高的10个内容

  3. 按流量统计最受欢迎的Top10内容:以访问流量为维度,统计流量最高的10个内容

2.3 数据可视化

将上述Hive统计结果导入MySQL数据库,通过图形化展示方式呈现统计数据(如柱状图、排行榜等)。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询