晋中市网站建设_网站建设公司_Redis_seo优化
2026/1/21 18:18:34 网站建设 项目流程

文章目录

  • 1. 项目准备
    • 1.1 需求分析
    • 1.2 数据结构
      • 1.2.1 订单表
      • 1.2.2 访客表
      • 1.2.3 商品类目表
      • 1.2.4 退款表
      • 1.2.5 物流表
      • 1.2.6 用户表
    • 1.3 准备数据文件
      • 1.3.1 上传数据文件到虚拟机
      • 1.3.2 在HDFS上创建数据目录
      • 1.3.3 上传数据文件到HDFS目录
    • 1.4 创建数据库
    • 1.5 创建数据表
      • 1.5.1 创建订单表
      • 1.5.2 创建访客表
      • 1.5.3 创建商品类目表
      • 1.5.4 创建退款表
      • 1.5.5 创建物流表
      • 1.5.6 创建用户表
  • 2. 项目实现
    • 2.1 总体运营指标
      • 2.1.1 独立访客数(UV)
      • 2.1.2 页面访问数(PV)
      • 2.1.3 人均页面访问数(PPV)
      • 2.1.4 总订单数量
      • 2.1.5 成交金额
      • 2.1.6 客单价=销售额/购买人数
      • 2.1.7 销售毛利(毛利最高的时间商品)
      • 2.1.8 毛利率
    • 2.2 流量类指标
    • 2.3 网站销售类指标
    • 2.4 商品类指标
    • 2.5 营销类指标
    • 2.6 物流类指标
  • 3. 数据展示
    • 3.1 可视化软件简介
    • 3.2 可视化软件安装
      • 3.2.1 下载Tableau可视化软件
      • 3.2.2 安装Tableau可视化软件
    • 3.3 数据展示
      • 3.3.1 导入数据
      • 3.3.2 独立访客数
      • 3.3.3 页面访问数
      • 3.3.4 人均页面访问数
      • 3.3.5 总订单数量
      • 3.3.6 跳出率
      • 3.3.7 页面访问时长
      • 3.3.8 下单—支付金额转化率
      • 3.3.9 下单—支付买家数转化率
      • 3.3.10 退款金额
      • 3.3.11 出版社图书前10名
      • 3.3.12 出版社销量排行
      • 3.3.13 平均发货时间

1. 项目准备

1.1 需求分析

  1. 数据采集和整合:收集电商平台的交易日志,将其存储到合适的数据库或数据仓库中,并保证数据的准确性、完整性和实时性。
  2. 数据清洗和预处理:对采集到的数据进行清洗、转换和预处理,以确保数据的质量。
  3. 用户行为分析:通过分析交易日志中的用户行为数据,如点击、浏览、购买等,识别用户偏好、购买习惯和潜在的流失因素等。
  4. 销售趋势分析:通过分析销售数据,如销售额、销售渠道等,发现热门商品及其销售趋势,优化库存管理和采购计划。
  5. 交易异常监测:通过分析日志数据,检测异常订单、欺诈行为和支付问题等,提高系统的安全性。
  6. 数据可视化和报告:将分析结果以直观的图表、可视化仪表板和报告的形式展示,帮助决策者更好地理解数据,并做出相应的业务决策。

1.2 数据结构

1.2.1 订单表

字段解释字段名数据类型
订单 IDorder_idstring
订单时间order_timebigint
买家 IDuser_idbigint
商品 IDgoods_idbigint
买家 IPuser_ipstring
收货地址ship_add (shipping address)string
手机号phone_nostring
点击来源click_sourcestring
单点费用click_costfloat
订单完成时间pay_ct (payment completion time)bigint
订单状态pay_status (payment status)string

1.2.2 访客表

字段解释字段名数据类型
访问 IPaccess_ipstring
访问时间access_timebigint
网页跳转时间jump_timebigint
用户 IDuser_idbigint
手机号phone_nostring
商品 IDgoods_idbigint
访问链接access_con (access connection)string
访问事件access_eventstring
点击来源click_sourcestring
单点费用click_costfloat

1.2.3 商品类目表

字段解释字段名数据类型
商品 IDgoods_idbigint
商品名称goods_namestring
作者authorstring
出版社pressstring
出版时间pub_time (published time)bigint
ISBN 编号ISBNfloat
定价pricingfloat
商品售价goods_pricebigint
月销量mon_sales (month sales)string
发货地址del_add (delivery address)string

1.2.4 退款表

字段解释字段名数据类型
订单 IDorder_idbigint
买家 IDuser_idbigint
图书 IDgoods_idbigint
买家 IPuser_ipstring
订单时间order_timebigint
退款时间refund_timebigint
收货地址ship_add (shipping address)string
手机号phone_nostring
运费险fre_ins (freight insurance)string
退款原因refund_reasonstring

1.2.5 物流表

字段解释字段名数据类型
订单 IDorder_idbigint
物流单号log_num (logistics single number)bigint
发货时间del_time (the delivery time)bigint
收货时间rec_time (receiving time)bigint

1.2.6 用户表

字段解释字段名数据类型
用户 IDuser_idbigint
性别genderstring
年龄agebigint
访问时间access_timebigint
最后一次登录时间last_login (last login time)bigint
点击来源click_sourcestring

1.3 准备数据文件

1.3.1 上传数据文件到虚拟机

  • 在slave2节点上执行命令:mkdir /ecdata
    在这里插入图片描述
  • 执行命令:cd /ecdata
    在这里插入图片描述
  • 将6个数据文件上传到/ecdata目录
    在这里插入图片描述
  • 执行命令:ll
    在这里插入图片描述

1.3.2 在HDFS上创建数据目录

1.3.3 上传数据文件到HDFS目录

  • 执行命令:hdfs dfs -put item.txt /ecdata
    在这里插入图片描述

  • 执行命令:hdfs dfs -put logistics.txt /ecdata
    在这里插入图片描述

  • 执行命令:hdfs dfs -put orders.txt /ecdata
    在这里插入图片描述

  • 执行命令:hdfs dfs -put refund.txt /ecdata
    在这里插入图片描述

  • 执行命令:hdfs dfs -put users.txt /ecdata
    在这里插入图片描述

  • 执行命令:hdfs dfs -put visitors.txt /ecdata
    在这里插入图片描述

1.4 创建数据库

1.5 创建数据表

1.5.1 创建订单表

  1. 创建订单表
    • 执行语句
      create table orders (
      order_id string,
      order_time bigint,
      user_id bigint,
      goods_id bigint,
      user_ip string,
      ship_add string,
      phone_no string,
      click_source string,
      click_cost float,
      pay_ct bigint,
      pay_status string
      )
      row format delimited
      fields terminated by '\t';
      在这里插入图片描述
  2. 向订单表加载数据
    • 执行语句:load data inpath '/ecdata/orders.txt' into table orders;
      在这里插入图片描述
  3. 查看订单表记录
    • 执行语句:select * from orders limit 20;
      在这里插入图片描述

1.5.2 创建访客表

  1. 创建访客表

    • 执行语句
      create table visitors (
      access_ip string,
      access_time bigint,
      jump_time bigint,
      user_id bigint,
      phone_no string,
      goods_id bigint,
      access_con string,
      access_event string,
      click_source string,
      click_cost float
      )
      row format delimited
      fields terminated by '\t';
      在这里插入图片描述
  2. 向访客表加载数据

    • 执行语句:load data inpath '/ecdata/visitors.txt' into table visitors;
      在这里插入图片描述
  3. 查看访客表记录

    • 执行语句:select * from visitors limit 20;
      在这里插入图片描述

1.5.3 创建商品类目表

  1. 创建商品类目表

    • 执行语句
      create table item (
      goods_id bigint,
      goods_name string,
      author string,
      press string,
      pub_time bigint,
      isbn float,
      pricing float,
      goods_price bigint,
      mon_sales string,
      del_add string
      )
      row format delimited
      fields terminated by '\t';
      在这里插入图片描述
  2. 向商品类目表加载数据

    • 执行语句:load data inpath '/ecdata/item.txt' into table item;
      在这里插入图片描述
  3. 查看商品类目表记录

    • 执行语句:select * from item limit 20;
      在这里插入图片描述

1.5.4 创建退款表

  1. 创建退款表

    • 执行语句
      create table refund (
      order_id bigint,
      user_id bigint,
      goods_id bigint,
      user_ip string,
      order_time bigint,
      refund_time bigint,
      ship_add string,
      phone_no string,
      fre_ins string,
      refund_reason string
      )
      row format delimited
      fields terminated by '\t';
      在这里插入图片描述
  2. 向退款表加载数据

    • 执行语句:load data inpath '/ecdata/refund.txt' into table refund;
      在这里插入图片描述
  3. 查看退款表记录

    • 执行语句:select * from refund limit 20;
      在这里插入图片描述

1.5.5 创建物流表

  1. 创建物流表

    • 执行语句
      create table logistics (
      order_id bigint,
      log_num bigint,
      del_time bigint,
      rec_time bigint
      )
      row format delimited
      fields terminated by '\t';
      在这里插入图片描述
  2. 向物流表加载数据

    • 执行语句:load data inpath '/ecdata/logistics.txt' into table logistics;
      在这里插入图片描述
  3. 查看物流表记录

    • 执行语句:select * from logistics limit 20;
      在这里插入图片描述

1.5.6 创建用户表

  1. 创建用户表

    • 执行语句
      create table users (
      user_id bigint,
      gender string,
      age bigint,
      access_time bigint,
      last_login bigint,
      click_source string
      )
      row format delimited
      fields terminated by '\t';
      在这里插入图片描述
  2. 向用户表加载数据

    • 执行语句:load data inpath '/ecdata/users.txt' into table users;
      在这里插入图片描述
  3. 查看用户表记录

    • 执行语句:select * from users limit 20;
      在这里插入图片描述

2. 项目实现

2.1 总体运营指标

在这里插入图片描述

2.1.1 独立访客数(UV)

  1. 时间维度

    • 执行语句

      select
      from_unixtime(access_time, 'HH') as hour,
      count(distinct user_id) as uv
      from
      visitors
      where
      access_time is not null
      group by
      from_unixtime(access_time, 'HH')
      order by
      hour;

      在这里插入图片描述
      在这里插入图片描述

    • 结果说明:该查询按小时统计了独立访客数(UV),结果显示全天各时段均有用户访问,整体分布较均匀。高峰出现在15点(483人)和19点(484人),低谷在20点(382人),表明用户活跃时段集中在下午至晚间,符合典型电商使用习惯。

      小时独立访客数
      00481
      01487
      02453
      03435
      04438
      05454
      06477
      07436
      08470
      09456
      10443
      11431
      12438
      13438
      14439
      15483
      16434
      17453
      18471
      19484
      20382
      21428
      22461
      23422
  2. 地域维度

    • 执行语句

      select
      split(o.ship_add, ' ')[0] as province,
      count(distinct o.user_id) as visitor_count
      from
      orders o
      inner join
      visitors v
      on o.user_id = v.user_id
      where
      o.ship_add is not null
      and o.ship_add != ''
      and split(o.ship_add, ' ')[0] is not null
      group by
      split(o.ship_add, ' ')[0]
      order by
      visitor_count desc;

      在这里插入图片描述在这里插入图片描述

    • 结果说明:该查询统计了既访问网站又下单的用户按省份分布的独立访客数,覆盖全国31个省级行政区。用户主要集中在云南(58人)、河北(56人)和黑龙江、浙江等地,直辖市及西部地区用户相对较少,反映活跃用户多分布于人口大省或电商渗透率较高区域。

      省份下单独立访客数
      云南省58
      河北省56
      黑龙江省54
      浙江省53
      广东省52
      辽宁省52
      四川省50
      山西省49
      内蒙古自治区49
      河南省49
      吉林省48
      江苏省48
      湖南省48
      新疆维吾尔自治区46
      广西壮族自治区46
      甘肃省44
      福建省44
      安徽省43
      陕西省43
      山东省42
      西藏自治区41
      江西省40
      贵州省38
      青海省35
      湖北省34
      重庆市31
      海南省27
      宁夏回族自治区25
      天津市16
      北京市15
      上海市14
  3. 渠道维度

    • 执行语句

      select
      click_source as channel,
      count(distinct user_id) as uv
      from
      visitors
      where
      click_source is not null
      and click_source != ''
      group by
      click_source
      order by
      uv desc;

      在这里插入图片描述在这里插入图片描述

    • 结果说明:该查询按渠道统计了独立访客数(UV),结果显示“聚划算”引流效果最强(1702人),其次是“淘宝直播”(1397人)和“直通车”(1199人),而“搜索”渠道仅1人。表明促销活动与直播内容是吸引用户访问的主要来源,传统自然搜索占比较低。

      渠道独立访客数
      聚划算1702
      淘宝直播1397
      直通车1199
      淘宝橱窗924
      阿里博客905
      淘宝社区886
      淘宝搜索541
      搜索1

2.1.2 页面访问数(PV)

  1. 时间维度

    • 执行语句

      select
      from_unixtime(access_time, 'HH') as hour,
      count(*) as pv
      from
      visitors
      where
      access_time is not null
      group by
      from_unixtime(access_time, 'HH')
      order by
      hour;

      在这里插入图片描述
      在这里插入图片描述

    • 结果说明:该查询按小时统计了页面访问量(PV),结果显示全天各时段均有稳定访问,高峰出现在15点(551次)和19点(538次),低谷在20点(435次)和04点(477次)。整体分布较均衡,无极端波动,表明用户活跃时段覆盖全天,符合典型电商平台的访问规律。

      小时页面访问数
      00531
      01546
      02502
      03480
      04477
      05497
      06518
      07483
      08524
      09523
      10489
      11486
      12491
      13493
      14488
      15551
      16484
      17509
      18528
      19538
      20435
      21479
      22511
      23467
  2. 地域维度

    • 执行语句

      select
      split(o.ship_add, ' ')[0] as province,
      count(*) as pv
      from
      visitors v
      join
      orders o
      on v.user_id = o.user_id
      where
      o.ship_add is not null
      and o.ship_add != ''
      and split(o.ship_add, ' ')[0] is not null
      group by
      split(o.ship_add, ' ')[0]
      order by
      pv desc;

      在这里插入图片描述在这里插入图片描述

    • 结果说明:该查询统计了有下单记录用户的页面访问量(PV)按省份分布情况。结果显示云南省(369)、河北省(357)和浙江省(334)访问量最高,直辖市如上海、北京、天津相对较低,表明活跃用户主要集中在人口大省或电商渗透率较高的地区,整体与用户基数和消费活跃度正相关。

      省份页面访问量
      云南省369
      河北省357
      浙江省334
      黑龙江省333
      辽宁省328
      广东省322
      四川省313
      内蒙古自治区310
      河南省310
      山西省304
      江苏省302
      湖南省300
      吉林省295
      新疆维吾尔自治区287
      广西壮族自治区285
      甘肃省277
      福建省277
      陕西省272
      安徽省268
      山东省260
      江西省249
      西藏自治区249
      贵州省238
      青海省224
      湖北省217
      重庆市191
      海南省170
      宁夏回族自治区155
      天津市100
      北京市96
      上海市90
  3. 渠道维度

    • 执行语句

      select
      click_source as channel,
      count(*) as pv
      from
      visitors
      where
      click_source is not null
      and click_source != ''
      group by
      click_source
      order by
      pv desc;

      在这里插入图片描述
      在这里插入图片描述

    • 结果说明:该查询按渠道统计页面访问量(PV),结果显示“聚划算”以3652次访问居首,其次是“淘宝直播”(2374)和“直通车”(1752),传统搜索类渠道如“淘宝搜索”仅642次,“搜索”渠道最低(2次)。说明营销活动和内容直播是当前主要流量来源,用户更倾向于通过促销和互动场景进入平台。

      渠道页面访问数
      聚划算3652
      淘宝直播2374
      直通车1752
      淘宝橱窗1222
      阿里博客1218
      淘宝社区1168
      淘宝搜索642
      搜索2

2.1.3 人均页面访问数(PPV)

  1. 时间维度

    • 执行语句

      select
      from_unixtime(access_time, 'HH') as hour,
      count(*) as pv,
      count(distinct user_id) as uv,
      round(count(*) * 1.0 / count(distinct user_id), 2) as ppv
      from
      visitors
      where
      access_time is not null
      group by
      from_unixtime(access_time, 'HH')
      order by
      hour;

      在这里插入图片描述
      在这里插入图片描述

    • 结果说明:该查询按小时计算了人均页面访问数(PPV = PV/UV),结果显示全天 PPV 稳定在 1.09–1.15 之间,用户浏览深度较为均衡。高峰时段如 09 点(1.15)和 15 点(1.14)略高,表明用户在活跃时段停留更久或浏览更多页面,整体用户体验和内容吸引力良好。

      小时页面访问数独立访客数人均页面访问数
      005314811.10
      015464871.12
      025024531.11
      034804351.10
      044774381.09
      054974541.09
      065184771.09
      074834361.11
      085244701.11
      095234561.15
      104894431.10
      114864311.13
      124914381.12
      134934381.13
      144884391.11
      155514831.14
      164844341.12
      175094531.12
      185284711.12
      195384841.11
      204353821.14
      214794281.12
      225114611.11
      234674221.11
  2. 地域维度

    • 执行语句

      select
      t.province,
      sum(t.pv) as total_pv,
      count(distinct t.user_id) as uv,
      round(sum(t.pv) * 1.0 / count(distinct t.user_id), 2) as ppv
      from (
      select
      v.user_id,
      count(*) as pv,
      split(o.ship_add, ' ')[0] as province
      from
      visitors v
      join
      orders o
      on v.user_id = o.user_id
      where
      o.ship_add is not null
      and o.ship_add != ''
      and split(o.ship_add, ' ')[0] is not null
      group by
      v.user_id,
      split(o.ship_add, ' ')[0]
      ) t
      group by
      t.province
      order by
      ppv desc;

      在这里插入图片描述
      在这里插入图片描述

    • 结果说明:该查询按省份统计了人均页面访问数(PPV),结果显示各省份 PPV 集中在 6.07–6.63 之间,整体用户浏览深度较高。河南省以 6.63 居首,西藏自治区最低(6.07),但差异不大,表明各地用户活跃度和内容吸引力较为均衡。

      省份页面访问数独立访客数人均页面访问数
      云南省369586.36
      河北省357566.38
      浙江省334536.30
      黑龙江省333546.17
      辽宁省328526.31
      广东省322526.19
      四川省313506.26
      内蒙古自治区310496.33
      河南省310496.33
      山西省304496.20
      江苏省302486.29
      湖南省300486.25
      吉林省295486.15
      新疆维吾尔自治区287466.24
      广西壮族自治区285466.20
      甘肃省277446.29
      福建省277446.29
      陕西省272436.33
      安徽省268436.23
      山东省260426.19
      西藏自治区249416.07
      江西省249406.23
      贵州省238386.26
      青海省224356.40
      湖北省217346.38
      重庆市191316.16
      海南省170276.30
      宁夏回族自治区155256.20
      天津市100166.25
      北京市96156.40
      上海市90146.43
  3. 渠道维度

    • 执行语句

      select
      click_source as channel,
      count(*) as pv,
      count(distinct user_id) as uv,
      round(count(*) * 1.0 / count(distinct user_id), 2) as ppv
      from
      visitors
      where
      click_source is not null
      and click_source != ''
      group by
      click_source
      order by
      pv desc;

      在这里插入图片描述
      在这里插入图片描述

    • 结果说明:该查询按渠道统计了PV、UV及人均页面访问数(PPV)。结果显示,“聚划算”引流最强(PV 3652,UV 1702),且PPV达2.15,用户浏览深度最高;“淘宝直播”和“直通车”次之。自然“搜索”渠道虽PPV为2.00,但样本极小(仅1人),参考价值有限,整体体现促销与内容渠道更有效激发用户活跃。

      渠道页面访问数独立访客数人均页面访问数
      聚划算365217022.15
      淘宝直播237413971.70
      直通车175211991.46
      淘宝橱窗12229241.32
      阿里博客12189051.35
      淘宝社区11688861.32
      淘宝搜索6425411.19
      搜索212.00

2.1.4 总订单数量

2.1.5 成交金额

2.1.6 客单价=销售额/购买人数

2.1.7 销售毛利(毛利最高的时间商品)

2.1.8 毛利率

2.2 流量类指标

在这里插入图片描述

2.3 网站销售类指标

在这里插入图片描述

2.4 商品类指标

在这里插入图片描述

2.5 营销类指标

在这里插入图片描述

2.6 物流类指标

在这里插入图片描述

3. 数据展示

3.1 可视化软件简介

3.2 可视化软件安装

3.2.1 下载Tableau可视化软件

3.2.2 安装Tableau可视化软件

3.3 数据展示

3.3.1 导入数据

3.3.2 独立访客数

3.3.3 页面访问数

3.3.4 人均页面访问数

3.3.5 总订单数量

3.3.6 跳出率

3.3.7 页面访问时长

3.3.8 下单—支付金额转化率

3.3.9 下单—支付买家数转化率

3.3.10 退款金额

3.3.11 出版社图书前10名

3.3.12 出版社销量排行

3.3.13 平均发货时间

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询