莆田市网站建设_网站建设公司_域名注册_seo优化-白沙黎族自治县网站建设公司

莆田市网站建设_网站建设公司_域名注册_seo优化

2025/12/24 22:02:29 网站建设项目流程

Hive - Metastore Tables

Hive 的 Metastore（通常存储在 MySQL 或 PostgreSQL 中）是一个典型的关系型数据库。它存储了关于数据的所有元数据（即“关于数据的数据”），例如表名、列名、分区信息以及存储路径。

Metastore 的表结构非常多（通常有 50-70 张表），但最核心的可以归纳为以下几类：

1. 核心层：库、表、列 (Database, Table, Column)

这是最基础的层级，记录了表的名称和归属。

DBS: 存储 Database 的信息。
- 关键字段：NAME (库名), DB_LOCATION_URI (HDFS 路径)。
TBLS: 存储 Table 的核心信息。
- 关键字段：TBL_NAME (表名), DB_ID (关联 DBS 表), OWNER (所有者), TBL_TYPE (内部表/外部表)。
COLUMNS_V2: 存储表的列定义。
- 关键字段：COLUMN_NAME, TYPE_NAME (数据类型), INTEGER_IDX (列的顺序)。

2. 存储与序列化层 (Storage & SerDe)

这些表决定了数据是如何被“读取”和“解析”的。

SDS (Storage Descriptors): 记录数据的存储详情。
- 关键字段：LOCATION (数据在 HDFS 上的物理路径), INPUT_FORMAT, OUTPUT_FORMAT。
SERDES: 记录表的 SerDe 处理器。
- 关键字段：SLIB (序列化类的全路径，如 org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe)。
SERDE_PARAMS: 存储 SerDe 的参数。
- 关键字段：PARAM_KEY (如 field.delim), PARAM_VALUE (如 ,)。这里记录了你建表时指定的分隔符。

3. 分区层 (Partitions)

对于大型表，分区信息存储在这些表中。

PARTITIONS: 存储 Partition 的元数据。
- 关键字段：PART_NAME (如 dt=2023-10-01), TBL_ID, SD_ID (每个分区都有自己的存储描述符)。
PARTITION_KEYS: 存储分区字段的定义。
- 关键字段：PKEY_NAME, PKEY_TYPE。
PARTITION_KEY_VALS: 存储具体分区的值。

4. 权限与角色 (Security)

ROLES: 存储角色信息。
DB_PRIVS / TBL_PRIVS: 存储库级别和表级别的权限授予信息。

5. 常见元数据查询场景 (SQL 示例)

如果你想直接通过 MySQL 查询“某个表对应的 HDFS 路径和分隔符”，可以执行以下关联查询：

SELECT d.NAME AS db_name, t.TBL_NAME AS table_name, s.LOCATION AS hdfs_path,p.PARAM_VALUE AS field_delimiter
FROM TBLS t
JOIN DBS d ON t.DB_ID = d.DB_ID
JOIN SDS s ON t.SD_ID = s.SD_ID
JOIN SERDE_PARAMS p ON s.SERDE_ID = p.SERDE_ID
WHERE p.PARAM_KEY = 'field.delim' AND t.TBL_NAME = 'your_table_name';

💡 为什么了解这些表很重要？

排查元数据不一致：有时 Hive 删表失败，导致无法重新建表，你需要去 TBLS 表里手动清理。
小文件统计：虽然 Metastore 不存文件列表，但你可以通过关联 PARTITIONS 计算出某张表的分区总数，作为小文件治理的参考。
批量修改路径：当 HDFS 集群迁移（NameNode 地址变更）时，可以直接 SQL 批量更新 SDS 表中的 LOCATION。

直接查询 Hive Metastore（通常在 MySQL 中）是数据库管理员（DBA）或平台工程师进行元数据治理、审计和容量规划的常用手段。

以下是针对几种常见实战场景的 SQL 查询示例。这些 SQL 均以 MySQL 作为 Metastore 后端为例：

1. 查找“僵尸表”：长时间未被访问或更新的表

虽然 Metastore 并不记录所有 SELECT 行为，但它记录了最后一次统计信息更新或数据变更的时间（如果开启了统计信息自动收集）。

SELECT d.NAME AS db_name, t.TBL_NAME AS table_name,FROM_UNIXTIME(tp.PARAM_VALUE) AS last_modified_time
FROM TBLS t
JOIN DBS d ON t.DB_ID = d.DB_ID
JOIN TABLE_PARAMS tp ON t.TBL_ID = tp.TBL_ID
WHERE tp.PARAM_KEY = 'transient_lastDdlTime'  -- 最后一次 DDL/DML 时间
ORDER BY last_modified_time ASC;

2. 查找小文件重灾区：统计分区数量

如果一个表有数万个分区，通常意味着小文件过多，会严重拖慢 NameNode 和 Hive 启动速度。

SELECT d.NAME AS db_name, t.TBL_NAME AS table_name, COUNT(p.PART_ID) AS partition_count
FROM TBLS t
JOIN DBS d ON t.DB_ID = d.DB_ID
JOIN PARTITIONS p ON t.TBL_ID = p.TBL_ID
GROUP BY d.NAME, t.TBL_NAME
HAVING partition_count > 1000  -- 找出分区数超过 1000 的表
ORDER BY partition_count DESC;

3. 数据类型审计：查找还在使用旧格式的列

例如，查找所有数据库中还在使用 STRING 类型存储，但根据命名规范本应使用 TIMESTAMP 的字段。

SELECT d.NAME AS db_name, t.TBL_NAME AS table_name, c.COLUMN_NAME, c.TYPE_NAME
FROM COLUMNS_V2 c
JOIN SDS s ON c.CD_ID = s.CD_ID
JOIN TBLS t ON s.SD_ID = t.SD_ID
JOIN DBS d ON t.DB_ID = d.DB_ID
WHERE c.TYPE_NAME = 'string' AND (c.COLUMN_NAME LIKE '%time%' OR c.COLUMN_NAME LIKE '%date%');

4. 存储容量预估：根据统计信息查看表大小

注意：这要求表执行过 ANALYZE TABLE ... COMPUTE STATISTICS。

SELECT d.NAME AS db_name, t.TBL_NAME AS table_name,MAX(CASE WHEN tp.PARAM_KEY = 'totalSize' THEN CAST(tp.PARAM_VALUE AS UNSIGNED) END) / 1024 / 1024 / 1024 AS size_gb,MAX(CASE WHEN tp.PARAM_KEY = 'numRows' THEN CAST(tp.PARAM_VALUE AS UNSIGNED) END) AS row_count
FROM TBLS t
JOIN DBS d ON t.DB_ID = d.DB_ID
JOIN TABLE_PARAMS tp ON t.TBL_ID = tp.TBL_ID
GROUP BY d.NAME, t.TBL_NAME
ORDER BY size_gb DESC;

5. 跨存储源排查：查找外部表及其 HDFS 路径

当 HDFS 需要迁移或调整 Quota 时，这个查询非常有用。

SELECT d.NAME AS db_name, t.TBL_NAME AS table_name, t.TBL_TYPE AS table_type,s.LOCATION AS hdfs_path
FROM TBLS t
JOIN DBS d ON t.DB_ID = d.DB_ID
JOIN SDS s ON t.SD_ID = s.SD_ID
WHERE t.TBL_TYPE = 'EXTERNAL_TABLE'AND s.LOCATION NOT LIKE 'hdfs://nameservice1%'; -- 查找路径不符合规范的表

6. 查找特定 SerDe 的表

比如你想找出所有使用 JsonSerDe 的表，以便评估切换到 Parquet 带来的性能提升。

SELECT d.NAME AS db_name, t.TBL_NAME AS table_name, ser.SLIB AS serde_class
FROM TBLS t
JOIN DBS d ON t.DB_ID = d.DB_ID
JOIN SDS s ON t.SD_ID = s.SD_ID
JOIN SERDES ser ON s.SERDE_ID = ser.SERDE_ID
WHERE ser.SLIB LIKE '%JsonSerDe%';

⚠️ 注意事项

只读原则：在 Metastore 上执行 SQL 时，请务必仅使用 SELECT。严禁手动执行 UPDATE 或 DELETE，否则可能导致 Hive 内部元数据状态不一致，甚至导致 Metastore 服务宕机。
版本差异：虽然核心表名（TBLS, DBS, SDS）在 Hive 1.x 到 3.x 之间很稳定，但一些细节表（如涉及 ACID 事务的表）可能会有差异。
统计信息延迟：TABLE_PARAMS 中的 totalSize 和 numRows 并非实时更新。如果需要准确数据，必须先在 Hive 中执行 ANALYZE TABLE。

标签：网站建设企业官网项目流程 UI设计前端开发

莆田市网站建设_网站建设公司_域名注册_seo优化

1. 核心层：库、表、列 (Database, Table, Column)

2. 存储与序列化层 (Storage & SerDe)

3. 分区层 (Partitions)

4. 权限与角色 (Security)

5. 常见元数据查询场景 (SQL 示例)

💡 为什么了解这些表很重要？

1. 查找“僵尸表”：长时间未被访问或更新的表

2. 查找小文件重灾区：统计分区数量

3. 数据类型审计：查找还在使用旧格式的列

4. 存储容量预估：根据统计信息查看表大小

5. 跨存储源排查：查找外部表及其 HDFS 路径

6. 查找特定 SerDe 的表

⚠️ 注意事项

热门文章

文章分类

标签云

需要专业的网站建设服务？

莆田市网站建设_网站建设公司_域名注册_seo优化

1. 核心层：库、表、列 (Database, Table, Column)

2. 存储与序列化层 (Storage & SerDe)

3. 分区层 (Partitions)

4. 权限与角色 (Security)

5. 常见元数据查询场景 (SQL 示例)

💡 为什么了解这些表很重要？

1. 查找“僵尸表”：长时间未被访问或更新的表

2. 查找小文件重灾区：统计分区数量

3. 数据类型审计：查找还在使用旧格式的列

4. 存储容量预估：根据统计信息查看表大小

5. 跨存储源排查：查找外部表及其 HDFS 路径

6. 查找特定 SerDe 的表

⚠️ 注意事项

热门文章

文章分类

标签云

相关文章

树套树—矩阵修改，单点查询

nn.Embedding

Python第三阶段——PySpark

需要专业的网站建设服务？