常用提示词场景

6/14/2025 promoto

# 论文仿写提示词

论文模板及仿写提示词 (opens new window)

# 快速生成代码分析文档


请严格按照以下步骤,系统化地分析一个大数据项目的代码与架构,目标是彻底理解项目“为什么这样写”而非死记硬背。最终写入到代码分析文档.md文件中

## 第一步:顶层业务理解(先业务后代码)
- 项目目标:该项目要解决什么具体问题?(例如:推荐系统、舆情分析、用户行为分析、可视化报表等)
- 数据来源:原始数据从哪里来?(例如:MySQL、日志文件、网络爬虫、Kafka消息队列、HDFS、API接口等)
- 技术栈:列出所有主要工具和框架(例如:Spark、Flink、Hive、HBase、Python、Echarts、Flask/Django、Airflow等)
- 整体流程:用一句话概括从原始数据到最终展示的全链路:数据 → 清洗 → 计算 → 存储 → 展示

## 第二步:项目目录结构分析
按以下典型模块解析目录,明确每个文件夹的职责:
- 主入口文件(如 `main.py``App.java``run.sh`- 配置文件(如 `config.py``application.properties``log4j.properties`- 数据读取模块(如 `data/``input/``loader/`- 数据清洗/预处理模块(如 `utils/``process/``etl/``clean/`- 核心分析/计算模块(如 `analysis/``spark/``core/``model/`- 结果存储模块(如 `output/``db/``sink/`- 可视化/前端/展示模块(如 `web/``templates/``visual/``dashboard/`## 第三步:数据来源与格式解析(大数据项目核心)
大数据项目中80%的代码与数据打交道,必须彻底弄清:
- 输入数据的格式(CSV、JSON、Parquet、Avro、ORC、MySQL表、日志文本、Protobuf等)
- 每个字段的含义、类型、取值范围(尤其是关键业务字段)
- 数据规模与质量(记录数、文件大小、缺失率、异常值、重复度、时间范围)
- 代码中实际读取数据的方式(例如:`Spark.read.csv()``spark.read.jdbc()``pandas.read_json()``sc.textFile()`> 不理解数据,永远看不懂代码逻辑。

## 第四步:逐模块代码功能拆解(最关键的步骤)

### 4.1 配置模块
列出并理解以下配置项的作用:
- 数据库地址、端口、用户名、密码
- Spark运行参数(master URL、executor内存/核心数、序列化方式、shuffle分区数)
- 文件路径(输入路径、输出路径、检查点目录)
- 业务相关参数(时间窗口、阈值、过滤条件)

### 4.2 数据读取模块(Input)
回答三个问题:
- 从哪里读取?(具体数据源标识)
- 用什么方法读取?(API、库函数、自定义Reader)
- 读出来是什么数据结构?(DataFrame、RDD、Dataset、DStream、Pandas DataFrame、普通表)

### 4.3 数据清洗/ETL模块
识别并理解每一步清洗操作的目的:
- 去重(基于哪些字段?完全重复还是部分重复?)
- 缺失值填充(填充值是什么?均值/中位数/前向填充/固定值?)
- 异常值过滤(判断异常的条件是什么?为什么?)
- 格式转换(时间戳解析、字符串转数字、分类编码、日期标准化)
- 字段拆分或合并(例如:从URL中提取域名,将姓名字段拆分为名和姓)
- 数据校验与质量监控(记录丢弃数量、告警条件)

**必须回答**:代码为什么要做这一步?对后续分析有何影响?

### 4.4 核心业务分析模块(项目的灵魂)
这是理解项目最关键的部分,需要明确:
- 统计指标:计算了哪些指标?(如PV、UV、点击率、转化率、TopN排行榜、热度分数、7日滑动平均、漏斗转化)
- 算法/模型:使用了什么算法?(协同过滤、逻辑回归、聚类、情感分析、频繁项集、时间序列预测、图算法)
- 数据操作类型:具体用到了哪些操作?
  - 多表关联(join类型:inner/left/outer?关联键是什么?)
  - 分组聚合(group by哪些字段?聚合函数:count/sum/avg/max/min/collect_list?)
  - 窗口函数(开窗、排名、滞后/超前)
  - 排序与排名(order by、rank、row_number)
- 中间结果:是否生成了临时表或缓存?为什么?

### 4.5 结果存储模块(Output)
- 存储目标:结果数据存到哪里?(MySQL、Hive表、HDFS文件、Redis、Elasticsearch、ClickHouse)
- 存储格式:文件格式(Parquet/CSV/JSON)?表存储引擎(InnoDB/MyISAM/ORC)?压缩方式?
- 表结构设计:输出表有哪些字段?主键是什么?分区键?索引?
- 写入模式:覆盖(overwrite)、追加(append)、更新(upsert)?

### 4.6 可视化/前端展示模块(Visual)
- 前端/管理界面提供了哪些功能?展示了哪些Echarts图表?(如折线图、柱状图、饼图、热力图、地图、桑基图)
- 这些图表和功能对应的数据来自哪个后端接口或数据库表?
- 前端如何请求后端数据?(AJAX、Fetch、WebSocket?API路径?请求参数?)
- 后端接口返回什么格式的数据?(JSON、XML、Protobuf?具体的响应结构示例)

## 第五步:绘制完整数据流图(最终验收)
用以下格式绘制从原始数据到最终展示的完整数据流,能清晰画出来即代表完全掌握:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80

[原始数据源](如:MySQL订单表、用户行为日志) ↓ [读取模块](Spark.read.jdbc / Flink Source) ↓ [清洗/ETL](去重、填充缺失、格式转换、过滤异常) ↓ [核心计算](分组聚合、Join、窗口排序、算法模型) ↓ [结果存储](写入MySQL结果表 / Hive分区) ↓ [后端服务](查询结果表,提供REST API) ↓ [前端展示](Echarts图表渲染、管理功能交互)


**验收标准**:你能用自己的话,连续且准确地讲出每一步的输入、输出、操作和目的,就算彻底理解了这个大数据项目。

1
2
3

# 基于普通话术,生成标准提示词


基于以下内容,丰富实现的细节思路,自检完成后,生成给ai用的提示词:

1
2
3

# 软件资源分享提示词


帮我生成一份闲鱼上架产品LocalSend的产品描述,属于软件资源分享品类,要包含商品信息,核心用途,核心优势,使用说明(适用人群,注意事项等),售后说明(发货方式,售后政策,链接有效期)
额外要求:
1.如果是开源软件,要避免使用开源等描述文字,不希望用户知道这是开源的
2.如果是闭源软件,要说明是破解版
3.核心用途,核心优势,使用说明中不要包含数字量化信息,避免翻车
4.使用百度网盘发货,虚拟资料不退不换
5.写个标题,20个字以内,要吸睛
6.整理成闲鱼上架的简洁排版版本,直接复制就能用

1
2
3
4
5
6
7
8
9
10

# 根据代码提取设计文档


解析的所有代码,完成基于以下目录编写设计文档,整理好的内容,写入md文件中
### 一、项目概述
1. **项目背景与目标**  
   - 项目立项的业务背景、解决的核心问题;  
   - 项目的核心目标 。  
2. **项目范围**  
   - 包含的功能模块 ;  
   - 排除的内容 。  


### 二、架构设计
1. **整体架构**  
   - 架构图 ;  
   - 架构说明 。  
2. **技术栈选型**  
   - 前端:框架 、UI库 、构建工具 等;  
   - 后端:语言 、框架 、中间件 等;  
   - 数据存储:数据库类型 、缓存、文件存储 等;  
   - 部署环境:服务器 、容器化工具 、操作系统等;  


### 三、核心模块设计
按功能模块拆分,每个模块需包含:  
1. **功能描述**  
   - 模块的核心职责、输入输出。  
2. **模块设计**  
   - 类图/流程图 ;  
   - 关键算法/逻辑说明 。  
3. **模块交互**  
   - 与其他模块的依赖关系 。  


### 四、数据设计
1. **数据模型**  
   - 数据库表结构 ;  
   - 非关系型数据库 的集合结构;  
   - 实体关系图 。  
2. **数据字典**  
   - 核心字段的业务含义 。  
3. **数据流**  
   - 数据在系统中的流转过程 ;  
   - 关键数据的生命周期 。  


### 五、接口文档
1. **内部接口**  
   - 模块间调用的接口 ;  
   - 定义:接口名称、参数 、返回值、异常处理。  

2. **外部接口 **  
   - 对外提供的接口 ;  
   - 详细信息:  
     - 接口地址、请求方法 ;  
     - 请求头、请求体参数 ;  
     - 响应格式 、状态码 ;  
     - 权限要求 、调用频率限制。  
   - 可通过工具 自动生成并嵌入文档。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59

# 整理文件内容


解析文件,获取文件内容,并整理目录,将整理好的目录和内容输出出来,不要进行任何新增,删减或修改操作

1
2
3

# 根据表,判断出可以做出哪些方面的分析


以下几个表可以进行哪些方面的分析,只可以用表有的字段,不可以无中生有字段,不要延伸

DROP TABLE IF EXISTS cn_car_model_monthly_sales;
CREATE TABLE IF NOT EXISTS cn_car_model_monthly_sales (
    yr INT COMMENT '年份',
    mon TINYINT COMMENT '月份',
    rk INT COMMENT '排名',
    model VARCHAR(100) COMMENT '车型',
    maker VARCHAR(100) COMMENT '厂商',
    sales INT COMMENT '销量',
    min_price DOUBLE COMMENT '最低价格',
    max_price DOUBLE COMMENT '最高价格',
    avg_price DOUBLE COMMENT '平均价格'
) ENGINE = InnoDB,
DEFAULT CHARSET = utf8mb4,
COLLATE = utf8mb4_unicode_ci,
COMMENT = '车型月度销量清洗表';

DROP TABLE IF EXISTS cn_car_manufacturer_monthly_sales;
CREATE TABLE IF NOT EXISTS cn_car_manufacturer_monthly_sales (
    yr INT COMMENT '年份',
    mon TINYINT COMMENT '月份',
    rk INT COMMENT '排名',
    logo VARCHAR(255) COMMENT '厂商logo',
    maker VARCHAR(100) COMMENT '厂商名称',
    sales INT COMMENT '销量',
    share DOUBLE COMMENT '市场份额'
) ENGINE = InnoDB,
DEFAULT CHARSET = utf8mb4,
COLLATE = utf8mb4_unicode_ci,
COMMENT = '车企月度销量清洗表';

DROP TABLE IF EXISTS cn_car_total_sales;
CREATE TABLE IF NOT EXISTS cn_car_total_sales (
    yr INT COMMENT '年份',
    time_str VARCHAR(20) COMMENT '时间字符串',
    sales INT COMMENT '总销量',
    yoy DOUBLE COMMENT '同比增长率'
) ENGINE = InnoDB,
DEFAULT CHARSET = utf8mb4,
COLLATE = utf8mb4_unicode_ci,
COMMENT = '汽车总销量清洗表';

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44

# 快速生成hive分析代码


【分析目标】
请基于数仓分层规则,帮我用hive sql对中国汽车销售数据进行分析,只能用表里有的字段,不要进行无中生有,不要延伸,每个分析均需将结果创建为新的Hive表,还要支持重复执行,避免存在重复数据,每完成一个分析,就要查询表中的10条数据进行结果展示

【表结构】

-- 车型月度销量表
DROP TABLE IF EXISTS cn_car_model_monthly_sales;
CREATE EXTERNAL TABLE IF NOT EXISTS cn_car_model_monthly_sales (
    yr               INT     COMMENT '年份'
    mon              TINYINT COMMENT '月份'
    rk               INT     COMMENT '排名'
    model            STRING  COMMENT '车型'
    maker            STRING  COMMENT '厂商'
    sales            INT     COMMENT '销量'
    min_price        DOUBLE  COMMENT '最低价格'
    max_price        DOUBLE  COMMENT '最高价格'
    avg_price        DOUBLE  COMMENT '平均价格'
)
COMMENT '车型月度销量清洗表'
ROW FORMAT DELIMITED
    FIELDS TERMINATED BY '\001'
    LINES TERMINATED BY '\n'
STORED AS TEXTFILE
LOCATION '/data/car/cn_car_model_monthly_sales';

-- 车企月度销量表
DROP TABLE IF EXISTS cn_car_manufacturer_monthly_sales;
CREATE EXTERNAL TABLE IF NOT EXISTS cn_car_manufacturer_monthly_sales (
    yr               INT     COMMENT '年份'
    mon              TINYINT COMMENT '月份'
    rk               INT     COMMENT '排名'
    logo             STRING  COMMENT '厂商logo'
    maker            STRING  COMMENT '厂商名称'
    sales            INT     COMMENT '销量'
    share            DOUBLE  COMMENT '市场份额'
)
COMMENT '车企月度销量清洗表'
ROW FORMAT DELIMITED
    FIELDS TERMINATED BY '\001'
    LINES TERMINATED BY '\n'
STORED AS TEXTFILE
LOCATION '/data/car/cn_car_manufacturer_monthly_sales';

-- 汽车总销量表
DROP TABLE IF EXISTS cn_car_total_sales;
CREATE EXTERNAL TABLE IF NOT EXISTS cn_car_total_sales (
    yr               INT     COMMENT '年份'
    time_str         STRING  COMMENT '时间字符串'
    sales            INT     COMMENT '总销量'
    yoy              DOUBLE  COMMENT '同比增长率'
)
COMMENT '汽车总销量清洗表'
ROW FORMAT DELIMITED
    FIELDS TERMINATED BY '\001'
    LINES TERMINATED BY '\n'
STORED AS TEXTFILE
LOCATION '/data/car/cn_car_total_sales';

【具体问题】
## 一、**市场整体趋势分析**
1. **销量趋势分析**
   - 年度/月度总销量变化趋势
   - 同比增长率(YoY)分析
   - 季节性波动分析(汽车销售淡旺季)

2. **市场份额演变**
   - 市场集中度变化(CR4/CR8分析)
   - 市场份额变化趋势
   - 市场格局演变分析

## 二、**厂商竞争分析**
1. **厂商排名动态**
   - 各厂商月度/年度排名变化
   - 厂商排名稳定性分析
   - 头部厂商竞争格局

2. **厂商表现对比**
   - 不同厂商销量对比
   - 市场份额对比分析
   - 厂商增长趋势对比

## 三、**车型分析**
1. **车型销售表现**
   - 热销车型排名及变化
   - 车型生命周期分析
   - 新车型上市表现

2. **价格与销量关系**
   - 不同价格区间销量分布
   - 价格与销量的相关性分析
   - 性价比分析(销量/价格)

## 四、**细分市场分析**
1. **价格段市场分析**
   - 低端、中端、高端市场销量分布
   - 不同价格段市场份额变化

2. **厂商-车型矩阵分析**
   - 各厂商的产品线覆盖情况
   - 车型组合策略分析

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102

# 快速生成mr代码


使用java语言,实现mapreduce代码开发,并将所有代码整合在一个新的 Java 类里,并在类上方记录下代码的实现目的与思路
1.数据文件:111.txt,间隔符是逗号
2.此处填具体逻辑

数据样式:
xxx

1
2
3
4
5
6
7
8

# 提炼核心代码及文字说明


1.动作:上传代码文件
2.输入:解析文件,获取文件内容,并识别出代码语言,分析代码逻辑,找出核心逻辑的代码,并展示出来,同时要使用文字描述出实现文件的用处及核心代码逻辑

1
2
3
4

# 根据csv文件分析数据分布特点


1.动作:上传csv文件
2.输入:读取csv文件,分析每个分析点的数据分布特点,给出分析结论,不要进行分析点之间的联动分析
分析点:csv文件
视频一级类目分布:major_category_count.csv
视频二级类目分布:category_count.csv
视频三级类目分布:sub_category_count.csv
TOP10作品数量分布:author_statistics.csv
TOP10点赞数分布:author_statistics.csv
TOP10平均点赞数分布:author_statistics.csv
TOP10平均评论数分布:author_statistics.csv
TOP10平均收藏数分布:author_statistics.csv
TOP10平均转发数分布:author_statistics.csv
TOP10平均粉丝数分布:author_statistics.csv
TOP10平均获赞数分布:author_statistics.csv

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

# 写课程总结


1.动作:上传代码文件/文件夹
2.输入:提取代码文件夹中pyspark的相关使用技术,总结技术关键点及难点,编写环境配置过程中的学习体会,及spark api使用感想,有什么收获,注意使用文字描述,中间不要使用代码进行补充说明
3.动作:提取上个步骤的相关技术描述文本
4.将以下文本,用学生的语气重新编写一段课后总结经验体会,500字左右,不要进行任何重点标识和分段,就单纯的一段话

1
2
3
4
5
6

# 生成课设报告模板


这是一个大学的大数据课程设计,依据以下内容,生成一个课设报告

1
2
3

# hiveSQL转MySQL


提取hive sql语句中的涉及到的表,将其转换为MySQL的建表格式,可以模仿下面的MySQL建表格式

MySQL建表格式:
DROP TABLE IF EXISTS test_table;
CREATE TABLE IF NOT EXISTS test_table (
    field1 VARCHAR(128)COMMENT 'field1',
    field2 VARCHAR(128) COMMENT 'field2',
    field3 VARCHAR(256) COMMENT 'field3'
) ENGINE = InnoDB,
DEFAULT CHARSET = utf8mb4,
COLLATE = utf8mb4_unicode_ci,
COMMENT = '测试表';

1
2
3
4
5
6
7
8
9
10
11
12
13
14

# 设计前后端


将"现有需求"转换为"模版"格式
现有需求:
请基于电商平台的业务场景,设计一套订单履约与库存扣减的核心业务逻辑,核心诉求如下:
1. 支持商城APP的用户普通下单场景,用户提交订单后完成库存扣减,订单支付后进入履约环节;
2. 核心要求:保证库存数据准确,避免出现超卖情况;
3. 请输出完整的业务逻辑流程、核心数据模型设计(关键字段即可)、核心节点的判断规则。
4. 技术要求:
- 前端:HTML + CSS + JavaScript
- 后端:Node.js + Express
- 数据库:SQLite 或 JSON 本地存储(便于演示)
- 单机可运行 Demo


模版:

你是一名资深全栈工程师 + 产品经理 + UI 设计师。

请为我设计并生成一个完整的网页应用,名称叫《活着么》。

产品定位:
这是一个“存在确认 + 状态同步”的应用,
用户每天签到一次,告诉亲戚朋友:我还活着、我还好。

技术要求:
- 前端:HTML + CSS + JavaScript(或 Vue 任选其一)
- 后端:Node.js + Express
- 数据库:SQLite 或 JSON 本地存储(便于演示)
- 邮件通知:SMTP 示例接口
- 单机可运行 Demo

核心功能:

1. 游客注册 / 登录:
   - 支持邮箱注册
   - 支持手机号注册(模拟)
   - 简单验证码逻辑

2. 每日签到系统:
   - 每天可签到一次
   - 记录签到时间
   - 显示连续存活天数
   - 支持补签逻辑(可选)

3. 状态发布:
   - 用户可选择状态:
     - 很好
     - 还行
     - 有点累
     - 需要联系
   - 支持一句话留言

4. 亲友关注系统:
   - 用户可添加亲友邮箱 / 手机
   - 亲友可以接收状态通知
   - 若用户超过 24 小时未签到,自动提醒亲友

5. 通知系统:
   - 邮件通知模板
   - 模拟短信接口
   - 包含用户状态与时间

6. 个人面板:
   - 今日是否已签到
   - 最近 7 天记录
   - 状态趋势图(简单 Canvas 图)

7. 后台逻辑:
   - 心跳检测
   - 定时任务检查未签到用户
   - 自动发送提醒

UI 与体验要求:

- 整体风格:
  - 极简
  - 温暖
  - 高级感
- 背景:
  - 渐变色
  - 柔光
- 字体:
  - 居中大字
  - 留白充足
- 动效:
  - 呼吸动画
  - 淡入淡出
- 移动端适配

输出要求:

- 给出项目目录结构
- 给出前端核心页面代码
- 给出后端核心逻辑代码
- 给出数据库结构
- 给出启动说明
- 所有代码完整可运行
- 添加必要注释

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99

# 基于Trae快速设计出一套前端网页

第一步


1.设计实现一个PC端的纯html(html+js+css)的可视化项目
2.要具备登录页面,注册页面及可视化页面侧边导航栏,整体背景要符合"xxx"的主题
3.注册页面具备用户名,用户昵称,密码,确认密码等选项,成功注册完成后,会跳转回登录页面
4.登录成功后,在可视化页面会显示用户昵称,左边是侧边导航栏,右边是可视化图表展示区域
5.可视化页面中,左边是侧边导航栏,右边是echarts可视化图表展示区域
6.导航栏中有8个标签,分别为:"出行分析","订单分析","消费分析","车辆分布","热门区域分布","订单高峰期top10","一天内每小时订单数分布","统计收入最高的司机top10"
7.点击导航栏标签,图表展示区域可以进行切换,并显示多个echarts图表,图表分布可以用任意布局
8.导航栏标签要有好看的动态效果,最好有个好看的背景图
9.在可视化页面的合适的区域,添加一个登出按钮,点击按钮后,可以清空缓存数据,并返回到登录页面
10.交互增强:添加悬停提示、图表联动等交互功能
11.色彩系统:使用统一色系区分不同维度数据
12.动态效果:添加加载动画、过渡效果提升用户体验


1.设计实现一个PC端的纯html(html+js+css)的可视化项目
2.要具备登录页面,注册页面及可视化页面侧边导航栏,整体背景要符合"xxx"的主题
3.注册页面具备用户名,用户昵称,密码,确认密码等选项,成功注册完成后,会跳转回登录页面
4.登录成功后,在可视化页面会显示用户昵称,左边是侧边导航栏,右边是可视化图表展示区域
5.可视化页面中,左边是侧边导航栏,右边是echarts可视化图表展示区域
6.导航栏中有8个视图标签,分别为:"出行分析","订单分析","消费分析","车辆分布","热门区域分布","订单高峰期top10","一天内每小时订单数分布","统计收入最高的司机top10"
7.每个标签都有单独的html文件,当点击某个标签后,该标签会处于激活状态,右侧展示区域会切换为对应的视图html,其他标签的视图会被隐藏掉
8.导航栏标签要有好看的动态效果,最好有个好看的背景图
9.在可视化页面的合适的区域,添加一个登出按钮,点击按钮后,可以清空缓存数据,并返回到登录页面
10.交互增强:添加悬停提示、图表联动等交互功能
11.色彩系统:使用统一色系区分不同维度数据
12.动态效果:添加加载动画、过渡效果提升用户体验

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28

第二步


调整"订单分析"标签下的图表,生成1个echarts图表,具体要求如下:
1.柱状图(city,station_count)
2.交互增强:添加悬停提示、图表联动等交互功能
3.色彩系统:使用统一色系区分不同维度数据
4.动态效果:添加加载动画、过渡效果提升用户体验

DROP TABLE IF EXISTS city_transfer_level;

CREATE TABLE city_transfer_level
(
   city            VARCHAR(255) COMMENT '城市名称',
   transfer_level  INT COMMENT '换乘等级',
   station_count   INT COMMENT '站点数量'
)
ENGINE=InnoDB
COMMENT='查询各城市换乘站换乘等级';

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

第三步


调整图表展示区域,运行图表自适应

1
2
3

# 基于GPT快速设计出一套数据仓库


请根据这套数据仓库开发流程设计一款关于汽车销售数据的数据仓库,以下是对汽车数据的描述:

这是是car_prices.csv中的数据
year	make	model	trim	body	transmission	vin	state	condition	odometer	color	interior	seller	mmr	sellingprice	saledate
2015	Kia	Sorento	LX	SUV	automatic	5xyktca69fg566472	ca	5	16639	white	black	kia motors america, inc	20500	21500	Tue Dec 16 2014 12:30:00 GMT-0800 (PST)
2015	Kia	Sorento	LX	SUV	automatic	5xyktca69fg561319	ca	5	9393	white	beige	kia motors america, inc	20800	21500	Tue Dec 16 2014 12:30:00 GMT-0800 (PST)
2014	BMW	3 Series	328i SULEV	Sedan	automatic	wba3c1c51ek116351	ca	4.5	1331	gray	black	financial services remarketing (lease)	31900	30000	Thu Jan 15 2015 04:30:00 GMT-0800 (PST)
2015	Volvo	S60	T5	Sedan	automatic	yv1612tb4f1310987	ca	4.1	14282	white	black	volvo na rep/world omni	27500	27750	Thu Jan 29 2015 04:30:00 GMT-0800 (PST)
2014	BMW	6 Series Gran Coupe	650i	Sedan	automatic	wba6b2c57ed129731	ca	4.3	2641	gray	black	financial services remarketing (lease)	66000	67000	Thu Dec 18 2014 12:30:00 GMT-0800 (PST)
2015	Nissan	Altima	2.5 S	Sedan	automatic	1n4al3ap1fn326013	ca	1	5554	gray	black	enterprise vehicle exchange / tra / rental / tulsa	15350	10900	Tue Dec 30 2014 12:00:00 GMT-0800 (PST)
2014	BMW	M5	Base	Sedan	automatic	wbsfv9c51ed593089	ca	3.4	14943	black	black	the hertz corporation	69000	65000	Wed Dec 17 2014 12:30:00 GMT-0800 (PST)
2014	Chevrolet	Cruze	1LT	Sedan	automatic	1g1pc5sb2e7128460	ca	2	28617	black	black	enterprise vehicle exchange / tra / rental / tulsa	11900	9800	Tue Dec 16 2014 13:00:00 GMT-0800 (PST)
2014	Audi	A4	2.0T Premium Plus quattro	Sedan	automatic	wauffafl3en030343	ca	4.2	9557	white	black	audi mission viejo	32100	32250	Thu Dec 18 2014 12:00:00 GMT-0800 (PST)
2014	Chevrolet	Camaro	LT	Convertible	automatic	2g1fb3d37e9218789	ca	3	4809	red	black	d/m auto sales inc	26300	17500	Tue Jan 20 2015 04:00:00 GMT-0800 (PST)
2014	Audi	A6	3.0T Prestige quattro	Sedan	automatic	wauhgafc0en062916	ca	4.8	14414	black	black	desert auto trade	47300	49750	Tue Dec 16 2014 12:30:00 GMT-0800 (PST)

这是数据说明:
汽车数据集car_prices:
make(制造商):汽车的制造商,如Toyota、Ford等。
model(型号):汽车的具体型号,如Corolla、Mustang等。
year(年份):汽车的生产年份。
trim(配置):汽车的配置级别,如LX、EX等。
body(车身类型):汽车的车身类型,如Sedan(轿车)、SUV(运动型多功能车)等。
transmission(变速箱类型):汽车的变速箱类型,如自动(automatic)、手动(manual)等。
vin(车辆识别号):汽车的唯一识别码。
state(状态):汽车的状态,如新(new)、二手(used)等。
condition(状况):汽车的状况评分。
odometer(里程表):汽车的行驶里程。
color(颜色):汽车的颜色。
interior(内饰):汽车的内饰颜色。
seller(销售商):销售汽车的公司或个人。
mmr(市场中值价格):汽车的市场中值价格。
sellingprice(销售价格):汽车的实际销售价格。
saledate(销售日期):汽车的销售日期。

现在要求使用hive实现数据仓库的开发和设计
1.数仓每个层级(ODS,DWD,DWM,DWS,ADS)的设计与实现
2.设计包含表名,及做出的数据清洗逻辑说明
3.实现包含hive sql代码
4.DWS层级需要从各字段维度去设计,每个字段维度要设计3种表
5.ADS层级进行数据分析,要求具有8种分析实现,每个分析结果保存为内部表,表命名要规范
6.ODS用外部表建表方式,DWD,DWM,DWS,ADS都使用内部表建表方式

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44

# 工作职责


在尽量不瞎编的情况下,基于核心原则,丰富以下工作职责

参与负责实时数仓体系的实时etl功能。实现实时etl快速开发,通过外部sql文件方式,自动将数据格式化输出到mysql/kafka/phoenix等数据存储组件,承担80%的etl功能开发。其中,实现phoenix等版本尚未支持的connector功能。

核心原则:3 个 “不”+3 个 “要”
❶ 3 个 “不”:避开无效描述
不写流水账:拒绝 “负责日常数据录入、整理报表、对接客户” 这类无重点的日常工作;
不模糊表述:避免 “参与了项目、协助完成任务” 等没有具体动作和结果的表述;
不脱离岗位:所有职责都要匹配招聘 JD 的核心要求(比如 JD 强调 “数据分析能力”,就重点写数据相关成果)。
❷ 3 个 “要”:突出价值感
要 “动词开头”:用精准的动作词体现主动性(如 “主导、设计、优化、突破、解决”);
要 “量化成果”:用数据说话(如 “提升 30%、节省 5 万元、覆盖 10 万用户”),没有硬数据就用 “定性成果”;
要 “匹配 JD”:提取招聘要求中的关键词(如 “Spark、用户增长、流程优化”),融入职责描述。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Last Updated: 4/15/2026, 6:59:27 AM