38 lines
2.8 KiB
Markdown
38 lines
2.8 KiB
Markdown
### 选题十 智能银行企业信用系统
|
||
|
||
#### 一、项目背景
|
||
为了提高银行对企业信用的管理和评估能力,实时监控和分析企业信用数据(如企业信息、贷款记录、还款记录等)是至关重要的。本作业将基于大数据平台模拟一个智能银行企业信用管理系统,学生需要完成数据采集、存储、处理、分析及可视化展示等任务。
|
||
|
||
#### 二、项目要求
|
||
|
||
1. **数据采集与存储**
|
||
- 提供多个CSV格式的初始数据集(或自选数据集),包括:
|
||
- 企业信息数据(companies.csv):企业ID、企业名称、行业、注册资本、成立日期、注册地址
|
||
- 贷款记录数据(loans.csv):贷款ID、企业ID、贷款金额、贷款日期、到期日期、贷款状态
|
||
- 还款记录数据(repayments.csv):还款ID、贷款ID、还款金额、还款日期、还款状态
|
||
- 银行数据(banks.csv):银行ID、银行名称、银行地址、银行等级
|
||
- 将这些数据集导入到MySQL数据库中,并创建相应的表结构。
|
||
- 使用Sqoop将历史银行企业信用数据从MySQL导入到HDFS中。
|
||
- 在HBase中创建表结构,并将处理后的数据存储到HBase中。
|
||
|
||
2. **数据处理与分析(使用Spark)**
|
||
- **基础分析**:
|
||
- 使用Spark进行数据清洗,去除噪声和无效数据。
|
||
- 计算各行业的平均贷款金额、还款率等基础指标。
|
||
- **高级分析**:
|
||
- **信用评估分析**:基于贷款和还款数据,分析不同企业的信用等级,提出信用评估模型。
|
||
- **贷款风险分析**:分析不同行业和地区的贷款风险,找出高风险行业和地区,并提出风险控制建议。
|
||
- **还款行为分析**:使用关联规则算法(如Apriori)分析还款行为与企业特征的关联,评估还款行为模式。
|
||
|
||
3. **数据整合与查询**
|
||
- 在HDFS上使用Hive创建表结构,对数据进行分区存储和管理,提高查询效率。
|
||
- 创建分区表,根据时间、行业等进行分区存储。
|
||
- 创建视图,简化复杂查询,提高查询效率。
|
||
- 使用HiveQL进行复杂查询,如计算每个行业的日均贷款金额、查询高还款率企业、对比不同时间段的贷款变化等。
|
||
- 在HBase中存储实时还款数据,并进行快速查询。
|
||
- 创建表结构,包括列族和列,如:时间、贷款ID、还款金额、还款状态。
|
||
- 使用HBase API对实时数据进行快速查询和分析。
|
||
|
||
4. **可视化分析**
|
||
- 搭建一个可视化平台,展示企业信用数据分析结果,包括贷款金额变化图、还款率图、信用等级分布图等。
|
||
- 实现数据的动态更新功能,根据时间段或行业选择展示不同的企业信用数据。 |