bigdata-ibecs/README.md
2025-06-23 14:15:50 +08:00

38 lines
2.8 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

### 选题十 智能银行企业信用系统
#### 一、项目背景
为了提高银行对企业信用的管理和评估能力,实时监控和分析企业信用数据(如企业信息、贷款记录、还款记录等)是至关重要的。本作业将基于大数据平台模拟一个智能银行企业信用管理系统,学生需要完成数据采集、存储、处理、分析及可视化展示等任务。
#### 二、项目要求
1. **数据采集与存储**
- 提供多个CSV格式的初始数据集或自选数据集包括
- 企业信息数据companies.csv企业ID、企业名称、行业、注册资本、成立日期、注册地址
- 贷款记录数据loans.csv贷款ID、企业ID、贷款金额、贷款日期、到期日期、贷款状态
- 还款记录数据repayments.csv还款ID、贷款ID、还款金额、还款日期、还款状态
- 银行数据banks.csv银行ID、银行名称、银行地址、银行等级
- 将这些数据集导入到MySQL数据库中并创建相应的表结构。
- 使用Sqoop将历史银行企业信用数据从MySQL导入到HDFS中。
- 在HBase中创建表结构并将处理后的数据存储到HBase中。
2. **数据处理与分析使用Spark**
- **基础分析**
- 使用Spark进行数据清洗去除噪声和无效数据。
- 计算各行业的平均贷款金额、还款率等基础指标。
- **高级分析**
- **信用评估分析**:基于贷款和还款数据,分析不同企业的信用等级,提出信用评估模型。
- **贷款风险分析**:分析不同行业和地区的贷款风险,找出高风险行业和地区,并提出风险控制建议。
- **还款行为分析**使用关联规则算法如Apriori分析还款行为与企业特征的关联评估还款行为模式。
3. **数据整合与查询**
- 在HDFS上使用Hive创建表结构对数据进行分区存储和管理提高查询效率。
- 创建分区表,根据时间、行业等进行分区存储。
- 创建视图,简化复杂查询,提高查询效率。
- 使用HiveQL进行复杂查询如计算每个行业的日均贷款金额、查询高还款率企业、对比不同时间段的贷款变化等。
- 在HBase中存储实时还款数据并进行快速查询。
- 创建表结构包括列族和列时间、贷款ID、还款金额、还款状态。
- 使用HBase API对实时数据进行快速查询和分析。
4. **可视化分析**
- 搭建一个可视化平台,展示企业信用数据分析结果,包括贷款金额变化图、还款率图、信用等级分布图等。
- 实现数据的动态更新功能,根据时间段或行业选择展示不同的企业信用数据。