智能银行企业信用系统
App | ||
bigdata | ||
db | ||
front | ||
.cursorignore | ||
.gitignore | ||
app.py | ||
README.md | ||
requirements.txt |
选题十 智能银行企业信用系统
一、项目背景
为了提高银行对企业信用的管理和评估能力,实时监控和分析企业信用数据(如企业信息、贷款记录、还款记录等)是至关重要的。本作业将基于大数据平台模拟一个智能银行企业信用管理系统,学生需要完成数据采集、存储、处理、分析及可视化展示等任务。
二、项目要求
-
数据采集与存储
- 提供多个CSV格式的初始数据集(或自选数据集),包括:
- 企业信息数据(companies.csv):企业ID、企业名称、行业、注册资本、成立日期、注册地址
- 贷款记录数据(loans.csv):贷款ID、企业ID、贷款金额、贷款日期、到期日期、贷款状态
- 还款记录数据(repayments.csv):还款ID、贷款ID、还款金额、还款日期、还款状态
- 银行数据(banks.csv):银行ID、银行名称、银行地址、银行等级
- 将这些数据集导入到MySQL数据库中,并创建相应的表结构。
- 使用Sqoop将历史银行企业信用数据从MySQL导入到HDFS中。
- 在HBase中创建表结构,并将处理后的数据存储到HBase中。
- 提供多个CSV格式的初始数据集(或自选数据集),包括:
-
数据处理与分析(使用Spark)
- 基础分析:
- 使用Spark进行数据清洗,去除噪声和无效数据。
- 计算各行业的平均贷款金额、还款率等基础指标。
- 高级分析:
- 信用评估分析:基于贷款和还款数据,分析不同企业的信用等级,提出信用评估模型。
- 贷款风险分析:分析不同行业和地区的贷款风险,找出高风险行业和地区,并提出风险控制建议。
- 还款行为分析:使用关联规则算法(如Apriori)分析还款行为与企业特征的关联,评估还款行为模式。
- 基础分析:
-
数据整合与查询
- 在HDFS上使用Hive创建表结构,对数据进行分区存储和管理,提高查询效率。
- 创建分区表,根据时间、行业等进行分区存储。
- 创建视图,简化复杂查询,提高查询效率。
- 使用HiveQL进行复杂查询,如计算每个行业的日均贷款金额、查询高还款率企业、对比不同时间段的贷款变化等。
- 在HBase中存储实时还款数据,并进行快速查询。
- 创建表结构,包括列族和列,如:时间、贷款ID、还款金额、还款状态。
- 使用HBase API对实时数据进行快速查询和分析。
- 在HDFS上使用Hive创建表结构,对数据进行分区存储和管理,提高查询效率。
-
可视化分析
- 搭建一个可视化平台,展示企业信用数据分析结果,包括贷款金额变化图、还款率图、信用等级分布图等。
- 实现数据的动态更新功能,根据时间段或行业选择展示不同的企业信用数据。