### 选题十 智能银行企业信用系统 #### 一、项目背景 为了提高银行对企业信用的管理和评估能力,实时监控和分析企业信用数据(如企业信息、贷款记录、还款记录等)是至关重要的。本作业将基于大数据平台模拟一个智能银行企业信用管理系统,学生需要完成数据采集、存储、处理、分析及可视化展示等任务。 #### 二、项目要求 1. **数据采集与存储** - 提供多个CSV格式的初始数据集(或自选数据集),包括: - 企业信息数据(companies.csv):企业ID、企业名称、行业、注册资本、成立日期、注册地址 - 贷款记录数据(loans.csv):贷款ID、企业ID、贷款金额、贷款日期、到期日期、贷款状态 - 还款记录数据(repayments.csv):还款ID、贷款ID、还款金额、还款日期、还款状态 - 银行数据(banks.csv):银行ID、银行名称、银行地址、银行等级 - 将这些数据集导入到MySQL数据库中,并创建相应的表结构。 - 使用Sqoop将历史银行企业信用数据从MySQL导入到HDFS中。 - 在HBase中创建表结构,并将处理后的数据存储到HBase中。 2. **数据处理与分析(使用Spark)** - **基础分析**: - 使用Spark进行数据清洗,去除噪声和无效数据。 - 计算各行业的平均贷款金额、还款率等基础指标。 - **高级分析**: - **信用评估分析**:基于贷款和还款数据,分析不同企业的信用等级,提出信用评估模型。 - **贷款风险分析**:分析不同行业和地区的贷款风险,找出高风险行业和地区,并提出风险控制建议。 - **还款行为分析**:使用关联规则算法(如Apriori)分析还款行为与企业特征的关联,评估还款行为模式。 3. **数据整合与查询** - 在HDFS上使用Hive创建表结构,对数据进行分区存储和管理,提高查询效率。 - 创建分区表,根据时间、行业等进行分区存储。 - 创建视图,简化复杂查询,提高查询效率。 - 使用HiveQL进行复杂查询,如计算每个行业的日均贷款金额、查询高还款率企业、对比不同时间段的贷款变化等。 - 在HBase中存储实时还款数据,并进行快速查询。 - 创建表结构,包括列族和列,如:时间、贷款ID、还款金额、还款状态。 - 使用HBase API对实时数据进行快速查询和分析。 4. **可视化分析** - 搭建一个可视化平台,展示企业信用数据分析结果,包括贷款金额变化图、还款率图、信用等级分布图等。 - 实现数据的动态更新功能,根据时间段或行业选择展示不同的企业信用数据。