首页 > 资讯 > 后端开发 > Python >灰色关联分析法详解及python实践

369

分享到

灰色关联分析法详解及python实践

python 人工智能灰色关联分析数据分析 2023-09-27 21:09:55 369人浏览独家记忆

Python 官方文档：入门教程 => 点击学习

摘要

1. 关于灰色关联分析 1.1. 什么是灰色关联分析灰色关联分析是指对一个系统发展变化态势的定量描述和比较的方法，其基本思想是通过确定参考数据列和若干个比较数据列的几何形状相似程度来判断其联系是否紧

1. 关于灰色关联分析

1.1. 什么是灰色关联分析

灰色关联分析是指对一个系统发展变化态势的定量描述和比较的方法，其基本思想是通过确定参考数据列和若干个比较数据列的几何形状相似程度来判断其联系是否紧密，它反映了曲线间的关联程度。

在系统发展过程中，若两个因素变化的趋势具有一致性，即同步变化程度较高，即可谓二者关联程度较高；反之，则较低。因此，灰色关联分析方法，是根据因素之间发展趋势的相似或相异程度，亦即“灰色关联度”，作为衡量因素间关联程度的一种方法。

灰色系统理论提出了对各子系统进行灰色关联度分析的概念，意图透过一定的方法，去寻求系统中各子系统（或因素）之间的数值关系。因此，灰色关联度分析对于一个系统发展变化态势提供了量化的度量，非常适合动态历程分析。

也就是说，灰色关联分析的研究对象往往是一个系统。系统的发展会受到多个因素的影响。我们常常想知道，在众多的影响因素中，哪些是主要因素，哪些是次要因素；哪些因素影响大，哪些因素影响小；哪些具有促进作用，哪些具有抑制作用等等。

关联度，是表征两个事物之间的关联程度，在数学上是指两函数相似的程度。

1.2. 灰色关联分析的使用

通常可以运用此方法来分析各个因素对于结果的影响程度，也可以运用此方法解决随时间变化的综合评价类问题，其核心是按照一定规则确立随时间变化的母序列（参考列），把各个评估对象随时间的变化作为子序列，求各个子序列与母序列（参考列）的相关程度，依照相关性大小得出结论。

灰色系统理论是由著名学者邓聚龙教授首创的一种系统科学理论(Grey Theory)，其中的灰色关联分析是根据各因素变化曲线几何形状的相似程度，来判断因素之间关联程度的方法。

此方法通过对动态过程发展态势的量化分析，完成对系统内时间序列有关统计数据几何关系的比较，求出参考数列与各比较数列之间的灰色关联度，与参考数列关联度越大的比较数列，其发展方向和速率与美考数列越接近，与参考数列的关系越紧密。

灰色关联分析方法要求样本容量可以少到4个，对数据无规律同样适用，不会出现量化结果与定性分析结果不符的情况，其基本思想是将评价指标原始观测数进行无量细化处理、计算关联系数、关联度以及根据关联度的大小对待评指标进行排序。

灰色关联度的应用涉及社会科学和自然科学的各个领域，尤其在社会经济领域，如国民经济各部门投资收益、区域经济优势分析、产业结构调整等方面，都取得较好的应用效果。

关联度有绝对关联度和相对关联度之分，绝对关联度采用初始点零化法进行初值化处理，当分析的因素差异较大时，由于变量间的量纲不一致，往往影响分析，难以得出合理的结果。而相对关联度用相对量进行分析，计算结果仅与序列相对于初始点的变化速率有关，与各观测数据大小无关，这在一定程度上弥补了绝对关联度的缺陷。

1.3. 灰色关联分析的基本特征

(1). 总体性

灰色关联度虽是数据序列几何形状的接近程度的度量，但它一般强调的是若干个数据序列对一个既定的数据序列接近的相对程度，即要排出关联度大小的顺序，这就是总体性，其将各因素统一置于系统之中进行比较与分析。

(2). 非对称性

在同一系统中，甲对乙的关联度，并不等于乙对甲的关联度，这较真实地反映了系统中因素之间真实的灰关系。

(3). 非唯一性
关联度随着参考序列不同、因素序列不同、原始数据处理方法不同、数据多少不同而不同。

(4). 动态性
因素间的灰色关联度随着序列的长度不同而变化，表明系统在发展过程中，各因素之间的关联关系也随着时间不断变化。

1.4. 灰色关联分析与大数据及其他数理统计比较

数理统计中常常使用回归分析、方差分析、主成分分析等来探究这个问题。但上述的方法有一些共同的不足之处。例如这些方法都要求大量的数据，数据小则结果没有太大意义；有时候还会要求样本服从某个特殊分布，或者出现量化结果与定性分析不符合的情况。而灰色关联分析则可以较好地应对这些问题。

灰色关联分析对样本量的多少和样本有无规律并没有要求（当然样本量也不能太少，就两、三个样本还分析什么），量化结果基本上与定性分析相符合。灰色关联分析的基本思想是，根据序列曲线几何形状的相似程度来判断其联系是否紧密。曲线越接近，相应序列之间的关联度就越大，反之就越小。

对于上述原理，简单翻译一下，就是研究两个或多个序列（序列可以理解为系统中因素或者指标）构成的曲线的几何相似程度。越相似，越说明他们的变化具有某种紧密的联系，也就是关联度高。所以这个方法也几乎是从纯数据的角度去研究关联性，如果两个没啥关系的指标，在曲线形状上表现得极为相似，那灰色关联分析就会认为二者关联程度很高。当然这只是一个比较极端的例子，对于一般的数据或者系统，用曲线形状来衡量关联度，也是有一定的道理的。

2. 灰色关联分析的过程

2.1．根据分析目的确定分析指标体系，收集分析数据。

下表为某地区国内生产总值的统计数据（以百万元计），问该地区从2000年到2005年之间哪一种产业对GDP总量影响最大。

年份	国内生产总值	第一产业	第二产业	第三产业
2000	1988	386	839	763
2001	2061	408	846	808
2002	2335	422	960	953
2003	2750	482	1258	1010
2004	3356	511	1577	1268
2005	3806	561	1893	1352

在这里插入图片描述

谁与国内生产总值关联度最高
哪个产业发展的更好
哪年发展的较优秀

设 $n$ 个数据序列形成如下矩阵：

$(X'_1,X'_2,...,X'_n)=\begin{pmatrix} x'_1(1) & x'_2(1) & ... & x'_n(1)\\ x'_1(2) & x'_2(2) & ... & x'_n(2)\\ ... & ... & ... & ...\\ x'_1(m) & x'_2(m) & ... & x'_n(m) \end{pmatrix}$

其中 $m$ 为指标的个数， $X'_i=(x'_i(1),x'_i(2),...,x'_i(m))^T, i=1,2,...,n$ 。

2.2．确定参考数据列

通常，根据分析目标确定参考数据列：

目标一，指标排序选优，指标体系中的指标与对标指标的关联度的大小，并可以数值大小排序。

按业务选择理想比较基准，例如在此需要分别将三种产业与国内生产总值比较计算其关联程度，故参考序列为国内生产总值。

目标二，综合评价，评价指标，给出量化数值，以及的优良顺序。

若是解决综合评价问题时则参考序列可能需要自己生成，通常选定每个指标或时间段中所有子序列中的最佳值组成的新序列为参考序列。
参考数据列应该是一个理想的比较标准，可以以各指标的最优值（或最劣值）构成参考数据列，也可根据评价目的选择其它参照值．

谁与国内生产总值关联度最高？选择国内生产总值列为参考列。
哪个产业发展的更好，选择每个指标的最优值（最大）值，手工生成参考数列。
哪年发展的较优秀，选择各个年度的最优值，手工生产参考数列。

参考数列记作：
$X'_0=(x'_0(1),x'_0(2),...,x'_0(m))$

2.3．对指标数据进行无量纲化

由于系统中各因素的物理意义不同，导致数据的量纲也不一定相同，不便于比较，或在比较时难以得到正确的结论。因此在进行灰色关联度分析时，一般都要进行无量纲化的数据处理。

常用无量纲方法之一：

$x_{i}(k)=\frac{x'_{i}(k)}{\frac{1}{m}\sum_{k=1}^{m}x'_{i}(k) }$

无量纲化后的数据序列形成如下矩阵：

$(X_1,X_2,...,X_n)=\begin{pmatrix} x_1(1) & x_2(1) & ... & x_n(1)\\ x_1(2) & x_2(2) & ... & x_n(2)\\ ... & ... & ... & ...\\ x_1(m) & x_2(m) & ... & x_n(m) \end{pmatrix}$

2.4．求解参考序列和特征序列之间的灰色关联系数值

（1）求差序列

逐个计算每个被评价对象指标序列（比较序列）与参考序列对应元素的绝对差值
$\Delta x_i(k)=|x_i(k)-x_0(k)|, k=1,2,...m ; i=1,2,...,n$

其中 , $n$ 为被评价对象的个数。

（2）求两极差
$\underset{i}{min} \underset{k}{min} |x_{0}(k)-x_{i}(k)|$

$\underset{i}{max} \underset{k}{max} |x_{0}(k)-x_{i}(k)|$

（3）求关联系数
$\zeta _{i}(k)=\frac{\underset{i}{min} \underset{k}{min} |x_{0}(k)-x_{i}(k)|+\rho\cdot \underset{i}{max} \underset{k}{max} |x_{0}(k)-x_{i}(k)|}{|x_{0}(k)-x_{i}(k)|+\rho\cdot \underset{i}{max} \underset{k}{max} |x_{0}(k)-x_{i}(k)|}$

其中， $k = 1, ..., m$ 。 $\rho$ 为分辨系数，取值在 $(0, 1)$ ，若 $\rho$ 越小，关联系数间差异越大，区分能力越强，通常 $\rho$ 取0.5。

2.5．计算关联度

对各评价对象（比较指标序列）分别计算各个指标与参考序列对应元素的关联系数的均值，以反映各评价对象与参考序列的关联关系，并称其为关联序，记为：

$r_i = \frac{1}{m}\sum_{k=1}^{m} \zeta _{i}(k)$

2.6．综合评价

如果各指标在综合评价中所起的作用不同，可对关联系数求加权平均值即：

$r_i = \frac{1}{m}\sum_{k=1}^{m} W_i\zeta _{i}(k)$

其中， $W_i$ 为各个指标的权重。

3. python实践过程

3.1. 定义关联度计算函数

# dd为输入数据表，m为参数列，默认为0，如果flag为非None，则可任意值，无意义# flag 标识参考列方式，默认None是按列取值# flag = 'MAX' 按最大值取值# flag = 'MIN' 按最小值取值def GRA(dd, m=0, flag=None):    # 读取为df格式    #dd = dimensionlessProcessing(dd)        x_mean=dd.mean(axis=0)    #print(x_mean)    for i in range(len(dd.columns)):        dd.iloc[:,i] = dd.iloc[:,i]/x_mean[i]        # 参考要素    if flag==None:        std = dd.iloc[:, m]  # 为参考要素        dd.drop(dd.columns[m],axis=1,inplace=True)            elif flag=='MAX':        std = dd.max(axis=1)    elif flag=='MIN':        std = dd.min(axis=1)    else:        print('flag eorro!')        return None            print(std)        print(dd)    shape_n, shape_m = dd.shape[0], dd.shape[1]  # 计算行列    # 与参考要素比较，相减    a = zeros([shape_m, shape_n])        for i in range(shape_m):        for j in range(shape_n):            a[i, j] = abs(dd.iloc[j, i] - std[j])    # 取出矩阵中最大值与最小值    print(a)    c, d = a.max().max(), a.min().min()    print(c,d)    # 计算关联系数    result = (d + 0.5 * c) / (a + 0.5 * c)    # 求均值，得到灰色关联度,并返回    result_list = [mean(result[i, :]) for i in range(shape_m)]        return pd.DataFrame(result_list)

3.2. 指标排序

计算关联度及图例：

import pandas as pdimport numpy as npfrom numpy import *import matplotlib.pyplot as plt%matplotlib inlinex = pd.DataFrame([[1988,2061,2335,2750,3356,3806],[386,408,422,482,511,561], [839,846,960,1258,1577,1893], [763,808,953,1010,1268,1352]])x.columns = ['2000','2001','2002','2003','2004','2005']x.index = ['国内生产总值','第一产业','第二产业','第三产业']dd = x.Tplt.rcParams['font.sans-serif']=['SimHei'] #显示中文标签plt.rcParams['axes.unicode_minus']=False  dd.plot(kind='line',figsize=(8,6),grid=True,marker='o')dd

在这里插入图片描述

df = x.iloc[:,:].T.copy()print(df)data_gra = GRA(df, m=0)data_gra

参考列：
在这里插入图片描述
无量纲矩阵：

求解差序列矩阵：
在这里插入图片描述

求解两级差：0.186163, 0.000628。

关联度序：
第一产业： 0.508432，第二产业：0.624296，第三产业：0.757300

3.3. 综合评价

df = x.iloc[:,:].T.copy()print(df)data_gra = GRA(df, flag='MAX')data_gra

求解两级差：0.325323， 0.0

综合评价：

国内生产总值：0.671001
第一产业：0.788028
第二产业：0.730317
第三产业：0.699678

4. 总结

指标排序，可以得到 $r_01 = 0.5088，r_02= 0.6248， r_03= 0.7577$ ，通过比较三个子指标序列与参考序列的关联度可以得出结论：该地区在2000年到2005年期间的国内生产总值受到第三产业的影响最大。

综合评价，可以得到 $r 0 = 0.671001 ， r 1 = 0.788028 ， r 2 = 0.730317 ， r 3 = 0.699678$ ，通过比较指标综合评价可以得出结论：该地区在2000年到2005年期间，第一产业的发展最好。

灰色关联分析主要有两个作用，一是进行系统发展影响因素分析，诊断影响系统发展的重要因素。第二个作用就是用于综合评价问题，给出研究对象或者方案的优劣排名，可用于经营管理咨询工作。

灰色关联分析方法的优点在于思路明晰，可以在很大程度上减少由于信息不对称带来的损失，并且对数据要求较低，工作量较少；其主要缺点在于要求需要对各项指标的最优值进行现行确定，主观性过强，同时部分指标最优值难以确定。

5. 后续应用思考

综合评价2000年到2005年间发展情况，相当于2000年到2005年成为6项指标。

df = x.iloc[:,:].copy()print(df)data_gra = GRA(df, flag='MAX')data_gra

综合评价计算结果是：
2000， 0.731977
2001， 0.764135
2002， 0.763014
2003， 0.673676
2004， 0.672552
2005， 0.728462
结论是2001年综合评价最优，再分析此时的第一产业、第二产业、第三产业构成。

如此，把灰色关联分析方法应用到企业经营分析上，由于企业经营数据偏少，大数据方法不太适应，因此，我们把企业好比一个灰色系统，挖掘有限数据的价值，对可识别的指标进行分析。

由于作者水平有限，欢迎留言讨论！

参考：

[1]. Font Tian. Python实现灰色关联分析与结果可视化. CSDN博客. 2018.06
[2]. 我不爱机器学习. python实现灰色关联法(GRA). CSDN博客. 2022.11
[3]. spssau. [学习资料] 灰色关联法如何分析？. 经管之家. 2022.09
[4]. 李响Superb. 机器学习（MACHINE LEARNING）灰色关联分析(GRA). 51CTO博客. 2021.06
[5]. 木子. 灰色关联算法原理与实现详解. 知乎. 2022.04
[6]. 回到唐朝当少爷. 清风数学建模Python代码——灰色关联分析. 哔哩哔哩. 2022.10
[7]. 灰色关联分析. MBA智库百科
[8]. 小白. 数学建模笔记——评价类模型之灰色关联分析. 知乎. 2020.07
[9]. 杨辰, 高寒歌. 灰色预测模型与灰色关联度分析在公司运营中的应用. 财经与管理. 2019.03. 12-18
[10]. 王本刚. 灰色关联和层次分析法在加油站安全评价中的应用. 中国石油和化工标准与质量. 2017,（16）
[11]. 方少林，孟路园，霍俊. 基于熵权法与灰色关联分析法的加油站油罐区安全评价. 山东化工. 2020,（17）

来源地址：https://blog.csdn.net/xiaoyw/article/details/128969459

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: 灰色关联分析法详解及python实践

本文链接: https://www.lsjlt.com/news/420131.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

灰色关联分析法详解及python实践

1. 关于灰色关联分析 1.1. 什么是灰色关联分析灰色关联分析是指对一个系统发展变化态势的定量描述和比较的方法，其基本思想是通过确定参考数据列和若干个比较数据列的几何形状相似程度来判断其联系是否紧...

99+

2023-09-27

python 人工智能灰色关联分析数据分析
【数学模型】灰色关联分析

灰色关联分析主要有两个作用：进行系统分析综合评价，就像之前学的层次分析、TOPSIS法。文章目录一、灰色关联分析概述 1.1 背景 1.2 传统数理统计方法的不足之处 1.3 灰色关联分析基本思想 1.4 系统分析二、应用1：系统...

99+

2023-09-12

人工智能 python
Python实现灰色关联分析与结果可视化的详细代码

目录代码实现下载数据实现灰色关联分析结果可视化参考文章之前在比赛的时候需要用Python实现灰色关联分析,从网上搜了下只有实现两个列之间的,于是我把它改写成了直接想Pandas中的计...

99+

2024-04-02
详解Python 关联规则分析

目录1. 关联规则1.1 基本概念1.2 关联规则Apriori算法2. mlxtend实战关联规则2.1 安装2.2 简单的例子3. 总结1. 关联规则大家可能听说过用于宣传数...

99+

2024-04-02
Golang实现Json分级解析及数字解析实践详解

目录一、背景介绍二、解决方案(1)将Json直接解析为map(2)解析部分json struct的方法 (json.RawMessage的用法)(3) json.Number类型的使...

99+

2023-02-14

Golang Json分级解析 Golang Json解析 Golang Json
一文详解Python灰色预测模型实现示例

目录前言一、模型理论特点二、模型场景1.预测种类2.适用条件三、建模流程1.级比校验3.系数求解 4.残差检验与级比偏差检验四、Python实例实现总结前言博主参与过大...

99+

2023-02-15

Python灰色预测模型 Python 模型预测
python数据挖掘Apriori算法实现关联分析

目录摘要：关联分析Apriori原理算法实现挖掘关联规则利用Apriori算法解决实际问题发现毒蘑菇的相似特征总结：摘要：主要是讲解一些数据挖掘中频繁模式挖掘的Apriori算法原...

99+

2024-04-02
KubeSphere分级管理实践及解析

目录前言为什么要在 KuberSphere 上实现分级管理什么是分级体系如何实现分级管理如何实现资源的升降级不同层级间 Pod 的网络隔离总结前言 K8s 是容器编排和分布式应用部署...

99+

2024-04-02
java方法及this关键字原理分析详解

目录步骤1 、给顾客增加一个吃饭的方法步骤 2 、没有加static的属性和方法，一定需要先new对象步骤 3 、用new出来的对象去执行eat方法步骤 4 、怎么理解c.ea...

99+

2024-04-02
如何深入理解Python中的Apriori关联分析算法

今天就跟大家聊聊有关如何深入理解Python中的Apriori关联分析算法，可能很多人都不太了解，为了让大家更加了解，小编给大家总结了以下内容，希望大家根据这篇文章可以有所收获。在美国有这样一家奇怪的超市，它将啤酒与尿布这样两个奇怪的东西放...

99+

2023-06-02
Java Base64编码方法详解及实例分析

Base64.encodeBase64String方法是一个Java语言中用于Base64编码的方法。它可以将二进制数据转换为Base64编码的字符串形式。在本文中，我们将详细解释这个方法的使用，提供完整的实例和代码，并分析运行结果。最后，...

99+

2023-09-04

java 开发语言
关于二分法查找Java的实现及解析

目录二分法查找概述递归实现递归实现代码循环实现代码(非递归)二分法查找（递归、循环）二分法查找概述二分查找也称折半查找（Binary Search），它是一种效率较高的查找方法。...

99+

2024-04-02
Java中File类方法详解以及实践

目录File类概述File类常用构造器File类常用方法常用方法示例createTempFile临时文件创建示例FilenameFilter文件过滤器示例总结File类概述 File...

99+

2024-04-02
Python数据分析JupyterNotebook3魔法命令详解及示例

目录1、魔法命令介绍%lsmagic：列出所有magics命令%quickref：输出所有魔法指令的简单版帮助文档%Magics_Name?：输出某个魔法命令详细帮助文档2、...

99+

2024-04-02
MySQL关联查询优化实现方法详解

目录左外连接内连接INNER JOIN我们准备如下两个表，并插入数据。 #分类 CREATE TABLE IF NOT EXISTS `type` ( `id` INT(10) UNSIGNED NOT NULL AUT...

99+

2024-04-02
主成分分析法(PCA)及其python实现

主成分分析法（Principal Component Analysis，PCA）是一种用于把高维数据降成低维，使分析变得更加简便的分析方法。比如我们的一个样本可以由 n n ...

99+

2023-09-03

python 机器学习开发语言数学建模
python中matplotlib的颜色以及形状实例详解

目录绘制折线图绘制柱形图簇状柱形图堆积柱形图散点图附：matplotlib实现区域颜色填充总结绘制折线图命令形如： # 常用 plt.plot(x, y, linewi...

99+

2024-04-02
python皮尔逊相关性数据分析分析及实例代码

目录前言数值类型皮尔逊系数使用场景皮尔逊相关系数(Pearson correlation)1.定义2.线性关系判定3.正态检验1.KS检验4.计算代码前言相关性分析算是很多算法以...

99+

2023-02-15

python皮尔逊相关性 python 数据分析
阿里云服务器项目编号关联错误问分析及解决方法

本文将探讨阿里云服务器项目编号关联错误的原因，并提供解决方案，帮助用户解决该问题。阿里云作为国内领先的云计算服务提供商，其服务器产品广受用户欢迎。然而，有时候用户可能会遇到阿里云服务器项目编号关联错误的问题。这种问题可能给用户的使用带来困...

99+

2023-12-29

阿里解决方法项目编号
python 特殊属性及方法详细解析

目录概述特殊属性1、 _ _ name _ _2、_ _ bases _ _ 和_ _ base _ _ 以及 _ _ mro _ _3、_ _ class _ _4、_ _ dic...

99+

2024-04-02