GitHub 热榜:这款 Python 工具火了,可对社群结构进行可视化、检测

这是「进击的Coder」的第 396 篇技术分享
来源:量子位

阅读本文大概需要 8 分钟。


最近,又有一款 Python 可视化工具火了。

这一次,功能是针对图聚类问题的社群结构进行检测、可视化。

GitHub 热榜:这款 Python 工具火了,可对社群结构进行可视化、检测

该项目的帖子在 reddit 上一经发布,就被顶到了 “机器学习板块” 的 榜首

GitHub 热榜:这款 Python 工具火了,可对社群结构进行可视化、检测

一起来看看它究竟都能用来做什么吧~

功能亮点

这款工具叫作 communities, 是一个 Python 库,用于图聚类问题的社群结构检测。

它支持多种算法,包括:

  • Louvain 算法;

  • Girvan-Newman 算法;

  • 层次聚类算法;

  • 光谱聚类算法;

  • Bron-Kerbosch 算法。

更赞的是,communities 还可以实现这些算法的可视化

具体了解一下~

导入算法并插入矩阵

这里以 Louvain 算法为例。

这是一种基于模块度的社群发现算法,也是贪心算法。

它根据顶点的共享边将顶点排列成社群结构,也就是说,它将节点分为几个社群,每个社群之间共享很少的连接,但是同一社群的节点之间共享许多连接。

最终,让整个社群网络呈现出一种模块聚集的结构,实现整个社群网络的模块度的最大化。

所以首先,我们需要构建一个表示无向图的邻接矩阵,可以加权,也可以不加权,矩阵为 2Dnumpy 数组。

n*n 矩阵则表示有 n 个节点,矩阵的每个位置分别表示各节点之间边的关系,有边则为 1,没有边则为 0。

然后,只需从 communities.algorithms 中导入算法并插入矩阵。

import numpy as npfrom communities.algorithms import louvain_methodadj_matrix = np.array([[0, 1, 1, 0, 0, 0],                       [1, 0, 1, 0, 0, 0],                       [1, 1, 0, 1, 0, 0],                       [0, 0, 1, 0, 1, 1],                       [0, 0, 0, 1, 0, 1],                       [0, 0, 0, 1, 1, 0]])communities, _ = louvain_method(adj_matrix)# >>> [{0, 1, 2}, {3, 4, 5}]

接下来输出社群列表,每个社群即为一组节点。

实现可视化,并进行颜色编码

利用 communities 将图进行可视化,将节点分到社群中并进行颜色编码,还可以选择深色或浅色背景、保存图片、选择图片的分辨率等等 。

draw_communities(adj_matrix : numpy.ndarray, communities : list, dark : bool = False, filename : str = None, seed : int = 1)

其中各参数的具体含义为:

  • adj_matrix (numpy.ndarray):图的邻接矩阵;

  • dark (bool, optional (default=False)):如果为 True, 则绘图为深色背景,否则为浅色背景;

  • filename (str or None, optional (default=None)):通过 filename 路径可以将图另存为 PNG 格式;设置 None 则是用交互方式显示图;

  • dpi (int or None, optional (default=None)):每英寸的点数,控制图像的分辨率;

  • seed (int, optional (default=2)):随机种子。

具体到 Louvain 算法的可视化,代码是这样的:

from communities.algorithms import louvain_methodfrom communities.visualization import draw_communitiesadj_matrix = [...]communities, frames = louvain_method(adj_matrix)draw_communities(adj_matrix, communities)

GitHub 热榜:这款 Python 工具火了,可对社群结构进行可视化、检测

动画呈现算法

communities 还可以动画呈现节点分配到社群的过程。

louvain_animation(adj_matrix : numpy.ndarray, frames : list, dark : bool = False, duration : int = 15, filename : str = None, dpi : int = None, seed : int = 2)

其中各参数的含义如下:

  • adj_matrix (numpy.ndarray):图的邻接矩阵;

  • frames (list):算法每次迭代的字典列表;

  • 每个字典都有俩个键:“C” 包含节点到社群的查找表,“Q” 表示图的模块度数值;
  • 此字典列表是 louvain_method 的第二个返回值;
  • dark (bool, optional (default=False)):如果为 True, 则动画为深色背景和配色方案,否则为浅色方案;

  • duration (int, optional (default=15)):动画所需的持续时间,以秒为单位;

  • filename (str or None, optional (default=None)):通过 filename 路径将动画存为 GIF;设置 None 则以交互方式展示动画;

  • dpi (int or None, optional (default=None)):每英寸点数,控制动画的分辨率;

  • seed (int, optional (default=2)):随机种子。

例如,空手道俱乐部网络中 Louvain 算法的动画呈现:

from communities.algorithms import louvain_methodfrom communities.visualization import louvain_animationadj_matrix = [...]communities, frames = louvain_method(adj_matrix)louvain_animation(adj_matrix, frames)

GitHub 热榜:这款 Python 工具火了,可对社群结构进行可视化、检测

我们可以看到 Louvain 算法的动态过程:

  • 首先扫描数据中的所有节点,将每个节点看做一个独立的社群;

  • 接下来,遍历每个节点的邻居节点,判断是否将该节点加入邻居节点所在的社群,以提升模块度;

  • 这一过程重复迭代,直到每一个节点的社群归属稳定;

  • 最后,将所有在同一个社群的节点压缩成一个新节点,计算新节点的权重,直到整个图的模块度稳定。

大家可以通过文末链接,自行尝试一下其他算法~

此外,它还可以用于社群间邻接矩阵、拉普拉斯矩阵以及模块度矩阵等。

对于这款工具,不少网友发出 “awesome”、“really cool!” 等花式赞叹,表示正是自己需要的。

当然,也有网友提出疑问,例如:是否可以指定执行的迭代次数(例如:提前停止)?

开发者对此表示:不能,但是对于某些算法,可以指定要将图形划分为多少个社群。

GitHub 热榜:这款 Python 工具火了,可对社群结构进行可视化、检测

作者简介

GitHub 热榜:这款 Python 工具火了,可对社群结构进行可视化、检测

项目开发者 Jonathan Shobrook,他目前是美国一家电商公司的软件工程师。

之前 GitHub 上的热门项目 Rebound,也是出自他手,已经获得 3.5k 星。

更多信息可戳下方链接了解~ 

相关链接:
[1]https://github.com/shobrook/communities
[2]https://www.reddit.com/r/MachineLearning/comments/lozys9/p_i_made_communities_a_library_of_clustering/

GitHub 热榜:这款 Python 工具火了,可对社群结构进行可视化、检测

End

「进击的Coder」专属学习群已正式成立,搜索「CQCcqc4」添加崔庆才的个人微信或者扫描下方二维码拉您入群交流学习。


GitHub 热榜:这款 Python 工具火了,可对社群结构进行可视化、检测

看完记得关注@进击的Coder
及时收看更多好文
↓↓↓

GitHub 热榜:这款 Python 工具火了,可对社群结构进行可视化、检测


点个在看你最好看

原文始发于微信公众号(进击的Coder):GitHub 热榜:这款 Python 工具火了,可对社群结构进行可视化、检测

链接:https://bbbe.top/archives/2081.html
来源:随风的博客
文章版权归作者所有,未经允许请勿转载。
本网站使用者因为违反本声明的规定而触犯中华人民共和国法律的,一切后果自己负责,本网站不承担任何责任。
本声明未涉及的问题参见国家有关法律法规,当本声明与国家法律法规冲突时,以国家法律法规为准。
本文仅供学习参考,请勿用于违法用途。 若根据文章内容操作遭受任何损失,请自行承担责任。
THE END
分享
二维码
打赏
< <上一篇
下一篇>>