切换到宽版
开启辅助访问
登录
立即注册
搜索
搜索
搜索
首页
Portal
论坛
同城
人才网
工具
菲龙网工具
个人中心
关于我们
每日签到
本地新闻
时事评论
华人世界
中国新闻
新闻视频
国际新闻
娱乐新闻
科技新闻
菲龙广场
房产网
菲龙速聘
二手交易
便民电话
美食餐厅
旅游签证
物流速运
商品买卖
二手车市场
严选
话费充值
便民电话
贺词页面
瀑布流页
汇率查询
APP下载
每日签到
我的任务
道具商店
每日签到
我的任务
道具商店
更改用户名
关于菲龙网
About US
联系菲龙网
活动回顾
加入我们
本版
用户
菲龙网
»
论坛
›
新闻频道
›
科技新闻
›
图结构转文本序列,大模型直接读懂!图推理性能大涨 ...
菲龙网编辑部7
有 744 人收听 TA
147981
主题
147998
回复
174120
积分
收听TA
发消息
加好友
本文来自
科技新闻
订阅
|
收藏
(
2953
)
菲龙网编辑部7发布过的帖子
0/97
负债不够存单来凑,年内多家银行同业存单罕见“提额”
0/101
华泰财产保险有限公司江门中心支公司被罚35万,原因曝光!
0/84
国家金融监督管理总局:警惕不法贷款中介诱导消费者“债务重组”
0/88
金融引擎助力生态振兴,恒丰银行亿元资金助力废弃矿坑综合治理项目
0/74
虚列费用!惠州这家保险公司被罚22万元
0/77
金融机构科技投入超3500亿 数字化转型步入深水期
0/70
蛇年纪念币钞难抢?还能捡漏吗?多家银行回应
0/68
评评“理” ⑲:招行APP业绩榜NO.1近1个月年化收益率14%,性价比得分却很低丨银行热销理财产品测评系列
0/74
智库报告|科技金融落地之年,商业银行答题如何?
查看TA的全部帖子>>
图结构转文本序列,大模型直接读懂!图推理性能大涨
时间:2024-12-3 10:17
0
106
|
复制链接
|
互动交流
显示全部楼层
阅读模式
直达楼层
马上注册,结交更多好友
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
西风 发自 凹非寺
量子位 | 公众号 QbitAI
大语言模型直接理解复杂图结构的新方法来了:
将
图
(Graph)转换为适合Transformer架构的
线性token序列
。
belike:
这种最新图线性化方法,反映了自然语言中局部依赖性和全局对齐性两个关键属性,即:
不仅需要保留
基于前文上下文预测下一个token的能力
(局部依赖性),而且
不同图的token序列应该从具有相似特征的token开始或结束
(全局对齐性),就像自然语言文本经常以特定词语开头或结尾。
如此一来,在海量文本数据上训练的LLM也能更好地理解图结构中的关系和属性,如节点计数、最大度数计算和图式形状分类等图推理任务都能完成。
具体如何实现?
机器学习工程师Rohan Paul发帖推荐论文并做了个总结。
用多种技术开发了图线性化方法:图中心性(PageRank和度)、图退化(k-core分解)、节点重标记方案基于节点重要性创建了边排序策略应用节点重标记以保持全局对齐
作者使用GraphWave合成数据集进行评估,结果表明他们提出的线性化方法相比基线方法取得了更好的性能,
特别是基于度中心性和PageRank的方法在多个任务中表现突出
。
有网友已经迫不及待集成到RAG中了:
我一直在寻找这方面的论文。
多种基于图论的线性化方法
在具体方法上,图线性化涉及
将图的节点和边转换为线性token序列
。
研究团队提出了几种基于图论的图线性化方法。
一种是根据
图中心性
(Graph centrality)对节点进行排序。
这里的中心性可以是节点的度(Degree centrality),即与节点直接相连的边的数量;也可以是更为复杂的PageRank值,它不仅考虑节点的连接数,还考虑连接到它的节点的重要性。
研究人员根据排序结果选择与重要性最高的节点相连的边,并随机排列这些边,然后对下一个重要性节点重复此过程。如果多个节点具有相同的中心性值,则随机选择它们的顺序。
另一种是基于
图退化性
(Graph degeneracy)的方法,即通过图的核编号(Core Number)来排序节点。
利用k-core分解,将图分解为一系列嵌套的子图。核编号是指节点在图中最高核的编号。通过这种方式,能够捕捉到图中最核心的部分,并将这些信息线性化。
除了基于节点属性的排序,作者们还考虑了直接对边进行排序的方法。
他们
将每个图转换为其对应的线图
(Linegraph),将原图的每条边转换为线图中的节点,如果原图中两条边相邻,则在线图中对应节点相连。然后,应用与核编号相同的过程来对Linegraph中的节点进行排序。
为了实现全局对齐性,作者还提出了
节点重命名策略
。
在这个策略中,不同图中具有最高核编号的节点被重新标记为索引0,以此类推。这样做的目的是让LLM能够将节点索引与其重要性属性之间建立一致的联系。
中心性方法总体优于退化性方法
为了测试上述方法的有效性,作者使用GraphWave生成器构建了合成数据集。
首先构造基础图(循环或链式结构),然后附加预定义形状的图案(motifs)。
研究人员选择了五种基本形状(团、星形、扇形、菱形和树),并包含了这些形状的组合,总共生成了3000个图,平均每个图包含32.33个节点和43.72条边。
实验中设计了三个评估任务:
节点计数
:要求模型从边列表推断节点数量
最大度计算
:确定图中最大节点度数
图案形状分类
:给定详细的图案定义,识别图中存在的图案
实验采用了Llama 3 Instruct 8B模型,使用4bit量化版本。为确保输出的确定性和一致性,temperature参数设为1e-3,sampling参数设为1e-1。
包括zero-shot和one-shot两种设置,并与两个基线方法比较:MotifAware基线,保持图生成过程中的默认边序;Random基线,完全随机的边列表排序和节点标签。
结果显示了以下几个重要发现。
首先,在节点计数任务中,所有方法都显示较低的平均误差,但准确率表现各异。基于度中心性和PageRank的方法表现最好,超过了基线方法。
在最大度计算任务中,由于需要更复杂的计算过程,整体性能低于节点计数任务。使用默认节点标签时,度中心性和PageRank方法在one-shot设置下取得最佳效果。
节点重标记策略的效果因任务而异,在节点计数中,除了zero-shot的度中心性方法外,大多导致准确率下降,但在平均误差上通常有改善。
one-shot设置的性能普遍低于zero-shot,这表明示例可能并不总是有助于提高性能。
基于中心性的方法(度中心性和PageRank)总体上优于基于退化性的方法。
参考链接:https://x.com/rohanpaul_ai/status/1863014451827655118
论文链接:https://arxiv.org/pdf/2410.19494
回复
举报
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
点我进行验证
本版积分规则
发表回复
回帖后跳转到最后一页
关闭
站长推荐
/1
【点击免费下载】菲龙网移动APP客户端
【点击免费下载】菲龙网移动APP客户端,新闻/娱乐/生活资讯生活通,带你了解菲律宾多一点!
查看 »
扫码添加微信客服
快速回复
返回列表
返回顶部