-
Notifications
You must be signed in to change notification settings - Fork 13
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
关于Figure 1作图的疑问以及方法能否适用于Bert、Roberta类模型的疑问 #8
Comments
这个用bertviz画的,就是算好了saliency(这个我们代码里有,就是attention_attr.py的saliency = attentionermanger.grad(use_abs=True)[i])以后,用bertviz画就行(黄色的部分是我们为了强调手动加上的颜色,不是代码画的) |
bert之类的我们的代码倒是也能跑,原则上没什么问题,但是值得注意的是他们的是双向注意力,不是gpt一样的单向的,所以我们的指标可能也许得要做点调整。 光是为了跑起来的话,可能得类似GPT2AttentionerManager写个BertAttentionerManager(参照Does this apply to the llama2 model这个issue)。 |
非常感谢作者的回复,事实上我在您回复后就开始看您的源代码,但遗憾的是目前并没有弄懂具体应该怎么写BertAttentionerManager这个函数,请问作者您之后有考虑扩充Bert和Robert类模型的相关函数吗?或者说目前的代码如果仅仅是跑通是否可以有更简洁的方式呢?期待您的回复 |
|
这个就是为了获取关于attention矩阵的导数,也可以直接改bert的代码,我这边为了避免改代码就直接替换了bert里面的算attention的函数来截取这个。 |
@leanwang326 非常inspiring的文章!想问一下为什么会考虑前面用的是saliency score (before sec2.3)后面转而用attention score(sec2.3)呢。 edit: |
其实我们相当于都用了,从两个方面佐证了一下( |
@leanwang326 感谢回复! |
好像有时候attention会不靠谱一点,所以我两个都看了一下,然后那个图的话确实是因为saliency画的不错,也就没考虑用attention再画一次 |
拜读了诸位在EMNLP 2023的best paper,对于文中的Figure 1清晰的表达方式十分感兴趣,请问作者是否打算公开这里的作图代码呢?此外我想测试bert、roberta类型的PLM的相关指标,请问作者的代码是否支持呢?
The text was updated successfully, but these errors were encountered: