All
Search
Columbus
Images
Videos
Maps
More
News
Shopping
Flights
Travel
Notebook
Topics
Back to All Topics
Weather
Forecast
Radar
Severe Alerts
Air Quality
Restaurants
Mexican
Italian
Sushi
Vegan
Fast Food
HomeServices
Plumbing
Moving
Cleaning
Landscaping
Automotive
Car Repair
Car Rental
Tire Shops
Auto Glass
Healthcare
Urgent Care
Dentists
Chiropractors
Therapists
Shopping
Groceries
Electronics
Pharmacy
Clothing
LocalNews
Politics
Crime
Weather
Sports
Events
Concerts
Festivals
Meetups
Sports Games
zhihu.com
https://www.zhihu.com/tardis/zm/art/600773858
一文了解Transformer全貌(图解Transformer)
网上有关Transformer原理的介绍很多,在本文中我们将尽量模型简化,让普通读者也能轻松理解。 1. Transformer整体结构 在机器翻译中,Transformer可以将一种语言翻译成另一种语言,如果把Transformer看成一个黑盒,那么其结构如下图所示:
zhihu.com
https://www.zhihu.com/question/445556653
如何最简单、通俗地理解Transformer? - 知乎
Transformer最开始应用于NLP领域的机器翻译任务,但是它的通用性很好,除了NLP领域的其他任务,经过变体,还可以用于视觉领域,如ViT(Vision Transformer)。 这些特点让Transformer自2017年发布以来,持续受到关注,基于Transformer的工作和应用层出不穷。
zhihu.com
https://www.zhihu.com/question/471328838
如何从浅入深理解 Transformer? - 知乎
Transformer升级之路:1、Sinusoidal位置编码追根溯源 Transformer升级之路:2、博采众长的旋转式位置编码 猛猿:Transformer学习笔记一:Positional Encoding(位置编码) 解密旋转位置编码 解密旋转位置编码:数学基础、代码实现与绝对编码一体化探索_哔哩哔哩_bilibili
zhihu.com
https://www.zhihu.com/question/1904728228213548260
你对下一代Transformer架构的预测是什么? - 知乎
2. 引入随机化(Randomized Transformer) Transformer巨大的规模使得不管训练还是推理都极具挑战。 然而,很少有人知道的是,引入随机化矩阵算法可以减少Transformer需要的FLOPs。 虽然这种做法会降低计算的精度,但这对Transformer的预测性能却可能是好事。
zhihu.com
https://www.zhihu.com/tardis/zm/art/684231320
挑战 Transformer:全新架构 Mamba 详解
而就在最近,一名为 Mamba 的架构似乎打破了这一局面。 与类似规模的 Transformer 相比, Mamba 具有 5 倍的吞吐量, 而且 Mamba-3B 的效果与两倍于其规模的 Transformer 相当。 性能高、效果好,Mamba 成为新的研究热点。
zhihu.com
https://www.zhihu.com/question/434784733
深度学习中“Transformer”怎么翻译为中文? - 知乎
Transformer 个人觉得不翻译为好。 Transformer按在机器翻译中原意可以翻译为变形器或变换器。但随着Transformer的普及,它已经成为一类以 自注意力 为主要部件的特定模型,其原本在机器翻译中的内涵变得不再重要,翻译成变形器反而不能涵盖其意义和除机器翻译外的场景。
zhihu.com
https://www.zhihu.com/tardis/zm/art/607605399
Transformer两大变种:GPT和BERT的差别(易懂版)-2更
Transformer是GPT和BERT的前身。谷歌和OpenAI在自然语言处理技术上的优化,都是基于这个模型。 更多关于的Transformer可以看文章: ChatGPT与Transformer(无公式版) 而在目前的“猜概率”游戏环境下,基于大型语言模型(LLM,Large Language Model)演进出了最主流的两个方向,即Bert和GPT。 其中BERT是之前最流行 ...
zhihu.com
https://www.zhihu.com/question/596771388
为什么我还是无法理解transformer? - 知乎
Transformer的训练方式跟你理解的神经网络一模一样,就是反向传播,就是调整权重参数,没有任何新东西。 你之所以困惑,是因为99%的教程犯了一个致命错误:它们花大量篇幅讲注意力机制的前向传播过程,把Q、K、V的矩阵运算讲得天花乱坠,然后到了训练部分 ...
zhihu.com
https://www.zhihu.com/question/428626879
Transformer和GNN有什么联系吗? - 知乎
Transformer与GNN有什么联系1. 从连接结构的角度看 我们知道Transformer最初是来源于NLP领域,其使用注意力机制来构建每个单词的特征,比如右上橙色图,找到句子中其他单词对前面当前单词的重要程度,基于此,Transformer就可以根据该重要程度,对其他所有单词进行加权的线性变换,以此更新当前单词 ...
zhihu.com
https://www.zhihu.com/question/647129984
CNN,Transformer,MLP 三大架构的特点是什么? - 知乎
CNN,Transformer,MLP 三大架构的特点是什么? 关注者 31 被浏览