My Knowledge Base

Home

❯

3. Resource

❯

Vision Transformer

Jul 26, 20261 min read

machine_learning/deep_learning
machine_learning/computer_vision/image_classification

Definition

Vision transformer (ViT) applies Transformer architecture to the vision tasks. The model considers an image as a sequence of patches.

Architecture

Positional Enbedding

ViT does not use pre-designed positional encoding, it leaves it as a learnable parameter. By doing so, ViT does not imply any inductive bias unlike to CNN

Graph View

Definition
Architecture
Positional Enbedding

Backlinks

Audio Spectrogram Transformer
CLIP
Computer Vision Note
ConvNeXt
Convolutional Vision Transformer
Data-Efficient Image Transformer
Segmenter
Video Vision Transformer

GitHub
Discord Community