<label id="nboq4"></label>

<em id="nboq4"><object id="nboq4"></object></em>
<dd id="nboq4"></dd>
<em id="nboq4"></em>

<tbody id="nboq4"><noscript id="nboq4"></noscript></tbody>
<label id="nboq4"><object id="nboq4"><menuitem id="nboq4"></menuitem></object></label>
<dd id="nboq4"><big id="nboq4"><video id="nboq4"></video></big></dd>
<progress id="nboq4"><big id="nboq4"><noframes id="nboq4"></noframes></big></progress>
<dd id="nboq4"><big id="nboq4"></big></dd>
<progress id="nboq4"><track id="nboq4"><rt id="nboq4"></rt></track></progress>
首頁 > 業界 > 關鍵詞  > 正文

中國研究人員提出DualToken-ViT:CNN和視覺Transformer的融合,提高圖像處理效率和準確性

2023-10-02 15:55 · 稿源:站長之家

要點:

1、DualToken-ViT將卷積和自注意力聯合使用,分別提取局部和全局信息,再將兩者輸出融合形成有效的注意力結構。

2、使用位置感知全局令牌提升全局信息質量,令牌中還包含圖像位置信息,有利于視覺任務。

3、在相同FLOPs下,DualToken-ViT在圖像分類、目標檢測和語義分割任務上表現最好。

站長之家(ChinaZ.com)10月2日 消息:最近,視覺Transformer(ViT)成為各類視覺任務如物體識別和圖片分類的有效架構。這是因為自注意力可以從圖片中提取全局信息,而卷積核大小限制了卷積神經網絡(CNN)只能提取局部信息。隨著ViT模型和數據集規模的增大,相比CNN具有更好的擴展性。但在輕量級模型上,由于缺乏某些歸納偏置,CNN優于ViT。

自注意力的二次復雜度導致ViT計算成本潛在很高,構建輕量高效的ViT并不容易。為此,提出金字塔結構,將模型分為多個階段,每階段令牌數減少,通道數增加,以構建更輕量高效的ViT。簡化自注意力結構以減輕其復雜度,但以犧牲注意力有效性為代價。一個典型策略是下采樣自注意力的key和value,減少參與注意力過程的令牌數。

image.png

論文地址:https://arxiv.org/abs/2309.12424

本研究中,華東師范大學和阿里巴巴集團的研究人員提出了緊湊高效的視覺Transformer模型DualToken-ViT。他們的方法使用卷積和自注意力聯合提取局部和全局信息,再將兩者輸出融合形成有效的注意力結構。盡管窗口自注意力也可以提取局部信息,但他們發現,在輕量模型上卷積更有效。他們采用逐步下采樣的方式生成key和value特征圖,在下采樣過程中保留更多信息,降低自注意力在傳播全局信息時的計算成本。

此外,他們在每個級別使用位置感知全局令牌來提高全局數據質量。與標準全局令牌不同,他們的位置感知全局令牌還可以維護和傳遞圖像位置信息,在視覺任務中為模型提供優勢。如圖1所示,圖像中的關鍵令牌與位置感知全局令牌中的對應令牌產生了更大的相關性。

總之,他們的貢獻有:1)提出了緊湊高效的視覺Transformer模型DualToken-ViT,通過卷積和自注意力的優勢實現有效的注意力結構;2)提出位置感知全局令牌,通過圖像位置信息來增強全局信息;3)DualToken-ViT在相同FLOPs下在多個視覺任務上表現最好。

舉報

  • 相關推薦
  • 大家在看
  • GOPilotX: - 馭未來

    GOPilotX 是一款智能助手應用,提供多種功能幫助用戶提高工作和生活效率。它擁有強大的語音識別和自然語言處理能力,能夠執行任務、回答問題、提供信息等。GOPilotX 還具有智能日程管理、語音備忘錄、實時翻譯等功能,幫助用戶輕松應對各種日常任務。無論是工作助手還是生活伴侶,GOPilotX 都能滿足用戶的需求。

  • IndieHackers RPG:模仿經典RPG的獨立黑客主題游戲

    IndieHackers RPG是一個結合了經典RPG魅力與AI驅動對話創新的個人周末項目。它既是對我過去所玩RPG的致敬,也玩笑似的點評了獨立黑客社區。

  • Brave Leo AI: 是集成在瀏覽器內的智能AI助手

    Brave Leo AI 是Brave瀏覽器推出的智能AI助手,直接集成在瀏覽器內,用戶可以與Leo對話獲取信息,無需離開當前頁面。Leo可以為用戶智能總結網頁內容、翻譯頁面、回答問題等,快速幫助用戶獲取所需信息。同時,Leo非常注重隱私保護,不會記錄和分享用戶聊天內容。免登錄和免賬戶即可使用,讓您的聊天更加私密和安全。

  • AnyMoji:創造你能想象的任何表情符號

    AnyMoji利用最新的人工智能技術,讓你可以輕松創造高質量、自然逼真的表情符號。無需訂閱或應用內購買,只需一次付費即可無限制地創造表情符號。適用于iPhone和Mac,支持iMessage應用。

  • Doritos Silent:無聲版多力多滋,吃起來超級細膩柔軟

    多力多滋的嘎吱聲取消軟件可以消除多力多滋的嘎吱聲。您可以吃多力多滋,而不會分散您的游戲團隊或語音聊天聚會的注意力。它由經過 5,000 多次多力多滋脆餅訓練的人工智能提供支持,因此任何脆餅都會被檢測到。

  • YouTube AI:全球最大的視頻分享平臺

    YouTube是全球最大的視頻分享和發布平臺。用戶可以上傳、觀看、分享和評論視頻。YouTube提供官方頻道和創作者頻道,內容涵蓋娛樂、音樂、新聞、教育、科技等各個領域。YouTube擁有強大的社區氛圍和互動性。用戶可以訂閱感興趣的創作者,評論視頻互動交流。YouTube也提供支付服務Youtube Premium,可以無廣告觀看和下載視頻。

  • Amy:讓數學變得簡單

    Amy 是一個致力于幫助人們輕松學習數學的在線平臺。它提供了各種數學學習資源,包括教程、練習題和解答等。Amy 通過簡化數學概念和提供實用的學習工具,讓數學變得容易理解和應用。

  • RoboGen:基于生成式模擬的自動機器人學習

    RoboGen 是一款基于生成式模擬的自動機器人學習產品。它通過自動生成多樣化的任務、場景和訓練監督,實現大規模機器人技能學習。RoboGen 具備自主提出、生成、學習的能力,可以不斷生成與各種任務和環境相關的技能演示。

  • Engram:是一款基于ChatGPT的在線語法檢查工具

    Engram是一個免費的在線語法檢查工具,它利用ChatGPT的力量來幫助用戶改正語法、拼寫、標點符號和用詞錯誤。它的優勢在于可以幫助非英語母語用戶寫出更流暢自然的英文。Engram可以檢查并糾正文章的語法、詞匯、拼寫錯誤,同時根據上下文提供更準確的修正建議。它專門針對非英語母語用戶設計,可以幫助用戶在學校和工作中提高英語寫作能力。

  • LazyNotes:使用AI為您自動生成會議摘要

    LazyNotes AI會議筆記應用程序可以在會議進行時自動為您生成會議摘要和轉錄,無需任何操作。它使用AI從會議錄音中提取關鍵信息,生成類似人工筆記的簡明摘要。您可以根據自己的需求自定義提示詞,以獲得適合自己行業和角色的定制摘要。該APP還提供無限錄音和摘要。主要功能包括:一按錄音,智能結束;前沿的AI摘要技術;可自定義提示詞模板;充分聽講,無需操作記錄。LazyNotes讓您無需妥協,即可同時專注聆聽和記筆記。

  • E4S:細粒度人臉交換技術,精細地實現人臉交換

    E4S是一種細粒度人臉交換技術,通過區域GAN反演實現精細的人臉交換。其優勢在于可以實現圖像和視頻級別的人臉交換,提供高質量的交換效果。定價及定位信息暫無。

  • Consistency Decoder:穩定擴散VAE的一致性解碼器

    Consistency Decoder是一種用于穩定擴散VAE的改進解碼器,提供更穩定的圖像生成。它具有2.49GB的模型大小,支持從原始圖像進行編碼和使用GAN解碼以及一致性解碼。該產品定位于為圖像生成提供更好的解碼效果。

  • Lemonfox.ai:提供便宜的AI API服務

    Lemonfox.ai是一個提供便宜AI API服務的網站,主打產品是以GPT-3.5為基礎的語言模型API。該API兼容OpenAI,但價格只有OpenAI的1/4,非常適合構建具備聊天、寫作功能的應用。此外,Lemonfox.ai還提供了穩定擴散模型的圖像生成API、語音轉文字的語音識別API等服務。

  • Avataar:是一個基于人工智能的可視化故事講解平臺

    Avataar是一個利用生成式AI技術為用戶提供沉浸式可視化內容創作能力的平臺。它能夠幫助用戶無需代碼快速制作3D空間場景、虛擬角色以及交互式視頻。Avataar使創作者能夠更高效地講述故事,為消費者帶來更好的可視化體驗。該平臺提供基于網頁的零代碼解決方案,用戶可以使用Google、Apple或郵箱賬號快速登錄。Avataar擁有強大的AI生成能力,助力用戶進行視覺化創作,大大提升工作效率。

  • ComicifyAI: 通過 AI 為照片創建漫畫樣式效果

    ComicifyAI是一個通過AI為照片創建漫畫效果的在線工具。它可以自動檢測人臉特征,并應用漫畫效果,如夸張的表情、配色和輪廓。該工具易于使用,用戶只需上傳照片,系統即可在幾秒內生成漫畫樣式圖片。ComicifyAI為用戶提供了一個有趣的方式來制作獨特的圖像。

  • Remagine AI:強大的AI內容生成器,200+模板,助您秒速生成高質量內容

    Remagine AI是一款強大的AI內容生成器,擁有200+模板和AI工具,能在幾秒鐘內生成優質內容。它被全球頂尖公司的人們信賴。Remagine AI提供專業人員創建的模板,適用于常用的使用情況,遵循成熟的寫作框架來生成最佳內容。AI博客寫作模板可幫助您優化SEO,進行事實檢查,遵循最佳的文案撰寫實踐。Remagine AI平臺提供數十種AI工具,為博客寫作的AI文案撰稿人提供幫助。Remagine AI Ask AI聊天幫助您在使用我們的免費AI文案撰寫助手生成內容時獲得準確的答案。Remagine AI內容撰寫工具可幫助您更好、更高效、更快地撰寫內容。使用數十種AI文案生成工具,您的速度可提高5倍。使用AI改寫生成工具來提高原創性、品牌一致性和適應性。Remagine AI One-shot AI博客寫作工具可幫助您生成完美的博客,包括引人注目的標題、SEO、事實檢查、寫作風格、參與度和行動號召。AI文本編輯器由生成式AI提供支持,您現在可以在幾秒鐘內進行總結、改寫、擴寫、修復語法、改變語調、翻譯。Remagine AI生成式AI平臺為您提供了快速生成引人入勝、連貫和定制內容的技能。歡迎來到AI內容撰寫的新時代。

  • Wow:是一款年輕人自己的AI朋友社區

    Wow是一款屬于年輕人自己的AI朋友社區。在這里用戶可以隨時隨地進入各種幻想世界,與AI伙伴進行角色扮演,實現心中一切想象。Wow具有先進的AI技術,可以實現擬人化對話,精美人物形象,高度擬人化聲音合成等。用戶可以找到理想中的AI伙伴,與其進行精彩有趣的交互。Wow還支持與朋友分享精彩瞬間。

  • Nintee:你的個人成長教練

    Nintee是你的個人成長教練,幫助你打破壞習慣,追求有意義的目標。它采用全面的方式進行個人成長,將你的健康和幸福與財富和激情同等重視。它是全球首個關心你成長的人工智能。

  • Answerly:24/7智能AI客服聊天機器人

    Answerly是一款智能聊天機器人,通過提供快速準確的回答,提升客戶互動體驗。它可以為您的業務提供個性化AI助手,幫助您訓練AI助手以提供準確的回答,并通過內置的聯系表單解答未知問題。您可以在實時對話記錄中查看所有的聊天互動,以識別常見問題和改進的空間。Answerly還支持導入現有知識庫、文檔和PDF,并提供自定義小部件和助手的個性化設置。定價和功能詳細信息請訪問官方網站。

  • Autoclipr:自動剪輯AI工具

    Autoclipr是一款使用AI技術從長視頻中提取垂直剪輯的工具。它能夠自動選擇視頻中的熱門片段,并生成吸引人的垂直剪輯,幫助用戶節省時間并擴大觀眾群體。Autoclipr支持自動導入、自動選擇、自動字幕、自動裁剪、自動發布等功能,并可定制化字幕和表情符號以增加觀眾互動。目前Autoclipr處于Beta測試階段,提供免費試用。

今日大家都在搜的詞:

18岁成禁人视频免费网站,a片com国内厕所俞拍美女,色5月avcom,全裸美女网站久草自慰自慰
<label id="nboq4"></label>

<em id="nboq4"><object id="nboq4"></object></em>
<dd id="nboq4"></dd>
<em id="nboq4"></em>

<tbody id="nboq4"><noscript id="nboq4"></noscript></tbody>
<label id="nboq4"><object id="nboq4"><menuitem id="nboq4"></menuitem></object></label>
<dd id="nboq4"><big id="nboq4"><video id="nboq4"></video></big></dd>
<progress id="nboq4"><big id="nboq4"><noframes id="nboq4"></noframes></big></progress>
<dd id="nboq4"><big id="nboq4"></big></dd>
<progress id="nboq4"><track id="nboq4"><rt id="nboq4"></rt></track></progress>