新智元報(bào)道
編輯:David Joey
【新智元導(dǎo)讀】剛剛過去的7月,在Github上有哪些最熱門的AI項(xiàng)目?熱心網(wǎng)友按照星星數(shù)量搞了個(gè)排名,野榜,排著玩的。
七月最受歡迎的AI研究榜單第二彈來了!
上一波榜單是根據(jù)推特點(diǎn)贊、轉(zhuǎn)發(fā)和Github星數(shù)排序的,但有網(wǎng)友吐槽說推特點(diǎn)贊數(shù)可以機(jī)刷,另外推特點(diǎn)贊用戶不一定懂研究。
這次,作者@bycloudai吸取經(jīng)驗(yàn),這次的指標(biāo)不用推特點(diǎn)贊數(shù)了,改成了Github上的星數(shù)。
雖然這次的指標(biāo)也算不上有多專業(yè)吧,但比起推特,能逛Github的多少可以認(rèn)為和AI研究關(guān)系更密切。
另外,作者在榜單開頭也明確說了,這個(gè)榜屬于自己沒事排來玩玩的野榜,僅供娛樂。
話雖這么說,此次的「續(xù)集榜單」基本仍保持上期風(fēng)格,對Top10分別給出資源庫地址、論文鏈接、題目、作者和發(fā)文單位。
來看看這次「改良版」七月最火AI研究都有哪些研究上榜~
Top1:YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors
作者:Chien-Yao Wang, Alexey Bochkovskiy, Hong-Yuan Mark Liao
機(jī)構(gòu):「中央研究院」信息科學(xué)研究所
Github星數(shù):3.8k
摘要:YOLOv7在5FPS到160FPS范圍內(nèi)的速度和精度都超過了所有已知的物體檢測器,并且在 GPU V100上所有高于30FPS的實(shí)時(shí)物體檢測器中具有最高的精度56.8%AP。YOLOv7-E6 目標(biāo)檢測器 (56 FPS V100, 55.9%AP) 比基于Transformer的檢測器 SWIN-L Cascade-Mask R-CNN (9.2 FPS A100, 53.9% AP) 的速度和精度分別高出了509%和2%。
值得一提的是,這篇論文的一作Chien-Yao wang(王建堯)是哥大的一名機(jī)器工程方向的研究生,現(xiàn)在是Intel的一名Chrome軟件工程師。
Top2:Text-Guided Synthesis of Artistic Images with Retrieval-Augmented Diffusion Models
作者:Robin Rombach, Andreas Blattmann, and Bjorn Ommer
機(jī)構(gòu):路德維希-馬克西米利安-慕尼黑大學(xué)(Ludwig-Maximilians-Universität München)
Github星數(shù):2.4k
摘要:新的架構(gòu)最近改進(jìn)了生成圖像合成,從而在各種任務(wù)中實(shí)現(xiàn)了出色的視覺質(zhì)量。尤其值得注意的是「AI-Art」領(lǐng)域。通過結(jié)合語音和圖像合成模型,建立了所謂的“提示工程”,其中使用精心挑選和組合的句子來在合成圖像中實(shí)現(xiàn)一定的視覺風(fēng)格。
本文提出了一種基于檢索增強(qiáng)擴(kuò)散模型 (RDM) 的替代方法。在RDM中,在每個(gè)訓(xùn)練實(shí)例的訓(xùn)練期間從外部數(shù)據(jù)庫中檢索一組最近鄰,并且擴(kuò)散模型以這些信息樣本為條件。
來看看論文中的AI-Art的作品效果~
Top3:
NUWA-Infinity: Autoregressive over AutoregressiveGeneration for Infinite Visual Synthesis
作者:吳晨飛,梁健,Xiaowei Hu等
機(jī)構(gòu):微軟亞洲研究院、北京大學(xué)、微軟Azure AI
Github星數(shù):2.4k
排在第三位的是此前備受關(guān)注的全華班AI大作NUWA INFINITY。
4、Training Transformers Together(1K星)
作者:Alexander Borzunov,Max Ryabinin,Tim Dettmers等
機(jī)構(gòu):俄羅斯國立高等經(jīng)濟(jì)學(xué)院、華盛頓大學(xué)等
5、Theseus:A Library for Differentiable Nonlinear Optimization(791星)
作者:Luis Pineda,Taosha Fan,Maurizio Monge
機(jī)構(gòu):Meta AI,Reality Labs Research
6、k-means Mask Transformer(704星)
發(fā)文單位:約翰霍普金斯大學(xué)、谷歌研究院
資源庫:https://github.com/google-research/deeplab2
論文:https://arxiv.org/abs/2207.04044v1
7、XMem: Long-Term Video Object Segmentation with an Atkinson-Shiffrin Memory Model (699星)
發(fā)文單位:伊利諾伊大學(xué)厄巴納香檳分校
資源庫:https://github.com/hkchengrex/XMem
論文:https://arxiv.org/abs/2207.07115v2
8、TinyViT: Fast Pretraining Distillation for Small Vision Transformers(656星)
發(fā)文單位:微軟研究院、微軟云+AI
資源庫:https://github.com/microsoft/cream
論文:https://arxiv.org/abs/2207.10666v1
9、Towards Grand Unification of Object Tracking (644星)
發(fā)文單位:大連理工大學(xué)、字節(jié)跳動(dòng)、香港大學(xué)、鵬程實(shí)驗(yàn)室
資源庫:ttps://github.com/masterbin-iiau/unicorn
論文:https://arxiv.org/abs/2207.07078v3
10、Multiface: A Dataset for Neural Face Rendering(337星)
發(fā)文單位:Meta現(xiàn)實(shí)實(shí)驗(yàn)室
資源庫:https://github.com/facebookresearch/multiface
論文:https://arxiv.org/abs/2207.11243v1
參考資料:
https://www.reddit.com/r/machineLearning/comments/wi05tg/d_most_popular_ai_research_july_2022_pt_2_ranked/