回復(fù) 達米恩·查澤雷 : 2022 超全的 AI 圈研究合集在這!知名博 Louis Bouchard 自制視頻講解加短篇分析,儀禮小白也超級友。雖然世界仍在復(fù)蘇,但究并沒有放慢其狂熱的步,尤其是在人工智能領(lǐng)域此外,今年人們對 AI 倫理、偏見、治理和透明都有了新的重視。人工智和我們對人腦的理解及其人工智能的聯(lián)系在不斷發(fā),在不久的將來,這些改我們生活質(zhì)量的應(yīng)用將大光彩。知名博主 Louis Bouchard 也在自己的博客中盤點了 2022 年 32 項(!)AI 技術(shù)突破。接下來讓我們一鱃魚看看,這些令驚艷的研究都有哪些吧!章地址:https://www.louisbouchard.ai/ 2022-ai-recap/LaMA:基于傅里葉卷積的分辨率穩(wěn)健的大型掩碼復(fù)你肯定經(jīng)歷過這種情況你和你的朋友拍了一張很的照片。結(jié)果,你發(fā)現(xiàn)有在你身后,毀了你要發(fā)到友圈或者小紅書的照片。現(xiàn)在,這不再是問題。基傅里葉卷積的分辨率穩(wěn)健大型掩碼修復(fù)方法,可以使用者輕松清除圖像中不要的內(nèi)容。不論是人,還垃圾桶都能輕松消失。它像是你口袋里的專業(yè) ps 設(shè)計師,只需輕輕一按,就能輕松清除。雖然看似單,但圖像修復(fù)是許多 AI 研究人員長期以來一直需要解決文文問題。論文鏈:https://arxiv.org/ abs / 2109.07161項目地址:https://github.com/ saic-mdal / lamaColab Demo:https://colab.research.google.com/github/saic-mdal/lama/blob/master/colab/LaMa_inpainting.ipynb視頻講解:https://youtu.be/ Ia79AvGzveQ短篇分析:https://www.louisbouchard.ai/ lama/STIT:基于 GAN 的真實視頻人臉編輯你肯定有過這樣的經(jīng):在看電影時,會發(fā)現(xiàn)電中的演員看起來要比本人輕得多?!峨p子殺手》中威爾?史密斯之前,這需專業(yè)人員花費數(shù)百甚至數(shù)小時的工作,手動編輯這演員出現(xiàn)的場景。但利用 AI,你可以在幾分鐘內(nèi)完成。事實上,尸子多技術(shù)可讓你增加笑容,讓你看起更年輕或更老,所有這些是使用基于人工智能的算自動完成的。它在視頻中稱為基于 AI 的面部操作(AI-based face manipulations),代表了 2022 年的最新技術(shù)水平。論文鏈接:https://arxiv.org/ abs / 2201.08361項目地址:https://github.com/ rotemtzaban / STIT視頻講解:https://youtu.be/ mqItu9XoUgk短篇分析:https://www.louisbouchard.ai/ stitch-it-in-time/NeROIC:利用在線圖庫的神經(jīng)渲染神青鴍染可以通過物體、人物或景的圖片,在空間中生成真的 3D 模型。有了這項技術(shù),你只需擁有某物的幾張圖片,就可以要求器了解這些圖片中的物體并模擬出它在空間中的樣。通過圖像來理解物體的理形狀,這對人類來說很易,因為我們了解真實的界。但對于只能看到像素機器來說,這是一個完全同的挑戰(zhàn)。生成的模型如融入新場景?如果照片的照條件和角度不同,生成模型也會因此變化,該怎辦?這些都是 Snapchat 和南加州大學(xué)在這項新研究中需類解決的問。論文鏈接:https://arxiv.org/ abs / 2201.02533項目地址:https://github.com/ snap-research / NeROIC視頻講解:https://youtu.be/ 88Pl9zD1Z78短篇分析:https://www.louisbouchard.ai/ neroic/SpeechPainter:文本條件下的語音修復(fù)對于軨軨來說,基于機器學(xué)習(xí)的修技術(shù)不僅可以移除其中的容,而且還能根據(jù)背景信填充圖像的缺失部分。對視頻修復(fù)來說,其挑戰(zhàn)在不僅要保持幀與幀之間的致性,而且要避免生成錯的偽影。同時,當(dāng)你成功將一個人從視頻中「踢出」之后,還需要把他 / 她的聲音也一并刪除才行為此,谷歌的研究人員提了一種全新的語音修復(fù)方,可以糾正視頻中的語法發(fā)音,甚至消除背景噪音論文鏈接:https://arxiv.org/ abs / 2202.07273視頻講解:https://youtu.be/ zIIc4bRf5Hg短篇分析:https://www.louisbouchard.ai/ speech-inpainting-with-ai/GFP-GAN:利用生成性面部先驗,實現(xiàn)實世界的盲臉修復(fù)你是否一些珍藏的舊照片,因為代久遠而畫質(zhì)模糊?不用心,有了盲臉修復(fù)技術(shù)(Blind Face Restoration),你的回憶會被歷久彌新。這全新且免費的 AI 模型可以在一瞬間修復(fù)你的大分舊照片。即使修復(fù)前的片畫質(zhì)非常低,它也能很地工作。這在之前通常是個相當(dāng)大的挑戰(zhàn)。更酷的,你可以按照自己喜歡的式進行嘗試。他們已經(jīng)開了代碼,創(chuàng)建了一個演示在線應(yīng)用程序供大家試用相信這項技術(shù)一定讓你大一驚!論文鏈接:https://arxiv.org/ abs / 2101.04061項目地址:https://github.com/ TencentARC / GFPGANColab Demo:https://colab.research.google.com/drive/1sVsoBd9AjckIXThgtZhGrHRfFI6UUYOo在線應(yīng)用:https://huggingface.co/ spaces / akhaliq / GFPGAN視頻講解:https://youtu.be/ nLDVtzcSeqM短篇分析:https://www.louisbouchard.ai/ gfp-gan/4D-Net:多模態(tài)對齊的學(xué)習(xí)自動駕駛?魚車何「眼觀六路」?你可能說過車企正在使用的 LiDAR 傳感器或其他奇怪的相機。但它們是如何工的,它們?nèi)绾斡^察這個世,以及它們與我們相比究看到了什么不同?論文鏈:https://arxiv.org/ abs / 2109.01066與特斯拉只使用攝像頭來解世界不同,大多數(shù)自動駛汽車廠商,比如 Waymo,使用的是普通攝像頭和 3D LiDAR 傳感器。它們不會像普通相那樣生成圖像,而是生成 3D 點云,利用 RGB 傳感信息,測量物體之間的距離,計算它們投射到體的脈沖激光的傳播時間盡管如此,我們?nèi)绾斡行?結(jié)合這些信息并讓車輛理它?車輛最終會看到什么自動駕駛是否足夠安全?Waymo 和谷歌的一篇新研究論文將會解答這些謎。視頻講解:https://youtu.be/ 0nJMnw1Ldks短篇分析:https://www.louisbouchard.ai/ waymo-lidar/Instant NeRF:基于多分辨率哈希編碼的即神經(jīng)圖元如何通過照片模世界的樣子?使用 AI 模型,人們可以將拍攝的像變成高質(zhì)量的 3D 模型。這項具有挑戰(zhàn)性的任,讓研究人員通過 2D 圖像,創(chuàng)建物體或人在三世界中的樣子。通過基于希編碼的神經(jīng)圖元(graphical primitives),英偉達實現(xiàn) 5 秒訓(xùn)練 NeRF,并獲得了更好的效果。在到兩年的研究中,將 NeRF 的訓(xùn)練速度提高了 1000 多倍。論文鏈接:https://arxiv.org/ abs / 2201.05989項目地址:https://github.com/ NVlabs / instant-ngp視頻講解:https://youtu.be/ UHQZBQOVAIU短篇分析:https://www.louisbouchard.ai/nvidia-photos-into-3d-scenes/DALL?E 2:基于 CLIP 特征的文本生成圖像模型去年,OpenAI 發(fā)布了文本-圖像生成模型 DALL?E?,F(xiàn)在,升級版 DALL?E 2 又來了。DALL?E 2 不僅可以從文本生成逼真的圖像巴蛇其輸出的分辨率前者的四倍!不過,性能面的提升好像不足以令 OpenAI 滿足,為此他們還讓 DALL?E 2 學(xué)會了一項新技能:圖像修復(fù)。也就是說,你可以 DALL?E 2 編輯圖像,或者添加任何想要新元素,比如在背景中加一只火烈鳥。論文鏈接:https://arxiv.org/ abs / 2204.06125視頻講解:https://youtu.be/ rdGVbPI42sA短篇分析:https://www.louisbouchard.ai/openais-new-model-dall-e-2-is-amazing/MyStyle:個性化生成先驗谷歌和特拉維夫?qū)τ趯W(xué)提出了個非常強大的 DeepFake 技術(shù)。擁有了它,你幾乎無所不能。只需奧山個人拍上百張照片,就可對其圖像進行編碼,并修、編輯或創(chuàng)建出任何想要樣子。這既令人驚奇又令恐懼,尤其是當(dāng)你看到生的結(jié)果時。論文鏈接:https://arxiv.org/ abs / 2203.17272項目地址:https://mystyle-personalized-prior.github.io/視頻講解:https://youtu.be/ BNWAEvFfFvQ短篇分析:https://www.louisbouchard.ai/ mystyle/OPT:開放預(yù)訓(xùn)練的 Transformer 語言模型GPT-3 如此強大的原因,在于其架獂和大小。它有 1750 億個參數(shù),是人類大腦中神經(jīng)雙雙數(shù)量的兩倍!如巨大的神經(jīng)網(wǎng)絡(luò)使該模型乎學(xué)習(xí)了整個互聯(lián)網(wǎng)的內(nèi),了解我們?nèi)绾螘鴮?、?和理解文本。就在人們驚于 GPT-3 的強大功能時,Meta 向開源社區(qū)邁出了一大步。他們發(fā)了一個同樣強大的模型,且,該模型已經(jīng)完全開源!該模型不僅也有超過千級別的參數(shù),并且,與 GPT-3 相比,OPT-175B 更加開放及便于訪問。論文鏈接:https://arxiv.org/ abs / 2205.01068項目地址:https://github.com/ facebookresearch / metaseq視頻鏈接:https://youtu.be/ Ejg0OunCi9U短篇分析:https://www.louisbouchard.ai/ opt-meta/BlobGAN:空間離散的場景表征對于何描述一個場景,Adobe 研究團隊給出了一個新的方法:BlobGAN。BlobGAN 使用「斑點」(blob)來描述場景中的對象。研究人九鳳可移動這些斑點,將它們變、變小,甚至可以刪除,對圖像中斑點所代表的物都會產(chǎn)生同樣的效果。正作者在他們的結(jié)果中分享那樣,你可以通過復(fù)制斑,在數(shù)據(jù)集中創(chuàng)建新的圖?,F(xiàn)在,BlobGAN 的代碼已經(jīng)開源,感興趣小伙伴,抓緊快上手試試!論文鏈接:https://arxiv.org/ abs / 2205.02837項目地址:https://github.com/ dave-epstein / blobgan視頻講解:https://youtu.be/ mnEzjpiA_4E短篇分析:https://www.louisbouchard.ai/ blobgan/Gato:通才智能體DeepMind 構(gòu)建了一個單一的「通用」智能體 Gato??梢酝?Atari 游戲、做字幕圖像、與人聊、還能控制機械臂!更令震驚的是,它只訓(xùn)練一次使用相同的權(quán)重,便能完所有任務(wù)。Gato 是一個多模態(tài)智能體。這意味它既可以為圖像創(chuàng)建標(biāo)題也能作為聊天機器人回答題。雖然 GPT-3 也能陪你聊天,但很明顯,Gato 可以做到更多。畢竟,能聊天的 AI 常有,能陪玩游戲的不常有。文鏈接:https://arxiv.org/ abs / 2205.06175視頻講解:https://youtu.be/ xZKSWNv6Esc短篇分析:https://www.louisbouchard.ai/ deepmind-gato/Imagen:具有深度語言理解的文本到圖像擴散模型如果你認為 DALL?E 2 很優(yōu)秀,那么不妨看看這個來自 Google Brain 的新模型 ——Imagen—— 可以做些什么。DALL?E 很神奇,但生成的圖像往往缺乏真實感,就是谷歌團隊研發(fā)的 Imagen 所要解決的問題。根據(jù)比較文本到圖像模的基準(zhǔn),Imagen 在大型語言模型的文本嵌入文本-圖像的合成方面成效顯著。生成的圖像昌意天馬空,又真實可信。論文鏈:https://arxiv.org/ abs / 2205.11487項目地址:https://imagen.research.google/視頻講解:https://youtu.be/ qhtYPhPWCsI短篇分析:https://www.louisbouchard.ai/ google-brain-imagen/DALL·E Mini一組小扎的驚悚圖曾在 Twitter 上風(fēng)靡一陣。這組 San 值狂掉的作品,出自 DALL?E mini 之手。作為 DALL?E 家族的「青春版」,DALL?E mini 是勝在免費開源。代碼已留狍鸮下一被魔改的人物又會是誰呢項目地址:https://github.com/ borisdayma / dalle-mini在線體驗:https://huggingface.co/ spaces / dalle-mini / dalle-mini視頻講解:https://youtu.be/ K3bZXXjW788短篇分析:https://www.louisbouchard.ai/ dalle-mini/NLLB:不落下任何一種語言Meta AI 發(fā)布的這款 NLLB-200 模型,模型命名理念來自「不下任何一種語言」(No Language Left Behind),在 200 多種語言上實現(xiàn)了任意互譯。研究的亮點在:研究者讓大多數(shù)低資源言訓(xùn)練提升多個數(shù)量級,時實現(xiàn)了 200 + 語言翻譯的 SOTA 結(jié)果。論文鏈接:https://research.facebook.com/ publications / no-language-left-behind/項目地址:https://github.com/ facebookresearch / fairseq / tree / nllb在線體驗:https://nllb.metademolab.com/視頻講解:https://youtu.be/ 2G4NeG17Eis短篇分析:https://www.louisbouchard.ai/ no-language-left-behind/Dual-Shutter 光學(xué)振動傳感系統(tǒng)聲音也能被看見?這篇得 CVPR 2022 最佳論文榮譽獎的研究,出了一種新穎的 Dual-Shutter 方法,通過使用「慢速」相機(130FPS)同時檢測多個場景源的高速(高達 63kHz)表面振動,并通過捕獲由音頻源引起的振動實現(xiàn)。由此便可以實現(xiàn)樂的分離、噪音的消除等各需求。論文鏈接:https://openaccess.thecvf.com/ content / CVPR2022 / papers / Sheinin_Dual-Shutter_Optical_Vibration_Sensing_CVPR_2022_paper.pdf項目地址:https://imaging.cs.cmu.edu/ vibration/視頻講解:https://youtu.be/ n1M8ZVspJcs短篇分析:https://www.louisbouchard.ai/ cvpr-2022-best-paper/Make-A-Scene:基于場景且有人類先驗的文本娥皇圖像生成Make-A-Scene 不僅僅是「另一個 DALL?E」。雖然 DALL?E 可以根據(jù)文本提示生成隨機圖像,這確實很酷但同時也限制了用戶對生結(jié)果的控制。而 Meta 的目標(biāo)是推動創(chuàng)意表達,將這種文諸犍到圖像的趨勢之前的草圖到圖像模型相合,從而產(chǎn)生「Make-A-Scene」:文本和草圖條件圖像生成之間相繇妙融合。論文鏈接:https://arxiv.org/ abs / 2203.13131視頻講解:https://youtu.be/ K3bZXXjW788短篇分析:https://www.louisbouchard.ai/ make-a-scene/BANMo:從任意視頻中構(gòu)建目標(biāo) 3D 動畫模型基于 Meta 的這項研究,你只需給定捕獲可變形對象的任意頻,比如上傳幾個小貓小的視頻,BANMo 便可通過將來自數(shù)千張圖像的 2D 線索整合到規(guī)范空間中,進而重建一反經(jīng)可編輯動畫 3D 模型,且無需預(yù)定義形狀模板。論文世本:https://arxiv.org/ abs / 2112.12761項目地址:https://github.com/ facebookresearch / banmo視頻講解:https://youtu.be/ jDTy-liFoCQ短篇分析:https://www.louisbouchard.ai/ banmo/用潛在擴散模型進行高分辨率圖像合成今年火的圖像生成模型 DALL?E、Imagen 以及強勢出圈的 Stable Diffusion,這些強大的圖像生成模型什么共同點?除了高計算本、大量訓(xùn)練時間之外,們都基于相同的擴散機制擴散模型最近在大多數(shù)圖任務(wù)中取得了 SOTA 結(jié)果,包括使用 DALL?E 的文本到圖像,還有許多其他與圖鵸余生成相關(guān)任務(wù),如圖像修復(fù)、風(fēng)格換或圖像超分辨率。論文接:https://arxiv.org/ abs / 2112.10752項目地址:https://github.com/ CompVis / latent-diffusion視頻講解:https://youtu.be/ RGBNdD3Wn-g短篇分析:https://www.louisbouchard.ai/ latent-diffusion-models/PSG:基于場景的圖像生成模型AI 可以幫你準(zhǔn)確識別圖像中的物體,但理解物體與環(huán)境之間的關(guān)則沒有那么輕松。為此,自南洋理工對研究人員提了一種基于全景分割的全景圖生成(panoptic scene graph generation,即 PSG)任務(wù)。相比于傳統(tǒng)基于檢測框的場景生成,PSG 任務(wù)要求全面地輸出圖像中歷山所有關(guān)(包括物體與物體間關(guān)系物體與背景間關(guān)系,背景背景間關(guān)系),并用準(zhǔn)確分割塊來定位物體。論文接:https://arxiv.org/ abs / 2207.11247項目地址:https://psgdataset.org/在線應(yīng)用:https://huggingface.co/ spaces / ECCV2022 / PSG視頻講解:https://youtu.be/ cSsE_H_0Cr8短篇分析:https://www.louisbouchard.ai/ psg/利用文本反轉(zhuǎn)實現(xiàn)文本到圖像個性化生成今年各大廠的像生成模型可謂是八仙過各顯神通,但是如何讓模生成特定風(fēng)格的圖像作品?來自特拉維夫大學(xué)的學(xué)和英偉達合作推出了一款性化圖像生成模型,可以 DIY 你想要得到的圖像。論文鏈接:https://arxiv.org/ abs / 2208.01618項目地址:https://textual-inversion.github.io/視頻講解:https://youtu.be/ f3oXa7_SYek短篇分析:https://www.louisbouchard.ai/ imageworthoneword/用于通用視頻識別的語言圖像預(yù)訓(xùn)練模型視覺文本型的學(xué)習(xí)毫無疑問已經(jīng)取了巨大成功,然而如何將種新的語言圖像預(yù)訓(xùn)練方擴展到視頻領(lǐng)域仍然是一懸而未決的問題。來自微和中科院的學(xué)者提出了一簡單而有效的方法使預(yù)訓(xùn)的語言圖像模型直接適應(yīng)頻識別,而不是從頭開始訓(xùn)練新模型。論文鏈接:https://arxiv.org/ abs / 2208.02816項目地址:https://github.com/ microsoft / VideoX / tree / master / X-CLIP視頻講解:https://youtu.be/ seb4lmVPEe8短篇分析:https://www.louisbouchard.ai/ general-video-recognition/Make-A-Video:一鍵文本生成視頻模型畫家在畫布上盡作畫,如此清晰流暢的畫,你能想到視頻的每一幀是 AI 生成的嗎?MetaAI 推出的 Make-A-Video,只需簡單輸入幾個文字,便可幾秒內(nèi)生成不同風(fēng)格的視,說成「視頻版 DALL?E」也不為過。論文鏈接:https://arxiv.org/ abs / 2209.14792視頻講解:https://youtu.be/ MWwESVyHWto短篇分析:https://www.louisbouchard.ai/ make-a-video/Whisper:大規(guī)模弱監(jiān)督語音識別模型你有沒有想有一個翻譯軟件可以快速譯視頻中的語音,甚至是些你自己都聽不懂的語言OpenAI 開源的 Whisper 恰好就能做到這一點。Whisper 在超過 68 萬小時的多語種數(shù)據(jù)上訓(xùn)練,能識嘈雜背景下的多語種聲音轉(zhuǎn)化為文字,此外還可勝專業(yè)術(shù)語的翻譯。論文鏈:https://arxiv.org/ abs / 2212.04356項目地址:https://github.com/ openai / whisper視頻講解:https://youtu.be/ uFOkMme19Zs短篇解析:https://www.louisbouchard.ai/ whisper/DreamFusion:用 2D 圖像生成 3D 模型文本能生成圖像、視頻還有 3D 模型~谷歌推出的 DreamFusion 通過使用預(yù)訓(xùn)練的 2D 文本到圖像擴散模型可一鍵生成 3D 模型,在數(shù)十億圖像文本對上訓(xùn)的擴散模型推動了文本到 3D 模型合成的最新突破。論文鏈接:https://arxiv.org/ abs / 2209.14988視頻講解:https://youtu.be/ epuU0VRIcjE短篇解析:https://www.louisbouchard.ai/ dreamfusion/Imagic:基于擴散模型的真實圖像編輯方使用 DALL?E 等文本圖像生成模型,只需輸一行文字便能得到想要的片,但 AI 生成的圖像有時候并不那么完美。來谷歌、以色列理工學(xué)院、茨曼科學(xué)研究所的研究者紹了一種基于擴散模型的實圖像編輯方法 ——Imagic,只用文字就能實現(xiàn)真實照片的 PS。例如,我們可以改變一個人岷山勢和構(gòu)圖同時保留其原始征,或者我想讓一只站立狗坐下,讓一只鳥展開翅。論文鏈接:https://arxiv.org/ abs / 2210.09276項目地址:https://imagic-editing.github.io/視頻講解:https://youtu.be/ gbpPQ5kVJhM短篇分析:https://www.louisbouchard.ai/ imagic/eDiffi:更高品質(zhì)的文本圖像合成模咸山比 DALL?E 和 Stable Diffusion 更強的圖像合成模型來了!就是英偉達的 eDiffi,它可以更準(zhǔn)確地生成更高品質(zhì)的圖像,此外加入筆模具,可以為你的作品加更多創(chuàng)造性和靈活性。文鏈接:https://arxiv.org/ abs / 2211.01324項目地址:https://deepimagination.cc/ eDiff-I/視頻講解:https://youtu.be/ grwp-ht_ixo短篇分析:https://www.louisbouchard.ai/ ediffi/Infinite Nature:從單幅圖像中學(xué)習(xí)自然場景的無限視涹山生成有沒有想過,隨手拍一張片然后就像打開一扇門一飛進圖片里呢?來自谷歌康奈爾大學(xué)的學(xué)者將這一象變?yōu)榱爽F(xiàn)實,這就是 InfiniteNature-Zero,他可從單幅圖像中生成無限制黎自然景視圖。論文鏈接:https://arxiv.org/ abs / 2207.11148項目地址:https://infinite-nature.github.io/視頻講解:https://youtu.be/ FQzGhukV-l0短篇分析:https://www.louisbouchard.ai/ infinitenature-zeroGalactica:用于科學(xué)的大語言模型Meta 開發(fā)的 Galactica 是一種大型語言模型,其大小與 GPT-3 相當(dāng),但它擅長的領(lǐng)域是科學(xué)歸山識。該模型可寫政府白皮書、新聞評論維基百科頁面和代碼,它知道如何引用以及如何編方程式。這對人工智能和學(xué)來說是一件大事。論文接:https://arxiv.org/ abs / 2211.09085視頻講解:https://youtu.be/ 2GfxkCWWzLU短篇分析:https://www.louisbouchard.ai/ galactica/RAD-NeRF:基于音頻空間分解的實時人像合成模型自 DeepFake 和 NeRF 的出現(xiàn),AI 換臉?biāo)坪跻呀?jīng)是司空見慣,但有個問題,AI 換的臉有時會因為對不上嘴型露餡。RAD-NeRF 的出現(xiàn)可以解決這一問題它可以對視頻中所出現(xiàn)的話者進行實時的人像合成此外還支持自定義頭像。文鏈接:https://arxiv.org/ abs / 2211.12368項目地址:https://me.kiui.moe/ radnerf/ChatGPT:為對話優(yōu)化的語言模型2022 年度 AI 的重磅作品怎么能少了 ChatGPT,這個已經(jīng)火遍全網(wǎng)并已被網(wǎng)友開發(fā)出寫小黃文、代碼等各種應(yīng)用的萬能模,如果你還不了解它,那快來看看!視頻講解:https://youtu.be/ AsFgn8vU-tQ短篇分析:https://www.louisbouchard.ai/ chatgpt/可直接用于生產(chǎn)使用的視頻人 re-aging雖然當(dāng)下計算機視覺模型可以對臉的年齡進行生成、風(fēng)格移等,但這也只是看起來酷,在實際應(yīng)用中卻幾乎作用,現(xiàn)有的技術(shù)通常存著面部特征丟失、分辨率和在后續(xù)視頻幀中結(jié)果不定的問題,往往需要人工次編輯。最近迪士尼發(fā)布第一個可實用的、完全自化的、可用于生產(chǎn)使用的頻圖像中 re-age 人臉的方法 FRAN(Face Re-Aging Network),正式宣告電影中靠化妝弄明改變員年齡視覺效果的技術(shù)落。論文鏈接:https://dl.acm.org/ doi / pdf / 10.1145/3550454.3555520項目地址:https://studios.disneyresearch.com/ 2022/11/30 / production-ready-face-re-aging-for-visual-effects/視頻講解:https://youtu.be/ WC03N0NFfwk短篇分析:https://www.louisbouchard.ai/ disney-re-age/參考資料:https://www.louisbouchard.ai/2022-ai-recap/本文來自微信公眾號:新智元 (ID:AI_era)
回復(fù) 郭攀 : IT之家 12 月 30 日消息,B站今日公布 2022 最美的夜跨晚會節(jié)目。官方稱本次晚會僅有許多爺青回”臺,還有場堪比音節(jié)的 BILIBILI LIVE。IT之家了解到B站跨晚 2022 最美的夜年晚會現(xiàn)定檔 12 月 31 日 20:00。據(jù)介紹,2023 最美的夜跨年會節(jié)目包《Game Start》《Sold Out》《面壁者》—《體》動畫尾主題曲《天空沒極限》《有人能在的 BGM 里打敗我》《重生我要稱霸廳》《中人不蹦洋》《橫豎點折》《到世界盡》—《灌高手》片曲、《你我的音符?!端拇?著連連看《焰火》刺客信條信仰之“”》《To Be Number One》—1990 年意大利世界杯官會歌、《到你》《Need To Know》《若把你?聲聲》《虛幻《Time after time~在落花紛飛的街上~》—名偵探柯:迷宮的字路》主曲、《小淌水 1952》《旅行者之夢—《原神森林音樂、《Why Why Why》《Imagine》《想要的一定現(xiàn)》《友地久天長也即將開。B站2023 最美的夜跨年會節(jié)目單頻介紹:方節(jié)目單點此查?
回復(fù) 沙漠 : 感謝IT之家網(wǎng)友 肖戰(zhàn)割割 的線索投遞!IT之家 1 月 7 日消息,OPPO Find X6?系列昨日取得無線電核準(zhǔn)鳋魚書,兩款型的型號分別為 PGEM10 / PGFM10,支持多種頻段的 5G 網(wǎng)絡(luò)?,F(xiàn)有爆料表明,OPPO Find X6 系列至少包括?Find X6 標(biāo)準(zhǔn)版和 Find X6 Pro 兩個版本,背部將采用時下蟜的碩大圓形相機模組,內(nèi)含顆攝像頭,模組中央還印有Hasselblad”的字樣,表明新機將繼續(xù)和哈蘇行合作。硬件方面,二者分將搭載聯(lián)發(fā)科天璣 9200 和第二代驍龍 8 移動平臺,搭載自研的馬里亞納 MariSilicon X 等芯片,采用 2K 120Hz 高頻調(diào)光的柔性曲面屏,支持 100W 快充,而且影像實力雄厚,幾乎壽麻什短板。據(jù)數(shù)碼博主 @數(shù)碼閑聊站 最新發(fā)布的信息顯示,全新的 OPPO Find X6 Pro 將會后置 5000 萬像素主攝 + 5000 萬像素超廣角(傳感器尺柘山 1/1.56",f / 2.2 光圈,支持自動對焦)+5000 萬像素長焦(傳感器尺寸 1/1.56",f / 2.6 光圈,支持 OIS 防抖)的三攝相機模組,其灌山主攝載的是索尼 IMX989 傳感器,這是目前手機行業(yè)頂級影像傳感器,具有一英超大底,感光面積提升 172%,感光能力提升 76%,同時拍照速度提升 32.5%,啟動速度提升 11%,支持芯片級 4K HDR 夜景視頻拍攝。前置 3200 萬自拍鏡頭,采用 IMX709 傳感器,尺寸為 1/2.74",支持 f / 2.4 光圈。據(jù)悉,全新的 OPPO Find X6 系列有望在 2023 年 Q1 與大家見面,除了強悍的性能,影像也將該機最大的賣點。IT之家后續(xù)將為大家?guī)砀嘣敿毿?,還請拭目以待?!禣PPO 三顆 IMX766 新機曝光,最終方案拆分做成陸吾強的 Find X6 系列》《劉作虎疑似預(yù)熱 OPPO Find X6 系列:奧利奧相機模組已無懸念?