、數(shù)學(xué)基礎(chǔ)。數(shù)學(xué)基礎(chǔ)知識蘊含著處理智能問題的基本思想與方法,也是理解復(fù)雜算法的必備要素。這一模塊覆蓋了人工智能必備的數(shù)學(xué)基礎(chǔ)知識,包括線性代數(shù)、概率論、最優(yōu)化方法等。
讓客戶滿意是我們工作的目標,不斷超越客戶的期望值來自于我們對這個行業(yè)的熱愛。我們立志把好的技術(shù)通過有效、簡單的方式提供給客戶,將通過不懈努力成為客戶在信息化領(lǐng)域值得信任、有價值的長期合作伙伴,公司提供的服務(wù)項目有:主機域名、網(wǎng)絡(luò)空間、營銷軟件、網(wǎng)站建設(shè)、鐵西網(wǎng)站維護、網(wǎng)站推廣。
2、機器學(xué)習(xí)。機器學(xué)習(xí)的作用是從數(shù)據(jù)中習(xí)得學(xué)習(xí)算法,進而解決實際的應(yīng)用問題,是人工智能的核心內(nèi)容之一。這一模塊覆蓋了機器學(xué)習(xí)中的主要方法,包括線性回歸、決策樹、支持向量機、聚類等。
3、人工神經(jīng)網(wǎng)絡(luò)。作為機器學(xué)習(xí)的一個分支,神經(jīng)網(wǎng)絡(luò)將認知科學(xué)引入機器學(xué)習(xí)中,以模擬生物神經(jīng)系統(tǒng)對真實世界的交互反應(yīng),并取得了良好的效果。這一模塊覆蓋了神經(jīng)網(wǎng)絡(luò)中的基本概念,包括多層神經(jīng)網(wǎng)絡(luò)、前饋與反向傳播、自組織神經(jīng)網(wǎng)絡(luò)等。
4、深度學(xué)習(xí)。簡而言之,深度學(xué)習(xí)就是包含多個中間層的神經(jīng)網(wǎng)絡(luò),數(shù)據(jù)爆炸和計算力飆升推動了深度學(xué)習(xí)的崛起。這一模塊覆蓋了深度學(xué)習(xí)的概念與實現(xiàn),包括深度前饋網(wǎng)絡(luò)、深度學(xué)習(xí)中的正則化、自編碼器等。
5、神經(jīng)網(wǎng)絡(luò)實例。在深度學(xué)習(xí)框架下,一些神經(jīng)網(wǎng)絡(luò)已經(jīng)被用于各種應(yīng)用場景,并取得了不俗的效果。這一模塊覆蓋了幾種神經(jīng)網(wǎng)絡(luò)實例,包括深度信念網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等。
6、深度學(xué)習(xí)之外的人工智能。深度學(xué)習(xí)既有優(yōu)點也有局限,其他方向的人工智能研究正是有益的補充。這一模塊覆蓋了與深度學(xué)習(xí)無關(guān)的典型學(xué)習(xí)方法,包括概率圖模型、集群智能、遷移學(xué)習(xí)、知識圖譜等。
7、應(yīng)用場景。除了代替人類執(zhí)行重復(fù)性的勞動,在諸多實際問題的處理中,人工智能也提供了有意義的嘗試。這一模塊覆蓋了人工智能技術(shù)在幾類實際任務(wù)中的應(yīng)用,包括計算機視覺、語音處理、對話系統(tǒng)等。
1、客服行業(yè)/行政助手
傳統(tǒng)客服、企業(yè)內(nèi)部行政,這種機械性、重復(fù)性、程式化的重復(fù)體力勞動的工作將會被專業(yè)的行政/客服機器人所替代。
2、翻譯行業(yè)
打破語言界限,幫助人類進行跨民族、跨語種、跨文化的交流,一直以來都是“翻譯”這一專業(yè)領(lǐng)域的神圣指責,且深深的在全球化的大潮中,被重要依賴著。
3、服務(wù)于公共交通的司機、公交車司機
交通改變了人類生存的空間感和時間感,交通行業(yè)的發(fā)展和速度效率的提升,極大的提升了社會效率和人類生活體驗。但每年不斷增加的汽車保有量和隨之快速上升的交通事故,也造成了不可挽回的生命及財產(chǎn)損失。
4、制造業(yè)流水線工人
人工智能最常讓人浮想聯(lián)翩的技術(shù)領(lǐng)域,毫無疑問是機器人,尤其是工業(yè)制造機器人領(lǐng)域。現(xiàn)在在高端科技制造、精密機械制造、主流汽車生產(chǎn)和甚至手機生產(chǎn)線中,工業(yè)機器人是標配。大量的工業(yè)應(yīng)用故事,已經(jīng)明確地指明了未來工業(yè)生產(chǎn)的方向。
5、基礎(chǔ)醫(yī)學(xué)服務(wù)和輔助醫(yī)療
近年來在醫(yī)療行業(yè),多家企業(yè)源源不斷地向人工智能技術(shù)應(yīng)用方向注入大量資金,尤其是降低醫(yī)療成本、增加醫(yī)療效果、提升醫(yī)療效率、改善患者健康領(lǐng)域。
在某些情境下,人工智能的深度學(xué)習(xí)能力已超越醫(yī)生。專家預(yù)測2020年醫(yī)療人工智能將持續(xù)增長,尤其是在成像、診斷、預(yù)測分析和管理領(lǐng)域。
6、金融審計和風(fēng)控
人工智能的知識圖譜、深度學(xué)習(xí)、大數(shù)據(jù)處理等技術(shù)在金融行業(yè)已有廣泛的應(yīng)用,通過專業(yè)策略深度應(yīng)用下,對金融領(lǐng)域數(shù)據(jù)的監(jiān)控和數(shù)據(jù)分析、決策方向極大的提高了業(yè)務(wù)處理效率,并且在每日新增和歷史的金融海量數(shù)據(jù)下,人工智能的效率是人工不可企及的。
7、便利店收銀員
無營業(yè)員超市,又稱為無人超市。負責收錢的不是營業(yè)員,而是一個具備攝像頭、人臉識別、機器交互終端、掃碼設(shè)備的自動收款機器人。這種無須排隊結(jié)賬的實體店:刷手機進店、選品、拿貨,然后走人!這種黑科技早已于2016年,隨著Amazon Go無人超市的正式上線成為現(xiàn)實。
特點優(yōu)點:
人工神經(jīng)網(wǎng)絡(luò)的特點和優(yōu)越性,主要表現(xiàn)在三個方面:
1、具有自學(xué)習(xí)功能
例如實現(xiàn)圖像識別時,只在先把許多不同的圖像樣板和對應(yīng)的應(yīng)識別的結(jié)果輸入人工神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)就會通過自學(xué)習(xí)功能,慢慢學(xué)會識別類似的圖像。
自學(xué)習(xí)功能對于預(yù)測有特別重要的意義。預(yù)期未來的人工神經(jīng)網(wǎng)絡(luò)計算機將為人類提供經(jīng)濟預(yù)測、市場預(yù)測、效益預(yù)測,其應(yīng)用前途是很遠大的。
2、具有聯(lián)想存儲功能
用人工神經(jīng)網(wǎng)絡(luò)的反饋網(wǎng)絡(luò)就可以實現(xiàn)這種聯(lián)想。
3、具有高速尋找優(yōu)化解的能力
尋找一個復(fù)雜問題的優(yōu)化解,往往需要很大的計算量,利用一個針對某問題而設(shè)計的反饋型人工神經(jīng)網(wǎng)絡(luò),發(fā)揮計算機的高速運算能力,可能很快找到優(yōu)化解。
相信有很多人認同之前的朋友,那么就來說說在這個瞬息萬變的時代,年輕人是否有必要進行職業(yè)規(guī)劃。誠然,這個社會的確是多變的。每一刻,都有新的東西不知從哪里冒出來,每一分鐘,太多曾經(jīng)輝煌的東西慢慢消失。可能這兩年你一只腳踏入了共享經(jīng)濟,打算5~10年做點什么。誰曾想到風(fēng)一夜之間就熄了,豬倒了,你還是看不到事業(yè)的影子,得到的卻是一張裁員通知。
行業(yè)內(nèi)就是這樣,技能甚至?xí)^時。兩年前很火的Go語言,現(xiàn)在在招聘需求上已經(jīng)很難看到了。今天所有的招聘都是想搶AI和神經(jīng)網(wǎng)絡(luò)人才,但是沒人知道幾年后會發(fā)生什么。大時代的變化像波浪一樣洶涌澎湃,個人難免會覺得變化來得太快,跟不上節(jié)奏。從這個角度來看,我們似乎真的很難控制和預(yù)測行業(yè)的變化。這個時候,制定一個五年或者十年的職業(yè)規(guī)劃,似乎真的沒有太大的意義。但是,如果你真的這么想,恐怕你在思維上已經(jīng)陷入了誤區(qū)。
無論行業(yè)和社會發(fā)生多大的變化和翻案,個人的成長軌跡始終是連貫統(tǒng)一的。職業(yè)規(guī)劃不是讓我們預(yù)測行業(yè)的發(fā)展,甚至是未來可能出現(xiàn)的行業(yè),而是回歸個人成長本身,讓我們時刻提醒自己在人生的某個階段應(yīng)該做什么,應(yīng)該做什么。很多人覺得職業(yè)規(guī)劃太復(fù)雜。其實這種規(guī)劃并沒有那么神奇。你甚至可以簡單的理解為一個人在不同的階段給自己設(shè)定不同的目標,然后規(guī)劃一條合理的路徑去實現(xiàn)。
盡管現(xiàn)如今社會與行業(yè)的發(fā)展瞬息萬變,沒有人能夠預(yù)測未來10年會發(fā)生什么。然而正是在這種情況下,我們才更應(yīng)該關(guān)注個人的職業(yè)發(fā)展規(guī)劃,給自己設(shè)定一個正確的規(guī)劃與目標,不要讓自己迷失在社會與行業(yè)的顛簸變化之中。以上就是今天想要給大家分享的內(nèi)容,希望對您有所幫助。
How?Neural?Networks?Extrapolate:?From?Feedforward?to?Graph?Neural?Networks
ICLR2021最高分論文????????????
52頁論文,正文占9頁,主要都是附錄,不過附錄里很多圖片(一頁就一兩張圖),排除這些一頁一圖的,只有40頁
我們研究用梯度下降法訓(xùn)練的神經(jīng)網(wǎng)絡(luò)如何外推,也就是說,它們在訓(xùn)練分布的支持之外學(xué)習(xí)什么。以前的工作報告了使用神經(jīng)網(wǎng)絡(luò)進行外推時混合的實證結(jié)果:雖然前饋神經(jīng)網(wǎng)絡(luò),即多層感知器(MLP)在某些簡單任務(wù)中外推效果不好,但圖形神經(jīng)網(wǎng)絡(luò)(GNN)——帶有MLP模塊的結(jié)構(gòu)化網(wǎng)絡(luò)——在更復(fù)雜的任務(wù)中取得了一些成功。為了得到理論解釋,我們確定了MLPs和GNNs外推良好的條件。首先,我們量化了ReLU-MLPs從原點沿任意方向快速收斂到線性函數(shù)的觀測結(jié)果,這意味著ReLU-MLPs不能外推大多數(shù)非線性函數(shù)。但是,當訓(xùn)練分布足夠“多樣化”時,他們可以證明學(xué)習(xí)線性目標函數(shù)。其次,在分析GNNs的成功和局限性時,這些結(jié)果提出了一個假設(shè),我們提供了理論和經(jīng)驗證據(jù):GNNs在將算法任務(wù)外推到新數(shù)據(jù)(例如。,較大的圖或邊權(quán)重)依賴于編碼體系結(jié)構(gòu)或特征中特定于任務(wù)的非線性。我們的理論分析建立在過度參數(shù)化網(wǎng)絡(luò)與神經(jīng)切線核的聯(lián)系上。根據(jù)經(jīng)驗,我們的理論適用于不同的培訓(xùn)環(huán)境
1簡介
人類在許多任務(wù)中推斷得很好。例如,我們可以對任意大的數(shù)應(yīng)用算術(shù)。人們可能想知道,神經(jīng)網(wǎng)絡(luò)是否也能做到這一點,并將其推廣到任意遠離訓(xùn)練數(shù)據(jù)的示例中(Lake et al.,2017)。奇怪的是,以前的工作報告混合外推結(jié)果與神經(jīng)網(wǎng)絡(luò)。早期的工作表明,前饋神經(jīng)網(wǎng)絡(luò),又稱多層感知器(MLPs),在學(xué)習(xí)簡單多項式函數(shù)時不能很好地進行外推(BarnardWessels,1992;HaleySoloway,1992年)。然而,最近的研究表明,圖神經(jīng)網(wǎng)絡(luò)(GNNs)(Scarselli et al.,2009)是一類具有MLP構(gòu)建塊的結(jié)構(gòu)化網(wǎng)絡(luò),在具有挑戰(zhàn)性的算法任務(wù)中,如預(yù)測物理系統(tǒng)的時間演化(Battaglia et al.,2016),可以推廣到比訓(xùn)練圖大得多的圖,學(xué)習(xí)圖形算法(Velickovic et al.,2020),求解數(shù)學(xué)方程(LampleCharton,2020)。
為了解釋這個難題,我們正式研究了梯度下降(GD)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)是如何外推的,即它們在訓(xùn)練分布的支持之外學(xué)習(xí)什么。我們說,如果一個神經(jīng)網(wǎng)絡(luò)在訓(xùn)練分布之外學(xué)習(xí)了一個任務(wù),它就能很好地進行外推。乍一看,似乎神經(jīng)網(wǎng)絡(luò)可以在訓(xùn)練分布之外任意行為,因為它們具有高容量(Zhang et al.,2017),并且是通用逼近器(Cybenko,1989;Funahashi,1989年;Hornik等人,1989年;庫爾科娃,1992年)。然而,神經(jīng)網(wǎng)絡(luò)受到梯度下降訓(xùn)練的限制(Hardt等人,2016;Soudry等人,2018年)。在我們的分析中,我們通過類比過參數(shù)化神經(jīng)網(wǎng)絡(luò)的訓(xùn)練動態(tài)和通過神經(jīng)切線核(NTK)的核回歸,明確考慮了這種隱式偏差(Jacot等人,2018)。
從前饋網(wǎng)絡(luò)、最簡單的神經(jīng)網(wǎng)絡(luò)和更復(fù)雜的體系結(jié)構(gòu)(如GNNs)的構(gòu)建塊開始,我們建立了由GD訓(xùn)練的具有ReLU激活的過參數(shù)mlp的預(yù)測從原點沿任意方向收斂到線性函數(shù)。我們證明了兩層網(wǎng)絡(luò)的收斂速度,并從經(jīng)驗上觀察到收斂經(jīng)常發(fā)生在訓(xùn)練數(shù)據(jù)附近(圖1),這表明ReLU-MLPs不能很好地外推大多數(shù)非線性任務(wù)。我們強調(diào),我們的結(jié)果并不是基于ReLU網(wǎng)絡(luò)具有有限多個線性區(qū)域的事實(Arora et al.,2018;HaninRolnick,2019年;Hein等人,2019年)。雖然有有限多個線性區(qū)域意味著ReLU MLPs最終會變?yōu)榫€性,但MLPs是否會學(xué)習(xí)到接近訓(xùn)練分布的正確目標函數(shù)并沒有說明。相比之下,我們的結(jié)果是非漸近的,并且量化了MLPs將學(xué)習(xí)什么樣的函數(shù)接近于訓(xùn)練分布。其次,我們確定了mlp外推良好的條件:任務(wù)是線性的,訓(xùn)練分布的幾何結(jié)構(gòu)是充分“多樣化”的。據(jù)我們所知,我們的結(jié)果是這種前饋神經(jīng)網(wǎng)絡(luò)的第一個外推結(jié)果。
然后,我們將我們對前饋神經(jīng)網(wǎng)絡(luò)的見解與GNNs聯(lián)系起來,以解釋GNNs在某些算法任務(wù)中外推得好的原因。先前的工作報告了可以通過動態(tài)規(guī)劃(DP)解決的任務(wù)的成功外推(Bellman,1966),其計算結(jié)構(gòu)與GNNs一致(Xu等人,2020)。DP更新通常可以分解為非線性和線性步驟。因此,我們假設(shè)GD訓(xùn)練的GNN可以在DP任務(wù)中很好地外推,如果我們在架構(gòu)和輸入表示中編碼適當?shù)姆蔷€性(圖2)。重要的是,編碼非線性可能不需要GNNs插值,因為MLP模塊可以很容易地學(xué)習(xí)訓(xùn)練分布中的許多非線性函數(shù)(Cybenko,1989;Hornik等人,1989年;Xu等人,2020),但GNNs正確外推至關(guān)重要。我們使用圖NTK(Du等人,2019b)證明了簡化情況下的這一假設(shè)。在經(jīng)驗上,我們驗證了三個DP任務(wù)的假設(shè):最大度、最短路徑和n體問題。我們證明了具有適當結(jié)構(gòu)、輸入表示和訓(xùn)練分布的GNNs可以很好地預(yù)測具有未知大小、結(jié)構(gòu)、邊權(quán)值和節(jié)點特征的圖。我們的理論解釋了以往工作的經(jīng)驗成功,并指出了它們的局限性:成功的外推依賴于編碼任務(wù)特定的非線性,這需要領(lǐng)域知識或廣泛的模型搜索。從更廣泛的角度來看,我們的見解超越了GNNs,并廣泛應(yīng)用于其他神經(jīng)網(wǎng)絡(luò)。
總之,我們研究神經(jīng)網(wǎng)絡(luò)如何外推。首先,由GD訓(xùn)練的ReLU-mlp以O(shè)(1/t)的速率沿原點方向收斂為線性函數(shù)。其次,為了解釋為什么GNNs在一些算法任務(wù)中可以很好地外推,我們證明了ReLU-MLPs在線性任務(wù)中可以很好地外推,從而引出一個假設(shè):當適當?shù)姆蔷€性被編碼到結(jié)構(gòu)和特征中時,神經(jīng)網(wǎng)絡(luò)可以很好地外推。我們用一個簡化的例子證明了這個假設(shè),并為更一般的情況提供了經(jīng)驗支持。
1.1相關(guān)工作
早期的工作顯示了MLP不能很好地外推的示例任務(wù),例如學(xué)習(xí)簡單多項式(BarnardWessels,1992;HaleySoloway,1992年)。相反,我們展示了ReLU MLPs如何外推的一般模式,并確定MLPs外推良好的條件。最近的工作研究了在NTK和平均場兩種情況下,梯度下降對MLP產(chǎn)生的隱性偏差(Bietti和Mairal,2019;ChizatBach,2018年;Song等人,2018年)。與我們的結(jié)果相關(guān),一些工作表明MLP預(yù)測收斂于“簡單”分段線性函數(shù),例如,具有很少的線性區(qū)域(HaninRolnick,2019;Maennel等人,2018年;Savarese等人,2019年;威廉姆斯等人,2019年)。我們的工作不同之處在于,這些工作都沒有明確研究外推法,有些只關(guān)注一維輸入。最近的研究還表明,在NTK區(qū)域的高維環(huán)境中,MLP在某些標度極限下至多是一個漸近線性預(yù)測因子(Ba等人,2020;Ghorbani等人,2019年)。我們研究不同的設(shè)置(外推),我們的分析是非漸近性質(zhì),不依賴于隨機矩陣理論。
先前的工作通過在較大的圖上進行測試來探索GNN外推(Battaglia et al.,2018;Santoro等人,2018年;薩克斯頓等人,2019年;Velickovic等人,2020年)。我們是第一個從理論上研究GNN外推法的人,我們完成了外推法的概念,包括看不見的特征和結(jié)構(gòu)。
2準備工作
3前饋神經(jīng)網(wǎng)絡(luò)如何外推
前饋網(wǎng)絡(luò)是最簡單的神經(jīng)網(wǎng)絡(luò)和更復(fù)雜的體系結(jié)構(gòu)(如GNNs)的構(gòu)建塊,因此我們首先研究它們在GD訓(xùn)練時是如何外推的。在本文中,我們假設(shè)ReLU激活。第3.3節(jié)包含其他激活的初步結(jié)果。
3.1 RELU MLP的線性外推行為
通過架構(gòu),ReLU網(wǎng)絡(luò)學(xué)習(xí)分段線性函數(shù),但是在訓(xùn)練數(shù)據(jù)的支持之外,這些區(qū)域究竟是什么樣的呢?圖1舉例說明了當GD對各種非線性函數(shù)進行訓(xùn)練時,ReLU MLP如何進行外推。這些例子表明,在訓(xùn)練支持之外,預(yù)測很快就會沿著原點的方向線性化。我們通過線性回歸對MLPs的預(yù)測進行了系統(tǒng)的驗證:決定系數(shù)(R2)總是大于0.99(附錄C.2)。也就是說,ReLU MLPs幾乎立即在訓(xùn)練數(shù)據(jù)范圍之外“線性化”。
我們使用GD通過神經(jīng)切線核(NTK)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)的隱式偏差來形式化這個觀察:GD訓(xùn)練的過參數(shù)化網(wǎng)絡(luò)的優(yōu)化軌跡等價于具有特定神經(jīng)切線核的核回歸的軌跡,在一系列被稱為“NTK制度”的假設(shè)下(Jacot等人,2018年)。我們在這里提供了一個非正式的定義;更多詳情,請參閱Jacot等人(2018)和附錄A。
定義2。
(非正式)在NTK區(qū)域訓(xùn)練的神經(jīng)網(wǎng)絡(luò)是無限寬的,以一定的比例隨機初始化,并且由GD以無窮小的步長訓(xùn)練。
先前的工作通過NTK分析過參數(shù)化神經(jīng)網(wǎng)絡(luò)的優(yōu)化和分布泛化(Allen-Zhu等人,2019a;b類;Arora等人,2019a;b類;曹顧,2019;杜等人,2019c;一個;李亮,2018;日田和鈴木,2021年)。相反,我們分析外推。
定理1將我們從圖1中觀察到的結(jié)果形式化:在訓(xùn)練數(shù)據(jù)范圍之外,沿著原點的任何方向tv,兩層ReLU MLP的預(yù)測迅速收斂為速率為O(1/t)的線性函數(shù)。線性系數(shù)β收斂速度中的常數(shù)項依賴于訓(xùn)練數(shù)據(jù)和方向v。證據(jù)見附錄B.1
定理1
ReLU網(wǎng)絡(luò)具有有限多個線性區(qū)域(Arora等人,2018;漢寧和羅爾尼克,2019),因此他們的預(yù)測最終成為線性。相反,定理1是一個更細粒度的分析MLP如何外推,并提供了收斂速度。雖然定理1假設(shè)兩層網(wǎng)絡(luò)處于NTK狀態(tài),但實驗證實,線性外推行為發(fā)生在具有不同深度、寬度、學(xué)習(xí)速率和批量大小的網(wǎng)絡(luò)上(附錄C.1和C.2)。我們的證明技術(shù)也可能擴展到更深層次的網(wǎng)絡(luò)。
圖4a提供了一個更積極的結(jié)果:MLP在許多不同的超參數(shù)上很好地外推了線性目標函數(shù)。雖然學(xué)習(xí)線性函數(shù)一開始似乎非常有限,但在第4節(jié)中,這一見解將有助于解釋GNN在非線性實際任務(wù)中的外推特性。在此之前,我們首先從理論上分析了MLPs外推的好時機。
3.2當RELU MLPS可證明外推井
圖4a顯示,當目標函數(shù)為線性時,MLP可以很好地外推。然而,這并不總是正確的。在本節(jié)中,我們展示了成功的外推依賴于訓(xùn)練數(shù)據(jù)的幾何結(jié)構(gòu)。直觀地說,訓(xùn)練分布必須足夠“多樣化”,以便進行正確的推斷
我們提供了兩個條件,將訓(xùn)練數(shù)據(jù)的幾何結(jié)構(gòu)與外推聯(lián)系起來。引理1指出,過參數(shù)化的mlp只需二維例子就可以學(xué)習(xí)線性目標函數(shù)。
實驗:訓(xùn)練數(shù)據(jù)的幾何結(jié)構(gòu)影響外推。
定理2中的條件形式化了一種直覺,即訓(xùn)練分布必須是“多樣的”,才能成功地進行外推,例如,D包括所有方向。從經(jīng)驗上講,當滿足定理2的條件時(圖4b中的“all”),外推誤差確實很小。相反,當訓(xùn)練示例僅限于某些方向時,外推誤差要大得多(圖4b和圖3)。
與之前的工作相關(guān),定理2提出了為什么虛假相關(guān)性可能會損害外推,補充了因果關(guān)系論點(Arjovsky et al.,2019;Peters等人,2016年;Rojas Carulla等人,2018年)。當訓(xùn)練數(shù)據(jù)具有虛假相關(guān)性時,某些特征組合丟失;e、 例如,駱駝可能只出現(xiàn)在沙漠中的圖像收集。因此,定理2的條件不再成立,模型可能外推錯誤。定理2也類似于線性模型的可辨識條件,但更為嚴格。如果訓(xùn)練數(shù)據(jù)具有全(特征)秩,我們可以唯一地識別一個線性函數(shù)。mlp更具表現(xiàn)力,因此識別線性目標函數(shù)需要附加約束。
綜上所述,我們分析了ReLU-MLPs是如何外推的,并提供了兩個啟示:(1)MLPs由于其線性外推而不能外推大多數(shù)非線性任務(wù)(定理1);當目標函數(shù)是線性函數(shù)時,如果訓(xùn)練分布是“多樣的”(定理2),mlp可以很好地外推。在下一節(jié)中,這些結(jié)果將幫助我們理解更復(fù)雜的網(wǎng)絡(luò)是如何外推的。
3.3具有其他激活功能的MLPS
在繼續(xù)討論GNNs之前,我們通過對其他激活函數(shù)tanh的實驗來完成MLPs的描述σ(x) =tanh(x),余弦σ(x) =cos(x)(LapedesFarber,1987年;McCaughan,1997年;Sopena和Alquezar,1994),和σ(x) =x2(杜和李,2018;Livni等人,2014年)。詳情見附錄C.4。當激活函數(shù)和目標函數(shù)相似時,MLPs外推效果較好;e、 例如,當學(xué)習(xí)tanh時,tanh激活可以很好地推斷,但不能推斷其他功能(圖5)。而且,每個激活函數(shù)都有不同的局限性。要用tanh激活外推tanh函數(shù),訓(xùn)練數(shù)據(jù)范圍必須足夠?qū)?。當學(xué)習(xí)具有二次激活的二次函數(shù)時,只有兩層網(wǎng)絡(luò)可以很好地進行外推,而更多的層可以得到更高階的多項式。對于高維數(shù)據(jù),余弦激活很難優(yōu)化,因此我們只考慮一維/二維余弦目標函數(shù)。
4圖形神經(jīng)網(wǎng)絡(luò)如何外推
上面,我們看到非線性任務(wù)中的外推對于MLP來說是困難的。盡管存在這一局限性,GNNs在一些非線性算法任務(wù)中表現(xiàn)出了很好的外推能力,如直觀物理(Battaglia et al.,2016;Janner等人,2019),圖算法(Battaglia等人,2018;Velickovic等人,2020)和符號數(shù)學(xué)(LampleCharton,2020)。為了解決這個差異,我們建立在MLP結(jié)果的基礎(chǔ)上,研究GD訓(xùn)練的GNNs是如何外推的。
4.1假設(shè):線性算法對齊有助于外推
我們從一個例子開始:訓(xùn)練GNNs來解決最短路徑問題。對于這項任務(wù),先前的工作觀察到,具有最小聚集的改進GNN架構(gòu)可以推廣到比訓(xùn)練集中的圖更大的圖(Battaglia et al.,2018;Velickovic等人,2020):
我們首先提供一個直觀的解釋(圖2a)。最短路徑可通過Bellman-Ford(BF)算法(Bellman,1958)求解,并進行以下更新
其中w(v,u)是邊(v,u)的權(quán)重,d[k][u]是k步內(nèi)到節(jié)點u的最短距離。這兩個方程可以很容易地對齊:如果GNNs的MLP模塊學(xué)習(xí)一個線性函數(shù)d[k],那么它將模擬BF算法?1] [v]+w(v,u)。由于mlp可以外推線性任務(wù),這種“對齊”可以解釋為什么GNNs可以在這個任務(wù)中很好地外推。
為了進行比較,我們可以解釋為什么我們不希望GNN使用更常用的和聚合(Eqn。1) 在這項任務(wù)中推斷得很好。對于和聚合,MLP模塊需要學(xué)習(xí)一個非線性函數(shù)來模擬BF算法,但定理1表明,它們不會在訓(xùn)練支持之外外推大多數(shù)非線性函數(shù)。
我們可以將上述直覺推廣到其他算法任務(wù)。許多GNNs外推良好的任務(wù)可以通過動態(tài)規(guī)劃(DP)來解決(Bellman,1966),這是一種具有類似GNNs(Eqn)的遞歸結(jié)構(gòu)的算法范式。1) (Xu等人,2020年)。
定義3。動態(tài)規(guī)劃(DP)是一個帶有更新的遞歸過程
其中答案[k][s]是迭代k和狀態(tài)s索引的子問題的解決方案,DP Update是一個任務(wù)特定的更新函數(shù),它基于上一次迭代解決子問題。從更廣泛的角度出發(fā),我們假設(shè):如果我們將適當?shù)姆蔷€性編碼到模型結(jié)構(gòu)和輸入表示中,使MLP模塊只需要學(xué)習(xí)接近線性的步驟,那么所得到的神經(jīng)網(wǎng)絡(luò)就可以很好地外推。
假設(shè)1。
我們的假設(shè)建立在(Xu等人,2020)的算法對齊框架之上,該框架指出,如果模塊“對齊”以便于學(xué)習(xí)(可能是非線性)函數(shù),則神經(jīng)網(wǎng)絡(luò)插值良好。成功的外推更難:模塊需要與線性函數(shù)對齊。
線性算法對準的應(yīng)用。
一般來說,線性算法對準不局限于GNN,廣泛應(yīng)用于神經(jīng)網(wǎng)絡(luò)。為了滿足這種情況,我們可以在結(jié)構(gòu)或輸入表示中編碼適當?shù)姆蔷€性操作(圖2)。使用GNNs學(xué)習(xí)DP算法是在體系結(jié)構(gòu)中編碼非線性的一個例子(Battaglia等人,2018;Corso等人,2020年)。另一個例子是對體系結(jié)構(gòu)中的日志和exp變換進行編碼,以幫助外推算術(shù)任務(wù)中的乘法(Trask等人,2018;MadsenJohansen,2020年)。神經(jīng)符號程序進一步發(fā)展,并對符號操作庫進行編碼,以幫助推斷(Johnson等人,2017年;Mao等人,2019年;易等,2018年)。
對于某些任務(wù),更改輸入表示可能更容易(圖2b)。有時,我們可以將目標函數(shù)f分解為f=g? 將h嵌入特征嵌入h和一個簡單的目標函數(shù)g中,我們的模型可以很好地推斷。我們可以通過使用領(lǐng)域知識通過專門的特征或特征轉(zhuǎn)換獲得h(LampleCharton,2020;Webb等人,2020年),或通過X\D中未標記的未標記的未標記的分發(fā)數(shù)據(jù)的表示學(xué)習(xí)(例如,BERT)(Chen等人,2020年);Devlin等人,2019年;胡等,2020;Mikolov等人,2013b;Peters等人,2018年)。這為表示如何幫助在不同應(yīng)用領(lǐng)域進行外推提供了新的視角。例如,在自然語言處理中,預(yù)處理表示(Mikolov等人,2013a;WuDredze,2019)和使用領(lǐng)域知識進行特征轉(zhuǎn)換(袁等,2020年;Zhang等人,2019)幫助模型在語言之間進行概括,這是一種特殊的外推。在定量金融中,確定正確的“因素”或特征對于深入學(xué)習(xí)模型至關(guān)重要,因為金融市場可能經(jīng)常處于外推制度中(Banz,1981;法蘭西,1993年;羅斯,1976)。
線性算法對齊解釋了文獻中成功的外推,并指出外推一般更難:編碼適當?shù)姆蔷€性通常需要領(lǐng)域?qū)<一蚰P退阉?。其次,我們?yōu)槲覀兊募僭O(shè)提供理論和實證支持。
4.2理論和經(jīng)驗支持
我們驗證了我們對三個DP任務(wù)的假設(shè):最大度、最短路徑和n-體問題,并證明了最大度假設(shè)。我們強調(diào)了圖結(jié)構(gòu)在外推中的作用。
理論分析。
我們從一個簡單而基本的任務(wù)開始:學(xué)習(xí)一個圖的最大度,一個DP的特例。作為定理1的推論,常用的基于和的GNN(Eqn。1) 無法很好地推斷(證據(jù)見附錄B.4)。
推論1。
具有和聚集和和和讀出的GNNs在最大程度上不能很好地外推。為了實現(xiàn)線性算法對齊,我們可以對讀出器中唯一的非線性max函數(shù)進行編碼。定理3證實了具有最大讀數(shù)的GNN在這個任務(wù)中可以很好地外推。
定理3并不是緊跟定理2,因為GNNs中的MLP模塊只接受間接的監(jiān)視。我們分析圖NTK(Du等人,2019b)來證明附錄B.5中的定理3。雖然定理3假設(shè)相同的節(jié)點特征,但我們在經(jīng)驗上觀察到相同和不相同特征的相似結(jié)果(附錄中的圖16)。
條件的解釋。
定理3中的條件類似于定理2中的條件。這兩個定理都需要不同的訓(xùn)練數(shù)據(jù),用定理3中的圖結(jié)構(gòu)或定理2中的方向來度量。在定理3中,如果所有訓(xùn)練圖都具有相同的最大或最小節(jié)點度,例如,當訓(xùn)練數(shù)據(jù)來自以下族之一時,違反了該條件:路徑、C-正則圖(具有C度的正則圖)、圈和階梯。
實驗:有助于推斷的架構(gòu)。
我們用兩個DP任務(wù)來驗證我們的理論分析:最大度和最短路徑(詳見附錄C.5和C.6)。而以前的工作只測試不同大小的圖(Battaglia et al.,2018;Velickovic等人,2020),我們還測試了具有不可見結(jié)構(gòu)、邊權(quán)重和節(jié)點特征的圖。結(jié)果支持了我們的理論。對于最大度,具有最大讀數(shù)的GNNs優(yōu)于具有和讀數(shù)的GNNs(圖6a),證實了推論1和定理3。對于最短路徑,具有最小讀數(shù)和最小聚集的GNN優(yōu)于具有和讀數(shù)的GNN(圖6a)。
實驗證實了訓(xùn)練圖結(jié)構(gòu)的重要性(圖7)。有趣的是,這兩個任務(wù)支持不同的圖結(jié)構(gòu)。對于最大度,如定理3所預(yù)測的,當訓(xùn)練在樹、完全圖、擴張圖和一般圖上時,GNNs外推效果很好,當訓(xùn)練在4-正則圖、圈圖或梯形圖上時,外推誤差更大。對于最短路徑,當我們改變訓(xùn)練圖的稀疏性時,外推誤差遵循U形曲線(附錄中的圖7b和圖18)。直覺上,在稀疏或稠密圖上訓(xùn)練的模型可能學(xué)習(xí)退化解。
實驗:有助于推斷的表征。
最后,我們展示了一個很好的輸入表示幫助外推。我們研究了n體問題(Battaglia等人,2016;Watters等人,2017年)(附錄C.7),即預(yù)測重力系統(tǒng)中n個物體的時間演化。根據(jù)之前的工作,輸入是一個完整的圖形,其中節(jié)點是對象(Battaglia等人,2016)。
5與其他分布外設(shè)置的連接
我們討論幾個相關(guān)的設(shè)置。直觀地說,從我們上述結(jié)果的觀點來看,相關(guān)設(shè)置中的方法可以通過1)學(xué)習(xí)超出訓(xùn)練數(shù)據(jù)范圍的有用非線性和2)將相關(guān)測試數(shù)據(jù)映射到訓(xùn)練數(shù)據(jù)范圍來改進外推。
領(lǐng)域適應(yīng)研究對特定目標領(lǐng)域的泛化(Ben-David等人,2010;Blitzer等人,2008年;Mansour等人,2009年)。典型的策略會調(diào)整訓(xùn)練過程:例如,使用來自目標域的未標記樣本來對齊目標和源分布(Ganin等人,2016;趙等,2018)。在訓(xùn)練期間使用目標域數(shù)據(jù)可能會導(dǎo)致有用的非線性,并可能通過匹配目標和源分布來減輕外推,盡管學(xué)習(xí)映射的正確性取決于標簽分布(Zhao等人,2019)。
對大量未標記數(shù)據(jù)的自監(jiān)督學(xué)習(xí)可以學(xué)習(xí)超出標記訓(xùn)練數(shù)據(jù)范圍的有用非線性(Chen et al.,2020;Devlin等人,2019年;He等人,2020年;Peters等人,2018年)。因此,我們的結(jié)果提出了一個解釋,為什么像BERT這樣的預(yù)訓(xùn)練表示可以提高分布外魯棒性(Hendrycks et al.,2020)。此外,自監(jiān)督學(xué)習(xí)可以將語義相似的數(shù)據(jù)映射到相似的表示,因此映射后的一些域外實例可能會落入訓(xùn)練分布中。
不變模型旨在學(xué)習(xí)在多個訓(xùn)練分布中尊重特定不變性的特征(Arjovsky et al.,2019;Rojas Carulla等人,2018年;周等人,2021)。如果模型真的學(xué)習(xí)到了這些不變性,這可能發(fā)生在線性情況下,當存在混雜或反因果變量時(Ahuja等人,2021;Rosenfeld等人,2021),這可能從本質(zhì)上增加了訓(xùn)練數(shù)據(jù)范圍,因為模型可以忽略不變特征的變化。
分布魯棒性考慮了數(shù)據(jù)分布的小干擾,并確保模型在這些干擾下表現(xiàn)良好(GohSim,2010;Sagawa等人,2020年;Sinha等人,2018年;StaibJegelka,2019年)。相反,我們看的是更多的全局擾動。盡管如此,人們還是希望,有助于外推的修改通常也能提高對局部擾動的魯棒性。
6結(jié)論
本文是一個初步的步驟,正式了解如何神經(jīng)網(wǎng)絡(luò)訓(xùn)練梯度下降外推。我們確定了MLPs和GNNs按期望外推的條件。我們還提出了一種解釋,說明GNNs在復(fù)雜的算法任務(wù)中是如何能夠很好地進行外推的:在架構(gòu)和特性中編碼適當?shù)姆蔷€性可以幫助外推。我們的結(jié)果和假設(shè)與本文和文獻中的實證結(jié)果一致
因為多層神經(jīng)網(wǎng)絡(luò)被證明能夠耦合任意非線性函數(shù),通過一些配置能讓網(wǎng)絡(luò)去做以前需要人工參與的特征設(shè)計這些工作,然后配置合適的功能如classifier,regression,而現(xiàn)在神經(jīng)網(wǎng)絡(luò)可以通過配置layers的參數(shù)達到這些功能,整個輸入到最終輸出無需太多人工設(shè)置,從raw data 到最終輸出指標
經(jīng)典機器學(xué)習(xí)方式是以人類的先驗知識將raw數(shù)據(jù)預(yù)處理成feature,然后對feature進行分類。分類結(jié)果十分取決于feature的好壞。所以過去的機器學(xué)習(xí)專家將大部分時間花費在設(shè)計feature上。那時的機器學(xué)習(xí)有個更合適的名字叫feature engineering 。
后來人們發(fā)現(xiàn),利用神經(jīng)網(wǎng)絡(luò),讓網(wǎng)絡(luò)自己學(xué)習(xí)如何抓取feature效果更佳。于是興起了representation learning。這種方式對數(shù)據(jù)的擬合更加靈活。
網(wǎng)絡(luò)進一步加深,多層次概念的representation learning將識別率達到了另一個新高度。于是你聽到了是個搞機器學(xué)習(xí)的人都知道的名字:deep learning。實指多層次的特征提取器與識別器統(tǒng)一訓(xùn)練和預(yù)測的網(wǎng)絡(luò)。
end to end的好處:通過縮減人工預(yù)處理和后續(xù)處理,盡可能使模型從原始輸入到最終輸出,給模型更多可以根據(jù)數(shù)據(jù)自動調(diào)節(jié)的空間,增加模型的整體契合度。
拿語音識別為具體實例。普遍方法是將語音信號轉(zhuǎn)成頻域信號,并可以進一步加工成符合人耳特點的MFCC進行編碼(encode)。也可以選擇Convolutional layers對頻譜圖進行特征抓取。這樣可在encode的部分更接近end to end 中的第一個end。
但識別出的結(jié)果并不可以告訴我們這段語音到底是什么。DNN-HMM混合模型還需要將DNN識別出的結(jié)果通過HMM來解碼(decode)。而RNN-CTC就將HMM的對齊工作交給了網(wǎng)絡(luò)的output layer來實現(xiàn)。在decode的部分更接近end to end 中的第二個end。
新聞標題:go語言神經(jīng)網(wǎng)絡(luò) go 神經(jīng)網(wǎng)絡(luò)
文章來源:http://m.rwnh.cn/article40/doohgho.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供虛擬主機、手機網(wǎng)站建設(shè)、網(wǎng)站制作、域名注冊、定制網(wǎng)站、外貿(mào)網(wǎng)站建設(shè)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)