第25章資料採集的困難

底層原理的優勢反饋到上層應用上常常會產生指數級的差別。資料採集的道理就是如此。

手動採集就像手動駕駛一樣，一個人只能應付一個資料節點。可自動採集的話，一個人就能應付n個資料節點。

如果真讓林遠去手動採集資料，那外賣演算法最佳化這個專案就不用做了。因為他無論如何也不可能每天蹲在所有商家的門口，以及坐在所有騎手們小電驢的後座上，不停地記錄他們產生的資料。

科學法則就是如此。當你的目光只看到一輛車的時候，你並不覺得自動駕駛和手動駕駛差別多大。可是將視野投射出去，涵蓋無數輛車的時候，巨大的差距就體現出來了。

這也是那麼多科技大公司心甘情願燒巨資押寶自動駕駛的原因之一。

不過這是題外話了，林遠這時候站在清晨的微風中。空氣中逐漸上升的氣溫就像他此時慢慢焦灼的心情。

真正走上it這條路後，林遠漸漸有了兩個最大的感悟。

一個是遇到問題必須習慣性地去探究，抓住問題的本質。二是真正明白了方向的重要。

這兩點並非是空話。

林遠並沒有因為失落而絕望，他開始仔細分析系統資料途徑的特點。試圖去抓住問題的本質。

算力系統可以輕鬆獲取好團公司從後臺匯出的已經採集好的外賣資料，並且對資料總量大小無感，再大的資料也能很快載入。那也就是說：系統更加關心的是資料的形式。

那些被採集好的外賣資料也並非是最終可被ai模型執行的向量形態。

外賣資料一般是這樣：某年某月，張三在a地接到訂單(編號：order123)，然後去商家所在的b地，花了多少時間等餐，之後再走什麼樣的路徑什麼時間送到客戶所在的c地。

這樣的資料是不可能直接丟給現實世界的ai模型去計算的，特麼的ai指的是ai最終生產出來的那個玩意兒，又不是指生產ai的玩意兒本身就是個ai。

這一點是很反普通人的常識的——ai其實就是演算法，而ai演算法是被生產製造出來的，而這個生產製造的過程卻一點也不ai。

這就好比你給地裡的瓜果澆大糞，地裡就能長出好吃的瓜果一樣。瓜果好吃，但澆下去的那玩意兒顯然不能吃。

但是，這僅僅是對現實世界的ai模型來說。算力系統卻並非如此，算力系統直接就可以載入這些未經處理的資料進行計算。

現實世界的ai模型在計算之前，通常的做法是：把這些外賣資料處理成矩陣向量。

ai模型是冰冷的，它才不管你丟給它的資料是什麼意思，反正在它眼裡都是矩陣向量。於是外賣資料就需要先被轉化為：[-1， 23， 321，.]這種冰冷的數字。

這些數字代表了真實的外賣資料。比如：某條外賣訂單配送時的天氣是大晴天，那矩陣向量中的某一個引數可能就會用數字“1”來表示，進而用數字“0”來表示陰天。

但算力系統則不同，林遠之前測試過。外賣的資料根本不需要經過預處理，直接讓系統載入也能處理。貌似系統自身就可以進行資料預處理。

這倒是符合系統的尿性--畢竟這系統就像一臺可以按需改變自己硬體引數的活的電腦。

於是林遠自然而然想著從這一點上尋找突破口。

。

第25章 資料採集的困難