微軟宣布開放Bing搜尋演算法SPTAG的原始碼

發佈於: 點閱數:5558

在幾年前,網站搜尋很簡易,我們只要輸入關鍵字並瀏覽結果頁面去找尋結果。但時至今日,使用者可能會在手機上拍照並將其放入搜尋框中,或使用智慧AI語音提問,無需親自觸摸設備。也可能會輸入問題並期待實際的答案,而不是一個可能答案的網站列表。

微軟剛剛宣布開源一項Bing搜尋引擎的關鍵演算法SPTAG,它使Bing能夠快速將搜尋結果返回給使用者。

SPTAG(Space Partition Tree And Graph)是分佈式近似最近鄰域搜尋ANN庫,為大規模向量搜尋場景提供高質量向量索引構建、搜尋和分佈式線上服務工具包。

利用空間分區樹和圖SPTAG演算法作為開源Python庫的核心,Bing能夠在幾毫秒內搜尋數十億筆資訊。
利用空間分區樹和圖SPTAG演算法作為開源Python庫的核心,Bing能夠在幾毫秒內搜尋數十億筆資訊。

當然,向量搜尋本身並不是一個新想法,微軟所做的是將這一概念應用於深度學習模型。

首先,團隊採用預先訓練的模型並將資料編碼到向量中,其中每個向量代表一個字或像素。然後使用新的SPTAG庫產生向量索引。隨著查詢資訊的進入,深度學習模型將該文字或圖像轉換為向量,該庫緊接著就能在索引中找到最相關的向量。

微軟表示,SPTAG庫迄今已對超過1500億筆資訊進行了編目,包括單個單字、字元、網頁代碼段、完整查詢和其它媒體。

“Bing每天處理數十億個文檔,現在的想法是將這些條目表示為向量,並蒐索這個1000億以上向量的巨大索引,以便在5毫秒內找到最相關的結果”。

Bing團隊期望開源SPTAG可用於構建可識別基於音頻片段所說語言的應用,或用於讓使用者拍攝植物照片並識別屬和物種的服務。

原文:2019-05-15 techcrunch @Frederic Lardinois

加入我們

高雄網路行銷多年經驗的丹媞網路媒體公司,專業的SEO全站優化與響應式網頁設計架站,能有效提升網站排名,多種網路行銷解決方案,量身打造網路行銷規劃,建立品牌識別,讓品牌昇華商品價值。

LINE@官網