微軟贏麻了!數十億文本-圖像對訓練,多模態Florence開啟免費體驗,登上Azure
2021年11月,微軟發布了一個多模態視覺基礎模型Florence(佛羅倫薩),橫掃超過40個基準任務,輕松適用于如分類、目標檢測、VQA、看圖說話、視頻檢索和動作識別等多個任務。
時隔一年半,Florence正式開啟商用階段!
Florence能干什么?
最近,微軟全球人工智能首席技術官黃學東官宣了微軟 Florence 基礎模型的公開預覽版。
Florence模型經過數十億文本-圖像對的訓練,目前已集成進Azure 認知視覺服務中,在「價格」和「性能」上都已到達「生產環境」的要求,目前處于免費試用階段。
改進后的視覺服務使開發商能夠在不同行業創建前沿的、適應市場的、負責任的計算機視覺應用程序。客戶可以將他們的數據無縫地數字化、分析并連接到自然語言的交互中,從圖像和視頻內容中獲取更精確的信息,保護用戶遠離有害內容,增強安全性,并提升事件響應速度。
Florence的實際能力也很強大,用戶可以在Vision Studio中進行「開箱即用」的體驗。
體驗網址:https://portal.vision.cognitive.azure.com/gallery/featured
具體包括:
Dense Captions(詳細的描述):可以自動提供內容豐富的描述信息、設計建議、可訪問的替代文本、搜索引擎優化、智能照片管理等以支持數字化內容。
圖像檢索:使用自然語言查詢,無縫地度量圖像和文本之間的相似性,從而改進搜索推薦和廣告。
背景去除:可以方便地從原始背景中分割出人物和物體,并替換為其他背景場景,從而改變圖像的外觀和感覺。
模型定制:降低交付定制模型的成本和時間,能夠以更高精度來匹配獨特的業務需求,即便只有少量的可用圖像。
視頻摘要:搜索和交互視頻內容,與人類同樣直觀的方式進行思考和寫作。可以幫助找到相關內容,并且不需要額外的元數據。
Reddit消費品產品經理Tiffany Ong表示,通過微軟的Vision技術,可以使用戶更容易發現和理解Reddit上的內容。
新創建的圖片描述可以讓用戶更容易地訪問Reddit,使用圖像描述來幫助用戶提高文章的搜索結果,讓Reddit用戶有更多機會來探索網站上的圖片,參與對話,并最終建立聯系和社區感知。
Florence能夠為每張圖片生成多達10000個標簽,使得Reddit能夠更好地控制圖片中的物體數量,并幫助生成更好的圖像描述。
Microsoft 365
除了微軟數據中心之外,微軟也正在提升Microsoft 365應用程序(包括 Teams、 PowerPoint、 Outlook、 Word、 Designer、 OneDrive)中視覺服務的能力。
在圖像分割能力的幫助下,Teams正在推動數字空間的創新型,把虛擬會議的體驗提升到新高度。
PowerPoint、 Outlook和Word利用自動替換文本的圖像描述來提高可訪問性。
Microsoft Designer和OneDrive正在使用改進的圖像描述、圖像搜索和背景生成來簡化圖像的可發現性和編輯。
Microsoft數據中心正在利用Vision Services來增強安全性和基礎設施的可靠性。
LinkedIn的無障礙工程負責人Jennison Asuncon表示,LinkedIn上有超過40%的帖子中包含至少一張圖片,對于盲人或是低視力的用戶來說,視覺服務能夠讓所有用戶都有平等的閱讀機會,并使他們能夠參與到在線對話中。
通過Azure視覺認知服務,LinkedIn可以提供自動圖像描述來編輯和支持可選文本,這是一種全新的體驗。
不僅我對此感到興奮,我的同事剛剛分享了一個他們參加活動的照片,LinkedIn的首席執行官Ryan Roslansky也在照片里。
負責任地創新
回顧負責任的人工智能原則,可以了解到微軟是如何致力于開發人工智能系統,以提升世界的可訪問性。
微軟致力于幫助各個組織充分利用人工智能,并正在大力投資于提供技術、資源和專業知識的項目,以增強那些致力于創造一個更可持續、更安全和更容易進入的世界的人的能力。
多模態是未來
包括微軟、谷歌在內的多個科技巨頭在人工智能發展方向上出奇地一致,認為「多模態模型」是提高人工智能系統能力的最佳途徑,也就是單個模型可以同時理解語言、圖像、視頻和音頻等,并能夠完成單模態模型無法完成的任務,比如給視頻添加文字描述等。
為什么不把幾個「單模態」模型串在一起,以達到同樣的目的,比如說用一個模型來理解圖像,而另一個模型用來理解語言?
第一個原因是,由其他模態提供的背景信息,多模態模型可以在某些情況下比單模態模型在同一任務中表現得更好。
比如說,一個能夠理解圖像、定價數據和購買歷史的人工智能助手可以比一個「只理解定價數據」的AI能夠提供更好的個性化產品建議。
并且從計算的角度來看,多模態模型往往更有效率,可以提升數據處理的速度,降低后端的成本。
毫無疑問,所有商業公司都渴望降本增效。
Florence能夠理解圖像、視頻和語言以及這些模態之間的關系,從而可以做到一些單模態無法完成的任務,比如測量圖像和文本之間的相似度,分割照片中的對象,然后把它們粘貼到另一個背景上。
幾乎所有AI模型的訓練都面臨數據版權問題,Azure AI的企業副總裁(CVP)John Montgomery在回答有關「Florence的訓練數據」時沒有透露太多信息,只是說Florence使用的是「負責任地獲取」的數據源,包括來自合作伙伴的數據;此外,Montgomery表示,訓練數據中刪除了可能存在問題的內容,也是公開訓練數據集的常見特點。
Montgomery認為,當使用大型基礎模型時,最重要的是要確保訓練數據集的質量,為每個視覺任務的適應模型創建基礎,微軟針對每個視覺任務的調整模型都經過了公平性、對抗性和挑戰性案例的測試,并實現了與 Azure Open AI Service 和 DALL-E 相同的內容審核服務。
在未來,消費者可以使用Florence做更多的事情,比如檢測制造過程中的缺陷,以及在零售店實現自助結賬。
不過Montgomery指出這些用例實際上并不需要多模態視覺模型,但他斷言,多模態在這個過程中可以增加一些有價值的東西。
Florence是一個經過「完全重新思考」的視覺模型,一旦在圖像和文本之間實現了簡單且高質量的翻譯過程,就會打開一個全新的、充滿未知可能性的世界。
客戶能夠體驗到顯著改進的圖像搜索,將圖像和視覺模型以及語言和語音等其它模型類型訓練成全新類型的應用,并輕松提高自定義模型的質量。