TechRoomage

機器學習不是萬能的!谷歌工程師:激發人的想象力才能創造驚艷的用戶體驗

0 2

原標題:機器學習不是萬能的!谷歌工程師:激發人的想象力才能創造驚艷的使用者體驗

大數據文摘作品,轉載要求見文末

作者 | Josh Lovejoy,Jess Holbrook

編譯 | 李飛,張遠園,Lisa,錢天培

機器學習 (ML)是一門代替手動編程、幫助電腦發現數據中存在的模式和關係的科學。它是創建個性化動態體驗的強大工具,從Netflix的使用者推薦系統,到無人駕駛汽車,機器學習正驅動著各個領域的發展。

但是,隨著越來越多的機器學習演算法被嵌入到使用者體驗當中,我們發現,使用者體驗師還有很長一段路要走:讓使用者感覺到自己對科技的掌控,而不是被科技掌控,依舊是一個很難實現的目標。

針對這個問題,谷歌使用者體驗社區開始了一項名為「以人為本的機器學習(HCML)」的嘗試。經過一系列的試錯和探討後,他們提出了下面七個要求,來幫助設計師設計出以機器學習為驅動的優秀產品。

不要指望機器學習能找到你需要解決的問題

現在有很多圍繞機器學習和人工智慧的炒作。許多公司和產品團隊紛紛對以機器學習作為解決方案的產品策略趨之若鶩,反而忽略了更有價值的問題本身。

如果是純粹地探索這項新科技能夠做什麼,當然是沒有問題的,而且這經常能夠激發出對新產品的思考。但是,如果你不能確保與人們的需求保持一致的話,那麼你所做的只是建立了一個非常強大的系統,去解決一個非常小或者根本不存在的問題而已。

所以我們提出的第一個要點是:有了機器學習,你仍舊需要努力尋找人們的需求。

為此,你可以做的有:文化背景調查,情感調查,訪談,問卷調查,統計投票,日誌分析等等。

機器學習本身並不會弄明白你要解決什麼問題。我們仍然需要給出一個問題的明確定義。作為使用者體驗師,不管主導的技術是什麼,我們都需要盡我們所能去了解使用者的真正需求。

問問自己:這些問題是不是真的需要用機器學習解決

在明確了你想要解決的需求後,你就需要問自己:機器學習是否能以獨有的方式來解決這些需求?其實,很多問題並不需要用機器學習解決。

在產品開發過程中,你要明確哪些使用者體驗需要用到機器學習,哪些可以被機器學習大大增強,而哪些並不會受益於機器學習,甚至會因其導致產品功能退化。許多產品不用機器學習也可以變得智能或者個性化。不要認為只有機器學習才可以做到。

比方說,當你用Gmail發送郵件而忘了添加附件時,Gmail會在你的郵件中尋找那些包含「attachment」以及「attached」之類的短語,然後會彈出一個提醒窗口。其實,簡單的命令式編碼就能很容易地解決這一問題。一個機器學習系統很大程度上可以發現更多的潛在錯誤,但與此同時建設成本也要高很多。

為了幫助團隊明確機器學習能對使用案例產生的價值,我們會讓團隊思考下面三個問題。

1、人類專家會如何處理這一問題?

2、如果人類專家要完成這個工作,你會如何給他們反饋,以便他們下次能夠改進?

3、如果由人來執行這項任務,那麼使用者希望他們做出什麼樣的假設呢?

花幾分鐘來回答以上的幾個問題,你就會發現人們對機器學習融入產品設計過程的一些假設。這幾個問題同樣適用於啟發產品團隊討論和刺激使用者研究。在後面的「標籤定義「和「模型訓練」部分,我還會再次提及。

在完成這些練習以及一些特定產品和特徵的草圖勾畫之後,我們將團隊的所有產品構想放在一個二維坐標系中。

圖例:將所有想法繪製在這個2乘2的坐標系中。團隊投票決定哪一個想法會對使用者造成最大的影響以及哪個可以通過應用機器學習而顯著增強

這樣,我們就能夠將那些有影響力的想法與不那麼有影響力的想法區分開,並且了解哪些想法依賴於機器學習,哪些則與機器學習無關或受益很少。

在這個過程中,你應該已經與工程部門進行了合作,如果沒有的話,這是一個讓他們參與進來的好時機,並藉機向他們闡述這些想法的機器學習演算法實現。那些對使用者有最大的影響並且只能由機器學習來實現的想法(位於上面矩陣的右上角)才是你應該首先關注的。

使用體驗者的個人案例和Wizard研究進行模擬

原型設計是機器學習系統的一個重大挑戰。如果你的產品的整體價值在於使用獨特的使用者數據來定製使用者體驗,那麼迅速得到一個接近真實產品的原型化模型將是一個巨大挑戰。此外,如果你等到一個機器學習系統完全就位之後再來測試它的設計,那到時候你可能已經來不及做任何有意義的更改了。然而,有兩種使用者研究方法可以提供幫助:使用體驗者的個人案例和Wizard of Oz研究。

在用早期模型進行使用者研究時,你可以讓體驗者將他們自己的數據帶到一系列的研究測試中:例如個人照片,自己的聯繫人列表,收到的音樂或者電影推薦。請記住,你一定要確切告知參與者他們的數據會被如何使用,又會在何時被刪除。使用者體驗者一般會很樂意參與到這類測試中。

通過這些示例,你可以模擬系統正確和錯誤的響應。例如,你可以模擬系統向使用者返回錯誤的電影推薦以查看她的反應,以及她做出的關於系統為何會返回此結果的猜想。與使用虛擬示例或者概念描述相比,這更有助於你有效地評估這些可能性的成本和收益。

第二種對於測試尚未建成的機器學習產品很有效的方法是進行Wizard of Oz研究。在過去的二十年中,Wizard of Oz研究作為使用者體驗的重要研究手段曾風靡一時。現在,這個方法又回來了。

圖例:聊天界面是使用Wizard of Oz進行測試的最簡單的體驗之一。你只需要有一個隊友在聊天界面的另一邊,假裝「人工智慧」輸出回答

Wizard of Oz研究讓參與者相信他們是在與一個自動系統進行交互,但實際上是由一個人控制。

隊友模仿機器學習系統的動作,如聊天響應,或者給參與者推薦要打電話給誰,或電影推薦,這些都可以模擬與「智能」系統的交互。 這些交互對於指導設計是至關重要的,因為當參與者認真地與他們認為的人工智慧交互的時候,他們會自然地對該系統形成一個心理模型,並根據這些模型調整他們的行為。 觀察人們的適應性和與系統的二次交互對於啟發設計是非常有價值的。

權衡偽陽性和偽陰性案例的成本

我們都知道,機器學習系統會犯錯誤。 了解這些錯誤,以及它們會如何影響產品的使用者體驗是至關重要的。 說到這,我們就不得不提到混淆矩陣這個概念。這一矩陣描述了當機器學習系統做出正確和錯誤的判斷時,分別會帶來什麼後果。

圖例:混淆矩陣的四個狀態對你的使用者可能意味著什麼

雖然對於一個機器學習系統而言,所有錯誤都是同等級別的,但並不是所有錯誤對於所有人都有著相同的意義。比如說,我們判斷「一個人是好人還是惡魔?」;把人歸為惡魔這個判斷對機器學習系統來說只是一個錯誤,機器學習系統在做這一判斷時,從來沒有侮辱他人的想法。它不會知道,使用這一系統的人會覺得,相比於把惡魔標記為好人,把好人標記為惡魔會更讓人感受到被冒犯。

在機器學習方法中,你需要對系統的精度和廣度進行有意識地權衡。也就是說,你需要去決定,是囊括所有的正確答案更重要,即使這意味著會有更多錯誤答案包含其中(廣度優化),還是讓錯誤答案數量最小化,即使這意味著會有一些正確答案被排除(精度優化)更重要?舉例說明:你正在谷歌上搜索「操場」的圖片,你會看到這樣的搜索結果:

這些結果里有一些小孩玩耍的圖片,並不是在操場上。在這次的案例中,廣度優先於精度:相對於找到只包含操場、但卻有可能漏找你需要的照片而言,找到所有操場的照片要重要的多(即使有幾張並不完全符合要求)。

實現使用者與機器的共同學習以及機器自適應

最有價值的機器學習系統會隨著時間、使用者心智模型的變化而演變。當人們與這些系統進行交互時,他們也正影響、調整著他們將會得到的各種產出。反過來,這些調整將改變使用者與系統交互的方式,這種調整也將改變心智模型,循環往複就會構成一個反饋循環系統。這可能導致「陰謀論」問題的產生:人們會形成一個對系統的不正確或不完整「心智模型」,並會產生試圖根據虛構規則操縱作出相應的操作。你需要用清晰的「心智模型」來指導使用者,鼓勵他們提供對他們和模型都有利的反饋。

圖例:良性循環的一個例子,是Gboard如何預測使用者下一個輸入單詞的持續演變。使用者使用系統建議越多,得到的建議就越好

雖然機器學習系統是在現有數據集上進行訓練的,但它們要適應新的輸入數據,這些輸入數據在發生前通常是無法預測的。因此,我們需要相應地調整使用者研究和反饋策略。這意味著要在產品生命周期中,進行深度、高度和廣度的超前研究。當使用者和用例增加時,你需要計劃足夠的時間,通過對準確度和誤差的定量度量,來評估機器學習系統的性能。另外,你需要與使用機器學習系統的使用者近距離接觸,以理解心智模型是在每一次的成功和失敗中是如何演變的。

此外,作為使用者體驗師,我們需要思考:在整個產品生命周期過程中,我們如何通過使用者現場反饋來提高機器學習系統。設計使反饋變得簡單的交互模式,並迅速顯示反饋所帶來的好處,是設計出優秀機器學習系統的關鍵。

圖例:谷歌應用程式每隔一段時間,就詢問使用者一個特定的消息是否有用,以獲得使用者對其推薦的反饋

圖例:人們可以給谷歌搜索的自動完成功能提供反饋,包括為什麼自動完成的預測可能是不恰當的

教會演算法使用正確標籤

作為使用者體驗師,我們已經習慣了將框架、模型、原型和誤區作為標誌性的輸出。但對於機器學習增強型使用者體驗,這裡只有「標籤」可以用來做輸出。

標籤是機器學習的一個重要方面。有些人的工作是看大量的內容、並給它貼上標籤,比如回答像「這張照片里有貓嗎?」之類的問題。一旦有足夠多的照片被貼上「貓」或「非貓」的標籤,你就有了一個數據集,你可以用它來訓練一個能夠識別貓的模型。或者更準確地說,能夠在一定的置信度範圍內預測照片中是否有一隻從未見過的貓。很簡單,對吧?

圖例:你能通過這個測試么

然而,當你的模型目標是預測使用者的主觀評價時,挑戰就出現了,比如:他們是否會覺得文章有趣,或者建議的郵件回復內容是否有意義。這些目標需要很長的時間來訓練模型,得到一個完全標記的數據集非常昂貴,更不用說標籤錯誤會對產品的有效性產生巨大影響了。

所以,我們應當從合理的假設開始,與各種各樣的合作者討論這些假設。這些假設一般會遵循這樣的模式:「對於________使用者在________情況下,我們認為他們會選擇________不選擇________」。儘快把這些假設放入原型中,以便開始收集反饋和迭代。

去為你的機器學習模型找到儘可能好的老師——那些與你的預測領域相關的專業人士。我們建議你雇傭一些專家,或者讓他們作為後援,或者將團隊中的某個人轉變為這一角色。我們稱這些人為我們團隊中的「內容專家」。

通過這一點,你可以判斷在所有假設中,哪個假設會感覺更加「真實」。但是在你開始進行大規模數據收集和標籤之前,你需要執行一個關鍵的驗證,即利用內容專家得到的真實使用者數據對模型進行實例驗證,以確保你的使用者接觸到的模型不會太蠢,讓他們覺得他們是在與合理的人工智慧交互。

你需要內容專家用一大堆案例告知你們,人工智慧應當產生什麼樣的結果。這些案例能為你提供數據收集的有效思路、開始訓練模型的強大標籤集和設計大規模標記協議的框架。

擴展使用者體驗系統,讓機器學習變成一種創新的過程

解決機器學習的挑戰有非常多潛在的途徑。所以作為一個使用者體驗師,太規範或太快可能會導致無意義的計劃,從而導致 工程師同行們的創意流失。信任工程師們,利用他們的直覺,鼓勵他們進行實驗,即使他們不願意在全面評估框架到位之前與使用者進行測試。

機器學習是一個極需創造性和表達力的流程。訓練模型的進展或許會很緩慢,可視化工具也可能做得還不夠好,因此工程師們最後可能需要運用他們的想象力來調整演算法(甚至有一種方法稱為「主動學習」:在每一次迭代後手動「調」模型)。你的工作是幫助他們在整個過程中做出以使用者為中心的選擇。

用案例來激勵工程師們——個人故事,影片,原型,使用者研究剪輯,作品 。讓他們認識到,驚艷的體驗是怎樣的,建立流暢的使用者研究目標和結果是什麼,並且逐漸讓他們接觸優秀的使用者體驗想法,以幫助展現你的產品原則和體驗目標。越早讓他們適應更迭,就越有利於機器學習演算法的適用性,以及你對產品產生有效的影響。

以上就是谷歌團隊就提升「以人為本的機器學習」提出的七點要求。我們希望,當你在設計自己的機器學習產品的時候,這些建議會對你有所幫助。

當機器學習開始為越來越多的產品和經驗提供生產力時,讓我們時刻記住:以人為本,用機器學習為人們帶來獨特的價值,使人們的每一次體驗都變得美妙愉快。

來源:https://medium.com/google-design/human-centered-machine-learning-a770d10562cd

Leave A Reply

Your email address will not be published.