淺友們好~我是史中,我的日常生活是開撩五湖四海的科技大牛,我會嘗試各種姿勢,把他們的無邊腦洞和溫情故事講給你聽。如果你想和我做朋友,不妨加微信。
當年輕人在說“夸克真香”,他們在說什么?
文|史中
這世界上有兩種人不好惹,P站用戶和B站用戶,而且他們還很可能是同一撥用戶。
我相信B站用戶永遠正確。畢竟即使不正確,等把那些不喜歡他們的叔叔阿姨熬到帕金森擂不動鍵盤的時候,他們自然也就正確了。
所以,我的一個隱秘癖好就是:蹲守在很火的B站視頻中,研究大家在彈幕里討論什么東西。
前兩天,我偶然看到了知名UP“蘇星河”的一個視頻《我來講講為什么Safari是手機上最好的瀏覽器》,結果正片還沒開始,一票水友都在彈幕上刷:“夸克真香”、“夸克yyds”。
一堆夸“夸克”的夸夸詞匯碾過屏幕,讓屏幕正中的Safari圖標多少帶點尷尬。
可夸克到底好到啥程度,以至于一群粉絲要去Safari的地盤上游行?這個我還真拿不準。
我決定仔細研究一下。
當然我的研究方法比較NB,畢竟我是一個想認識誰就能認識誰的中哥,是時候施展魔法了。我戴上口罩沖進北京零下20度的寒風里,直接去找夸克App的產品技術同學們喝了個咖啡。
一個拯救學渣的搜索系統
一位夸克的同事看到風塵仆仆的我,說:“中哥你來晚了,整個2020年已經有好多老鐵換了各種姿勢夸我們了,用戶量比火箭竄得還快。”
“你們究竟干了什么,難不成把大家都給PUA了?”我問。
那不敢,不過這兩年我們在夸克搜索里做了很多功能,比如“指令控制”、“搜索直達”,大家都挺喜歡。但說出來你可能不信,2020年我們最香的模塊是“夸克學習”。
他說。
“納尼?夸克學習?有人在搜索里學習?學啥?咋個學法?”
我掏出手機定眼兒一瞧,還真有。。。
雖然心里全是問號,但中哥畢竟是身背一定流量的偶像,舉止要沉穩。于是我冷靜了一下,說:“我懂,我也是愛學習的人,在我的D盤專門有一個文件夾叫就叫做學習資料。總之我想和夸克學習的團隊聊聊。”
于是,夸克學習的產品經理夏雅曈坐在了我面前。
你聽聽這個名字的風格,如果不是民國時期的人,那一定是個90后。果不其然,她是一位93年的妹子,創造了我從藝以來見過產品經理的年齡最小記錄。
夏雅曈
然而她的記錄只保持了15秒,因為旁邊這位名叫寇至爽的團隊成員是94年的。。。
寇至爽
故事就從2020年春天說起吧。
那時候,你懂的,幾乎所有有頭有臉的App都上線了疫情防護的模塊。畢竟這么多年夸克是一票年輕人的心頭好掌中寶,保護我方祖國的花朵很重要,于是夏雅曈他們春節加班搞定了幫大家防疫的“疫情實時動態”模塊。
一口氣還沒喘勻實,他們突然發現一個有趣的現象:在夸克上“搜題”的老鐵越來越多,暴增50%。
Ceffu:永遠不會混合客戶存放在冷錢包中的資產:5月24日消息,加密資產托管公司Ceffu(原幣安旗下托管服務Binance Custody)表示,其托管平臺的基礎運行在隔離的賬戶和錢包系統上,這意味著客戶存放在冷錢包中的資產永遠不會混合。
Ceffu通過場外結算解決方案Mirror提供支持,機構客戶將資產專用金額鎖定在自己的Ceffu冷錢包中,然后以1:1的比例記入他們的幣安交易賬戶,這些資產將始終保存在Ceffu冷錢包中。Ceffu稱該解決方案已通過ISO 27001/27701認證、SOC 2類型1和類型2認證,并接受定期安全檢查。[2023/5/24 15:22:54]
搜什么題呢?
“比如有人會搜《岳陽樓記》,這看上去很像是在做作業。”夏雅曈說。
“我不信,萬一是古詩文愛好者呢?”我擺出魯豫臉。
“從當時的大數據來看,搜語文知識的人通常也會去搜索勾股定理、英文單詞之類,還有一些地理歷史知識,你看,這就非常像學生了。”她說。
到底為啥這么多人在夸克搜題嘞?
其實很好解釋:第一,夸克的用戶群本來就是年輕人,有很多人在親自上學。第二,疫情剛穩下來,學生們都被困在家里上網課呢,平時做作業遇到不會的題也沒老師可問,最方便的可不就是上網搜么。
寇至爽他們想了想,忽然想出了一個“至爽”的腦洞——既然用戶這么喜歡搜題,那我們為什么不幫人幫到底,送佛送上西天呢?
于是,他們設計了一個逆天的“小球”。同學在釘釘上網課的時候,夸克就變成一個小球安靜地蹲在右下角,當屏幕上的PPT里出現了題目時,只需要點一下小球,見證奇跡的時刻就到了。
夸克會把屏幕截圖,框選題目,它就會去后臺的題海里匹配,然后瞬間返回這道題的答案。不僅有答案,還有解題過程和思路,比閃電五連鞭還快。
大概就是這么個效果
萬萬沒想到,上個網課還開掛了呀。
金杯銀杯不如學渣的口碑,大家都沒反應過來,幾天之內夸克App的下載量已經沖到各大應用商店的前頭。
最巔峰的時候,所有過來的截屏搜索請求,有90%都是在搜題目。
寇至爽挑挑眉毛,示意我不用控制,可以盡情夸他。
僅僅是做了個小功能,就帶來這么大的搜索量,夸克團隊的小伙伴都驚呆了。不過開心之余,他們馬上發現一個巨大的Bug——海量的搜題請求并不是每一次都能得到答案,有很多同學歡歡喜喜搜題來,但卻兩手空空回家去。
這是為啥呢?
這里給你科普一段小知識:
1、負責為同學們的題目找答案解析的東西叫做“搜索引擎”,這個你是知道的。2、搜索引擎分很多種,最主流的叫做“網頁搜索引擎”,百度、Google,包括夸克主要的搜索引擎都是“網頁搜索引擎”。你輸入關鍵詞,它能幫你找到相應的網頁。3、還有很多其他搜索引擎,例如我們用到較多的就是“圖片搜索引擎”。你輸入關鍵詞,它給你找到相應的圖片,或者你上傳一張圖,它給你找來類似風格的圖片。
2、另一邊網絡上有海量的題庫,很多也是圖片的形式,同樣要抽取成純文本格式。
3、最后把用戶提交的題目和題庫里的題目的純文本做匹配,從而找到這道題的答案。
說到這你可能有點感覺了,搜題引擎和傳統通用引擎不太一樣:
如果把通用搜索引擎比作人人都坐的汽車,那搜題引擎就像是小區里送快遞的“菜鳥無人車”,雖然個頭不大,也不是人人都用,但技術含量卻是杠杠的。
Gala Games:正與知名演員合作制作Web3電影,GALA將作為Gas Token:1月9日消息,Gala Games在其官方社交平臺表示,正在與巨石強森(Dwayne Johnson)和Mark Wahlberg合作制作Web3電影。此外,Gala Film和Gala Music都將基于Gala區塊鏈,并以GALA Token作為gas token。
行情顯示,Gala現報0.03828 USDT,24H漲幅為42.46%。[2023/1/9 11:02:22]
好,科普完畢,我們回到故事。
說個小內幕。在疫情之前,夸克搜題確實是個小眾功能,所以團隊并沒有投入很多精力,背后的“搜索引擎”接入的是第三方服務,效果差強人意。
這回看到搜題量暴漲,團隊同學們立刻從葛優躺變成了金剛狼:咱們是不是要自己推出一個搜題引擎?這樣不僅掌握核心科技,還能大大提高解題率!
畢竟家里技術底子還是有的,夸克的同學們決定,搏一搏單車變摩托。
老司機斗麻匪
重擔一下子壓到了夏雅曈和團隊的身上。
作為產品經理,他們首先要回答一些靈魂拷問:究竟哪些學生在搜題?他們會在什么情況下搜題?他們搜題時希望看到怎樣的答案?
這些問題的答案可太太太重要了。畢竟,你懂的,如果搜題的都是學渣,想要抄答案,那這個產品道德上就不太成立了。。。
于是,夏雅曈在夸克里向使用搜題功能的同學們發送了邀請,讓他們來一場赤裸裸的“靈魂自白”。
結果大大出乎意料。
我猜你和我一樣,以為只有學渣會搜題。但事實恰好相反,學霸也搜題,而且搜得更多,更狠,更仔細。想想倒也合理,比你有錢的人,一般都比你努力。
其實學霸搜題的需求很復雜:不僅要找答案,還要了解詳細的解題思路,還要知道這背后隱藏的知識點,最好再來幾道同類型的題目鞏固一下才心滿意足。非常之雞掰。
其實不光是學生,老師和家長也要搜題。
老師在課堂上要講課,課后要批改作業、備課、輔導,拍照搜題可以幫他們把解題的時間節省下來,把更多精力放在琢磨教學內容上。
家長們主業是上班,晚上副業還得輔導孩子,經常還遇到題目不會做,甚是丟人。即使自己會做,但是有時又跟孩子講不明白,這時候他們也需要搜題。
這些事實讓夏雅曈他們虎軀一震,原來搜題功能真的可以幫助更多愛學習的同學節省時間,鞏固知識。那這利國利民的事兒可就干也得干,不干也得干了。
2020年6月,就在人們在蘇星河的視頻上刷“夸克真香”的檔口兒,“自研搜題引擎”項目正式上路了。
說到這,就不得不給你介紹一位新朋友,王杰雄。
王杰雄是一位技術大咖,想當初90后還忙著早戀的那些年,他已經加入了阿里云,和大家一起做“雅虎中文搜索”,掐指一算,搜索技術這事兒他已經干了十年。
王杰雄
接到夸克的任務,他露出了大菊已定的微笑:就這?
然而,上手之后不久,一種隱隱的哪里不對的感覺襲來。仿佛一個即將上任的縣長,本來吃著火鍋唱著歌,一抬頭突然面前出現一票麻匪。
這第一個麻匪就是“文字識別準確率”。
文字識別,準確名稱是OCR。它像一個不知疲倦的“謄寫師傅”——你把一張圖片給文字識別系統,它就能幫你把上面的字給識別、抄寫出來。
你有沒有給支付寶綁過銀行卡?掃一下卡面就能識別出上面的卡號,這就是文字識別系統干的。
華為云聯合新加坡IMDA啟動Web3孵化器計劃Spark:11月8日消息,華為云與新加坡信息通信媒體發展局 (IMDA) 旗下 Pixel Innovation Hub 達成合作,啟動了一個面向金融科技、Web3、元宇宙、以及軟件即服務(SaaS)領域的全新孵化器計劃Spark,主要面向新加坡和東盟國家市場。該孵化器預計將會對入選的初創公司提供 25 萬新加坡元的第三方融資支持,同時獲得價值 6 萬美元的華為云積分、辦公空間支持、以及來自萬事達卡、GSR Ventures 和華僑銀行等行業合作伙伴的指導服務。[2022/11/8 12:32:18]
例如拍這第5題,在拍題的時候會出現混入手寫字、框選到其他題目、照片不清晰等等問題。
很多時候,帶了噪聲看上去就像完全換了一道題,系統自然就沒辦法把這道題和題庫中的題目匹配準確。
這時,王杰雄他們就要盡力讓系統學會“帶噪搜索”。
簡單來說,就是香農的信息論原理。信號有噪聲的情況下,就要增加信息的冗余。
王杰雄說。
舉個例子吧:比如你跟朋友打電話約在地鐵站B口見面,電話里對方聽不清你說的到底是B還是D,你也許會說:“我們在B口見面,AB的B,二B,不是四D。”
你看,你很可能不認識香農,但你自動采用了信息冗余策略,用了四種方式表達“B”,對方一般就不會理解錯誤了。
王杰雄他們正是用了同理的操作,每一道題都用不同的顆粒度切分,換幾種維度表達。這種表達雖然啰里八嗦,但是卻大大提高了匹配的精準度,算是曲線救國了。
不過這還不算完,更多的問題仍然擺在面前。
這第三個麻匪就是“公式歸一化”。
上過中學的淺友都知道,各種題目到了中學就不再“單純”了,比如這貨:Cu(OH)CO,堿式碳酸銅。再比如下面這道題:
你發現沒,題目里有各種角標、特殊符號,是你日常打字根本不知道怎么打出來的。
你都不知道怎么打,程序當然也不知道怎么打。。。不過,幸好科學家和代碼大神們已經總結好了一些規則,用一串直線排列的代碼就能表述出這些亂七八糟的公式。
可問題來了,對于同一種公式的表述規則有很多種,并不統一——就像同一部片兒,有avi,有rmvb,有mp4。。。兩個人見面,一個人說“Hello”,另一個人說“弄啥嘞”,那不可能匹配成功。
于是團隊必須把題庫里的各種公式的每一種表述都找出來,然后轉換成統一格式,這就是公式歸一化。
除了上面說的三個麻匪,還有圖片傳輸壓縮、算法和功耗的平衡、題庫本身豐富度等等,“麻匪”漫山遍野,一眼望不到頭。。。。
王杰雄發現,這不是“讓子彈飛”,這根本就是“亂槍打死”。這一大堆事要是等一個人搞完,那恐怕人類都登陸火星了。他趕緊吹響“集結號”——跟領導申請把其他技術同事一個個拉上船,并肩作戰。
沒顧得上開神馬“誓師大會”,技術攻堅組就這樣緊急成立了。
埋頭苦干一個月,這套搜索算法終于做出了雛形。夏雅曈他們趕緊拿來一些測試題目,結果是:這套算法的識別率只有友商的一半兒左右。。。
這個結果,如翔一般。
盤了盤,王杰雄發現根本原因還是整個搜索的鏈路太長——用戶拍照的清晰程度、用戶框選題目的精細度、文字識別的準確程度、文件傳輸中的壓縮比例、題目搜索的比對算法,每一步都有一定的信息損耗。
這種長鏈路的問題就如同你玩過的那種傳話游戲,一個同學傳給另一個同學,他再把聽到的內容傳給下一個同學。傳到最后,往往已經把“前門樓子”傳成了“肩膀頭子”。。。
然而,市場的競爭不等人,疫情籠罩下的2020年,你懂的,各大拍照搜題軟件都在拼命激戰搶奪用戶。
果然,團隊接到了來自領導層的驚天命令:自研搜題模塊要在國慶節上線!thisisanorder,不容爭辯。
美國聯邦機構就 NFT 投資發布法律咨詢:7月20日消息,美國政府道德辦公室 (OGE) 發布了一份法律咨詢,該咨詢的主要目標是要求高級政府官員披露代表“財產”的 NFT 投資,例如房地產。[2022/7/20 2:25:55]
王杰雄他們看看表,現在已經7月多了,過去論天過,現在就得論秒了。。。
二營長,拿我的“核武器”來
夸克學習技術團隊把吃奶的勁兒都使出來了,瘋狂地優化這個“傳話游戲”。
那段時間,王杰雄他們做夢都在想優化策略。但是,經常出現的結果是:一個優化策略上了之后,一半的題目解題率升高,另外一半兒的解題率反而下降,就像在游泳池里玩蹺蹺板,一個人浮出水面喘口氣,對面那個人就被淹在水下冒泡了。。。
到后來,為了該用哪些優化策略,這群技術宅越討論越急眼,眼看就要從說服變成睡服。他們干脆決定,兵分好幾個小組,各自研究心儀的優化策略,最后再把這些技術疊加起來。
技術宅有技術宅的計劃,世界另有計劃:如此舍命狂奔,盡管和友商的解題率差距在縮小,但始終還是追不上。
夸克怎么說也是一個有牌面兒的搜索引擎,如果國慶節就這個亞子直接發布出去,那簡直是所有人都不能忍受的公開處刑。
禍不單行。
進入暑期,夸克搜題的活躍度開始肉眼可見地下降。原因很簡單——同學們放假了。即使是學霸,也不會凡爾賽到放假的時候也天天搜題吧。。。
那么,這些同學還會在9月份開學的時候如約回來嗎?萬一不回來,我們做了這么久的新搜題引擎給誰用呢?大家心里緊張得如同初戀的少男。
從8月最后幾天開始,所有人都捂著眼睛,從指縫里看夸克后臺搜題功能的用戶人數有沒有增長,就跟老韭菜看著自己的股票持倉一樣:哀其不幸,怒其不爭。
他們悲傷地發現,用戶數并沒有回到上學期期末的時候。。。
然而,就在他們確認自己要涼了的時候,9月5號左右,搜題的用戶突然開始暴漲,勢如破竹,很快就掙脫了之前的最高點。
又驚又喜的夏雅曈、王杰雄他們突然意識到,原來因為疫情的原因,全國的學校是錯峰開學的,學霸們雖遲但到,直到9月上旬才馬力全開。
誠如夸克學習的搜索框所言:我愛學習,學習使我快樂。
這下有兩件事是板上釘釘了:第一,國慶節新引擎鐵定是要發布了;第二,哪怕按國慶七天樂最后一天算,此時距離發布也只有一個月了。
怎么用一個月的時間把搜題質量提升到世界級水平?
技術團隊對視一眼,貌似只有使用最后一個“核武器”了!
你還記得我們之前留了一個伏筆么?最開始,技術團隊曾經繞過了第一個“麻匪”,文字識別系統。
其實大伙兒都知道,文字識別系統在整個搜題鏈路里是最重要的環節之一,但是,因為技術非常復雜,恐怕不是一兩個月就能做出來的,所以夸克技術團隊沒敢碰,一直在用集團提供的現成文字識別系統。
事到如今,無路可退,老司機只有背水一戰。
沒錯,他們的“核武器”就是——自己造一個完美契合搜題場景的文字識別系統。
智能搜索業務部負責人吳嘉盤點了一下,還真有一群人適合做這套系統,這就是過去有視頻內容文字識別經驗的黃銳華團隊。
如果是一般人,接到這樣的任務也許下一秒就準備辭職信了。但黃銳華不是一般人,非但面不改色,反而有點小興奮呢。
說起來,黃銳華也是阿里巴巴最早做搜索的那撥大神,從當年的阿里巴巴商品搜索,到后來的UC瀏覽器全網搜索,都有他團隊的身影。
十年搜索經驗填過的坑無數,不僅讓他們團隊積累了堪比《九陰真經》的經驗,還在兜里攢下了一堆“暗器”:
我們團隊有一個“工具箱”,里面全都是這么多年積累的自動化工具,有深度學習的,有模型優化的等等。普通團隊搭一個新系統像蓋瓦房,需要一磚一瓦從頭來過;有了這些工具,我們搭一個系統就像拼插樂高積木,時間會大大縮短。
G20:對加密市場有必要進行跨境協調和Stablecoin監管:7月18日消息,G20國家財政部長和央行行長在會議上表示,對加密市場有必要進行跨境協調和Stablecoin監管。此外,各方表示將繼續支持落實G20跨境支付路線圖。(beincrypto)[2022/7/18 2:20:28]
黃銳華露出老師傅的蜜汁微笑。
搜題所需的文字識別系統需要有兩個功能:“印刷體文字識別”和“手寫體文字識別”。一個月的時間把兩個功能都做出來是來不及了,他們商量了一下,先只做相對容易也用處更廣的“印刷體文字識別”。
接下來又到了硬核科普的時間段。
做一個文字識別系統最最核心的工作就是“訓練”。
訓練,簡單說就是讓人工智能看大量的數據。這個數據不是普通的數據,而是“標注數據”。
啥是標注數據?一道含有題目的照片拿過來,標注師不僅要把里面題目的精確位置框出來,還把對應的正確文字謄寫下來,這就是一個“標注數據”。無數個標注數據塞進訓練框架的煉鋼爐,就能煉出來一個“人工智能文字識別系統”。
這就是一個標注數據
當時,啪的一下,很快啊,老司機們搞來了大量的標注數據。然后馬不停蹄地進行針對“搜題場景”調優和測試。
黃銳華記得清清楚楚,那一個月他們過得可是緊張刺激干凈衛生,上午開會討論方案,晚飯前代碼就得寫好,夜里就要進行測試,一天一迭代,一夜一升級。
終于,到了9月下旬,文字識別系統終于出爐。是騾子是馬拉出來溜溜,黃銳華他們找來市面上所有能買到的商用文字識別系統,焚香擊鼓,來了一場“亂斗大比武”。
結果證明,在印刷版習題的識別率上,自己剛研發的這個識別系統最能打。文字識別和公式識別都比別人高幾個百分點。
他一拍大腿,這事兒要成。
像運動會接力棒一樣,文字識別系統第一時間傳給算法團隊。由于臨陣切換了文字識別系統這個“發動機”,導致王杰雄他們的搜索算法也要重新訓練,重新適配。
此時留給他們的時間,只剩最后幾天了。
王杰雄緩了口氣,以大將之風安慰團隊:“莫慌,只要膽大心細,時間應該還來得及。”
然而,半小時后,團隊同學就來報告:哥,跟你說個事兒,咱們手里的計算力資源好像不夠了。。。
王杰雄給跪了。
由于短時間內要計算炒雞大量的數據,團隊日常儲備的云計算資源直接被拉滿,目測要是僅靠這些資源,等這些計算搞定,2021年的第一場雪都來了。。。
你可能會問:“等等,團隊難道用的不是阿里云么?阿里云“吹牛”的時候我可是聽過的,不是說伸縮擴容一分鐘就搞定么?”
沒錯,然而問題并不出在阿里云上,而是出在真實世界的規則中——團隊擴容,需要預算,而這筆預算顯然是計劃外的,要走特殊流程,一半天兒肯定是批不下來。。。
危急時刻,奇景出現:從技術大牛到產品經理,從一線碼農到團隊領導,大家紛紛聯系相熟的鄰居團隊,從他們那里“借”資源。
對方有五臺機器,要!對方有一臺機器,也要!對方有一臺機器但是在另外的機房,沒問題,我們去人肉搬過來!對方開玩笑說你得請我吃飯,他們說請!對方說吃龍蝦,他們說吃!
就這樣“毫無底線”,不知道許諾出去多少頓飯,兩天之內,計算資源像螞蟻搬家一樣一點點堆壘起來,超越了平時的五倍還多。燒腦的計算像F1賽車一樣極速狂飆,在賽博世界表演了一場暴裂無聲的白日焰火。
這段危急時刻,正趕上橫跨周末,大家也都顧不上休息了,每天在辦公室連軸轉。當時是三伏天,而大廈周末是不給中央空調的,領導們就給大家找來了超大功率的電風扇,但桑拿天風扇也是杯水車薪,屋里仍然跟蒸籠一樣。沒人顧得上抱怨,汗水迷了眼就用身上的T恤擦,女同事不在就光膀子。
國慶節前一天,所有必要的計算終于跑完一遍,新算法百米沖刺上線,煥然一新的搜題引擎馬不停蹄地開始全鏈路測試。
標準測試數據下,夸克搜題的引擎總算、究竟、到底、終于跑出了行業頂尖的解題率。
王杰雄他們看著這個結果,激動得差點欲語淚先流。
這個接力棒又火速傳到產品團隊手上,由他們為億萬用戶做最終發布。按照規定,一般情況下假期是不能升級App的,但是夏雅曈他們早已提前打好了報告,拿到了金牌令箭,就等著假期推送升級。
就這樣,先是團隊內部人員接收了App升級包,第二天對幾千用戶隨機推送,然后是幾萬人,然后是幾十萬、幾百萬。終于趕在十一期間,把所有用戶的夸克App都升級完畢。
國慶收假,后臺的用戶數據開始滿載狂升。此時,王杰雄盯著屏幕反而異常平靜,他知道,眼前的一切絕非只是跳躍的數字,而是新搜題引擎像神龍一樣,在響應著無數學生、老師和家長的召喚。
滿屏都寫著“牛X”二字。
這么多環節,只有從每個環節都壓榨回來一點時間,才能讓整體搜題等待時間大幅減少。
于是團隊變身人肉榨汁機,從三個方向開始壓榨。
第一,壓榨照相機模塊。
為了方便開發迭代,之前的相機模塊采用的是輕量化的“web框架”,這次為了速度,前端團隊一狠心另起爐灶,換成了“客戶端架構”,雖然維護更難,但速度如飛。
第二,壓榨傳輸鏈路。
圖片從手機傳輸到夸克的服務器,要經過好幾個系統“接力”處理,路由器、運營商、負載均衡,進入服務器之后,也要像串糖葫蘆一樣經過幾道系統,這些系統有的跑在杭州機房,有的跑在張北機房,有的跑在廣州機房,相當于數據要在神州大地上來回奔襲好幾個來回。
雖然是光速來回,但畢竟咱們國家大得離譜,路上還是會消耗很多時間。
最終,技術團隊優化了調度方式,在每個機房都安排了一整套處理系統,讓用戶可以"就近接入",比如廣州的用戶就接入距離廣州最近的深圳機房,全套處理完直接把結果返回手機。就像現在人民群眾去辦事兒,“最多跑一趟”。
第三,壓榨算法系統。
之前為了保證搜題準確率,王杰雄他們為搜索引擎增加了很多“冗余”,這下為了節省時間,又不得不拆掉一些。
估計你也猜到了,壓榨算法系統肯定會帶來一些副作用,那就是識別率很有可能下降。
這個時候,黃銳華的文字識別團隊又殺了出來。他們也憋了一個大招:
重寫一套數據標注系統,讓外包團隊為他們重新標注一套比過去精準無數倍的題庫數據。他們要用這套新的標注數據,訓練出史上最準確的文字識別系統。
這套數據的標注要精準到什么程度呢?所有題目的框選都精確到了近乎像素級的精度。而為了達到這個目標,全部標注員都提前做了嚴格的培訓,還專門設立了檢查員的崗位,負責二次檢查數據標注的精度。最終數據拿回來,夸克的技術同學還要進行復查,絕不放過一個錯誤。
我們認準了一個道理:數據樣本的精度,決定了你識別能力的上限。所以我們就用這種笨辦法!
黃銳華一臉技術人的執拗。
這次數據標注,不僅標注了印刷文字,還標注了之前沒時間解決的手寫文字。而且手寫文字還包括了小學生、初中生、高中生的不同字體,也包括了手寫數學公式、手繪圖、手寫英語等等。
這一套標注下來,用了整整兩個月時間,所花的金錢成本遠超你的想象。
這個識別系統的效果怎么樣呢?用黃銳華的話說就是:“拿印刷體的識別來說,已經達到遙遙領先業界的效果,基本不會錯了。”
“基本不會錯?”我問。
“基本不會錯。”他說。
這種斬釘截鐵的話在嚴謹的技術老師傅嘴里說出來,還是挺震撼的。
就這樣,所有人又拼了兩個多月,100毫秒100毫秒地摳,先是把搜題中用戶等待的時間減少了30%,后來又減少到了最初的50%,這兩天他們還在拼命準備再減下去10%。
夏雅曈說,她手機里已經裝上了夸克最新版的測試版,搜題速度杠杠的。我說我不信,于是她給我現場展示了一下新老版本的速度對比。
我做成了gif你看看。
一個更香的世界什么樣?
2020年9月,王杰雄最忙的時候,他的女兒恰好上小學。
那段時間,王杰雄腳不沾地,顧不上家里,都是夫人幫著女兒輔導功課。不過王杰雄倒是很驕傲,畢竟夫人幫女兒輔導作業時,用的都是自己親手打造的御用特供指定版夸克搜題引擎。
女兒一天到晚被爹安利,如今遇到不會的題,都會搶在王杰雄前面輕描淡寫地說:“用夸克搜一下唄。”一起逛街遇到夸克的廣告——那個像馬桶圈兒的LOGO——女兒也會說:“又是你們的廣告!”
其實在團隊里,還有不少像王杰雄一樣的孩子家長,從小學到初中高中一應俱全,他們都是夸克搜題的核心用戶——在日常搜題的時候,他們遇到非常實際的問題,拿回來反饋給產品團隊,新功能很快就能加入全家桶。
比如錯題本功能:同學可以把錯題整理起來,系統智能識別里面的知識點,然后自動給出考察類似知識點的其他題目。再比如錯題打印功能:低年級的孩子父母不敢讓孩子長時間看手機或者平板電腦,于是希望能把錯題打印到紙上讓孩子去做。再比如口算批改功能:對于一些簡單的加減法算術題,家長需要每天幫小朋友檢查作業,有點枯燥。用這個功能一拍,所有答案是對是錯就一目了然了——疲憊一天的老父親老母親能多有幾分鐘放空的時間。
除了搜題功能本身,王杰雄他們還發現,作為阿里巴巴家的“富二代”,夸克的人工智能能力是碾壓別人的。
有了強大的人工智能技術儲備,其實未來還可以試著做出很多更科幻的功能,例如給定一個題目可以幫你寫作文,給出一個上句幫你填寫下句——這些題目本身都沒有對應標準答案,但是搜題引擎也可以試著憑空做題,空手接白刃。
我試了一下“AI續寫”,驚為天人。
夏雅曈的媽媽其實就是一位中學老師,在湖南老家教了半輩子課。
最開始夏雅曈定義搜題產品的時候,幾乎給媽媽一天打一個電話,詢問她給同學們出的題都是哪來的,甚至還要來了教研組老師的電話,還有校長的電話,甚至還跟媽媽經常買參考書的書店老板煲了幾個小時電話粥。
夏雅曈的敬業程度爆表,以至于當別人父母都勸孩子“多打電話回家”的時候,她媽媽反而勸女兒“少打點電話”。。。
“你媽煩死你了吧?”我問。
“畢竟親生的,沒辦法。”她笑。
“誒,要是以后同學們遇到不會的題都上網查了,沒人問老師了,你媽媽會不會失落啊?”我突發奇想,問夏雅曈。
我小的時候,每次學生寫了好的作文,她都會比學生自己還開心。從那時我就知道了,老師從來只會因為學生的進步而驕傲自豪,不會因為自己而失落。這也是我最佩服媽媽的地方。
她溫暖地一笑。
臨別之前,王杰雄還給我講了一件小事兒。
最近,他幫女兒報了好多線下補習班,花錢花到肉疼。在交錢的時候,他若有所思:“我生活在北京這樣的一線城市,有財力,也有智力跟進孩子的輔導。但是在三四線城市,甚至是那么多鄉村,那些孩子是不是永遠沒辦法接觸到這些優質的教育資源呢?”
想到這里,他好像忽然站在了站臺對側,越過呼嘯的列車,審視自己正在做的事情。
如果教育停留在物理世界,那么毫無疑問,最棒的教育資源一定只會留給精英的“后浪”們。可是,一旦教育來到線上,它就會展現出巨大的可能性——哪怕一個孩子生在偏僻的村莊里,只要有一部手機,只要他渴望學習,就可以以非常低的成本享受人工智能為Ta準備的教育資源,而且是定制化的教育資源。
未來世界的孩子,也許能享受到我們這代人從未有過,甚至沒敢想過的教育模式。
王杰雄的眼睛閃閃放光。
告別這群人,我又沖進冬天的城市。北風漫卷,山河無恙。按照劇本,此時我應該路遇幾個少年。但這個時間他們顯然應該正在溫暖的教室里聽課,有的眉頭緊鎖,有的迷惘張望。
“我看著你們,滿懷羨慕。”我又想起《后浪》里這句曾引發了口誅筆伐的輕飄飄的臺詞。
于是我猜,年輕人不能被收買,年輕人也從未被收買。
一個認真面對這個世界的App,從來不應只是生活優渥的后浪們口中戲謔的“真香”。最終有權評價它的,應該是嚴肅的,莊重的,渴望成為更好自己的每一張年輕的面孔。
P.S.鑒于Safari那期節目里滿屏的夸克,蘇星河后來又專門做了一期夸克的評測,你可以看看。
再自我介紹一下吧。我叫史中,是一個傾心故事的科技記者。我的日常是和各路大神聊天。
學習使我快樂
Tags:人工智能SafariPPT人工智能技術應用學人工智能后悔死了人工智能考研考哪些科目Safari幣是什么幣PPT幣PPT價格
一、日本海外資產世界第一日本雖然國土面積不大、資源十分匱乏,但是日本卻擁有非常龐大的海外資本——相當于是一個隱形的海外日本.
1900/1/1 0:00:00隨著spacex公司移民火星計劃的加快,部分人類先驅探索宇宙的雄心壯志慢慢顯現在全世界同類面前,在這里我們統一稱呼他們為探險家.
1900/1/1 0:00:00DN榜更新,Mules.com領跑近日DNjournal發布了新一期域名交易榜單,域名mules.com和PLP.com均以六位數美元上榜.
1900/1/1 0:00:00今日關注,美國貨幣監理署宣布,聯邦銀行可以用區塊鏈和穩定幣進行結算,還可以發行穩定幣。這對數字貨幣來說是個大新聞.
1900/1/1 0:00:00截至今日16時,以太坊上DeFi協議總鎖倉量約合618億美元,環比上升0.56%。近24小時鎖倉量增幅前三名的DeFi協議分別是BProtocol,DeFiner以及BarnBridge.
1900/1/1 0:00:00來源:同花順金融研究中心 同花順金融研究中心3月31日訊,有投資者向任子行提問,媒體報道,成都鏈安涉及數字貨幣安全領域,成都鏈安打造了數字貨幣反洗錢合規及調查取證的系統及服務方案.
1900/1/1 0:00:00