他搶下神級大數據軟體中文介面定義權 連中國使用者都得跟著走

兩岸

世新財金系教授何宗武搶先對岸編譯R語言的繁體中文介面,實質上取得其功能的中文定義權。(攝影/鄭國強)

R語言是被業界視為大數據分析最重要的基礎語言,2010 年, R語言還被用來建立 Facebook 的世界地圖,證明它那強大的視覺化資料能力,由於R語言的開放原始碼、免費、可自行開發新的功能等優異特性,馬上把其他昂貴的大數據分析軟體比下去,成為全世界上百萬使用者的最愛,各種討論社群雨後春筍的散布。

正如國內使用EXCEL或者WORD是在中文介面下使用,R軟體也讓各國建立自己國家語言的使用介面,有韓文、義大利文、法文,然而在外國人眼中,中文有兩種,該用哪種介面呢?

R語言開放原始碼,全球都歡迎

最近,另一套也受各國資料分析科學家接受的統計軟體Stata有了中文介面 ,讓過去只能在英文界面下操作的台灣學生感到更加便利,可惜,它卻是簡體字的中文介面。

世新大學財金系教授何宗武早年就認為R語言也許會有這麼一天來到,「你繁體中文不做,簡體就進來了,以後 R 社群就都是簡體中文的天下了。」

台大政治系畢業的何宗武,赴美轉攻讀經濟博士,在美國念書時期就開始接觸R語言,由於功能強大,被全世界的使用者迅速接受,當R 語言做介面中文化時,原本他沒時間參與,但一想到簡體中文的入侵,正如在聯合國主動申索某個區域的所有主權一樣,開始著手對上千個原文指令編譯繁體中文介面。

就像在EXCEL或者WORD上方工具列看到的「常用」、「插入」、「檢視」,R語言的操作介面,也從原來的英文,轉而為繁體的「統計量」、「繪圖」、「模型」、「機率分布」。

世新財金系教授率先搶下R語言(上)繁體中文介面定義權,但另一套軟體Stata(下)被簡體字介面先攻占了。(攝影/翻攝自何宗武教授臉書)

「這不是把英文直接按照字面上翻成中文而已,它這個指令的意義與對應的功能必須一致。」何宗武一埋首,就是面對2千個以上的大小指令的對應除錯,例如台灣對問卷調查常用的cluster analysis翻譯成「集群分析」,在簡體字中被稱為「聚類分析」。

何宗武完成這項工作後,讓受歡迎的R語言也有了繁體中文介面,在簡體中文開發出來前幾年,兩岸的學生只要使用R語言中文版,就得在他完成的繁體架構下進行,R社群的討論中文版,也是繁體中文。

繁體中文的R語言問世之後3年,中國廈門的一位教授跟著編譯R語言的簡體中文版本,「廈門大學老師要做簡體時,某種定義是需要經過我同意的,因為他必須審視他的翻譯和我原始的有沒有衝突。」

讓開發成果流通國際,知名度自然飆高

R語言是一個國際化的大數據分析軟體,開放原始碼的特性讓全世界的愛用者輕易的找到交集,共同討論,分享自己開發出的新功能、套件。這一點,在何宗武的眼中,看到台灣的大學打開國際知名度的路徑。

「我有一次到一個大學演講,跟一個校長說,台灣的學校要國際化其實很簡單,而且在台灣就能做到。」何宗武指出,校方只要願意支持校內的open source的R語言或Python 語言(另一廣受歡迎的大數據分析軟體)社團,積極參與R的社群,而且派人去國際年會發表自己學校的open source 中心開發了什麼套件,讓全世界的使用者可以應用,「你根本不用花錢宣傳去博能見度,全世界都知道你們這個大學在做這件事情。」

國際的R語言開放原始碼使用者年會,讓一些專業使用者發表自己開發的新功能,例如與金融、衍生性商品、定價的演算法,就會引起台下那些來自華爾街聽眾的注意,何宗武認為,台灣的大學應該多支持這類open source社群,他強調「不能單純用工程師、會寫程式比較容易找到工作這種思維去看,而是去做做研發、創業、創新應用,在那個全世界的使用者幫你建立好的生態系中,發光發熱。」