首頁>資訊 >
前沿資訊!嘗試了 7 種輸入法之后,我想和你聊聊在 2022 年用五筆的體驗(yàn)…… 2022-12-19 13:51:35  來源:36氪

在之前介 紹了雙拼輸入法之后, 我其實(shí)沒有停下折騰的心思。從小鶴換到自然碼,又從自然碼換回小鶴,同時(shí)也打起了形碼的主意。這次實(shí)驗(yàn)中,我嘗試了比較容易找到配置,也有相對(duì)較大的使用群體的形碼輸入法,并穩(wěn)定在五筆輸入法到現(xiàn)在,持續(xù)用了一個(gè)月左右。

先說結(jié)論:我對(duì)形碼輸入法的評(píng)價(jià)依舊沒有改變,比起作為長(zhǎng)期的創(chuàng)作或日用輸入方案,五筆更適合作為雙拼這樣音碼方案的補(bǔ)償。尤其在目前大部分人已經(jīng)有熟練音碼輸入基礎(chǔ)的情況下。但同樣,形碼輸入法仍然有學(xué)習(xí)的價(jià)值,有些優(yōu)勢(shì)是音碼輸入注定不能替代的。


【資料圖】

形碼:是什么、為什么、如何做成輸入法

形碼輸入法是一系列將漢字的部件作為碼元進(jìn)行輸入的方案的統(tǒng)稱,與拼音和注音輸入法這樣有國(guó)家通行標(biāo)準(zhǔn)、并已經(jīng)形成通識(shí)的音碼輸入法相對(duì),形碼輸入法更是民間開發(fā)的集中區(qū)。形碼的開發(fā)更多體現(xiàn)了發(fā)明者個(gè)人對(duì)漢字的認(rèn)識(shí)。和音碼相比,形碼輸入可以讓看到字的人即使無法認(rèn)讀這個(gè)漢字,也可以通過對(duì)漢字外觀的觀察完成輸入,脫離了對(duì)讀音標(biāo)注體系的依賴。

這個(gè)開發(fā)過程需要的,是對(duì)漢字形成一套完整的分拆識(shí)別規(guī)則。那么最直白的分拆方式,就是我們?cè)谏蠈W(xué)時(shí)都或多或少學(xué)過的「偏旁部首」。

首先,偏旁部首是有國(guó)家標(biāo)準(zhǔn)的,但它的標(biāo)準(zhǔn)并不能算是徹徹底底的「通識(shí)」。漢字作為表意文字,按 國(guó)家語委 的說法,合體字都可以分解出上下左右里外的零部件,稱為偏旁,所以偏旁的數(shù)量其實(shí)可以很多;而部首就是個(gè)更小的概念,一些能組成字的部件組合,就是我們可以用來進(jìn)行漢字查詢的部首,而沒有偏旁的獨(dú)體字也可以分拆出筆畫這個(gè)更加基本的單元,并以它們作為部首。對(duì)兩萬多個(gè)漢字進(jìn)行歸總與整理后,國(guó)家語委根據(jù)部首的發(fā)展、結(jié)構(gòu)等等,確定了 201 個(gè)主部首和 100 個(gè)附形部首。所以好消息是,即使我們不單獨(dú)開發(fā)形碼輸入法,直接用部首輸入,我們的形碼鍵盤也不會(huì)長(zhǎng)成下面這個(gè)樣子。

圖源:KnowYourMeme

接下來需要解決的問題,就是怎么把這 201 個(gè)部首安排到鍵盤上了。但即使你真的這么做了,你也會(huì)立即發(fā)現(xiàn)自己根本沒法輸入,因?yàn)槟銓?duì)標(biāo)準(zhǔn)的部首表一無所知。

舉個(gè)例子,杰、黑、叇、贛、長(zhǎng)、既、炁,這七個(gè)字應(yīng)當(dāng)用于檢索的主部首分別是什么?

一定程度上,這解釋了字典里為什么會(huì)出現(xiàn)難檢字,我們?cè)诮虒W(xué)中為了方便,并沒有詳細(xì)解釋偏旁與部首的差別,也沒有解釋偏旁不一定是部首,更沒解釋清取部首的規(guī)則。簡(jiǎn)單來說,完全以部首作為拆分的標(biāo)準(zhǔn),說不定會(huì)帶來更多的麻煩。

那既然有官方規(guī)范的部首不好用,有沒有在電腦輸入之前就已經(jīng)成體系的識(shí)別檢索系統(tǒng),能給漢字編碼,還能方便地安排給鍵盤用來輸入呢?還真有。

舉個(gè)例子,我祖父查字典時(shí)會(huì)采用一種相對(duì)古老的漢字編碼方式,「 四角號(hào)碼 」。這套編碼體系需要對(duì)漢字四個(gè)角的結(jié)構(gòu)進(jìn)行識(shí)別,給予標(biāo)記,根據(jù)規(guī)則生成四個(gè)數(shù)字編碼。

那既然四角號(hào)碼已經(jīng)可以將漢字映射在數(shù)字按鍵上,為什么我們不直接使用數(shù)字小鍵盤輸入漢字呢?我們不說具體的取碼規(guī)則,看看下面兩個(gè)字,尤其它們四個(gè)角的結(jié)構(gòu)。

這就涉及到了一個(gè)輸入法才需要考慮的問題:重碼。當(dāng)一個(gè)形碼輸入法按照寫成的規(guī)則分拆漢字后,發(fā)現(xiàn)有兩個(gè)或更多漢字的編碼相同,就是出現(xiàn)了重碼——這其實(shí)是所有輸入法都需要解決的問題,拼音這樣的聲碼輸入法尤甚。

而減少重碼的方法很多。比如一,把編碼的數(shù)目限制去除,讓編碼可以像拼音一樣寫完每一個(gè)零件,那自然比拼音的重碼率低。這種模式的極端例子就是筆畫輸入法,按手機(jī)常用的數(shù)字編碼,贏字的編碼就是 41525135112534354 ——缺點(diǎn)也是顯而易見,首先只能輸入單字,因?yàn)闊o法用固定長(zhǎng)度的方法來分隔兩個(gè)字的輸入碼;其次編碼太長(zhǎng),輸入速度受限;再次,嚴(yán)重依賴筆順/框架結(jié)構(gòu)知識(shí),如果順序出錯(cuò),查字就會(huì)失敗。

二,是在重碼多的基礎(chǔ)方案上借助智能識(shí)別和用戶詞庫(kù)。比如拼音輸入法的主力從智能 ABC 到微軟拼音,再到走入大批 XP 和 Windows 7 系統(tǒng)的搜狗拼音,整句輸入、用戶詞庫(kù)和智能判斷詞頻成了音碼輸入法的主要方案。而對(duì)于形碼來說,采用同樣的方案顯然不如拼音這種已經(jīng)成為通識(shí)的輸入策略好上手。

那么,要讓形碼輸入法比音碼輸入法有一定優(yōu)勢(shì),就需要三,也是大多形碼輸入法采用的方法,找到更好的規(guī)律統(tǒng)合與拆分漢字部件,盡可能把常用漢字的編碼分開,人為減少可以獨(dú)立成詞的漢字的重碼率。

各種主流形碼輸入法的體驗(yàn)

常見的形碼輸入法雖然都是以這樣的形式歸攏自己的字根,讓它們盡可能分布有規(guī)律地分布在鍵盤上,但在底層的設(shè)計(jì)邏輯和易用性上,即使是目前仍然使用者眾多的少數(shù)幾種形碼輸入法,其間的差別也是相當(dāng)之大。

我選取嘗試的包括了簡(jiǎn)體中文地區(qū)常用的五筆 86、五筆 98、鄭碼,以及繁體中文地區(qū)常用的倉(cāng)頡(以及速成)、大易、嘸蝦米、行列,各給了至少半天的時(shí)間學(xué)習(xí)基本規(guī)則和試打,一步步選出了我最終選定的五筆 98 輸入法。我也根據(jù)直覺,對(duì)這些輸入法主觀評(píng)了分。

字根易學(xué)程度

字根是形碼輸入法拆字的基本單元。字根是否易學(xué)、易記,決定了一個(gè)形碼輸入法在使用者心中的第一印象。用我評(píng)分最高的兩個(gè)輸入法舉例,行列輸入法是用筆劃做分組,從 A 到 ;的 10 排鍵對(duì)應(yīng)十種筆劃,把 QAZ 三行作為「上中下」,字根的首筆定排(比如木,第一筆是正交 4),末筆定行(0-4 是上,5 或無是中,6-9 是下,比如木的末筆是捺 8,木字就是 4 下,對(duì)應(yīng)第四排下的 V 鍵)。

所以行列輸入法幾乎用不到專門背字根,如果你使用的是行列官方的輸入法,它還會(huì)自動(dòng)給字根的提示。

而嘸蝦米輸入法使用的則是聯(lián)想法,比如哈字,能拆成口和合,而合的上半部像 A,所以哈的編碼就是 OAO。除了字形,它還采用了字音、字義等等聯(lián)想,比如部字就是立 L(音)口 O(形)阝 B(形)。但字根較雜,有的聯(lián)想也很離譜,比如隹形似佳,佳是 Very good 所以是 V,還有一些只能硬記,少一星。

鍵位易上手程度

除了字根設(shè)計(jì)的科學(xué)性,鍵位設(shè)計(jì)的合理可以讓輸入法的上手更快。行列和嘸蝦米的鍵位更易記,是因?yàn)樗鼈冏约河幸惶着c按鍵交互的規(guī)則,要么是和字母直接建立聯(lián)系,要么是無視鍵值去和位置建立聯(lián)系。類似地,五筆輸入法的一丨丿丶乛分區(qū)也是和位置建立聯(lián)系,但為了平衡字根的分布,還有不少的特例需要專門記憶。

而堪稱鍵位災(zāi)難的,在我心中非倉(cāng)頡和鄭碼莫屬。它們的字根排列的設(shè)計(jì)完全按照字母表順序,自己有內(nèi)部邏輯,但放到鍵盤上,意義接近的按鍵卻隔了十萬八千里。而鄭碼比倉(cāng)頡低的那一星,是因?yàn)閭}(cāng)頡是繁體中文鍵盤的標(biāo)配標(biāo)識(shí)字根之一。

至于同樣鍵位看起來沒什么規(guī)律的大易輸入法,首先它是繁體中文鍵盤標(biāo)準(zhǔn)附帶的字根之二,其次它按內(nèi)涵進(jìn)行的字根分組和官方給的記憶方法其實(shí)沒什么關(guān)系,字根分組講五行動(dòng)物自然頭頭是道,一看記憶方法全是諧音梗。

看得我頭疼

拆字取碼容易度

拆字取碼是否適合人們的日用頻率,是否符合寫字、認(rèn)字的一般規(guī)則,都會(huì)影響拆字取碼,尤其對(duì)初學(xué)期剛剛了解基本字根的使用者。比如我們相對(duì)比較熟悉的五筆 86,我個(gè)人感覺它難上手,是因?yàn)樗鼮榱思嫒菀恍┎糠植考嗤ǖ淖中?,采用了很多本身是破碎的字形,比較典型的例子就是「母」字。

「母」在 86 版中為了兼容「毋」取了一個(gè)外框作為字根,可其實(shí)沒多少人天天打毋和毐,卻天天有人打繁海晦敏,而且這個(gè)先取橫再取兩點(diǎn)的取根方法也是和正確的筆順相悖的。98 版的字根設(shè)計(jì)就更貼近一般的識(shí)記原則,并糾正了不少筆順的錯(cuò)誤,初學(xué)時(shí)拆起來也更容易猜對(duì)。

倉(cāng)頡的拆字取碼則是另一種方式的不直觀。倉(cāng)頡是把字元拆得太碎,認(rèn)真地把字先拆成偏旁,再給每個(gè)偏旁取首碼和二碼。這樣做其實(shí)挺科學(xué)的,重碼率可以做到非常低,可從入門到日用的學(xué)習(xí)時(shí)間會(huì)比較長(zhǎng)。所以現(xiàn)在更流行的是只取兩碼的速成倉(cāng)頡,但速成又把重碼率高的問題帶了回來。鄭碼其實(shí)也有類似的問題,它的優(yōu)缺點(diǎn)也和倉(cāng)頡差不多,不同的是鄭碼先天有更好的簡(jiǎn)繁體兼容性,而且拆解跟隨筆順;倉(cāng)頡則是以字形為準(zhǔn),比較不符合我對(duì)「寫字」的理解。

簡(jiǎn)繁體支持

如果前面這些都能克服,最后這項(xiàng)就是一錘定音的了。這些形碼輸入法中,學(xué)究氣最濃的鄭碼天生就是連異體字和罕見字都能直接通殺,別的大部分以繁體中文為基礎(chǔ),只有五筆是完全以簡(jiǎn)體中文為基礎(chǔ)設(shè)計(jì)。在我的理解中,這可能和注音符號(hào)體系本身就需要和鍵位做一次對(duì)應(yīng)有關(guān)。幾種繁體輸入法中除了大易都給簡(jiǎn)體中文做了適配,只是由于主要的服務(wù)對(duì)象還是繁體中文,當(dāng)遇到簡(jiǎn)繁重碼時(shí),默認(rèn)狀態(tài)下這些輸入法都優(yōu)先展示繁體。此外,Windows 等系統(tǒng)自帶的輸入法也對(duì)使用這些輸入法輸入簡(jiǎn)體的支持不甚完好。

使用形碼輸入的感想

作為一個(gè)簡(jiǎn)體中文為主的輸入者,在這些限制條件下,五筆似乎成了我最省事的選擇——是的,從上面我的主觀評(píng)價(jià)里就能看出它并非最優(yōu)選,但每個(gè)需求它都能用一個(gè)不算太爛的方法實(shí)現(xiàn)。而在每天使用形碼接近一個(gè)月后,我仍然不能大方地推薦其他人也嘗試形碼,因?yàn)樵谶_(dá)成足夠的速度之前,它的收益實(shí)在是太低了。

先來說說我感知到的優(yōu)點(diǎn)。

四碼上屏和選字減少

四碼上屏或是五碼上屏可以說是重碼率低的輸入法的特權(quán),因?yàn)橹挥袑?duì)輸入碼有限制,并且沒有選字負(fù)擔(dān)時(shí),才可能拋棄空格和數(shù)字鍵。而且得益于簡(jiǎn)碼的存在,輸入一個(gè)字的擊鍵次數(shù)其實(shí)不會(huì)有太大變化,如果算上輸入詞語帶來的擊鍵次數(shù)減少,整句的擊鍵次數(shù)甚至?xí)入p拼輸入時(shí)更少,尤其是當(dāng)句子中出現(xiàn)了不常用的字詞時(shí),不再需要來回翻找的感覺非常好,這還是在我的輸入算不上流暢的前提下。

在一段時(shí)間的習(xí)慣之后,常用詞我已經(jīng)可以不需要額外思考字形就直接打出來了,速度也有所提升。而且錯(cuò)字也明顯減少,畢竟五筆詞的 typo 打出來,連猜都猜不出原本應(yīng)該是啥,強(qiáng)行讓我多了一次檢查。

查字與搜索變得簡(jiǎn)單

另一個(gè)明顯有優(yōu)勢(shì)的場(chǎng)景是搜索與認(rèn)字。和自己寫文章不同,查不認(rèn)識(shí)的字時(shí),腦子或眼睛里是一定有這個(gè)字的長(zhǎng)相的,不依賴音碼后,我查字終于不用再靠描述了。類似地,搜索查資料也是一樣,關(guān)鍵詞會(huì)直接在腦中有具象的詞,這種時(shí)候照著把詞打出來就好。繁體字也可以直接拆字輸入,不用臨時(shí) Ctrl+Shift+F,也不用擔(dān)心把罕用字的詞頻刷上來。

剩下的就都是大大小小的問題。

輸入法支持不佳

我本來就是雙拼的使用者。往前查幾年,雙拼在各大內(nèi)置/主流第三方輸入法中的適配都成問題,一方面是使用者人群本就不大,另一方面是方案太多,想適配內(nèi)置也要看看是哪些方案用戶更多,可能還要關(guān)注方案的版權(quán)問題。

形碼輸入法的支持則更加離譜。我自己選擇的方案是五筆 98。我能接觸到的設(shè)備中,只有 iOS 內(nèi)置了五筆 86、98、新世紀(jì)三個(gè)版本的支持,Windows 原生支持的只有使用范圍最廣的五筆 86。Android 則要看廠商選擇的輸入法合作方,有的時(shí)候五筆支持會(huì)被去除,至于我最喜歡的 Gboard,則完全沒有支持五筆輸入法,我選用替代的是基于 Rime 的 同文輸入法 ,體驗(yàn)只能算是一般。Windows 這邊,為了五筆 98,我使用wubilex五筆助手替換了原生的碼表,又重新安裝了 Rime 小狼毫配置方案。

原本我是希望自己可以在電腦上用五筆,手機(jī)繼續(xù)雙拼的,可是實(shí)際操作后,我就開始輸混編碼了,只能統(tǒng)一到五筆練習(xí)。

高度依賴碼表與詞庫(kù)

所有的形碼輸入法,或者說所有的輸入法,都是基于碼表的輸入方案。而形碼這種基于漢字的方案即使支持了詞語的輸入,也只是作為單字輸入的一種輔助。能輸入的詞取決于碼表,而大部分的五筆輸入法并沒有自定義詞的功能,只遵從那套之前寫死的碼表,或是直接導(dǎo)入寫好的外部碼表。至少在我目前的測(cè)試中,只有 Rime 能在輸入中自動(dòng)學(xué)習(xí)用戶詞。

還有一項(xiàng),說不上好壞,但我覺得相當(dāng)有意義。

提筆忘字的啟示

其實(shí)輸入速度上,經(jīng)過三個(gè)星期的日常使用,五筆已經(jīng)基本在日常使用上逐漸跟上了我的思考速度,需要為了提高速度而換回雙拼的次數(shù)越來越少(我的雙拼輸入也越發(fā)不熟練)。

真正能讓我卡殼的,就是突然遇到不常用的詞,或是突然發(fā)現(xiàn)怎么也拆不對(duì)字時(shí),前者我需要重新過一篇把讀音轉(zhuǎn)化成漢字,在腦海中具象再拆出來的過程,后者則往往是我把字的筆順搞錯(cuò),或是干脆把同音字弄錯(cuò)了。如果不是強(qiáng)制自己用形碼輸入法,我恐怕還一直堅(jiān)信自己能把所有字形一次寫對(duì),比如瓦的筆順是最后寫點(diǎn),龍字的右半的筆順是橫、豎折折、橫、豎彎鉤、三橫。

在我的理解中,如果不是像我一樣對(duì)這些工具與方案本身就帶有極大的興趣,顯然是沒必要多學(xué)一種如今用起來已經(jīng)不算方便的輸入法的。如果學(xué)了,大概率也就是和我之前一樣,會(huì)一個(gè)額外的輸入方式,在網(wǎng)上遇到不認(rèn)識(shí)的字查字典時(shí)有一個(gè)抬手就打的方法。若是論速度和便利程度,尤其是對(duì)需要大量創(chuàng)作文字的使用者,恐怕沒幾個(gè)輸入法比得過帶有動(dòng)態(tài)詞頻和智能詞庫(kù)的現(xiàn)代音碼輸入法。

于我而言,形碼輸入法是一個(gè)很好的復(fù)習(xí)漢字的方式。一旦當(dāng)我們把目光集中在單個(gè)的漢字上,就會(huì)發(fā)現(xiàn)自己之前對(duì)這些美麗的符號(hào)到底有多大的忽視。我還會(huì)繼續(xù)使用五筆輸入法,看看能不能讓自己的輸入速度逐漸趕上之前雙拼的水平,至于未來可不可以繼續(xù)堅(jiān)持,就要看會(huì)不會(huì)有輸入法能把五筆 98 的支持做得更好了。

原文鏈接:

https://sspai.com/post/77340?utm_source=wechat&utm_medium=social

關(guān)鍵詞: 簡(jiǎn)體中文 數(shù)字編碼

相關(guān)閱讀:
熱點(diǎn)
圖片 圖片