聯(lián)系我們 - 廣告服務(wù) - 聯(lián)系電話:
您的當(dāng)前位置: > 關(guān)注 > > 正文

鄭碼輸入法:170個(gè)組字能力強(qiáng)的形碼輸入方法

來(lái)源:CSDN 時(shí)間:2023-01-31 13:38:14

我們經(jīng)常使用拼音輸入漢字等,對(duì)打字要求較高的會(huì)使用五筆輸入,而很少聽(tīng)說(shuō)過(guò)鄭碼輸入法,雖然可能在平時(shí)生活中應(yīng)用不是很廣泛,但鄭碼輸入法有嚴(yán)格的規(guī)范,在漢字編碼字符集范圍、詞庫(kù)容量、字詞平均碼長(zhǎng)、動(dòng)態(tài)字重碼率及符合語(yǔ)言文字規(guī)范等方面都取得了突出的成績(jī)。

“鄭碼”把漢字字典檢索與計(jì)算機(jī)漢字輸入統(tǒng)一了起來(lái),使它們具有統(tǒng)一的編碼和統(tǒng)一的排序,這與鄭易里教授多年對(duì)字典的研究有關(guān),也比較符合漢字的教學(xué)規(guī)律;鄭碼的編碼方法對(duì)各種字符集有較強(qiáng)的適應(yīng)性,它不但可以用來(lái)處理國(guó)標(biāo)漢字字符集,也能用于處理港、臺(tái)通用的字符集,還可以用于中、日、韓的漢字編碼,1994年初鄭碼完成了電腦大漢字庫(kù)6萬(wàn)個(gè)漢字輸入技術(shù)的編碼。


(相關(guān)資料圖)

隨著鄭碼的普及,它擁有了較多的用戶,尤其在處理大字符集方面它具有較強(qiáng)的適應(yīng)性,它的輸入速度也比較快,是一種較好的形碼輸入方法。

微軟的Windows 95中文版中就裝有“鄭碼”輸入法。它是一種形碼,與常見(jiàn)的形碼有許多相似之處:比如它也是從漢字的結(jié)構(gòu)入手;也要將漢字分解成若干部件;也要按某種規(guī)律安排鍵位;也要建立某種漢字的拆分規(guī)則等等。

漢字由字根和筆畫(huà)組成。漢字的字根有 560余個(gè),為便于記憶,我們從諸多的字根中優(yōu)選出 170個(gè)組字能力強(qiáng)的字根,按一定的方式用英文字母給它們命名代碼,這些有代碼的字根就成為《鄭碼》編碼的基本字根,簡(jiǎn)稱:基根。

《鄭碼》的基根 90 % 是大家熟悉的部首,如"土木工蟲(chóng)口日?魚(yú)言(讠)女辶己馬阝纟鳥(niǎo)頁(yè)酉皮艮戶母礻車衤身隹虍牙食"等,其余10 % 是約定俗成的部件,如"甘其甫不而非"等。

《鄭碼》的基根用26個(gè)英文字母命名代碼,每一個(gè)字母形成一個(gè)根區(qū)。每個(gè)根區(qū)里都有幾個(gè)基根,它們共用本根區(qū)的同一個(gè)英文字母作代碼,這一代碼就叫做基根的區(qū)碼。

漢字的基本筆形有:橫(一)、豎(丨)、撇(丿)、點(diǎn)(丶)、折(乛)  5 類,于是我們依據(jù)基根第一筆的筆形把170個(gè)基根分成"橫起筆、豎起筆、撇起筆、點(diǎn)起筆和折起筆" 5大類,然后按照英文字母的自然順序劃分每一類的根區(qū)范圍。

橫起筆類基根 如: 一土王扌艸木石匸 占有 ABCDEFGH  8個(gè)根區(qū)。豎起筆類基根 如: 蟲(chóng)口日目,占有 IJKL  4個(gè)根區(qū)。撇起筆類基根 如: ?亻八金月魚(yú),占有 MNOPQR  6個(gè)根區(qū)。點(diǎn)起筆類基根如:言病之,占有STUVW 5個(gè)根區(qū)。折起筆類基根如:馬 鄉(xiāng),占有XYZ 3個(gè)根區(qū)。

以下內(nèi)容來(lái)自百度百科:

按使用功能將基本字根分為主根和副根,再按起筆筆形將主根和副根分為上述的五個(gè)大類(橫起筆、豎起筆等)。主根的鍵位確定之后,副根按自身的筆形從屬相應(yīng)的主根。

而主根又被分為第一主根和第二主根兩類,第一主根是組字能力最強(qiáng)的基根,共26個(gè),如基根(第一主根)“一、土、王”的代碼就是A、B、C等等,他們的代碼就是一代表根區(qū)的英文字母作為代碼;并不是每個(gè)根區(qū)都有第二主根的,在鄭碼的標(biāo)準(zhǔn)方案中,為每個(gè)第二主根又規(guī)定了一個(gè)位碼D,這樣第二主根就有兩個(gè)字母作為代碼,(叫做2碼根,而相對(duì)來(lái)說(shuō)第一主根就叫做1碼根)。避免了諸多基根共用一個(gè)根區(qū)代碼而造成重碼率高的現(xiàn)象,例如基根(第二主根)“二”的代碼就是BD,基根“三”的代碼就是CD等。第一主根和第二主根共同提供了本區(qū)字根的筆形特征。

副根中大多數(shù)都是大家熟悉的規(guī)范的部首。在標(biāo)準(zhǔn)型中也為每個(gè)副根規(guī)定了一個(gè)位碼,這樣副根也是2碼根。例如副根“丁”的代碼是AI,“氣”的代碼是MY,“穴”的代碼是WO等。

副根的第一個(gè)代碼是區(qū)碼,第二個(gè)代碼(位碼)的確定共有四種情況,分別按如下規(guī)則執(zhí)行:

按副根構(gòu)形中含有的主根成分確定,例如前述的“穴”中含有O區(qū)主根“八”的成分,因此他的位碼為O,這是副根位碼確定的主要方式。

按副根構(gòu)形中還有的筆畫(huà)成分確定,如前述的“丁”中含有一筆豎鉤,因此位碼定為代表一筆豎的區(qū)碼I。

按副根構(gòu)形中含有的其他副根成分確定,如“示”的構(gòu)形中含有K區(qū)副根“小”的成分因此位碼定為K,整個(gè)菜碼為BK。幾個(gè)特殊副根的位碼需要強(qiáng)行記憶,如“山LL”、“匕RR”和“已YY”。

基根采用了雙符代碼后可以及大地減少重碼,而且基根代碼的排序非常有規(guī)律,使鄭碼具備了字典的查字碼功能,為識(shí)字教學(xué)與計(jì)算機(jī)輸入的結(jié)合創(chuàng)造了條件。

取碼方法:

單字首根(即第一個(gè)基根)的代碼要按照實(shí)際碼數(shù)取,不能有所省略。就是說(shuō),首根是1碼根就取1碼;首根是2碼根就取2碼(區(qū)碼和位碼都要取)。

為保證單字編碼不超過(guò)4個(gè)字母,首根之后的其余基根代碼要根據(jù)不同情況決定取舍。一般是先舍位碼,只取區(qū)碼的1碼。

例如:櫻--木F貝LO貝LO女ZM--FLLZ

醒--酉FD曰K生MC--FDKM

但是,對(duì)于四基根和多基根字,還要將中間一些基根的代碼全部舍棄,只取前兩碼和最末2個(gè)基根各1碼。就是說(shuō),取兩頭舍中間。

例如:縮--纟Z宀WD(亻)一A白NK--ZWAN

糖--米UF(廣)肀XB口J--UFXJ

詞語(yǔ)取碼方式

為使詞語(yǔ)的代碼不超過(guò) 4 個(gè)字母,編碼時(shí)要根據(jù)詞語(yǔ)中單字?jǐn)?shù)的多少?zèng)Q定基根代碼的取舍。

給詞語(yǔ)編碼時(shí),只需取用基根的區(qū)碼。

二字詞

取每個(gè)字的首根和次根的區(qū)碼各1碼, 表述為:2 - 2

舉例:數(shù)量 ---- 米/U 女/Z 曰/K 一/A ---- UZKA

第一主根作為單字參與構(gòu)詞,在需取 2 碼時(shí)要在其代碼后加“A”(與作為單字用的規(guī)則一致)。高頻字參與構(gòu)詞時(shí),要在其代碼后加“V”。

舉例:土地 ---- 土/B 地/B ---- BABV

三字詞

取第一字首根的1碼,取第二字首根和次根各1碼;取第三字首根1碼組成,表述為:1 - 2 - 1。

舉例:科技館 ---- 禾/M 扌/D 十/E 饣/O ---- MDEO

四字詞和多字詞

取前四字的首根各1碼組成,表述為:1 - 1 - 1 - 1

舉例:

輕描淡寫 ---- 車/H 扌/D 氵/V 冖/W ---- HDVW

出污泥而不染--- 凵/Z 氵/V 氵/V 而/G (不 氵) --- ZVVG

簡(jiǎn)碼的取碼方式,對(duì)一些常用字或詞,按一定的規(guī)則,取其常規(guī)碼中的 1-3 個(gè)字符作為簡(jiǎn)略編碼,稱為簡(jiǎn)碼。簡(jiǎn)碼對(duì)專職操作員提高輸入速度大有好處,非專職操作員不必特別去記憶。

一級(jí)簡(jiǎn)碼:對(duì)應(yīng)于 26 個(gè)高頻字。

二級(jí)簡(jiǎn)碼用該字首根和次根各 1 碼組成。

舉例:

把 -- DY 找 -- DH 管 -- MW

需 -- FG 取 -- CX

個(gè)別常用詞也有二級(jí)簡(jiǎn)碼,就是取每字第一個(gè)基根的區(qū)碼。

舉例:

中國(guó)--JJ 國(guó)家--JW 一定--AW 我們--MN 政府--AT 開(kāi)展--AX

北京--TS 上海--IV 天津--AV 合作--ON 各種--RM 采取--PC

三級(jí)簡(jiǎn)碼

二基根字:取第一個(gè)基根的區(qū)碼和第二個(gè)基根的區(qū)位碼,如:處 -- RID。

三基根和多基根字:依次取第一、第二和第三個(gè)基根的區(qū)碼,如:散 -- EQM。

責(zé)任編輯:

標(biāo)簽:

相關(guān)推薦:

精彩放送:

新聞聚焦
Top