Free考研资料 - 免费考研论坛

 找回密码
 注册
打印 上一主题 下一主题

文献输入中的难检字问题

[复制链接]
跳转到指定楼层
楼主
leonhl 发表于 07-7-4 12:02:42 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
文献输入中的难检字问题(转自北大中文论坛)

回想平日在文字處理中所遇到的疑難問題,有以下三箇方面或許對讀者有參考價值,因此附贅於後。
一、如何處理無法輸入電腦的漢字
一些漢字無法輸入電腦,一般不外乎以下二種情況:一是電腦操作系統所支持的字符集及其相應支持字體的問題,一是輸入法的問題。
(一)字符集、字體、輸入法
① GB2313字符集,收入漢字6763箇,符號715箇,總計7478箇字符。楷體-GB2313、仿宋-GB2313、華文行楷、華文隸書、華文彩雲、等字體支持顯示這箇字符集,亦是大多數輸入法所採用的字符集。
② BIG-5字符集,收入13060箇繁體漢字,808箇符號,總計13868箇字符,目前普遍使用於臺灣、香港地區。臺灣教育部標準楷體、宋體等字體支持這個字符集的顯示。
③ GBK字符集,又稱大字符集,包含以上兩種字符集,收入21003箇漢字,882箇符號,共計21885箇字符,包括了中日韓(CJK)統一漢字20902箇、CJK Ext-A 中的漢字52箇。Windows 95\98簡體中文版就帶有這箇GBK.txt文件。宋體、隸書、黑體、幼圓、華文宋體、華文中宋、華文細黑、華文楷體(Microsoft Office 2000典型安裝時被省略)、Arial Unicode MS、MingLiU、PMingLiU等字體支持顯示這箇字符集。紫光拼音、全拼、微軟拼音2003、極點中文、五筆加加、龍文等輸入法,能夠錄入如镕炁夬喆嚞姤赟昳堃慜軉靕臹等GBK漢字。
④ GB18030字符集,包含GBK字符集、CJK Ext-A 全部6582箇漢字,共計27533箇漢字。宋體-18030(需安裝GB18030 Support Package)、方正楷體、書同文楷體、臺灣新細明體、香港華康標準宋體(DFSongStd)、New Gulim、CERG Chinese Font亦支持這箇字符集的顯示。字體安裝方法:開始→設置→控制面板→字體→文件→安裝新字體,在文件夾中找到下載的字體文件,勾上“複製到Fonts文件夾”→確定。山頂洞五筆、倉頡輸入法國際版能錄入如??????????等GB18030字符集漢字。
⑤ 方正超大字符集,包含GB18030字符集、CJK Ext-B中的36862箇漢字,共計64395箇漢字。“宋體-方正超大字符集”支持這箇字符集的顯示(有支持包“Surrogate更新”)。Microsoft Office XP或2003就提供有這箇字體。若要單獨安裝字體,選擇:自定義安裝→選擇應用程序的高級自定義→Microsoft Office→Office共用功能→中文字體→中文超大字符集字體,點左鍵選擇“從本機運行全部程序”,其餘內容用左鍵點擊選擇不安裝,就行了。新概念五筆𠀉𠀡𠃇𠆤𠔥𠫓𡈼𡧘𡰱𨈝𥒯𦼌𤂼𠐵𠎢𠋮等“方正超大字符集”全部64395箇漢字。
⑥ ISO/IEC 10646 / Unicode字符集,這是全球可以共用的編碼字符集,兩者相互兼融,涵蓋了世界上主要語文的字符,其中包括簡繁體漢字,共計:CJK統一漢字20902箇,CJK Ext-A 6582箇,Ext-B 42711箇,共計70195箇漢字。MingLiU-ExtB能顯示全部Ext-B漢字,可用海峰五筆、新概念五筆Unicode版、倉頡輸入法世紀版、新版的微軟新注音、倉頡輸入法 6.0 版(單碼功能)等輸入法錄入。Ext-C還有2萬多箇漢字。詳情請參閱香港中文大學網站、馬來西亞倉頡之友網站、陳清鈺網站。
⑦ 漢字構形資料庫,收錄《說文》小篆11100箇、金文3459箇、甲骨文、楚系文字等構形資料,對於整理某些古代文獻十分有用。
如果超出了字符集或沒有相應字體的支持,則顯示爲黑框、方框或空白。在網頁上亦存在同樣的問題。
(二)輔助輸入法
可以用系統自帶的中文內碼輸入法、增彊區位輸入法,錄入相應字符集的漢字。用右鍵點擊屏幕右下角的“語言欄”→設置→添加→輸入法→Chinese (Simplified)-Enhanced Unicode IME,或中文(簡體)-內碼→確定→應用→確定。然後在“語言欄”選擇該輸入法,在屏幕的左下角就會出現狀態欄,可用右鍵點擊查看幫助信息。次外,如果已知一箇字符的內碼,就可以在Word英文輸入法狀態下直接鍵入其內碼,再按下鍵盤中的[Alt+X]組合鍵,就能呈現該字符。若再按下[Alt+X]組合鍵,又可呈現其內碼。因此亦可用此法在Word中查出任何一箇字符的內碼。
(三)難字的處理方法
① 字符集裏的漢字。對於字符集裏原有的漢字,如果沒有合適的輸入法可供錄入,可以查找:開始→程序→附件→系統工具→字符映射表→勾上“高級查看”→分組→按偏旁部首分類的表意文字。注意字體。找到所要的字後,再點“選擇”和“複製”,粘貼到Word。
② 字符集外的漢字。對於字符集裏沒有的漢字,除了造字(開始→程序→附件→True Type造字程序)之外,還可以將這些漢字全部做成圖片,插入正文中,調整至與周圍文字相稱,可以不受電腦字符集的限制。Ext-C 區2萬多箇漢字,因爲目前尚無相應字體的支持,無法顯示,但可以用圖片字代替。
③ 圖片字簡易製作法。在 Word 中打出其部件可供截用的字,或顯示屏上的任何內容,按鍵盤上的[Print Screen]鍵,粘貼到畫圖板上(開始→程序→附件),編輯成所需要的字或圖形,剪切、粘貼到Photoshop中(新建文件,編輯→粘貼),以GIF或JPEG格式存儲。然後在Word中插入這箇圖片字,縮小到與周圍文字大小相當,再調整上下位置:格式→字體→字符間距→位置→降低,最後用右鍵點擊圖片,用“設置圖片格式→大小”進行微調。凡直接可以由部首或幾箇字合成的文字,可以用字符縮放、改變行距(設爲固定值)、調整字符大小及間距的方法,製作成所需要的文字,有些字甚至不製作成圖片字亦行。
二、給漢字標注拼音
Microsoft Office XP或2003 的Word就有這箇功能。選定要注音的文字,用:格式→中文版式→拼音指南,Word就會在所選文字的上方自動標注拼音。如果出現的是注音符號而不是拼音符號,先選定這些文字,檢查:工具→語言→設置語言,確定是“中文(中國)”而不是“中文(臺灣)”。但Word能夠自動標注拼音的漢字大約兩萬箇,此外漢字的拼音,就只能在所選文字的“格式→中文版式→拼音指南→拼音文字”處用鍵盤錄入了;拼音若有錯誤,亦可以在此處手工更正。可以把“拼音文字”處的拼音,用[Ctrl+C]組合鍵複製,再用[Ctrl+V]組合鍵粘貼到Word中。反之亦可以用這種方法把Word中的拼音複製到“拼音文字”處。可惜Word一次只能標注近五十箇漢字。若要給整篇文檔標注拼音,就只能用拼音王、拼音大師之類的軟件了。中文輸入法的狀態欄一般都有一箇鍵盤符號,用右鍵點擊,選擇“拼音”,就可以錄入那些帶有聲調的字母;點左鍵取消或開啟。
三、WPS文檔與Word文檔之間的轉換
只要用WPS Office 2002或2004,就能徹底解決這箇問題。在程序安裝過程中,注意在“文件關聯設置”處勾上“Microsoft Word文檔”就能實現。安裝完成後,所有的Word文檔都會用WPS來打開。若要改回,用右鍵點擊一箇Word文檔,選擇“打開方式→選擇程序→Word”,再在“始終使用選擇的程序打開這種文件”前打勾就行了。WPS文檔可另存爲Word文檔,亦可用WPS打開Word文檔,再另存爲WPS文檔。當然可以用寫字板“RTF格式”文檔作爲中介,但是有些信息會丟失(用另存爲、用復制粘貼,結果不完全一樣)。亦可以另存爲網頁文件,但要還轉爲文本格式,仍有問題。
上面所述如有不能實現者,當是操作系統或辦公軟件的緣故,建議升級至Windows XP、Microsoft Office 2003或WPS Office 2004。

附錄:
一、各種漢字字體  
字體名後面的數字,是指能顯示的GBK + CJK-A + CJK-B漢字的箇數。
CJK-A中有52字與GBK中的漢字重復。在計總數時不算在內。
Arial Unicode MS 黑體 20925  (MS Office 2003 自帶)
CERG Chinese Font  21003+ 6582 = 27533(據介紹,能顯示36,701 glyphs)
http://cerg1.ugc.edu.hk/cergprod/static/download_font.jsp
Bitstream Cyberbit   20936
http://www.filesearching.com/cgi ... =en&x=0&y=0
AR PL Mingti2L Big5 明體 13070
http://www.filesearching.com/cgi ... =0&y=0&l=en
AR PL KaitiM Big5 楷體 13070
http://www.filesearching.com/cgi ... =0&y=0&l=en
相關網頁:漢字字體下載頁面:
http://www.travelphrases.info/ga ... se_Traditional.html
http://www.travelphrases.info/ga ... ese_Simplified.html
韓國字體
Batang 韓國明朝體 7481
BatangChe 韓國新明朝體 7481
Gungsuh韓國窮鼠體7481
GungsuhChe韓國新窮鼠體7481
Dotum 韓國黑體 7481
DotumChe 韓國新黑體 7481
Gulim 韓國標准圓體 7481
GulimChe 韓國標准新圓體 7481
New Gulim 韓國新圓體 21003 + 6582 = 27533(新字形)(以上字體:MS Office 2003 自帶)
New Batang 包含更多的漢字以及old hangul 下載地址http://kh2.koreanhistory.or.kr/file/download/hanjuk2_1.exe
日本字體
MS Gothic 日本標准黑體 12218
MS Pgothic 日本標准新黑體 12218
MS UI Gothic 日本黑體 12218
MS Mincho 日本明朝體 12218
MS Pmincho 日本新明朝體 12218 (以上字體MS Office 2003 自帶)
QuiMi-mincho日本癸羊明朝體 6696 (舊字形)
http://www.asahi-net.or.jp/~sd5a ... QuiMi-2004-0509.tgz
臺灣字體
教育部標準楷書 13063
http://www.edu.tw/EDU_WEB/EDU_MG ... word/kai/kai-pc.ttf
教育部標準宋體 13063
http://www.edu.tw/EDU_WEB/EDU_MG ... rd/so/ma1b5xp-p.ttf
相關頁面:
http://www.edu.tw/EDU_WEB/EDU_MG ... LEID=52968&open
cwTeXMing    臺灣明體  13346 (舊字形1)
http://programs.ossacc.org/fonts/cwttf/baseline/cwming.ttf
相關頁面 http://www.ossacc.org/Download/misc/cwttf-1.0/view
MingLiU Win98 臺灣細明體Win98   17260 (舊字形2)
PMingLiU Win98 臺灣細明體Win98   17260 (舊字形2)無處下載?
MingLiU 臺灣細明體  20923 (舊字形3)
PMingLiU臺灣細明體 20923 (舊字形3)(MS Office XP\2003 自帶)
MingLiU (18030)  臺灣新細明體  20923 + 6582 = 27533 (新字形)
PMingLiU (18030)  臺灣新細明體  20923 + 6582 = 27533 (新字形)與上述兩箇字體同名,無法同時安裝。須更改字體名後纔行。
MingLiU-ExtB 臺灣細明體超集 0 + 0 + 42711
PMingLiU-ExtB 臺灣新細明體超集 0 + 0 + 42711
http://www.microsoft.com/downloa ... p;DisplayLang=zh-tw
香港字體
DFSongStd 華康標准宋體 21003 + 6582 + 1640 = 29173(MS Office 2003 自帶)
http://www.cantonese.org.cn/anl/oncc/data/DFSongStd/
香港增補字符集Hong Kong Supplementary Character Set-2001 (HKSCS-2001)
http://www.info.gov.hk/digital21 ... 0646.html#windowsxp
http://debian.linux.org.tw/pub/3Anoppix/people/arne/
http://www.microsoft.com/hk/hkscs/chinese/default.aspx
http://www.info.gov.hk/digital21 ... rence_iso10646.html

大陸字體
华文彩云 6763
华文仿宋 6763
华文琥珀 6763
华文隶书 6763
华文新魏 6763
华文行楷 6763
楷体_GB2312    6763
仿宋_GB2312    6763 
方正舒体 9690
方正姚体 9826
幼圆 21003
黑体 21003
隶书 21003
宋体 21003
新宋体 21003
华文楷体 21003
华文宋体 21003
华文细黑 21003
华文中宋 21003 (以上字體MS Office 2003 自帶)
北師大說文小篆 7551(其中有數十字顯示不正常)
北師大說文重文 49 (此兩款字體包含在“漢字構形資料庫”中。)
宋体-18030  21003+ 6582 = 27533
新宋体-18030  21003+ 6582 = 27533
http://www.microsoft.com/china/windows2000/downloads/18030.asp
MS Song  書同文楷體 21003+ 6582 = 27533
http://www.fodian.net/tools/mssong.ttf
FZKai-Z03 方正楷體 21003+ 6582 = 27533
此外還造了近5000個在古籍中較常使用的漢字,共計32000編碼漢字,能顯示八卦六十四卦符號。下載簡體中文版的是中國標準楷體的寫法,下載繁體中文版的是台灣教育部楷體的寫法,兩個字體都是相同的文件名、字體名,除非更改字體名稱,否則沒有辦法兩個同時安裝。
http://trial.skqs.com/
宋体-方正超大字符集 21003+ 6582+36862 = 64395 (MS Office XP\2003 自帶)
http://www.banbosite.com/sursong.rar
宋体-方正超大字符集 支持包“Surrogate更新”:
http://www.microsoft.com/downloa ... 5-A0CF-E695CEF87C81
二、輸入法
微軟拼音輸入法2003
http://www.microsoft.com/downloa ... p;displaylang=zh-cn
海峰五笔輸入法
http://okuc.net/sunwb/index.htm
新概念五筆輸入法
http://www.shunsoftware.com/download.htm
微軟新倉頡輸入法
http://www.microsoft.com/downloa ... p;displaylang=zh-tw
微軟新注音輸入法 (Microsoft New Phonetic IME)
http://www.microsoft.com/downloa ... p;displaylang=zh-tw
微軟輸入法整合器 (Microsoft IMEPad)
http://www.microsoft.com/downloa ... p;displaylang=zh-tw
倉頡輸入法國際版
http://www.chinesecj.com/newsoftware/index3.php?Type=1
三、相關網站:
香港中文大學網站
http://www.cse.cuhk.edu.hk/~irg/irg/CJK/CJK.htm
馬來西亞倉頡之友網站
http://www.chinesecj.com/code/
陳清鈺網站
http://sbsm.nease.net/
漢字構形資料庫:
內含楷體字形59,220個 、小篆11,100個 、金文3,459個 ,甲骨文177 個,楚系文字372個,異體字12,681組。含北師大說文網絡版篆字字體,註冊后下載。要先设定[控制面板]的[语言选项]为"中國(台灣) 才能安裝,亦可以解壓後使用其中的字體文件。
http://ckip.iis.sinica.edu.tw/CKIP/tool/
http://www.sinica.edu.tw/~cdp
http://ckip.iis.sinica.edu.tw/CKIP/tool/hanzicd_200412.zip
台灣微軟的網站 下載區
http://www.microsoft.com/taiwan/download/CHTdownload.htm
日本今昔文字鏡
含十萬漢字,甲骨文、金文、西夏文、梵文、越南喃字。(日本细明朝风,非Unicode)
http://www.mojikyo.org/html/download/ttf/dlttf.html
文字鏡专用字符映射表
http://www.mojikyo.gr.jp/mojikyo/CMAP/MOCM400.EXE
下載所有的.exe文件,解壓縮,得到字體文件,把字體安裝后,再安裝字符影射表
文泉驛網絡版《康熙字典》
http://wqy.sourceforge.net/cgi-bin/index.cgi?KangXi
《說文解字》全文檢索版 含篆字
http://wqy.sourceforge.net/cgi-bin/index.cgi?KangXi
支持全部Unicode的字符映射表下载页:
www.babelstone.co.uk/Software/BabelMap.html
四、參考過的相關網站
新細明體更新套件出爐啦!!!
http://www.pkucn.com/viewthread.php?tid=142232&extra=page%3D1
各種文字的Unicode字體下載
http://www.travelphrases.info/fonts.html
一些漢字標準的整理
http://www.pkucn.com/viewthread.php?tid=141936&extra=page%3D1
http://www.pkucn.com/viewthread.php?tid=141869&extra=page%3D1
日本舊字體(康熙字典體)癸羊明朝的下載與安裝
http://www.pkucn.com/viewthread.php?tid=141868&extra=page%3D1
臺灣出的康熙細明體 下載
http://www.pkucn.com/viewthread.php?tid=142434&extra=page%3D1
方正楷體有兩個版本!
http://www.pkucn.com/viewthread.php?tid=142166&extra=page%3D2
尋找,舊字形字庫
http://www.pkucn.com/viewthread.php?tid=109502&extra=page%3D2
大家有沒有用过"文字构形资料庫"?
http://www.pkucn.com/viewthread.php?tid=130425&extra=page%3D2
[下载]多种免费字体forWin
http://www.pkucn.com/viewthread.php?tid=136482&extra=page%3D4
五、字體安裝及改名:
1. 開始→設置→控制面板→字體→文件→安裝新字體,在文件夾中找到下載的字體文件,勾上“復製到Fonts文件夾”→確定。
2. C:\WINDOWS\Fonts→文件→安裝新字體,在文件夾中找到下載的字體文件,勾上“復製到Fonts文件夾”→確定。
用 Font Creator 可以修改字體名稱。在 tools--autonaming 處修改。
若要用漢字名稱,要把漢字以Unicode内码表示。表示方法:\XXXX\XXXXX (X為0~F編碼)。如“锧”就要寫成“\9527”。
在Word中錄入漢字,然後按〔Alt+X〕組合鍵(英文輸入法狀態下),即可呈現該字的的Unicode碼。要不然,就得查看BabelMap了。
(转自北大中文论坛)
沙发
苍白先生 发表于 07-8-7 21:34:50 | 只看该作者
囧。。。。。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

联系我们|Free考研资料 ( 苏ICP备05011575号 )

GMT+8, 24-11-18 11:33 , Processed in 0.088505 second(s), 12 queries , Gzip On, Xcache On.

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表