新闻汉语词库
新闻汉语词库是供新闻报导文字检索,将汉语文字输入电脑的新闻资料系统。由新华社、人民日报社和广播电影电视部等单位共同研製,于1990年11月28日正式通过机械电子工业部计算机司组织的技术鉴定。“新闻汉语词库”于1987年11月份正式列入国家“七五”计画的重点科技攻关课题。经过多方关怀及通力合作,历经三年,终于研製完成,是迄今国内规模最大的专业词库,也是国内外第一个新闻专业汉语词库。
该词库在广泛收集语言资料的基础上,精选出近30万个词条,经人工和计算机处理,再经一亿二千万新闻语言资料的词频统计,最后综合而成。该词库选词依据充分、可靠,具有全面、精确、通用性强等特点,不仅适用新闻界,而且对整箇中文信息处理都有重要的实用意义。原国家有关部门曾于1986年决定,在新华社建立全国新闻资料检索中心,同时,人民日报社、广播电影电视部及其他新闻单位可根据本身的特殊需要,建立具有各自特点的分系统。为了实现在核心繫统的覆盖、支持下,作到各单位建立的分系统的信息也能相互共存,力求联合研製一个适用于新闻界的“新闻汉语词库”,并由新华社、人民日报社、广播电影电视部及北京信息工程学院投入研製,并得到了中国人民大学、北京航空航天大学、山东大学、山西大学等协作单位的通力配合。“新闻汉语词库”共收各类词条70097条,主要有普通词、专有名词和新闻、广播、电视专门术语及常用新闻结构串三部分组成。普通词5.5万,占词库总词量的97%,专有名词和新闻用词分别占总词量的18.7%和2.3%。这就保证了“新闻汉语词库”与其他汉语词库的兼容性,同时也保证了词库本身所具有的特殊性。