古籍知识库

如今,古籍库的使用需求正在由数字化向数据化,即知识库的方向转变。数字化和数据化的最大区别是,前者仅可提供简单的字词检索,后者则具结构化、关联性,可自动进行知识再生。辅之以相应的工具,借助此前中外一切中国古典学的研究成果,在保障古籍文献内容完整性及内部逻辑性的基础上突破文献原有结构,周密地设定主题词表,专业地提取各种实体,如年代、地域、人物、事件等,构建实体的相关属性及不同实体间的关系,通过这些实体及相互关系对文献进行深层组织和知识管理。

古籍知识图谱是指利用信息技术,将古代文献、经典等古籍中的知识内容进行结构化、标注、链接,建立起知识之间的关联网络,以实现对古籍内容的深度挖掘、智能检索和知识发现。通过古籍知识图谱,人们可以更方便地了解古代文化、思想、历史等方面的内容,也有助于学术研究和文化传承。

复旦中华古诗词数据库

最全中华古诗词数据库, 唐宋两朝近一万四千古诗人, 接近5.5万首唐诗加26万宋诗. 两宋时期1564位词人,21050首词。

古典文史知识图谱网

一直致力于构建中文领域特别是古典文史领域的知识图谱。虽然目前离最终建设目标尚远,但是也不乏一些成果。为了让本网的数据及功能够更轻松地为同行所利用,本网已开发出 Web API 接口,开放所有的数据与功能,方便有兴趣的个人或机构,集成或获取本网的数据,进行研究、学习(仅限非商业用途)。

BCC汉语语料库

总字数约 95 亿字,包括:报刊(20 亿)、文学(30 亿)、综合(19 亿)、古汉语(20 亿)和对话(6 亿,来自微博和影视字幕)等多领域语料,是可以全面反映当今社会语言生活的大规模语料库。

BCC语言使用历时检索系统

中国历史人物传记数据库(China biographical database project , CBDB)

由美国哈佛大学费正清中国研究中心、中国台湾“中研院”历史语言研究所与北京大学中国古代史研究中心共建的CBDB数据库是线上的关系型数据库,其远期目标在于系统性地收入中国历史上所有重要的传记资料。 截至 2024 年 2 月,共收录约 535,181 人的传记资料,这些人物主要出自七世纪至十九世纪,目前正致力于增录更多明清的人物传记资料。利用其数据可做四种数据分析:地理空间分析(Geospatial Analysis)、社会网络分析(Social Network Analysis)、群体研究统计分析(Prosopographical Analysis, Statistical Analysis)、文本分析和标记(Textual Analysis and Markup)。

书格网

一个自由开放的在线古籍图书馆。致力于开放式分享、介绍、推荐有价值的古籍善本,并鼓励将文化艺术作品数字化归档。分享内容限定为公共版权领域的书籍(参照标准伯尔尼公约);最大限度地还原书籍品貌、内容;借此计划让大家自由、免费地欣赏到那些难以现世的书籍。让大家能从中感受到人类文明进程。书格发布的书籍主要以高清彩色影像版本 PDF 格式,大部分书籍书籍单页宽度在 1400 像素以上,跨页宽度在 2400 像素以上。书籍刊行年代有从宋元珍本,明清善本到近代刊本。
在可能的情况下,面对同一书籍,我们尽量遵循刊行质量和时间优先,挑选同类中最优资源分享介绍。部分书籍会同比列出不同版本的优秀资源。在内容方面,我们尽量挑选欣赏和在阅读价值较高的善本,所以我们更倾向于:艺术类、影像类、珍稀类以及部分刊印水平较高的书籍。

智慧古籍平台

借鉴知识图谱理念,综合运用大数据的计量统计、定位查询、聚类查询、空间分析、数据关联、网络分析、机器标引等技术,将中国古典文献和研究成果图谱化、智能化的古籍智慧大数据平台,由浙江大学徐永明教授团队主持研发。