一、数据简介
本数据库系统收录了来自国内37家主流财经及综合类报刊电子版的公开新闻文本数据,覆盖站点中文名、发文时间、板块名称、首标题、标题、尾标题、作者、图片、正文等关键字段,提供全面结构化的新闻内容。数据持续实时更新,截至2025年底累计收录新闻量已超过1471万条,为观察中国财经舆论动态、市场信息传播及媒体趋势提供了大规模、可持续的文本资源。
二、数据特点
来源广泛且具有代表性:数据涵盖中国证券报、上海证券报、证券时报、人民日报、证券日报等国内影响力广泛的财经及综合报刊,能够反映主流财经舆论场的核心声音。
时间跨度大,支持长期研究:数据库中包含20家报刊十年以上的连续观测数据,适用于宏观经济、市场周期、政策演变等长时段议题的纵向研究。
实时更新,贴近动态变化:数据更新与各报刊发布保持同步,支持对市场热点、舆情事件、政策发布的即时跟踪与分析。用于自然语言处理、情感分析、主题建模等现代文本分析方法。
三、潜在应用场景
金融市场与舆情分析:研究者可通过标题与正文分析市场热点变迁、投资者情绪波动,也可结合发文时间研究新闻对股价、交易量等市场指标的即时与滞后影响;
政策影响与媒体传播研究:长期数据支持对国家经济政策发布后的媒体报道框架、舆论引导变化进行内容分析,也可用于研究不同报刊在重大财经事件中的报道立场与传播特征;
文本挖掘与计算方法验证:数据库规模大、覆盖领域集中,适合作为训练与测试财经领域文本分类、实体识别、摘要生成等自然语言处理模型的语料库,亦可支持计算社会科学相关方法的实证验证。
CnOpenData中国财经报刊新闻文本数据库基于公开来源系统整理而成,以持续、全面、结构化的方式汇聚中国主流财经新闻内容,兼具宏观时间跨度与微观文本信息,可为学术研究、行业分析、决策支持提供扎实的数据基础。
四、时间区间
报刊名称 | 起始日期 | 状态 | 截至20251119数据量 |
|---|---|---|---|
中国证券报 | 2005-01-05 | 实时更新 | 3197050 |
上海证券报 | 2006-04-22 | 实时更新 | 2328363 |
证券时报 | 2008-06-02 | 实时更新 | 2216215 |
人民日报 | 1946-05-15 | 实时更新 | 1980671 |
钱江晚报 | 2006-01-01 | 实时更新 | 711112 |
证券日报 | 2020-01-02 | 实时更新 | 625511 |
新闻晨报 | 2012-03-01 | 实时更新 | 321933 |
北京商报 | 2011-01-04 | 实时更新 | 295913 |
法制晚报 | 2021-01-01 | 实时更新 | 288547 |
参考消息 | 1957-03-01 | 实时更新 | 261948 |
长江商报 | 2010-05-24 | 实时更新 | 252900 |
羊城晚报 | 2018-01-01 | 实时更新 | 248768 |
北京青年报 | 2015-01-01 | 实时更新 | 235392 |
深圳商报 | 2017-03-01 | 实时更新 | 172757 |
经济参考报 | 2009-11-05 | 实时更新 | 167375 |
每日经济新闻 | 2008-01-18 | 实时更新 | 136476 |
广州日报 | 2021-01-01 | 实时更新 | 134808 |
经济观察报 | 2001-04-16 | 实时更新 | 134688 |
南方日报 | 2022-01-01 | 实时更新 | 130562 |
中华工商时报 | 2016-01-04 | 实时更新 | 108029 |
中国工业报 | 2014-01-06 | 实时更新 | 89672 |
南方都市报 | 2020-01-01 | 实时更新 | 89496 |
都市快报 | 2022-01-01 | 实时更新 | 89130 |
第一财经日报 | 2015-04-01 | 实时更新 | 83666 |
中国经济导报 | 2012-09-01 | 实时更新 | 76009 |
国际金融报 | 2014-08-04 | 实时更新 | 64698 |
信息时报 | 2022-08-30 | 实时更新 | 63913 |
中国消费者报 | 2010-01-01 | 实时更新 | 57621 |
中国财经报 | 2018-01-10 | 实时更新 | 42364 |
投资快报 | 2020-01-02 | 实时更新 | 37855 |
金陵晚报 | 2024-01-02 | 实时更新 | 18806 |
中国经营报 | 2022-01-03 | 实时更新 | 16473 |
中国经济周刊 | 2012-01-02 | 实时更新 | 13441 |
中国企业报 | 2011-04-01 | 实时更新 | 9554 |
中国贸易报 | 2011-01-04 | 实时更新 | 7281 |
21世纪经济报道 | 2025-01-03 | 实时更新 | 3325 |
重庆商报 | 2023-01-06 | 实时更新 | 2671 |
五、字段展示
中国财经新闻报纸文本数据字段表 |
|---|
站点中文名 |
发文时间 |
板块名称 |
首标题 |
标题 |
尾标题 |
作者 |
图片 |
正文 |
六、样本数据
站点中文名 | 发文时间 | 板块名称 | 首标题 | 标题 | 尾标题 | 作者 | 图片 | 正文 |
|---|---|---|---|---|---|---|---|---|
证券时报 | 2022/1/13 | 第A003版专栏 | 应防范证券服务业备案制的副作用 | 证券时报 | [{'ha~:''}] | 【锦心绣口~处罚,…… | ||
证券时报 | 2022/1/13 | 第A004版聚焦资本市场“新地理” | 医疗器械产业培育难?“苏州现象”这样破题 | 证券时报 | [{'ha~:''}] | 本版供图:~持发展…… | ||
证券时报 | 2022/1/13 | 第A008版公司 | 同城配送商业模式趋稳玩家抢滩千亿市场却难分杯羹 | 证券时报 | [{'ha~:''}] | 图虫创意/~在接受…… | ||
证券时报 | 2022/1/13 | 第A001版头 版(今日116版) | [报眼]星辉环材 | 证券时报 | [{'ha~:''}] | 2022-~18.…… | ||
证券时报 | 2022/1/13 | 第A001版头 版(今日116版) | 同城配送商业模式趋稳玩家抢滩千亿市场却难分杯羹 | 证券时报 | [{'ha~:''}] | 数据来源:~是闪送…… | ||
证券时报 | 2022/1/14 | 第A002版综合 | 鸿道投资执行董事、投资总监孙建冬: | 潮水退去看好电网设备投资机会 | 证券时报 | [{'ha~:''}] | 证券时报记~限公司…… | |
证券日报 | 2020/1/2 | B1金融机构 | “南方优选成长”9年投资秘笈:在“富矿”中找好生意 | 王思文 | [{'ha~:''}] | “南方优选~,上证…… | ||
证券日报 | 2020/1/2 | A1头版 | 2020年1月1日零点起中国487个省界收费站全部取消 | 证券日报 | [{'ha~:''}] | 2020年~表示,…… | ||
证券日报 | 2020/1/3 | B1金融机构 | 券商IPO承销业务“年末考”放榜:31家过会率100%招商证券“夺魁” | 王思文 | [{'ha~:''}] | 券商IPO~在此背…… | ||
证券日报 | 2020/1/3 | B2金融市场 | 中国通信工业协会区块链专委会常务副主任尚堃: | “区块链+文化”具有广泛落地场景知识产权维权服务将具商业价值 | 邢萌 | [{'ha~:''}] | 中国通信工~业内普…… |
七、相关文献
姜富伟、刘雨旻、孟令超,2024:《大语言模型、文本情绪与金融市场》,《管理世界》第8期。
范小云、王业东、王道平等,2022:《不同来源金融文本信息含量的异质性分析——基于混合式文本情绪测度方法》,《管理世界》第10期。
许雪晨、田侃,2021:《一种基于金融文本情感分析的股票指数预测新方法》,《数量经济技术经济研究》第12期。
张宗新、吴钊颖,2021:《媒体情绪传染与分析师乐观偏差——基于机器学习文本分析方法的经验证据》,《管理世界》第1期。
八、数据更新频率
实时更新