基于 AI Agent 的童话编剧与绘本生成器（二）——爬虫篇

张开发

• 2026/4/13 1:18:12 • 15 分钟阅读

分享文章

上一篇文章发表后组内成员说不用写那么长的代码介绍建议我只对实现的核心功能进行概括。一、实现的爬虫脚本在第4、5周实现了“从公开网页目前选则 Storyberries拉取童话/绘本类文本”的爬虫为后面的「编剧 / 绘本生成」提供语料或参考素材。在文件头写明了两个目标站点及正文所在 DOM文档对象模型区域。二、环境与依赖Python 标准库为主urllib、argparse、csv、pathlib、re等不引入requests。童话站点多半是服务端渲染或传统 HTML用html.parser CSS 选择器足够标准库urllib降低依赖冲突和爬虫场景匹配。环境依赖必须安装 BeautifulSoup4解析 HTML若未安装脚本在 main() 里会直接退出并提示 pip install beautifulsoup4。三、主要模块职责介绍表逻辑区块代表函数/常量职责全局配置BASE_URL、UA、DEFAULT_CATEGORY_RANGE站点根地址、合规 UA、默认分类 ID 范围HTTP 基础设施build_http_opener、http_get、http_get_bytes、decode_body代理、重试退避、超时、正文/二进制下载、编码探测Storynook 链接发现normalize_site_url、extract_story_ids_from_html、collect_story_urls从首页与/story/list/{分类}/{页}收集/story/{id}Storynook 正文解析parse_story_page标题 #storyContent/.article-content纯文本Storyberries 列表与正文collect_storyberries_story_urls、parse_storyberries_article分类翻页、h2.entry-title a、.entry-content与插图 URL插图辅助_parse_srcset_best、_img_best_url、extension_for_imagesrcset取最大宽度图、扩展名推断运行与 CLI运行与 CLI探针模式、两站点分支、写txtstories_metadata.csv四、HTTP 层单独写http_get和decode_body1. 编码网页charset可能不准或缺失。decode_body先信响应头/提示再依次尝试utf-8、gbk、utf-8-sig最后用replace兜底避免中文乱码或整段解析失败。2. 重试与退避对408/429/5xx和部分网络错误做有限次重试间隔min(2**attempt, 20)减轻对目标站压力也提高弱网下的成功率。3. 用户提示print_timeout_hint在超时类错误时打印可操作提示。五、Storynook从「发现 URL」到「存 txt」1. URL 发现策略先抓首页用正则 normalize_site_url收集形如/story/数字的链接排除列表页等。若未加--no-list-crawl再按分类 ID 区间遍历列表页若连续两页没有新 ID 则提前停止避免无意义翻页。2. 正文解析标题#storyTitle 或 h1.article-title正文#storyContent 或 .article-content去掉 script/style 后 get_text(\n, stripTrue)得到适合后续 NLP 或 Agent 的纯文本段落。3. 落盘与元数据每篇一个 {序号}_{标题}.txt根目录下 stories_metadata.csvUTF-8-SIG 方便 Excel字段含 title、url、text_chars、local_txt 等失败时 status 记录 fetch_error / parse_error / text_too_short便于批量跑完后统计质量。六、Storyberries绘本站点的额外复杂度插图1. 列表页WordPress 分类支持/page/N/用h2.entry-title a[href]收集文章链接并规范到www.storyberries.com避免重复。2. 正文与图正文仍在.entry-content插图从img上取 URL优先解析srcset里宽度最大的候选现代站点常用响应式多图再回退data-src/src过滤gravatar、/emoji/等非内容图。3. 可选下载--no-images时只存文本否则按篇建子目录用http_get_bytes写文件扩展名由 URL 或Content-Type推断。七、当前成果总结双站点统一 CLIStorynook 爬取“短篇文本语料”Storyberries爬取“带图绘本页”。重试、延迟、代理、探针模式齐全。爬取效果大致如下。

更多文章

前端开发 2026/4/13 1:16:23

tinyCore：轻量级多核任务分发框架

1. tinyCore 库概述：面向多核嵌入式系统的轻量级任务分发框架tinyCore 是一个专为资源受限型多核微控制器设计的轻量级运行时抽象库，其核心目标并非实现完整的实时操作系统（RTOS）功能，而是提供一种语义清晰、配置极简、…

1. 为什么选择Stripe支付集成？ Stripe作为全球领先的在线支付解决方案，特别适合需要处理国际支付的电商或SaaS平台。我在多个跨境项目中采用Stripe后发现，其API设计非常开发者友好，尤其是对Java后端技术栈的支持相当完善。与国内支…

张开发

前端开发 2026/4/13 0:54:11

3步快速部署开源驾驶辅助系统FlowPilot

3步快速部署开源驾驶辅助系统FlowPilot 【免费下载链接】flowpilot flow-pilot is an openpilot based driver assistance system that runs on linux, windows and android powered machines. 项目地址: https://gitcode.com/gh_mirrors/fl/flowpilot FlowPilot是一款基…

张开发

基于 AI Agent 的童话编剧与绘本生成器（二）——爬虫篇

最新文章

Cesium与Vue.js融合构建：智慧管网三维可视化平台的架构演进与实践

c++语法复习（一）

IP地址什么？工业场景网络注意事项有哪些？竟

When and Why to use Extensions -- VK_KHR_draw_indirect_count

互联网大厂Java面试实战详解：核心技术栈与业务场景模拟

C语言小白到专家之Visual studio

推荐文章

GPUStack 在华为昇腾 I A 服务器上的保姆级部署指南穆

用AI给显示器装上‘眼睛’：复旦博士的EyeReal方案，如何用三层LCD和RTX 4090实现桌面级裸眼3D？

现在不看就晚了：SITS2026结项报告中被删减的8页「AI临床偏差熔断机制」原始设计文档首次流出

如何构建高性能的消息队列系统

SITS2026圆桌闭门报告（仅限首批200名技术决策者）：AI原生研发的TCO重构公式与3个被90%CTO忽略的隐性回报维度

011、向量数据库入门：Embeddings原理与ChromaDB实战

相关文章

探索Akagi：实时牌局分析与AI决策支持的麻将辅助系统

SEO 视频在不同行业的应用有何差异_SEO 视频的长度应该控制在什么范围内

基于YOLO+DeepSeek的农作物病虫害检测与环境监测一体化智能平台植物病虫害识别系统

生成式引擎优化（GEO）实战指南：从技术架构到行业落地

嵌入式开发调试宏与性能优化实战

LosslessCut：解锁无损视频编辑的5个专业技巧

分享文章

更多文章

tinyCore：轻量级多核任务分发框架

STM32F103C8T6 + LCD1602：手把手教你做一个带闹钟的桌面电子钟（附完整代码和PCB）

ESPS USB MSC 调试全过程记录然

Flutter状态管理进阶

SI1145紫外可见光传感器驱动开发与STM32 HAL移植指南

Winduino：Arduino与Windows Forms串口通信框架

保姆级教程：用FAST-LIO处理MID360数据，同步保存每一帧PCD和位姿（附完整代码）

QTableWidget 表格组件登

Snon Lyric

Python 3.12 Special Attribute - 12 - weakref

Stripe 支付集成实战：Java后端核心API详解与避坑指南

3步快速部署开源驾驶辅助系统FlowPilot

基于 AI Agent 的童话编剧与绘本生成器（二）——爬虫篇

最新文章

Cesium与Vue.js融合构建：智慧管网三维可视化平台的架构演进与实践

c++语法复习（一）

IP地址什么？工业场景网络注意事项有哪些？竟

When and Why to use Extensions -- VK_KHR_draw_indirect_count

互联网大厂Java面试实战详解：核心技术栈与业务场景模拟

C语言小白到专家之Visual studio

推荐文章

GPUStack 在华为昇腾 I A 服务器上的保姆级部署指南穆

用AI给显示器装上‘眼睛’：复旦博士的EyeReal方案，如何用三层LCD和RTX 4090实现桌面级裸眼3D？

现在不看就晚了：SITS2026结项报告中被删减的8页「AI临床偏差熔断机制」原始设计文档首次流出

如何构建高性能的消息队列系统

SITS2026圆桌闭门报告（仅限首批200名技术决策者）：AI原生研发的TCO重构公式与3个被90%CTO忽略的隐性回报维度

011、向量数据库入门：Embeddings原理与ChromaDB实战

相关文章

探索Akagi：实时牌局分析与AI决策支持的麻将辅助系统

SEO 视频在不同行业的应用有何差异_SEO 视频的长度应该控制在什么范围内

基于YOLO+DeepSeek的农作物病虫害检测与环境监测一体化智能平台 植物病虫害识别系统

生成式引擎优化（GEO）实战指南：从技术架构到行业落地

嵌入式开发调试宏与性能优化实战

LosslessCut：解锁无损视频编辑的5个专业技巧

分享文章

更多文章

基于YOLO+DeepSeek的农作物病虫害检测与环境监测一体化智能平台植物病虫害识别系统