将 note.com 的文章搬运到本地 markdown 文件,支持完整的图文排版、标签提取和元数据处理。
**)、删除线 (~~)、斜体 (*)、多级标题。data-src)。figcaption 作为图片注记。python3 note_blog_mover.py <note_url>
python3 note_blog_mover.py https://note.com/siberia0916/n/nc1070ae7e64b
---
title: "文章标题"
source: "https://note.com/..."
tags: ["标签1", "标签2"]
imported_at: "2026-02-11T10:00:00.000000"
---
# 文章标题


正文段落...
**粗体文本** 和 ~~删除线文本~~。

继续正文...
基于 html.parser.HTMLParser 实现流式解析:
1. DOM 遍历:单次遍历即可完成文本、格式、图片、注记的提取。
2. 上下文关联:通过解析状态机,精准关联 <figcaption> 到对应的图片,避免错位。
3. 流式清洗:在解析过程中即时剔除 CSS/JS 和特定 UI 文本块。
- 图片仍然用原站链接