⬅️

Note博客搬运技能

将 note.com 的文章搬运到本地 markdown 文件,支持完整的图文排版、标签提取和元数据处理。

功能特性

使用方式

python3 note_blog_mover.py <note_url>

示例

python3 note_blog_mover.py https://note.com/siberia0916/n/nc1070ae7e64b

输出格式 (Markdown)

---
title: "文章标题"
source: "https://note.com/..."
tags: ["标签1", "标签2"]
imported_at: "2026-02-11T10:00:00.000000"
---

# 文章标题

![文章封面](https://...)
![作者头像](https://...)

正文段落...

**粗体文本** 和 ~~删除线文本~~。

![图片注记](https://...)

继续正文...

技术原理

基于 html.parser.HTMLParser 实现流式解析: 1. DOM 遍历:单次遍历即可完成文本、格式、图片、注记的提取。 2. 上下文关联:通过解析状态机,精准关联 <figcaption> 到对应的图片,避免错位。 3. 流式清洗:在解析过程中即时剔除 CSS/JS 和特定 UI 文本块。 - 图片仍然用原站链接

技术原理

  1. 网页解析:使用浏览器工具获取页面DOM结构
  2. 内容提取:遍历DOM提取标题、正文、图片等元素
  3. 位置追踪:记录每个图片在文档流中的位置
  4. 文本提取:提取段落文本和图片alt属性
  5. 本地化处理:下载远程图片到本地
  6. 格式转换:生成目标格式(Markdown/HTML)

注意事项