技术技巧
Python & Google丨利用LLM从非结构化数文本中提取结构化数据
前两年自己工具里写的正则提取规则实在是写得累,这下子方便了
特性
- 自动分块
- 自动并发
- 自动对齐
- 自动去重
项目信息
- DOI: 10.5281/zenodo.17015089
- License: Apache-2.0
字节跳动技术团队丨当 OpenClaw 内置 LanceDB:为个人 AI 智能体打造超强长期记忆

Agent Runner为最关键的组件
- Durable Knowledge 关于知识或用户偏好的持久化记忆
- 工作区:
~/.openclaw/workspace - 精选记忆:
MEMORY.md精选长期记忆,仅在私聊时加载 - 每日记忆:
memory/YYYY-MM-DD.md - 索引存储:
~/.openclaw/memory/<agentId>.sqlite - QMD备选:
~/.openclaw/agents/<agentId>/qmd/...存放QMD后端的索引与配置
- 工作区:
- Task Memory 长周期、多步骤任务的中间记忆
memory/YYY-MM-DD[-slug].mdhook生成的特定任务或会话的快照 -Conversational History 完整对话历史和模型理解的隐式意图- 状态目录:
~/.openclaw/agents/<agentId>/sessions/ - sessions.json:会话元数据 (sessionId, token技术, memoryFlush状态)
-
.jsonL:仅追加的JSONL格式记录完整对话树,包括消息、工具调用和压缩摘要
- External Resources 代码库、技术文档、API规范等
agent.defaults.memorySearch.extraPaths允许递归索引外部MD文件夹,将其添加到记忆搜索范围memory.qmd.paths:声明QMD集合源,使其可以索引任意位置的文档
Memory模块解读
- File/Backend Based Memory
- 日常记忆层
- 核心记忆层
Memory.md:提炼过的、稳定持久的核心事实与偏好 - bank 记忆层(实验性)
- world.md :世界事实
- experience.md :Agent经历
- opinion.md :Agent观点
- entities/*.md :实体信息库
- Backend 处理Memory文件索引、查询和管理的底层引擎
- builtin: SQLite + fts5 (BM25) + sqlite-vec
- qmd (实验性): 高级混合搜索,继承BM25,向量搜索和重排
- LanceDB Based Memory
- Plugin
- memory-core 将能力暴露为标准的Agent工具和CLI命令
- memory-lancedb 可选、功能完备的第三方长时记忆解决方案
- 独立存储:LanceDB
- 独立embedding:OpenAI API
- 高级记忆操作工具
- memory_recall, memory_stoore, memory_forget
- hook
- 记忆auto-capture & auto-recall
- LanceDB plugin
- Tool
- memory_store, memory_recall, memory_forget
- CLI commands
- list, search, stats
- Lifecycle Hooks
- before_agent_start, agent_end
- Service
- start/stop
- Tool
- Plugin
LanceDBmemoreis表结构
- id 唯一标识
- text 记忆内容的原始文本
- vector 嵌入向量
- importance 记忆的权重0-1,默认0.7
- category 记忆类别
- preference; fact; decision; entity; other
- createdAt 记录创建时间戳

A complete guide to building skills for Claude
33页指南
EvoMap
一个协同进化的skill共享平台,核心理念是一个Agent习得的能力,全球Agents可继承
基础术语
- Gene 最小可复用skill单元
- Capsule 成功任务执行路径的标准化封装
- Event 不可变的进化日志