OpenClaw 新手入门教程

openclaw AI使用帮助 2026-04-09 1

什么是 OpenClaw？

OpenClaw 是一个开源的文本处理和数据提取工具，主要用于自动化处理网页内容、文档解析和数据清洗等任务。

OpenClaw 新手入门教程-第1张图片-AI小龙虾下载官网 - openclaw下载 - openclaw小龙虾

安装 OpenClaw

方法1：通过 pip 安装

pip install openclaw

方法2：从源码安装

git clone https://github.com/openclaw/openclaw.git
cd openclaw
pip install -e .

基础使用

基本示例

from openclaw import Claw
# 创建实例
claw = Claw()
# 简单的文本提取
text = "我的邮箱是 example@email.com，电话是 138-1234-5678"
result = claw.extract(text)
print(result)

配置选项

# 带配置的实例
claw = Claw(
    enable_email=True,      # 启用邮箱提取
    enable_phone=True,      # 启用电话提取
    enable_url=True,        # 启用URL提取
    language='zh',          # 设置语言
    timeout=10              # 超时时间
)

核心功能

文本提取

# 提取各种信息
text = """
公司网站：https://www.example.com
联系人：张三
邮箱：zhangsan@company.com
电话：010-12345678
地址：北京市朝阳区
"""
# 提取所有信息
all_info = claw.extract_all(text)
# 提取特定类型信息
emails = claw.extract_emails(text)
phones = claw.extract_phones(text)
urls = claw.extract_urls(text)

模式匹配

# 自定义正则表达式模式
patterns = {
    'id_card': r'\d{17}[\dXx]',  # 身份证号
    'bank_card': r'\d{16,19}',   # 银行卡号
}
claw = Claw(custom_patterns=patterns)
result = claw.extract_with_patterns(text)

数据处理

# 批量处理文件
import os
def process_directory(directory):
    for filename in os.listdir(directory):
        if filename.endswith('.txt'):
            filepath = os.path.join(directory, filename)
            with open(filepath, 'r', encoding='utf-8') as f:
                content = f.read()
                result = claw.extract(content)
                # 处理结果...

高级功能

实体识别

# 中文实体识别
claw = Claw(enable_ner=True)
text = "苹果公司CEO蒂姆·库克今天访问了北京"
entities = claw.extract_entities(text)
# 输出：{'organization': ['苹果公司'], 'person': ['蒂姆·库克'], 'location': ['北京']}

情感分析

claw = Claw(enable_sentiment=True)
texts = [
    "这个产品非常好用！",
    "服务太差了，很不满意",
    "一般般，没什么特别"
]
for text in texts:
    sentiment = claw.analyze_sentiment(text)
    print(f"文本: {text}")
    print(f"情感: {sentiment}")

关键词提取

claw = Claw(enable_keywords=True)
text = "人工智能是未来的发展方向，机器学习是人工智能的重要分支。"
keywords = claw.extract_keywords(text, top_k=5)
print(keywords)

实用技巧

性能优化

# 使用缓存提高性能
from functools import lru_cache
@lru_cache(maxsize=128)
def cached_extract(text):
    return claw.extract(text)
# 并行处理
from concurrent.futures import ThreadPoolExecutor
def batch_extract(texts):
    with ThreadPoolExecutor(max_workers=4) as executor:
        results = list(executor.map(claw.extract, texts))
    return results

错误处理

import traceback
def safe_extract(text):
    try:
        return claw.extract(text)
    except Exception as e:
        print(f"提取失败: {e}")
        print(traceback.format_exc())
        return None

结果导出

import json
import csv
# 导出为JSON
def export_json(results, filename):
    with open(filename, 'w', encoding='utf-8') as f:
        json.dump(results, f, ensure_ascii=False, indent=2)
# 导出为CSV
def export_csv(results, filename):
    keys = results[0].keys() if results else []
    with open(filename, 'w', encoding='utf-8', newline='') as f:
        writer = csv.DictWriter(f, fieldnames=keys)
        writer.writeheader()
        writer.writerows(results)

完整示例

提取工具

import requests
from bs4 import BeautifulSoup
from openclaw import Claw
class WebExtractor:
    def __init__(self):
        self.claw = Claw(enable_all=True)
    def extract_from_url(self, url):
        # 获取网页内容
        response = requests.get(url, timeout=10)
        soup = BeautifulSoup(response.content, 'html.parser')
        # 提取正文文本
        text = soup.get_text()
        # 清理文本
        text = ' '.join(text.split())
        # 使用OpenClaw提取信息
        result = self.claw.extract_all(text)
        # 提取链接
        links = [a['href'] for a in soup.find_all('a', href=True)]
        result['links'] = links
        return result
# 使用示例
extractor = WebExtractor()
result = extractor.extract_from_url('https://www.example.com')
print(json.dumps(result, ensure_ascii=False, indent=2))