超越单元测试：属性测试、变异测试与契约测试

软件工程中最被低估的技能

每个开发者都知道如何编写测试。但很少有人知道如何测试他们的测试——以验证测试是否真的能捕获它们应该捕获的缺陷。基于属性的测试、变异测试和契约测试是三种方法，它们能揭示传统测试套件中的漏洞，而这些漏洞是增加任何数量的单元测试都无法修复的。本指南涵盖了这三种方法，并提供实际示例，不仅解释了如何使用它们，还解释了每种方法的适用场景。

基于示例测试的局限性

标准的单元测试是基于示例的：你选择特定的输入，运行函数，然后断言预期的输出。其根本局限性在于，作为作者，是你选择了这些示例。你的测试套件反映了你对代码如何工作的心理模型——而正是这个心理模型首先导致了缺陷的产生。

这就是为什么你可能有90%的代码覆盖率却仍然发布带有缺陷的软件。覆盖率衡量的是你的代码是否被执行，而不是是否被正确执行。你没有想到测试的输入通常就是在生产环境中失败的输入。

基于属性的测试：让计算机找到你的边界情况

基于属性的测试颠倒了基于示例的模式。你不是指定确切的输入和输出，而是指定属性——对于所有有效输入都应该保持不变的条件。框架会生成数百或数千个随机输入，试图违反你的属性。

在Python中，Hypothesis是标准库：

from hypothesis import given, strategies as st, settings
from hypothesis import assume
import pytest

# 测试一个简单示例：一个对列表进行排序的函数
def my_sort(lst):
    # 故意设计有缺陷：对于长度为1的列表有一个差一错误
    if len(lst) <= 1:
        return lst
    pivot = lst[len(lst) // 2]
    left = [x for x in lst if x < pivot]
    middle = [x for x in lst if x == pivot]
    right = [x for x in lst if x > pivot]
    return my_sort(left) + middle + my_sort(right)

# 属性1：输出长度等于输入长度
@given(st.lists(st.integers()))
def test_sort_length_preserved(lst):
    result = my_sort(lst)
    assert len(result) == len(lst)

# 属性2：输出是已排序的
@given(st.lists(st.integers()))
def test_sort_result_is_sorted(lst):
    result = my_sort(lst)
    for i in range(len(result) - 1):
        assert result[i] <= result[i + 1]

# 属性3：输出包含相同的元素
@given(st.lists(st.integers()))
def test_sort_same_elements(lst):
    result = my_sort(lst)
    assert sorted(result) == sorted(lst)  # 两者排序后相同 == 相同的多重集

# 属性4：幂等性——排序两次的结果与排序一次相同
@given(st.lists(st.integers()))
def test_sort_idempotent(lst):
    assert my_sort(my_sort(lst)) == my_sort(lst)

Hypothesis 会自动尝试空列表、单元素列表、包含重复元素的列表、包含负数的列表以及包含极端值的列表。当它发现失败的测试用例时，会将输入缩减到最小的失败示例：

反例：test_sort_result_is_sorted(lst=[1, 1, 1, 2, 1])
回溯：
  AssertionError: result[2] <= result[3] 违反：2 > 1

数据解析的基于属性的测试

基于属性的测试特别擅长的领域：解析器和序列化的往返测试。任何可以序列化和反序列化的数据格式都应该满足：deserialize(serialize(x)) == x。

import json
from hypothesis import given, strategies as st

# 定义可序列化为 JSON 的数据策略
json_strategy = st.recursive(
    st.one_of(
        st.none(),
        st.booleans(),
        st.integers(min_value=-(2**53), max_value=2**53),
        st.floats(allow_nan=False, allow_infinity=False),
        st.text()
    ),
    lambda children: st.one_of(
        st.lists(children),
        st.dictionaries(st.text(), children)
    ),
    max_leaves=20
)

@given(json_strategy)
def test_json_roundtrip(data):
    """验证 JSON 序列化/反序列化是无损的"""
    assert json.loads(json.dumps(data)) == data

# 测试你的自定义序列化器
@given(st.builds(User, id=st.integers(min_value=1),
                  email=st.emails(),
                  name=st.text(min_size=1, max_size=100)))
def test_user_serialization_roundtrip(user):
    serialized = user.to_dict()
    deserialized = User.from_dict(serialized)
    assert deserialized == user

变异测试：验证你的测试真的能捕获错误

变异测试回答了这个问题：”如果我在这段代码中引入一个错误，我的测试会失败吗？”该框架会自动创建数百个变异体——你的代码的修改版本，带有微小的更改（将 > 翻转为 >=，将 + 改为 -，删除一行等）——并检查你的测试是否能捕获每个变异。幸存下来的变异（测试没有失败）表明你的测试套件存在漏洞。

在 Python 中，mutmut 是最实用的工具：

# 安装并运行 mutmut
pip install mutmut
mutmut run --paths-to-mutate src/

# 检查结果
mutmut results

# 显示幸存的变异体（危险的那些）
mutmut show 42  # 显示第 42 个变异体

# 示例幸存变异体输出：
# --- src/pricing.py
# +++ src/pricing.py
# @@ -14,7 +14,7 @@
#  def calculate_discount(price, quantity):
# -    if quantity >= 10:
# +    if quantity > 10:
#          return price * 0.9
#      return price

这个存活的变异体告诉你：你没有测试验证当数量正好是10时折扣是否适用。这是一个真正的bug——边界条件中的差一错误在生产环境中非常常见。

# 经过变异测试后，你添加了缺失的测试：
def test_discount_applied_at_exactly_ten_units():
    assert calculate_discount(100, 10) == 90  # 10% 折扣

def test_discount_not_applied_at_nine_units():
    assert calculate_discount(100, 9) == 100  # 无折扣

def test_discount_boundary_conditions():
    assert calculate_discount(100, 9) == 100
    assert calculate_discount(100, 10) == 90   # 边界：正好10
    assert calculate_discount(100, 11) == 90   # 超过阈值

变异分数及其含义

变异分数 = 被杀死的变异体 / 总变异体。低于80%的分数通常表示测试严重不足的代码。高于90%是好的；关键路径代码达到95%+是优秀的。

每次提交都运行变异测试成本很高——它是O(变异体数 * 测试套件时间)。实用的方法是：只在CI中运行关键模块（支付逻辑、认证、数据验证）的变异测试，而不是整个代码库。

# .mutmut-config
[mutmut]
paths_to_mutate=src/payments/,src/auth/,src/validation/
runner=python -m pytest src/tests/ -x --timeout=10

契约测试：防止服务间的集成故障

契约测试验证服务消费者及其提供者是否就其API契约达成一致——而不需要两个服务同时运行。在微服务架构中特别有价值，因为那里的集成测试既缓慢又脆弱。

Pact 是消费者驱动契约测试的标准框架：

# 消费者测试（order-service 消费 user-service API）
import pytest
from pact import Consumer, Provider

@pytest.fixture
def pact(request):
    pact = Consumer('order-service').has_pact_with(Provider('user-service'))
    pact.start_service()
    yield pact
    pact.stop_service()
    pact.verify()

def test_get_user_for_order_creation(pact):
    # 定义消费者期望的内容
    (pact
        .given('user 4821 存在且处于活跃状态')
        .upon_receiving('对 user 4821 的请求')
        .with_request(
            method='GET',
            path='/v1/users/4821',
            headers={'Authorization': 'Bearer valid-token'}
        )
        .will_respond_with(
            status=200,
            headers={'Content-Type': 'application/json'},
            body={
                'id': 4821,
                'email': 'alice@example.com',
                'status': 'active',
                'subscription_tier': Like('pro')  # 这里任何字符串都可以接受
            }
        ))

    # 针对 Pact 模拟运行实际的消费者代码
    result = user_service_client.get_user(4821)

    assert result.id == 4821
    assert result.status == 'active'

# 提供者测试（user-service 验证其满足契约）
from pact import Verifier

def test_user_service_satisfies_order_service_contract():
    verifier = Verifier(
        provider='user-service',
        provider_base_url='http://localhost:8001'
    )

    output, _ = verifier.verify_pacts(
        './pacts/order-service-user-service.json',
        provider_states_setup_url='http://localhost:8001/pact/provider-states'
    )

    assert output == 0, "提供者未能满足消费者契约"

关键见解：消费者定义了它从提供者那里需要什么。契约被发布（到 Pact Broker 或文件系统）。提供者的 CI 针对其实际实现运行契约测试。只要契约得到满足，双方都可以独立部署。

选择合适的高级测试工具

这三种方法相互补充而非相互替代：

基于属性的测试：最适合纯函数、解析器、序列化器、算法以及任何可以比枚举示例更容易描述不变量的场景。当你从头开始编写新代码时，ROI 最高。
变异测试：最适合作为审计工具 — 在现有代码上运行以查找关键路径中的覆盖缺口。不值得在每次提交时运行；每周或每次发布运行一次就足够了。
契约测试：最适合多团队微服务环境，其中集成测试缓慢或不可靠。当服务部署是独立时，ROI 最高。

共同点：这三种方法都是让测试更加系统化、减少对开发人员个人想象力的依赖。你的bug存在于你没有想到的测试用例中。这些工具能帮助你在用户之前发现那些用例。

超越单元测试：属性测试、变异测试与契约测试

ByMichael Sun

软件工程中最被低估的技能

基于示例测试的局限性

基于属性的测试：让计算机找到你的边界情况

数据解析的基于属性的测试

变异测试：验证你的测试真的能捕获错误

变异分数及其含义

契约测试：防止服务间的集成故障

选择合适的高级测试工具

By Michael Sun

Related Post

Leave a Reply Cancel reply

You missed