28 3月 2019 • 标签 Python, 技术博文

用yield关键字创建生成器

Python使用生成器(generator) 对延迟操作提供了支持。所谓延迟操作，是指在需要的时候才产生结果，而不是立即产生结果，因此它不会在内存中创建和存储整个序列，这也是生成器的主要好处。

什么是生成器？

生成器其实是一种特殊的迭代器(iterator)，但是不需要像迭代器一样自己去实现__iter__()和__next__()方法，简单的说生成器是通过一个或多个yield表达式构成的函数，生成器是为迭代器产生数据的。如果一个函数包含yield关键字，这个函数就会变为一个生成器。生成器并不会一次返回所有结果，而是每次遇到yield关键字后返回相应结果，并保留函数当前的运行状态，等待下一次的调用。

由于生成器(generator) 自动实现了迭代器协议，而迭代器协议对很多人来说，也是一个较为抽象的概念。所以，为了更好的理解生成器，我们需要简单的梳理一下迭代器协议的概念。

迭代器协议是指：对象需要提供next方法，它要么返回迭代中的下一项，要么就引起一个StopIteration异常，以终止迭代。

可迭代对象就是：实现了迭代器协议的对象。

协议是一种约定，可迭代对象实现迭代器协议，Python的内置工具 (如for循环，sum，min，max函数等) 使用迭代器协议访问对象。

两种不同的方式提供创建生成器
- 生成器函数：使用yield关键字语句定义的常规函数就被认为是一个生成器，但而不是return语句返回结果。因为其中的区别是yield语句一次返回一个结果，在每个结果中间，挂起函数的状态，以便下次重它离开的地方继续执行。而return语句一旦退出就真的退出函数体了。
- 生成器表达式：类似于列表推导，但是生成器返回按需产生结果的一个对象，而不是一次构建一个结果列表。

我们主要说的就是如何使用yeild关键字创建的生成器。如下例子是一个关于计算斐波那契数列的生成器。其中 fibonacci 函数中我们没有用 return 关键字。你也可以看到当运行 fib = fibonacci(20) 的时候，我们打印出它的类型信息显示它返回的是一个生成器对象。如果你直接调用这个（生成器的）实例对象fib，并不会运行 fibonacci 函数中的代码。前面我们提到过，因为生成器其实是一种特殊的迭代器(iterator)，所以我们可以看到在代码最后部分只有当循环调用 next() 的时候才会真正运行其中的代码。而且用这种方式，我们可以不用担心它会使用大量的内存资源。

def fibonacci(n):  
    x, y = 0, 1
    for _ in range(n):
        yield x
        x, y = y, x + y

fib = fibonacci(20)  
print(type(fib))  
# 输出如下：
# <class 'generator'>

for _ in fib:  
    print(next(fib))
# 输出如下：
# 1
# 2
# 5
# 13
# 34
# 89
# 233
# 610
# 1597
# 4181

相反，如果不用生成器，我们用常规函数定义的话就会像下面这样写。如果我们传入的参数n值增大，返回的列表占用的空间将会显著提升，这显然是我们不希望看到的。

def fibonacci(n):  
   i, a, b = 1, 0, 1 
   L = [] 
   while i < n: 
       L.append(b) 
       a, b = b, a + b 
       i = i + 1 
   return L

fib = fibonacci(20)  
print(type(fib))

for f in fib:  
    print(f)

判断函数是否是生成器

我们可以用inspect类里的isgeneratorfunction类方法判断是否是一个生成器函数，以及使用 isgenerator类方法判断是否是一个生成器。

from inspect import isgeneratorfunction, isgenerator

print(f'fibonacci is a generator function: {isgeneratorfunction(fibonacci)}')  
print(f'fib is a generator: {isgenerator(fib)}')

# 输出如下：
# fibonacci is a generator function: True
# fib is a generator: True

应用生成器的场景与好处
- 生成器可用于产生数据流，而且并不立刻产生返回值，而是等到被需要的时候才会产生返回值，相当于一个主动拉取的过程(pull)，比如现在有一个日志文件，每行产生一条记录，对于每一条记录，不同部门的人可能处理方式不同，但是我们可以提供一个公用的、按需生成的数据流。
- 还有做爬虫的时候，爬取大量数据的时候如果使用生成器每次需要的时候执行输出也可以大大降低资源的消耗。

使用生成器的好处当然不仅限于此，让我们来看一下下面的例子，我们打算读取小说《三国演义》的所有文字内容，如果直接对文件对象调用 read() 方法，会导致不可预测的内存占用。好的方法是利用固定长度的缓冲区来不断读取文件内容。而且同时通过 yield来执行每次输出，就可以轻松实现文件读取。

from pathlib import Path

file = Path('三国演义.txt')

def read_file(fpath):  
   BLOCK_SIZE = 1024 
   with file.open(encoding='GB18030') as f: 
       while True: 
           block_content = f.read(BLOCK_SIZE) 
           if block_content: 
               yield block_content 
           else: 
               return

for c in read_file(file):  
    print(c)

Anders Wang

用yield关键字创建生成器

数据特征分析 - 帕累托分析法

Python中的迭代器与可迭代