Skip to main content

文件读写

open()方法

函数用于文件的读写操作。一般我们会在操作文件时,引入 os 模块(os 模块的用法参考“常用模块”一节的内容)。

import os

open() 函数常常配合 with 语法块进行使用,它会在语法块结束时自动关闭文件。该函数:

open(file, mode="r", encoding=None)  
  • file:包含文件名的路径(传入基于当前目录的相对路径,传入或者绝对路径)
  • mode:参数是读写操作方式;
  • encoding:编码类型,一般取 ”utf8”

其中,读写操作方式常用的有:

t文本模式 (默认)。
x写模式,新建一个文件,如果该文件已存在则会报错。
b二进制模式。
+打开一个文件进行更新(可读可写)。
U通用换行模式(不推荐)。
r以只读方式打开文件。文件的指针将会放在文件的开头。这是默认模式。
rb以二进制格式打开一个文件用于只读。文件指针将会放在文件的开头。这是默认模式。一般用于非文本文件如图片等。
r+打开一个文件用于读写。文件指针将会放在文件的开头。
rb+以二进制格式打开一个文件用于读写。文件指针将会放在文件的开头。一般用于非文本文件如图片等。
w打开一个文件只用于写入。如果该文件已存在则打开文件,并从开头开始编辑,即原有内容会被删除。如果该文件不存在,创建新文件。
wb以二进制格式打开一个文件只用于写入。如果该文件已存在则打开文件,并从开头开始编辑,即原有内容会被删除。如果该文件不存在,创建新文件。一般用于非文本文件如图片等。
w+打开一个文件用于读写。如果该文件已存在则打开文件,并从开头开始编辑,即原有内容会被删除。如果该文件不存在,创建新文件。
wb+以二进制格式打开一个文件用于读写。如果该文件已存在则打开文件,并从开头开始编辑,即原有内容会被删除。如果该文件不存在,创建新文件。一般用于非文本文件如图片等。
a打开一个文件用于追加。如果该文件已存在,文件指针将会放在文件的结尾。也就是说,新的内容将会被写入到已有内容之后。如果该文件不存在,创建新文件进行写入。
ab以二进制格式打开一个文件用于追加。如果该文件已存在,文件指针将会放在文件的结尾。也就是说,新的内容将会被写入到已有内容之后。如果该文件不存在,创建新文件进行写入。
a+打开一个文件用于读写。如果该文件已存在,文件指针将会放在文件的结尾。文件打开时会是追加模式。如果该文件不存在,创建新文件用于读写。
ab+以二进制格式打开一个文件用于追加。如果该文件已存在,文件指针将会放在文件的结尾。如果该文件不存在,创建新文件用于读写。

圖表總結:

模式rr+ww+aa+
++++
+++++
创建++++
覆盖++
指针在开始++++
指针在结尾++

close()方法

File 对象的 close()方法刷新缓冲区里任何还没写入的信息,并关闭该文件,这之后便不能再进行写入。

当一个文件对象的引用被重新指定给另一个文件时,Python 会关闭之前的文件。

f.close()

擴展:

open()的完整的语法格式:

open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None)

参数说明:

  • file: 必需,文件路径(相对或者绝对路径)。
  • mode: 可选,文件打开模式
  • buffering: 设置缓冲
  • encoding: 一般使用utf8
  • errors: 报错级别
  • newline: 区分换行符
  • closefd: 传入的file参数类型
  • opener: 设置自定义开启器,开启器的返回值必须是一个打开的文件描述符。

上下文管理器

读写文件时,如果一个文件被打开,且未被正常关闭,可能会出现一些意想不到的结果。

Python提供了上下文管理器的机制来解决这个问题,它通常与关键字with一起使用。

with open('my_file', 'w') as fp:
# do stuff with fp
data = fp.write("Hello world")

File对象的属性

一个文件被打开后,你有一个file对象,你可以得到有关该文件的各种信息。

以下是和file对象相关的所有属性的列表:

file 对象

file 对象使用 open 函数来创建,下表列出了 file 对象常用的函数:

序号方法及描述
1file.close()关闭文件。关闭后文件不能再进行读写操作。
2file.flush()刷新文件内部缓冲,直接把内部缓冲区的数据立刻写入文件, 而不是被动的等待输出缓冲区写入。
3file.fileno()返回一个整型的文件描述符(file descriptor FD 整型), 可以用在如os模块的read方法等一些底层操作上。
4file.isatty()如果文件连接到一个终端设备返回 True,否则返回 False。
5file.next()返回文件下一行。
6file.read([size])从文件读取指定的字节数,如果未给定或为负则读取所有。
7file.readline([size])读取整行,包括 "\n" 字符。
8file.readlines([sizeint])读取所有行并返回列表,若给定sizeint>0,则是设置一次读多少字节,这是为了减轻读取压力。
9file.seek(offset[, whence])设置文件当前位置
10file.tell()返回文件当前位置。
11file.truncate([size])截取文件,截取的字节通过size指定,默认为当前文件位置。
12file.write(str)将字符串写入文件,返回的是写入的字符长度。
13file.writelines(sequence)向文件写入一个序列字符串列表,如果需要换行则要自己加入每行的换行符。
# 打开一个文件
fo = open("foo.txt", "w")
print "文件名: ", fo.name
print "是否已关闭 : ", fo.closed
print "访问模式 : ", fo.mode
print "末尾是否强制加空格 : ", fo.softspace
#
文件名: foo.txt
是否已关闭 : False
访问模式 : w
末尾是否强制加空格 : 0

一般读写操作:read() / readlines()

函数 read() 将整个文件读为一个字符串

datapath = os.path.join(os.getcwd(), "data", "iris.data.csv")
with open(datapath, "r", encoding="utf8") as f:
rawtext = f.read()

rawtext[:200]
'5.1,3.5,1.4,0.2,Iris-setosa\n4.9,3.0,1.4,0.2,Iris-setosa\n4.7,3.2,1.3,0.2,Iris-setosa\n4.6,3.1,1.5,0.2,Iris-setosa\n5.0,3.6,1.4,0.2,Iris-setosa\n5.4,3.9,1.7,0.4,Iris-setosa\n4.6,3.4,1.4,0.3,Iris-setosa\n5.0,'

函数 readlines() 将整个文件读为一个列表,文件的每一行对应列表的一个元素。

with open(datapath, "r", encoding="utf8") as f:
rawtext = f.readlines()

rawtext[:3]
['5.1,3.5,1.4,0.2,Iris-setosa\n',
'4.9,3.0,1.4,0.2,Iris-setosa\n',
'4.7,3.2,1.3,0.2,Iris-setosa\n']

上述的 readlines() 函数实质等同于列表解析:

with open(datapath, "r", encoding="utf8") as f:
rawtext = [line for line in f]

rawtext[:3]
['5.1,3.5,1.4,0.2,Iris-setosa\n',
'4.9,3.0,1.4,0.2,Iris-setosa\n',
'4.7,3.2,1.3,0.2,Iris-setosa\n']

文件写入,使用 write() 函数。一个简单的例子:

with open(datapath, "w") as f:
f.write("Sometimes naive.")

大文件读取:readline()

如果文件比较大,使用 read()/readlines() 函数直接读入可能会占用太多内存。推荐使用函数 readline(),一种迭代器式的读取方法。

with open(datapath, "r", encoding="utf8") as f:
print(f.readline().strip())
print(f.readline().strip())
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa

你会发现两次结果是不同的,这是因为迭代器内部的“指针”向后移动了。

怎样获取 / 移动“指针”的位置呢?使用 tell() / seek() 命令。

tell()方法告诉你文件内的当前位置

seek(offset [,from])方法改变当前文件的位置

Offset:要移动的字节数。

From:指定开始移动字节的参考位置。

from參數設置:

  • 0:将文件的开头作为移动字节的参考位置。
  • 1:使用当前的位置作为参考位置。
  • 2:那么该文件的末尾将作为参考位置。
with open(datapath, "r", encoding="utf8") as f:
print(f.tell(), f.readline().strip())
print(f.tell(), f.readline().strip())
f.seek(0) # 回到文件头
print(f.tell(), f.readline().strip())
0 5.1,3.5,1.4,0.2,Iris-setosa
28 4.9,3.0,1.4,0.2,Iris-setosa
0 5.1,3.5,1.4,0.2,Iris-setosa

寫文將操作:write()

write()方法可将任何字符串写入一个打开的文件。需要重点注意的是,Python字符串可以是二进制数据,而不是仅仅是文字。

write()方法不会在字符串的结尾添加换行符('\n'):

# 打开一个文件
fo = open("foo.txt", "w")
fo.write( "www.runoob.com!\nVery good site!\n")
# 关闭打开的文件
fo.close()

$ cat foo.txt
www.runoob.com!
Very good site!

读取键盘输入

Python提供了两个内置函数从标准输入读入一行文本,默认的标准输入是键盘。如下:raw_input 和 input

raw_input函数

raw_input([prompt]) 函数从标准输入读取一个行,并返回一个字符串(去掉结尾的换行符):

str = raw_input("请输入:")
print "你输入的内容是: ", str
请输入:Hello Python!
你输入的内容是: Hello Python!

input函数

input([prompt]) 函数和 raw_input([prompt]) 函数基本类似,但是 input 可以接收一个Python表达式作为输入,并将运算结果返回。

str = input("请输入:")
print "你输入的内容是: ", str
请输入:[x*5 for x in range(2,10,2)]
你输入的内容是: [10, 20, 30, 40]