Python 笔记 – 程序人生

Table of Contents

Ubuntu 源与 Python 版本关系

ubuntu18.04 源默认 python3.6
ubuntu20.04 源默认 python3.8
ubuntu22.04 源默认 python3.10

PyCharm 命令行执行 pip 要用国内源

例如安装 torch 可以使用清华源 -i https://pypi.tuna.tsinghua.edu.cn/simple

pip3 install torch==2.1.1 torchvision==0.16.1 torchaudio==2.1.1 xformers --index-url https://download.pytorch.org/whl/cu118 -i https://pypi.tuna.tsinghua.edu.cn/simple

不用国内源会报错：

WARNING: Retrying (Retry(total=4, connect=None, read=None, redirect=None, status=None)) after connection broken by 'NewConnectionError('<pip._vendor.urllib3.connection.HTTPSConnection object at 0x0000025A92386740>: Failed to establish a new connection: [Errno 11001] getaddrinfo failed')': /torch/

导出依赖到 requirements.tx

# 推荐使用 pipreqs 替代 pip freeze，它通过扫描源码中的 import 语句来生成依赖列表，能有效剔除未使用的库
# 参数解释：
# ./：扫描当前目录下的源代码。
# --encoding=utf-8：指定文件编码，防止中文注释报错。
# --ignore .venv：关键参数。排除虚拟环境目录，避免扫描到环境中安装的海量第三方库。
# --force：强制覆盖已存在的 requirements.txt 文件。
pipreqs ./ --encoding=utf-8 --ignore .venv --force

# 会把当前虚拟环境中所有安装过的库全导出来，包括那些你曾经测试过但最终没用上的库，甚至包括一些开发工具
pip freeze > requirements.txt

避坑指南：
pipreqs 工具无法检测隐式依赖（即代码中未直接 import 但运行必须的库，如 gunicorn、uvicorn 或某些数据库驱动）。生成文件后，请务必检查并手动补全这些库。

导出/安装离线包

一般用于客户的生产环境没有互联网，无法在现场 pip install，只能把依赖包提前下载成 .whl 文件的场景。

# 导出离线包到 packages 目录。
# 注：需根据你系统的 Python 版本替换 3.11.2，根据架构替换 x86_64 或 aarch64。
pip download -r requirements.txt -d ./packages --platform manylinux2014_x86_64 --python-version 3.11.2 --only-binary=:all:

# 安装离线包（告诉 pip 从本地文件夹安装，不去请求网络）
pip install --no-cache-dir --no-index --find-links=./packages -r requirements.txt

Nuitka 代码保护

Nuitka是一个将Python代码编译成高效原生机器码的工具。它可以将Python程序打包成独立的可执行文件（如Windows上的.exe），用户无需安装Python环境即可运行。

例如将 src/main/python2/ 目录下的 .py 文件，通过 Nuitka 编译器转换成二进制的 .so 文件，然后将这些编译好的文件放回 src/main/resources/python2/ 目录。这样做的主要原因通常有两个：

代码保护/混淆：.so 文件是编译后的二进制文件，比纯文本的 .py 文件更难被阅读和反向工程，可以有效保护源代码中的知识产权。
性能提升：Nuitka 将 Python 代码编译成 C 级别的代码，对于计算密集型任务，可能会带来显著的性能提升。

Python2.7编码基础

在 Python 2.7 中，字符串变量默认使用 str 类型，而不是 unicode 类型。这是 Python 2 和 Python 3 的一个显著区别。网络字节流转换成

str 类型时，Python2.7 并不会自动识别或处理编码。网络字节流在传输时只是字节数据，编码方式由发送方和接收方约定。

encode/decode/unicode/python脚本文件编码

# 字符串通过编码成为字节码
str1 = "张三"
bytes = str1.decode(encoding="utf-8")

# 字节码通过解码成为字符串
str2 = bytes.encode(encoding="utf-8")
print str2

写代码时，在字符串前加 u，表示这是 unicode 字符串（未编码），说的准确点就是字节码，用十六进制表示就是这串 \u674e\u56db：

用 unicode 在线解码工具也可以验证这点：

另外，对于 Python2.x 版本开头一般会加 coding: utf-8，表示声明 python 代码的文本格式是 utf-8 编码的，即告诉 python 解释器要按照 utf-8 编码的方式来读取程序，因为在 Python2.x 的版本中，文本默认采用的是 ASCII 编码，而Python3.x 的版本中，默认使用的就是 UTF-8 编码格式，所以就不需要在前面进行声明了。

客户现场多台天融信设备采集乱码问题

采集脚本是 python2.7，通过账号1执行 show running 采集到的配置存于变量 var1，通过账号2执行 firewall policy show 采集到的配置存于变量 var2，两个变量需要合并成一个然后保存到文件系统，但 var1 和 var2 里字符串的编码却不一样，一个是 gb2312，另一个是utf-8。测试第二台时 var1 和 var2 里编码却正好相反，没有任何规律。解决办法是先后尝试decode gb2312和utf-8（如：var1.decode(‘gb2312’) 和 var2.decode(‘utf-8’)）到unicode ，只要其中一个 decode 不报错说明就是那种编码，var1和var2都是这么处理来统一到 unicode，最后用客户前端UI选择的编码来编码unicode，保存到文件系统。

以上操作后，现场4台设备的采集不再乱码（包括地址对象名等和策略名）。但剩余2台还是出现了乱码，经查问题出在 show running 的 var1变量，它的字符串编码既不是 utf-8，也不是 gb2312，因为 decode都报错。解决办法：var1.decode(‘gb2312′,’ignore’) ，对就是加个 ignore，不幸的是采集后还是乱码，改成 var1.decode(‘utf-8′,’ignore’) 后问题得以解决。为此将自定义采集脚本分成了 topsec-tos-utf8.py 和 topsec-tos-gb2312.py 两个，在变量中有特殊字符导致无法 decode 出编码时，客户只能两个自定义脚本都试一下。