Время на прочтение
16 мин
Количество просмотров 4.1K
К старту курса по Fullstack-разработке на Python делимся заключительной частью руководства по программированию сокетов, эта часть посвящена устранению неполадок и справочным сведениям.
К концу руководства вы освоите основные функции и методы модуля Python socket, научитесь применять пользовательский класс для отправки сообщений и данных между конечными точками и работать со всем этим в собственных клиент-серверных приложениях.
Устранение проблем
Что-то будет «отказываться» работать, это неизбежно. И что тогда делать? Не переживайте, это случается с каждым. Надеемся, что с помощью этого руководства, отладчика и любимой поисковой системы вы сможете продолжить работу с частью исходного кода.
Иначе вам прямая дорога в модуль socket на Python. Обязательно прочитайте всю документацию по каждой вызываемой функции или методу. А чтобы почерпнуть какие-то идеи, загляните ещё в справочный раздел.
Иногда дело не в исходном коде. Он может быть правильным, а проблема связана с другим хостом, клиентом или сервером. Или сетью. А возможно, проводится «атака посредника», в качестве которого используется роутер, брандмауэр или какое-то другое сетевое устройство.
Для решения таких проблем нужны дополнительные инструменты. Ниже приводятся инструменты и утилиты, которые могут в этом пригодиться или хотя бы подвести к решению.
ping
Отправкой запроса проверки связи по ICMP в ping
проверяется, работает ли хост и подключён ли он к сети. Взаимодействие ping
со стеком протоколов TCP/IP прямое, поэтому его работа не зависит от каких бы то ни было приложений, запускаемых на хосте.
Вот пример запуска ping на macOS:
$ ping -c 3 127.0.0.1
PING 127.0.0.1 (127.0.0.1): 56 data bytes
64 bytes from 127.0.0.1: icmp_seq=0 ttl=64 time=0.058 ms
64 bytes from 127.0.0.1: icmp_seq=1 ttl=64 time=0.165 ms
64 bytes from 127.0.0.1: icmp_seq=2 ttl=64 time=0.164 ms
--- 127.0.0.1 ping statistics ---
3 packets transmitted, 3 packets received, 0.0% packet loss
round-trip min/avg/max/stddev = 0.058/0.129/0.165/0.050 ms
Статистика внизу может быть полезной, тчобы найти разрыв постоянного подключения и ответить на вопрос, теряются ли пакеты? Какова временнáя задержка? Можно посмотреть и время приёма-передачи.
Если между вами и другим хостом есть брандмауэр, запрос проверки связи в ping может быть запрещён. Политики соблюдения этого запрета реализуются администраторами брандмауэра, для которых обнаружение их хостов нежелательно. Если это ваш случай (и добавлены правила брандмауэра для взаимодействия хостов), убедитесь, что этими правилами также разрешается передача сообщений по ICMP между хостами.
ICMP — это протокол, применяемый в ping
, а также протокол TCP и другие более низкоуровневые протоколы, используемые для передачи сообщений об ошибках. Причина странного поведения или медленных подключений может быть в ICMP.
ICMP-сообщения идентифицируются по типу и коду. Чтобы дать вам представление о важности их информации, приведём несколько таких сообщений:
Информацию о фрагментации и ICMP-сообщениях см. в статье об обнаружении наименьшего MTU на пути следования пакета в сети. Это пример того, чтó может быть причиной странного поведения.
netstat
В разделе «Просмотр состояния сокета» вы узнали, как можно использовать netstat
для отображения информации о сокетах и их текущем состоянии. Эта утилита доступна на macOS, Linux и Windows.
В том разделе столбцы Recv-Q
и Send-Q
в выводе примера отсутствовали. В них показано количество байтов, которые хранятся в сетевых буферах и поставлены в очередь на передачу или приём, но по какой-то причине не считаны или не записаны в удалённом или локальном приложении.
То есть они остаются в ожидании в сетевых буферах, очередях ОС. Одна из причин — в приложении ограничено использование ресурсов ЦП либо нельзя вызвать socket.recv()
или socket.send()
и обработать байты. Или это проблемы с сетью, которые отражаются на передаче данных, например перегрузка сети или неисправное сетевое оборудование / кабели.
Посмотрим, сколько данных вы сможете отправить, прежде чем увидите ошибку. Попробуйте тестовый клиент с подключением к тестовому серверу и многократным вызовом socket.send()
. В тестовом сервере никогда не вызывается socket.recv()
, а лишь принимается подключение. Это становится причиной заполнения сетевых буферов на сервере, после чего в клиенте выдаётся ошибка.
Сначала запустите сервер:
$ python app-server-test.py 127.0.0.1 65432
Listening on ('127.0.0.1', 65432)
Затем, чтобы увидеть ошибку, запустите клиент:
$ python app-client-test.py 127.0.0.1 65432 binary test
Error: socket.send() blocking io exception for ('127.0.0.1', 65432):
BlockingIOError(35, 'Resource temporarily unavailable')
Вот вывод netstat
, когда в клиенте и на сервере продолжается выполнение. При этом в клиенте многократно выводится приведённое выше сообщение об ошибке:
$ netstat -an | grep 65432
Proto Recv-Q Send-Q Local Address Foreign Address (state)
tcp4 408300 0 127.0.0.1.65432 127.0.0.1.53225 ESTABLISHED
tcp4 0 269868 127.0.0.1.53225 127.0.0.1.65432 ESTABLISHED
tcp4 0 0 127.0.0.1.65432 *.* LISTEN
Первая запись — это сервер (у Local Address
порт 65432):
Proto Recv-Q Send-Q Local Address Foreign Address (state)
tcp4 408300 0 127.0.0.1.65432 127.0.0.1.53225 ESTABLISHED
Обратите внимание на 408300
в Recv-Q
.
Вторая запись — это клиент (у Foreign Address
порт 65432):
Proto Recv-Q Send-Q Local Address Foreign Address (state)
tcp4 0 269868 127.0.0.1.53225 127.0.0.1.65432 ESTABLISHED
Обратите внимание на 269868
в Send-Q
.
В клиенте, конечно, пытались записать байты, но на сервере они не считывались. Это стало причиной заполнения очереди сетевого буфера как на стороне приёма на сервере, так и на стороне отправки в клиенте.
Windows
Если работаете с Windows, обязательно ознакомьтесь с набором утилит Windows Sysinternals.
Одна из них — TCPView.exe
. Это графический netstat
для Windows. Кроме адресов, номеров портов и состояния сокета, в ней нарастающим итогом показывается число отправленных и полученных пакетов и байтов. Как и в случае с утилитой lsof
в Unix, здесь вы получаете имя и идентификатор процесса. Другие параметры отображения см. в меню.
Wireshark
Иногда нужно увидеть, что происходит при передаче по сети. Забудьте, чтó там в журнале приложения или какое значение возвращается из библиотечного вызова. Вам нужно видеть, чтó отправляется или получается в сети на самом деле. Здесь как с отладчиками: когда нужно увидеть это, они незаменимы.
Wireshark — это анализатор сетевых протоколов и приложение для захвата трафика, запускаемое на macOS, Linux, Windows и других ОС. Существует две версии: wireshark
с графическим интерфейсом и текстовая tshark
для терминала.
Захват трафика — это отличный способ понаблюдать за поведением приложения в сети и узнать: чтó, как часто и сколько в нём отправляется и получается. А ещё увидеть, когда клиент или сервер закрывается, когда в них прерывается подключение или прекращается отправка ответов. Эта информация может очень пригодиться при устранении проблем.
В интернете много хороших руководств и других ресурсов по основам использования Wireshark и TShark.
Вот пример захвата трафика в интерфейсе «внутренней петли» с помощью Wireshark:
А вот тот же пример с tshark
:
$ tshark -i lo0 'tcp port 65432'
Capturing on 'Loopback'
1 0.000000 127.0.0.1 → 127.0.0.1 TCP 68 53942 → 65432 [SYN] Seq=0 Win=65535 Len=0 MSS=16344 WS=32 TSval=940533635 TSecr=0 SACK_PERM=1
2 0.000057 127.0.0.1 → 127.0.0.1 TCP 68 65432 → 53942 [SYN, ACK] Seq=0 Ack=1 Win=65535 Len=0 MSS=16344 WS=32 TSval=940533635 TSecr=940533635 SACK_PERM=1
3 0.000068 127.0.0.1 → 127.0.0.1 TCP 56 53942 → 65432 [ACK] Seq=1 Ack=1 Win=408288 Len=0 TSval=940533635 TSecr=940533635
4 0.000075 127.0.0.1 → 127.0.0.1 TCP 56 [TCP Window Update] 65432 → 53942 [ACK] Seq=1 Ack=1 Win=408288 Len=0 TSval=940533635 TSecr=940533635
5 0.000216 127.0.0.1 → 127.0.0.1 TCP 202 53942 → 65432 [PSH, ACK] Seq=1 Ack=1 Win=408288 Len=146 TSval=940533635 TSecr=940533635
6 0.000234 127.0.0.1 → 127.0.0.1 TCP 56 65432 → 53942 [ACK] Seq=1 Ack=147 Win=408128 Len=0 TSval=940533635 TSecr=940533635
7 0.000627 127.0.0.1 → 127.0.0.1 TCP 204 65432 → 53942 [PSH, ACK] Seq=1 Ack=147 Win=408128 Len=148 TSval=940533635 TSecr=940533635
8 0.000649 127.0.0.1 → 127.0.0.1 TCP 56 53942 → 65432 [ACK] Seq=147 Ack=149 Win=408128 Len=0 TSval=940533635 TSecr=940533635
9 0.000668 127.0.0.1 → 127.0.0.1 TCP 56 65432 → 53942 [FIN, ACK] Seq=149 Ack=147 Win=408128 Len=0 TSval=940533635 TSecr=940533635
10 0.000682 127.0.0.1 → 127.0.0.1 TCP 56 53942 → 65432 [ACK] Seq=147 Ack=150 Win=408128 Len=0 TSval=940533635 TSecr=940533635
11 0.000687 127.0.0.1 → 127.0.0.1 TCP 56 [TCP Dup ACK 6#1] 65432 → 53942 [ACK] Seq=150 Ack=147 Win=408128 Len=0 TSval=940533635 TSecr=940533635
12 0.000848 127.0.0.1 → 127.0.0.1 TCP 56 53942 → 65432 [FIN, ACK] Seq=147 Ack=150 Win=408128 Len=0 TSval=940533635 TSecr=940533635
13 0.001004 127.0.0.1 → 127.0.0.1 TCP 56 65432 → 53942 [ACK] Seq=150 Ack=148 Win=408128 Len=0 TSval=940533635 TSecr=940533635
^C13 packets captured
Далее приводим вам в помощь справочные материалы по программированию сокетов.
Справочный раздел
Этот раздел может использоваться в качестве справочника общего содержания с дополнительной информацией и ссылками на внешние ресурсы.
Документация Python
- Модуль socket.
- Практическое руководство по программированию сокетов.
Ошибки
Следующее взято из документации к модулю socket
на Python:
«Все ошибки сопровождаются вызовом исключений. При недопустимых типах аргументов и нехватке памяти могут вызываться обычные исключения. Начиная с Python 3.3 ошибки, связанные с семантикой сокетов или адресов, сопровождаются вызовом
OSError
или одного из его подклассов». (Источник).
Вот типичные ошибки, с которыми вы можете столкнуться при работе с сокетами:
Семейства адресов сокетов
socket.AF_INET
и socket.AF_INET6
— это семейства адресов и протоколов для первого аргумента в socket.socket()
. В API предполагается адрес определённого формата — в зависимости от того, создан сокет с помощью socket.AF_INET
или socket.AF_INET6
.
Ниже приведена выдержка из документации Python к модулю socket о значении host
в кортеже адресов:
«Для IPv4-адресов вместо адреса хоста принимаются две специальные формы: пустая строка — это
INADDR_ANY
, а строка'<broadcast>'
— этоINADDR_BROADCAST
. Такое поведение несовместимо с IPv6, так что они вам, возможно, не понадобятся, если вы намерены поддерживать IPv6 в своих программах на Python». (Источник)
Подробнее см. в документации по семействам сокетов на Python.
В этом руководстве применяются сокеты IPv4. Если в вашей сети поддерживается IPv6, попробуйте по возможности протестировать и использовать эту версию. Это легко делается с функцией socket.getaddrinfo(). Её аргументы host
и port
преобразуются в последовательность из пяти кортежей со всеми аргументами, необходимыми для создания сокета, подключённого к этому сервису. В socket.getaddrinfo()
принимаются и интерпретируются переданные IPv6-адреса и имена хостов, которые разрешаются не только в IPv4, но и в IPv6-адреса.
В следующем примере возвращается информация об адресе для TCP-подключения к example.org
в порте 80
:
>>> socket.getaddrinfo("example.org", 80, proto=socket.IPPROTO_TCP)
[(<AddressFamily.AF_INET6: 10>, <SocketType.SOCK_STREAM: 1>,
6, '', ('2606:2800:220:1:248:1893:25c8:1946', 80, 0, 0)),
(<AddressFamily.AF_INET: 2>, <SocketType.SOCK_STREAM: 1>,
6, '', ('93.184.216.34', 80))]
На вашем компьютере результаты могут отличаться, если IPv6 не включена. Возвращаемые выше значения можно передавать в socket.socket()
и socket.connect()
. В документации Python к модулю socket, в разделе с примерами, содержится пример клиента и сервера.
Использование имён хостов
Кстати, этот раздел примени́м в основном к использованию имён хостов с .bind()
и .connect()
или .connect_ex()
, когда задействуется интерфейс «внутренней петли» (localhost). Но примени́м он и в любой момент, когда вы используете имя хоста и ожидается его разрешение в определённый адрес. Причём имя хоста имеет особое значение для приложения, что отражается на его поведении или делаемых в нём допущениях. Это отличается от типичного сценария, когда в клиенте имя хоста используется для подключения к серверу, разрешённому при помощи DNS, например www.example.com.
Следующее взято из документации к модулю socket
на Python:
«Если использовать имя хоста в хостовой части адреса сокета IPv4/v6, в программе может проявиться недетерминированное поведение, поскольку в Python используется первый адрес, возвращаемый из DNS-разрешения. Адрес сокета будет разрешён в фактический адрес IPv4/v6 по-разному в зависимости от результатов из DNS-разрешения и/или конфигурации хоста. Для детерминированного поведения используйте в хостовой части числовой адрес». (Источник).
Стандартным именем localhost предусматривается его разрешение в 127.0.0.1
или ::1
, интерфейс «внутренней петли». В вашей системе наверняка так и будет. А может, и нет. Это зависит от того, как она сконфигурирована для разрешения имён. Как и во всём, что связано с ИТ, всегда имеются исключения, и нет никаких гарантий, что при использовании имени localhost произойдёт подключение к интерфейсу «внутренней петли».
Например, на Linux см. файл конфигурации man nsswitch.conf
диспетчера службы имён. На macOS и Linux стóит ещё заглянуть в файл /etc/hosts
. На Windows см. C:WindowsSystem32driversetchosts
. В файле hosts
имеется статическая таблица сопоставления имён и адресов в простом текстовом формате. DNS — это совершенно иная часть пазла.
Примечательно, что с июня 2018 года существует черновой вариант RFC Let ‘localhost’ be localhost («Пусть ‘localhost’ будет localhost»), где обсуждаются соглашения, допущения и вопросы безопасности, связанные с применением имени localhost.
Важно понимать: когда в приложении используются имена хостов, в качестве адресов может возвращаться буквально всё что угодно. Не делайте допущений относительно имени, если в приложении важна безопасность. Представляет это повод для беспокойства или нет — зависит от приложения и окружения.
Даже если в приложении важность безопасности неочевидна, соответствующие рекомендации всё равно применяются. Если в приложении имеется доступ к сети, оно должно сопровождаться и быть защищено. То есть это как минимум:
- Регулярные обновления системного ПО и исправления уязвимостей, в том числе на Python. Обязательно также проверяйте и обновляйте любые сторонние библиотеки.
- Чтобы подключаться только к доверенным системам, по возможности используйте выделенный брандмауэр или межсетевой экран узлов.
- Какие DNS-серверы сконфигурированы? Вы доверяете им и их администраторам?
- Убедитесь, что данные запроса максимально очищены и проверены, прежде чем вызывать другой код, в котором они обрабатываются. Используйте для этого фаззинг-тесты и запускайте их регулярно.
Независимо от того, используете вы имена хостов или нет, если в приложении нужна поддержка безопасных подключений через шифрование и аутентификацию, то вам, вероятно, стóит попробовать TLS. Но это — тема отдельной статьи и в настоящем руководстве не рассматривается. Чтобы начать с ним работу, см. документацию по модулю ssl на Python. Это тот же протокол, который применяется в браузерах для безопасного подключения к сайтам.
Интерфейсы, IP-адреса, разрешения имён… Переменных много. Что же делать? Если у вас нет процесса рассмотрения сетевых приложений, используйте эти рекомендации:
Для клиентов или серверов, если нужно аутентифицировать хост, к которому подключаетесь, стóит попробовать TLS.
Блокирующие вызовы
Блокирующий вызов — это функция или метод сокета, на которых работа приложения временно приостанавливается. Например, .accept()
, .connect()
, .send()
и .recv()
блокируются, то есть немедленного возвращения в них не происходит. Прежде чем от блокирующих вызовов возвращается значение, они находятся в ожидании завершения системных (ввод-вывод). Поэтому источник вызова блокируется до их завершения, или истечения тайм-аута, или возникновения другой ошибки.
Чтобы в блокирующих вызовах сокетов происходило немедленное возвращение значений, такие вызовы можно настроить на неблокируемый режим. При этом, чтобы обрабатывать готовую операцию сокета, нужно как минимум провести рефакторинг или перепроектирование приложения.
Поскольку в вызове значения возвращаются немедленно, данные могут быть не готовы. Вызываемая сторона находится в сети в ожидании — ей не хватило времени завершить свою работу. В этом случае текущий статус — это errno
-значение socket.EWOULDBLOCK
. Неблокируемый режим поддерживается с помощью .setblocking().
По умолчанию сокеты всегда создаются в блокируемом режиме. Описание трёх режимов см. в примечаниях по тайм-аутам сокетов.
Закрытие подключений
В TCP примечательно то, что в клиенте или на сервере совершенно допустимо закрывать свою сторону подключения, пока другая остаётся открытой. Это называется «полуоткрытым» подключением. Желательно оно или нет — решается в приложении. Вообще говоря, нежелательно. В этом состоянии со стороны, чей конец подключения закрыт, данные больше отправляться не смогут. Они будут только приниматься.
Этот подход рекомендуется не как обязательный, но в HTTP в качестве примера используется заголовок с именем Connection для стандартизации того, как в приложениях должны закрываться или сохраняться открытыми подключения. Подробнее см. в разделе 6.3 RFC 7230 о протоколе передачи гипертекста (HTTP/1.1), синтаксисе и маршрутизации сообщений.
При разработке и написании приложения и его протокола прикладного уровня рекомендуется заранее продумать закрытие подключений. Иногда это просто и очевидно, а иногда могут потребоваться создание прототипов и предварительное тестирование. Всё зависит от приложения и от того, как обрабатывается цикл сообщений с ожидаемыми данными. Просто убедитесь, что сокеты всегда своевременно закрываются после завершения работы.
Порядок следования байтов
Подробнее о том, как порядок байтов хранится в памяти разных ЦП, см. в соответствующей статье «Википедии». При интерпретации отдельных байтов это не проблема. Но при обработке нескольких байтов, считываемых и обрабатываемых как одно значение, например 4-байтовое целое число, порядок байтов нужно изменить на противоположный, если взаимодействовать с компьютером, на котором другой порядок следования байтов.
Порядок байтов важен и для текстовых строк, представленных в виде многобайтовых последовательностей, таких как «Юникод». Если только вы не используете всегда true, строгий ASCII и не контролируете реализацию клиента и сервера, вам наверняка лучше использовать «Юникод» с кодировкой вроде UTF-8 или той, которой поддерживается маркер последовательности байтов.
Важно явно определить кодировку, применяемую в протоколе прикладного уровня. Это можно сделать, установив в качестве обязательной для всего текста UTF-8 или использовав заголовок content-encoding, в котором эта кодировка указана. Так приложение избавляется от необходимости определять кодировку, которую по возможности следует избегать.
Это становится проблематичным, когда имеются данные, которые хранятся в файлах или базе данных, и недоступны метаданные, в которых указана их кодировка. Когда данные передаются на другую конечную точку, в ней придётся попробовать определить кодировку. Идеи для обсуждения см. в статье «Википедии» о «Юникоде», в которой упоминается о RFC 3629: UTF-8, формат преобразования ISO 10646:
«Однако в RFC 3629 (стандарт UTF-8) рекомендуется запрещать маркер последовательности байтов в протоколах с UTF-8, но обсуждаются случаи, когда это бывает невозможно. Кроме того, под большим ограничением на возможные шаблоны в UTF-8 (например, не может быть одиночных байтов с установленным старшим битом) подразумевается, что должна быть возможность отличать UTF-8 от других кодировок символов без применения маркера последовательности байтов». (Источник).
А вывод из этого такой: всегда сохранять кодировку, используемую для обрабатываемых в приложении данных, если она может меняться. То есть пытаться каким-то образом сохранять кодировку в виде метаданных, если это не всегда UTF-8 или какая-то другая кодировка с маркером последовательности байтов. Затем можно отправить её в заголовке вместе с данными, чтобы сообщить получателю, что это такое.
В TCP/IP применяется обратный порядок байтов, который называется сетевым. Сетевой порядок используется для представления целых чисел на нижних уровнях стека протоколов, таких как IP-адреса и номера портов. В модуль socket на Python включены функции, в которых целые числа преобразуются в порядок байтов сети и хоста и обратно:
Кроме того, чтобы с помощью строк формата упаковывать и распаковывать двоичные данные, можно использовать модуль struct:
import struct
network_byteorder_int = struct.pack('>H', 256)
python_int = struct.unpack('>H', network_byteorder_int)[0]
Заключение
В этом руководстве рассмотрено много вопросов! Сети и сокеты — это большие темы. Если они вам в новинку, пусть вас не смущают все эти термины и сокращения.
Чтобы понять, как здесь всё сочетается, нужно ознакомиться с кучей подробностей. Но в Python начинаешь лучше понимать целое, осваивая отдельные части и проводя с ними больше времени. Теперь вы можете задействовать свой пользовательский класс и, опираясь на него, проще и быстрее создавать собственные приложения с сокетами.
Ознакомиться с примерами можно по ссылке ниже:
исходный код из руководства для примеров в этом руководстве.
Поздравляем с тем, что добрались до конца! Вы уже готовы применять сокеты в собственных приложениях. Желаю вам успехов в разработке сокетов.
Научим вас аккуратно работать с данными, чтобы вы прокачали карьеру и стали востребованным IT-специалистом. Новогодняя акция — скидки до 50% по промокоду HABR:
- Профессия Fullstack-разработчик на Python (16 месяцев)
- Профессия Data Scientist (24 месяца)
В разделе рассмотрены ошибки и исключения, определяемые модулем socket
, а так же возможные причины их возникновения.
Содержание:
socket.error
устарело, псевдонимOSError
,socket.herror
ошибки функцийgethostbyname_ex()
иgethostbyaddr()
,socket.gaierror
ошибки функцийgetaddrinfo()
иgetnameinfo()
,socket.timeout
ошибки функцийsettimeout()
иsetdefaulttimeout()
.
socket.error
:
Исключение socket.error
устаревший псевдоним исключения OSError
.
socket.herror
:
Исключение socket.herror
являющееся подклассом исключения OSError
, возникает для ошибок, связанных с адресом, то есть для функций, использующих h_errno
в POSIX C API, включая функции socket.gethostbyname_ex()
и socket.gethostbyaddr()
.
Сопутствующее значение — это кортеж (h_errno, string)
, представляющая ошибку, возвращаемую вызовом библиотеки. Значение h_errno
— это числовое значение, в то время как string
представляет описание h_errno
, возвращаемое функцией hstrerror()
языка C.
socket.gaierror
:
Исключение socket.gaierror
являющееся подклассом исключения OSError
, возникает для ошибок, связанных с адресом, в функциях socket.getaddrinfo()
и socket.getnameinfo()
.
Сопутствующее значение — это парный кортеж (error, string)
, представляющая ошибку и возвращаемую вызовом библиотеки. Строка string
представляет собой описание ошибки error
, возвращаемое функцией gai_strerror()
языка C. Числовое значение ошибки будет соответствовать одной из констант socket.EAI_*
, определенных в модуле socket
.
socket.timeout
:
Исключение socket.timeout
являющееся подклассом исключения OSError
, возникает когда в сокете происходит тайм-аут, для которого были включены тайм-ауты с помощью предыдущего вызова Socket.settimeout()
или неявно через функцию socket.setdefaulttimeout()
.
Сопутствующее значение представляет собой строку, значение которой в настоящее время всегда: «timed out”.
Изменено в Python 3.10: этот класс стал псевдонимом TimeoutError
.
I have noticed while programming a TCP server in Python that there are some errors that happen in different conditions when one end or the other stops unexpectedly.
For example, sometimes I got «Pipe broken» (errno.EPIPE
) and sometimes «connection aborted» (errno.CONNABORTED
or errno.WSAECONNABORTED
). There’s also the thing that across OSs the codes are not the same, but I guess Python’s errno
module handles that.
I searched a lot for a list of the meanings of the error codes of socket connection, without finding what I was looking for.
What I’ve got until now is something like:
try:
# write or read operation
except socket.error as e:
if e.errno in (errno.EPIPE, errno.ECONNABORTED, errno.WSAECONNABORTED):
print 'Connection lost with server...'
Until now, everything was working smoothly, and even before adding the last one, I had a problem on Windows, and added it, so I’m afraid there might be some cases I did not handle. Also, sometimes, it just didn’t throw an error and kept reading empty lines (with recv
), and Bad file descriptor, etc.
Does the SocketServer
class provide such a thing? Or TCP connections in general?
Source code: Lib/socket.py
This module provides access to the BSD socket interface. It is available on
all modern Unix systems, Windows, MacOS, and probably additional platforms.
Note
Some behavior may be platform dependent, since calls are made to the operating
system socket APIs.
The Python interface is a straightforward transliteration of the Unix system
call and library interface for sockets to Python’s object-oriented style: the
socket()
function returns a socket object whose methods implement
the various socket system calls. Parameter types are somewhat higher-level than
in the C interface: as with read()
and write()
operations on Python
files, buffer allocation on receive operations is automatic, and buffer length
is implicit on send operations.
See also
- Module
socketserver
- Classes that simplify writing network servers.
- Module
ssl
- A TLS/SSL wrapper for socket objects.
18.1.1. Socket families¶
Depending on the system and the build options, various socket families
are supported by this module.
The address format required by a particular socket object is automatically
selected based on the address family specified when the socket object was
created. Socket addresses are represented as follows:
-
The address of an
AF_UNIX
socket bound to a file system node
is represented as a string, using the file system encoding and the
'surrogateescape'
error handler (see PEP 383). An address in
Linux’s abstract namespace is returned as a bytes-like object with
an initial null byte; note that sockets in this namespace can
communicate with normal file system sockets, so programs intended to
run on Linux may need to deal with both types of address. A string or
bytes-like object can be used for either type of address when
passing it as an argument.Changed in version 3.3: Previously,
AF_UNIX
socket paths were assumed to use UTF-8
encoding.
-
A pair
(host, port)
is used for theAF_INET
address family,
where host is a string representing either a hostname in Internet domain
notation like'daring.cwi.nl'
or an IPv4 address like'100.50.200.5'
,
and port is an integer. -
For
AF_INET6
address family, a four-tuple(host, port, flowinfo,
is used, where flowinfo and scopeid represent the
scopeid)sin6_flowinfo
andsin6_scope_id
members instruct sockaddr_in6
in C. For
socket
module methods, flowinfo and scopeid can be omitted just for
backward compatibility. Note, however, omission of scopeid can cause problems
in manipulating scoped IPv6 addresses. -
AF_NETLINK
sockets are represented as pairs(pid, groups)
. -
Linux-only support for TIPC is available using the
AF_TIPC
address family. TIPC is an open, non-IP based networked protocol designed
for use in clustered computer environments. Addresses are represented by a
tuple, and the fields depend on the address type. The general tuple form is
(addr_type, v1, v2, v3 [, scope])
, where:-
addr_type is one of
TIPC_ADDR_NAMESEQ
,TIPC_ADDR_NAME
,
orTIPC_ADDR_ID
. -
scope is one of
TIPC_ZONE_SCOPE
,TIPC_CLUSTER_SCOPE
, and
TIPC_NODE_SCOPE
. -
If addr_type is
TIPC_ADDR_NAME
, then v1 is the server type, v2 is
the port identifier, and v3 should be 0.If addr_type is
TIPC_ADDR_NAMESEQ
, then v1 is the server type, v2
is the lower port number, and v3 is the upper port number.If addr_type is
TIPC_ADDR_ID
, then v1 is the node, v2 is the
reference, and v3 should be set to 0.
-
-
A tuple
(interface, )
is used for theAF_CAN
address family,
where interface is a string representing a network interface name like
'can0'
. The network interface name''
can be used to receive packets
from all network interfaces of this family. -
A string or a tuple
(id, unit)
is used for theSYSPROTO_CONTROL
protocol of thePF_SYSTEM
family. The string is the name of a
kernel control using a dynamically-assigned ID. The tuple can be used if ID
and unit number of the kernel control are known or if a registered ID is
used.New in version 3.3.
-
AF_BLUETOOTH
supports the following protocols and address
formats:-
BTPROTO_L2CAP
accepts(bdaddr, psm)
wherebdaddr
is
the Bluetooth address as a string andpsm
is an integer. -
BTPROTO_RFCOMM
accepts(bdaddr, channel)
wherebdaddr
is the Bluetooth address as a string andchannel
is an integer. -
BTPROTO_HCI
accepts(device_id,)
wheredevice_id
is
either an integer or a string with the Bluetooth address of the
interface. (This depends on your OS; NetBSD and DragonFlyBSD expect
a Bluetooth address while everything else expects an integer.)Changed in version 3.2: NetBSD and DragonFlyBSD support added.
-
BTPROTO_SCO
acceptsbdaddr
wherebdaddr
is a
bytes
object containing the Bluetooth address in a
string format. (ex.b'12:23:34:45:56:67'
) This protocol is not
supported under FreeBSD.
-
-
AF_ALG
is a Linux-only socket based interface to Kernel
cryptography. An algorithm socket is configured with a tuple of two to four
elements(type, name [, feat [, mask]])
, where:- type is the algorithm type as string, e.g.
aead
,hash
,
skcipher
orrng
. - name is the algorithm name and operation mode as string, e.g.
sha256
,hmac(sha256)
,cbc(aes)
ordrbg_nopr_ctr_aes256
. - feat and mask are unsigned 32bit integers.
Availability Linux 2.6.38, some algorithm types require more recent Kernels.
New in version 3.6.
- type is the algorithm type as string, e.g.
-
Certain other address families (
AF_PACKET
,AF_CAN
)
support specific representations.
For IPv4 addresses, two special forms are accepted instead of a host address:
the empty string represents INADDR_ANY
, and the string
'<broadcast>'
represents INADDR_BROADCAST
. This behavior is not
compatible with IPv6, therefore, you may want to avoid these if you intend
to support IPv6 with your Python programs.
If you use a hostname in the host portion of IPv4/v6 socket address, the
program may show a nondeterministic behavior, as Python uses the first address
returned from the DNS resolution. The socket address will be resolved
differently into an actual IPv4/v6 address, depending on the results from DNS
resolution and/or the host configuration. For deterministic behavior use a
numeric address in host portion.
All errors raise exceptions. The normal exceptions for invalid argument types
and out-of-memory conditions can be raised; starting from Python 3.3, errors
related to socket or address semantics raise OSError
or one of its
subclasses (they used to raise socket.error
).
Non-blocking mode is supported through setblocking()
. A
generalization of this based on timeouts is supported through
settimeout()
.
18.1.2. Module contents¶
The module socket
exports the following elements.
18.1.2.1. Exceptions¶
-
exception
socket.
error
¶ -
A deprecated alias of
OSError
.Changed in version 3.3: Following PEP 3151, this class was made an alias of
OSError
.
-
exception
socket.
herror
¶ -
A subclass of
OSError
, this exception is raised for
address-related errors, i.e. for functions that use h_errno in the POSIX
C API, includinggethostbyname_ex()
andgethostbyaddr()
.
The accompanying value is a pair(h_errno, string)
representing an
error returned by a library call. h_errno is a numeric value, while
string represents the description of h_errno, as returned by the
hstrerror()
C function.Changed in version 3.3: This class was made a subclass of
OSError
.
-
exception
socket.
gaierror
¶ -
A subclass of
OSError
, this exception is raised for
address-related errors bygetaddrinfo()
andgetnameinfo()
.
The accompanying value is a pair(error, string)
representing an error
returned by a library call. string represents the description of
error, as returned by thegai_strerror()
C function. The
numeric error value will match one of theEAI_*
constants
defined in this module.Changed in version 3.3: This class was made a subclass of
OSError
.
-
exception
socket.
timeout
¶ -
A subclass of
OSError
, this exception is raised when a timeout
occurs on a socket which has had timeouts enabled via a prior call to
settimeout()
(or implicitly through
setdefaulttimeout()
). The accompanying value is a string
whose value is currently always “timed out”.Changed in version 3.3: This class was made a subclass of
OSError
.
18.1.2.2. Constants¶
The AF_* and SOCK_* constants are now
AddressFamily
and
SocketKind
IntEnum
collections.New in version 3.4.
-
socket.
AF_UNIX
¶ -
socket.
AF_INET
¶ -
socket.
AF_INET6
¶ -
These constants represent the address (and protocol) families, used for the
first argument tosocket()
. If theAF_UNIX
constant is not
defined then this protocol is unsupported. More constants may be available
depending on the system.
-
socket.
SOCK_STREAM
¶ -
socket.
SOCK_DGRAM
¶ -
socket.
SOCK_RAW
¶ -
socket.
SOCK_RDM
¶ -
socket.
SOCK_SEQPACKET
¶ -
These constants represent the socket types, used for the second argument to
socket()
. More constants may be available depending on the system.
(OnlySOCK_STREAM
andSOCK_DGRAM
appear to be generally
useful.)
-
socket.
SOCK_CLOEXEC
¶ -
socket.
SOCK_NONBLOCK
¶ -
These two constants, if defined, can be combined with the socket types and
allow you to set some flags atomically (thus avoiding possible race
conditions and the need for separate calls).Availability: Linux >= 2.6.27.
New in version 3.2.
-
SO_*
-
socket.
SOMAXCONN
¶ -
MSG_*
-
SOL_*
-
SCM_*
-
IPPROTO_*
-
IPPORT_*
-
INADDR_*
-
IP_*
-
IPV6_*
-
EAI_*
-
AI_*
-
NI_*
-
TCP_*
-
Many constants of these forms, documented in the Unix documentation on sockets
and/or the IP protocol, are also defined in the socket module. They are
generally used in arguments to thesetsockopt()
andgetsockopt()
methods of socket objects. In most cases, only those symbols that are defined
in the Unix header files are defined; for a few symbols, default values are
provided.Changed in version 3.6:
SO_DOMAIN
,SO_PROTOCOL
,SO_PEERSEC
,SO_PASSSEC
,
TCP_USER_TIMEOUT
,TCP_CONGESTION
were added.
-
socket.
AF_CAN
¶ -
socket.
PF_CAN
¶ -
SOL_CAN_*
-
CAN_*
-
Many constants of these forms, documented in the Linux documentation, are
also defined in the socket module.Availability: Linux >= 2.6.25.
New in version 3.3.
-
socket.
CAN_BCM
¶ -
CAN_BCM_*
-
CAN_BCM, in the CAN protocol family, is the broadcast manager (BCM) protocol.
Broadcast manager constants, documented in the Linux documentation, are also
defined in the socket module.Availability: Linux >= 2.6.25.
New in version 3.4.
-
socket.
CAN_RAW_FD_FRAMES
¶ -
Enables CAN FD support in a CAN_RAW socket. This is disabled by default.
This allows your application to send both CAN and CAN FD frames; however,
you one must accept both CAN and CAN FD frames when reading from the socket.This constant is documented in the Linux documentation.
Availability: Linux >= 3.6.
New in version 3.5.
-
socket.
AF_RDS
¶ -
socket.
PF_RDS
¶ -
socket.
SOL_RDS
¶ -
RDS_*
-
Many constants of these forms, documented in the Linux documentation, are
also defined in the socket module.Availability: Linux >= 2.6.30.
New in version 3.3.
-
socket.
SIO_RCVALL
¶ -
socket.
SIO_KEEPALIVE_VALS
¶ -
socket.
SIO_LOOPBACK_FAST_PATH
¶ -
RCVALL_*
-
Constants for Windows’ WSAIoctl(). The constants are used as arguments to the
ioctl()
method of socket objects.Changed in version 3.6:
SIO_LOOPBACK_FAST_PATH
was added.
-
TIPC_*
-
TIPC related constants, matching the ones exported by the C socket API. See
the TIPC documentation for more information.
-
socket.
AF_ALG
¶ -
socket.
SOL_ALG
¶ -
ALG_*
-
Constants for Linux Kernel cryptography.
Availability: Linux >= 2.6.38.
New in version 3.6.
-
socket.
AF_LINK
¶ -
Availability: BSD, OSX.
New in version 3.4.
-
socket.
has_ipv6
¶ -
This constant contains a boolean value which indicates if IPv6 is supported on
this platform.
-
socket.
BDADDR_ANY
¶ -
socket.
BDADDR_LOCAL
¶ -
These are string constants containing Bluetooth addresses with special
meanings. For example,BDADDR_ANY
can be used to indicate
any address when specifying the binding socket with
BTPROTO_RFCOMM
.
-
socket.
HCI_FILTER
¶ -
socket.
HCI_TIME_STAMP
¶ -
socket.
HCI_DATA_DIR
¶ -
For use with
BTPROTO_HCI
.HCI_FILTER
is not
available for NetBSD or DragonFlyBSD.HCI_TIME_STAMP
and
HCI_DATA_DIR
are not available for FreeBSD, NetBSD, or
DragonFlyBSD.
18.1.2.3. Functions¶
18.1.2.3.1. Creating sockets¶
The following functions all create socket objects.
-
socket.
socket
(family=AF_INET, type=SOCK_STREAM, proto=0, fileno=None)¶ -
Create a new socket using the given address family, socket type and protocol
number. The address family should beAF_INET
(the default),
AF_INET6
,AF_UNIX
,AF_CAN
orAF_RDS
. The
socket type should beSOCK_STREAM
(the default),
SOCK_DGRAM
,SOCK_RAW
or perhaps one of the otherSOCK_
constants. The protocol number is usually zero and may be omitted or in the
case where the address family isAF_CAN
the protocol should be one
ofCAN_RAW
orCAN_BCM
. If fileno is specified, the other
arguments are ignored, causing the socket with the specified file descriptor
to return. Unlikesocket.fromfd()
, fileno will return the same
socket and not a duplicate. This may help close a detached socket using
socket.close()
.The newly created socket is non-inheritable.
Changed in version 3.3: The AF_CAN family was added.
The AF_RDS family was added.Changed in version 3.4: The CAN_BCM protocol was added.
Changed in version 3.4: The returned socket is now non-inheritable.
-
socket.
socketpair
([family[, type[, proto]]])¶ -
Build a pair of connected socket objects using the given address family, socket
type, and protocol number. Address family, socket type, and protocol number are
as for thesocket()
function above. The default family isAF_UNIX
if defined on the platform; otherwise, the default isAF_INET
.The newly created sockets are non-inheritable.
Changed in version 3.2: The returned socket objects now support the whole socket API, rather
than a subset.Changed in version 3.4: The returned sockets are now non-inheritable.
Changed in version 3.5: Windows support added.
-
socket.
create_connection
(address[, timeout[, source_address]])¶ -
Connect to a TCP service listening on the Internet address (a 2-tuple
(host, port)
), and return the socket object. This is a higher-level
function thansocket.connect()
: if host is a non-numeric hostname,
it will try to resolve it for bothAF_INET
andAF_INET6
,
and then try to connect to all possible addresses in turn until a
connection succeeds. This makes it easy to write clients that are
compatible to both IPv4 and IPv6.Passing the optional timeout parameter will set the timeout on the
socket instance before attempting to connect. If no timeout is
supplied, the global default timeout setting returned by
getdefaulttimeout()
is used.If supplied, source_address must be a 2-tuple
(host, port)
for the
socket to bind to as its source address before connecting. If host or port
are ‘’ or 0 respectively the OS default behavior will be used.Changed in version 3.2: source_address was added.
-
socket.
fromfd
(fd, family, type, proto=0)¶ -
Duplicate the file descriptor fd (an integer as returned by a file object’s
fileno()
method) and build a socket object from the result. Address
family, socket type and protocol number are as for thesocket()
function
above. The file descriptor should refer to a socket, but this is not checked —
subsequent operations on the object may fail if the file descriptor is invalid.
This function is rarely needed, but can be used to get or set socket options on
a socket passed to a program as standard input or output (such as a server
started by the Unix inet daemon). The socket is assumed to be in blocking mode.The newly created socket is non-inheritable.
Changed in version 3.4: The returned socket is now non-inheritable.
-
socket.
fromshare
(data)¶ -
Instantiate a socket from data obtained from the
socket.share()
method. The socket is assumed to be in blocking mode.Availability: Windows.
New in version 3.3.
-
socket.
SocketType
¶ -
This is a Python type object that represents the socket object type. It is the
same astype(socket(...))
.
18.1.2.3.2. Other functions¶
The socket
module also offers various network-related services:
-
socket.
getaddrinfo
(host, port, family=0, type=0, proto=0, flags=0)¶ -
Translate the host/port argument into a sequence of 5-tuples that contain
all the necessary arguments for creating a socket connected to that service.
host is a domain name, a string representation of an IPv4/v6 address
orNone
. port is a string service name such as'http'
, a numeric
port number orNone
. By passingNone
as the value of host
and port, you can passNULL
to the underlying C API.The family, type and proto arguments can be optionally specified
in order to narrow the list of addresses returned. Passing zero as a
value for each of these arguments selects the full range of results.
The flags argument can be one or several of theAI_*
constants,
and will influence how results are computed and returned.
For example,AI_NUMERICHOST
will disable domain name resolution
and will raise an error if host is a domain name.The function returns a list of 5-tuples with the following structure:
(family, type, proto, canonname, sockaddr)
In these tuples, family, type, proto are all integers and are
meant to be passed to thesocket()
function. canonname will be
a string representing the canonical name of the host if
AI_CANONNAME
is part of the flags argument; else canonname
will be empty. sockaddr is a tuple describing a socket address, whose
format depends on the returned family (a(address, port)
2-tuple for
AF_INET
, a(address, port, flow info, scope id)
4-tuple for
AF_INET6
), and is meant to be passed to thesocket.connect()
method.The following example fetches address information for a hypothetical TCP
connection toexample.org
on port 80 (results may differ on your
system if IPv6 isn’t enabled):>>> socket.getaddrinfo("example.org", 80, proto=socket.IPPROTO_TCP) [(<AddressFamily.AF_INET6: 10>, <SocketType.SOCK_STREAM: 1>, 6, '', ('2606:2800:220:1:248:1893:25c8:1946', 80, 0, 0)), (<AddressFamily.AF_INET: 2>, <SocketType.SOCK_STREAM: 1>, 6, '', ('93.184.216.34', 80))]
Changed in version 3.2: parameters can now be passed using keyword arguments.
-
socket.
getfqdn
([name])¶ -
Return a fully qualified domain name for name. If name is omitted or empty,
it is interpreted as the local host. To find the fully qualified name, the
hostname returned bygethostbyaddr()
is checked, followed by aliases for the
host, if available. The first name which includes a period is selected. In
case no fully qualified domain name is available, the hostname as returned by
gethostname()
is returned.
-
socket.
gethostbyname
(hostname)¶ -
Translate a host name to IPv4 address format. The IPv4 address is returned as a
string, such as'100.50.200.5'
. If the host name is an IPv4 address itself
it is returned unchanged. Seegethostbyname_ex()
for a more complete
interface.gethostbyname()
does not support IPv6 name resolution, and
getaddrinfo()
should be used instead for IPv4/v6 dual stack support.
-
socket.
gethostbyname_ex
(hostname)¶ -
Translate a host name to IPv4 address format, extended interface. Return a
triple(hostname, aliaslist, ipaddrlist)
where hostname is the primary
host name responding to the given ip_address, aliaslist is a (possibly
empty) list of alternative host names for the same address, and ipaddrlist is
a list of IPv4 addresses for the same interface on the same host (often but not
always a single address).gethostbyname_ex()
does not support IPv6 name
resolution, andgetaddrinfo()
should be used instead for IPv4/v6 dual
stack support.
-
socket.
gethostname
()¶ -
Return a string containing the hostname of the machine where the Python
interpreter is currently executing.Note:
gethostname()
doesn’t always return the fully qualified domain
name; usegetfqdn()
for that.
-
socket.
gethostbyaddr
(ip_address)¶ -
Return a triple
(hostname, aliaslist, ipaddrlist)
where hostname is the
primary host name responding to the given ip_address, aliaslist is a
(possibly empty) list of alternative host names for the same address, and
ipaddrlist is a list of IPv4/v6 addresses for the same interface on the same
host (most likely containing only a single address). To find the fully qualified
domain name, use the functiongetfqdn()
.gethostbyaddr()
supports
both IPv4 and IPv6.
-
socket.
getnameinfo
(sockaddr, flags)¶ -
Translate a socket address sockaddr into a 2-tuple
(host, port)
. Depending
on the settings of flags, the result can contain a fully-qualified domain name
or numeric address representation in host. Similarly, port can contain a
string port name or a numeric port number.
-
socket.
getprotobyname
(protocolname)¶ -
Translate an Internet protocol name (for example,
'icmp'
) to a constant
suitable for passing as the (optional) third argument to thesocket()
function. This is usually only needed for sockets opened in “raw” mode
(SOCK_RAW
); for the normal socket modes, the correct protocol is chosen
automatically if the protocol is omitted or zero.
-
socket.
getservbyname
(servicename[, protocolname])¶ -
Translate an Internet service name and protocol name to a port number for that
service. The optional protocol name, if given, should be'tcp'
or
'udp'
, otherwise any protocol will match.
-
socket.
getservbyport
(port[, protocolname])¶ -
Translate an Internet port number and protocol name to a service name for that
service. The optional protocol name, if given, should be'tcp'
or
'udp'
, otherwise any protocol will match.
-
socket.
ntohl
(x)¶ -
Convert 32-bit positive integers from network to host byte order. On machines
where the host byte order is the same as network byte order, this is a no-op;
otherwise, it performs a 4-byte swap operation.
-
socket.
ntohs
(x)¶ -
Convert 16-bit positive integers from network to host byte order. On machines
where the host byte order is the same as network byte order, this is a no-op;
otherwise, it performs a 2-byte swap operation.
-
socket.
htonl
(x)¶ -
Convert 32-bit positive integers from host to network byte order. On machines
where the host byte order is the same as network byte order, this is a no-op;
otherwise, it performs a 4-byte swap operation.
-
socket.
htons
(x)¶ -
Convert 16-bit positive integers from host to network byte order. On machines
where the host byte order is the same as network byte order, this is a no-op;
otherwise, it performs a 2-byte swap operation.
-
socket.
inet_aton
(ip_string)¶ -
Convert an IPv4 address from dotted-quad string format (for example,
‘123.45.67.89’) to 32-bit packed binary format, as a bytes object four characters in
length. This is useful when conversing with a program that uses the standard C
library and needs objects of typestruct in_addr
, which is the C type
for the 32-bit packed binary this function returns.inet_aton()
also accepts strings with less than three dots; see the
Unix manual page inet(3) for details.If the IPv4 address string passed to this function is invalid,
OSError
will be raised. Note that exactly what is valid depends on
the underlying C implementation ofinet_aton()
.inet_aton()
does not support IPv6, andinet_pton()
should be used
instead for IPv4/v6 dual stack support.
-
socket.
inet_ntoa
(packed_ip)¶ -
Convert a 32-bit packed IPv4 address (a bytes-like object four
bytes in length) to its standard dotted-quad string representation (for example,
‘123.45.67.89’). This is useful when conversing with a program that uses the
standard C library and needs objects of typestruct in_addr
, which
is the C type for the 32-bit packed binary data this function takes as an
argument.If the byte sequence passed to this function is not exactly 4 bytes in
length,OSError
will be raised.inet_ntoa()
does not
support IPv6, andinet_ntop()
should be used instead for IPv4/v6 dual
stack support.
-
socket.
inet_pton
(address_family, ip_string)¶ -
Convert an IP address from its family-specific string format to a packed,
binary format.inet_pton()
is useful when a library or network protocol
calls for an object of typestruct in_addr
(similar to
inet_aton()
) orstruct in6_addr
.Supported values for address_family are currently
AF_INET
and
AF_INET6
. If the IP address string ip_string is invalid,
OSError
will be raised. Note that exactly what is valid depends on
both the value of address_family and the underlying implementation of
inet_pton()
.Availability: Unix (maybe not all platforms), Windows.
Changed in version 3.4: Windows support added
-
socket.
inet_ntop
(address_family, packed_ip)¶ -
Convert a packed IP address (a bytes-like object of some number of
bytes) to its standard, family-specific string representation (for
example,'7.10.0.5'
or'5aef:2b::8'
).
inet_ntop()
is useful when a library or network protocol returns an
object of typestruct in_addr
(similar toinet_ntoa()
) or
struct in6_addr
.Supported values for address_family are currently
AF_INET
and
AF_INET6
. If the bytes object packed_ip is not the correct
length for the specified address family,ValueError
will be raised.
OSError
is raised for errors from the call toinet_ntop()
.Availability: Unix (maybe not all platforms), Windows.
Changed in version 3.4: Windows support added
-
socket.
CMSG_LEN
(length)¶ -
Return the total length, without trailing padding, of an ancillary
data item with associated data of the given length. This value
can often be used as the buffer size forrecvmsg()
to
receive a single item of ancillary data, but RFC 3542 requires
portable applications to useCMSG_SPACE()
and thus include
space for padding, even when the item will be the last in the
buffer. RaisesOverflowError
if length is outside the
permissible range of values.Availability: most Unix platforms, possibly others.
New in version 3.3.
-
socket.
CMSG_SPACE
(length)¶ -
Return the buffer size needed for
recvmsg()
to
receive an ancillary data item with associated data of the given
length, along with any trailing padding. The buffer space needed
to receive multiple items is the sum of theCMSG_SPACE()
values for their associated data lengths. Raises
OverflowError
if length is outside the permissible range
of values.Note that some systems might support ancillary data without
providing this function. Also note that setting the buffer size
using the results of this function may not precisely limit the
amount of ancillary data that can be received, since additional
data may be able to fit into the padding area.Availability: most Unix platforms, possibly others.
New in version 3.3.
-
socket.
getdefaulttimeout
()¶ -
Return the default timeout in seconds (float) for new socket objects. A value
ofNone
indicates that new socket objects have no timeout. When the socket
module is first imported, the default isNone
.
-
socket.
setdefaulttimeout
(timeout)¶ -
Set the default timeout in seconds (float) for new socket objects. When
the socket module is first imported, the default isNone
. See
settimeout()
for possible values and their respective
meanings.
-
socket.
sethostname
(name)¶ -
Set the machine’s hostname to name. This will raise an
OSError
if you don’t have enough rights.Availability: Unix.
New in version 3.3.
-
socket.
if_nameindex
()¶ -
Return a list of network interface information
(index int, name string) tuples.
OSError
if the system call fails.Availability: Unix.
New in version 3.3.
-
socket.
if_nametoindex
(if_name)¶ -
Return a network interface index number corresponding to an
interface name.
OSError
if no interface with the given name exists.Availability: Unix.
New in version 3.3.
-
socket.
if_indextoname
(if_index)¶ -
Return a network interface name corresponding to an
interface index number.
OSError
if no interface with the given index exists.Availability: Unix.
New in version 3.3.
18.1.3. Socket Objects¶
Socket objects have the following methods. Except for
makefile()
, these correspond to Unix system calls applicable
to sockets.
Changed in version 3.2: Support for the context manager protocol was added. Exiting the
context manager is equivalent to calling close()
.
-
socket.
accept
()¶ -
Accept a connection. The socket must be bound to an address and listening for
connections. The return value is a pair(conn, address)
where conn is a
new socket object usable to send and receive data on the connection, and
address is the address bound to the socket on the other end of the connection.The newly created socket is non-inheritable.
Changed in version 3.4: The socket is now non-inheritable.
Changed in version 3.5: If the system call is interrupted and the signal handler does not raise
an exception, the method now retries the system call instead of raising
anInterruptedError
exception (see PEP 475 for the rationale).
-
socket.
bind
(address)¶ -
Bind the socket to address. The socket must not already be bound. (The format
of address depends on the address family — see above.)
-
socket.
close
()¶ -
Mark the socket closed. The underlying system resource (e.g. a file
descriptor) is also closed when all file objects frommakefile()
are closed. Once that happens, all future operations on the socket
object will fail. The remote end will receive no more data (after
queued data is flushed).Sockets are automatically closed when they are garbage-collected, but
it is recommended toclose()
them explicitly, or to use a
with
statement around them.Changed in version 3.6:
OSError
is now raised if an error occurs when the underlying
close()
call is made.Note
close()
releases the resource associated with a connection but
does not necessarily close the connection immediately. If you want
to close the connection in a timely fashion, callshutdown()
beforeclose()
.
-
socket.
connect
(address)¶ -
Connect to a remote socket at address. (The format of address depends on the
address family — see above.)If the connection is interrupted by a signal, the method waits until the
connection completes, or raise asocket.timeout
on timeout, if the
signal handler doesn’t raise an exception and the socket is blocking or has
a timeout. For non-blocking sockets, the method raises an
InterruptedError
exception if the connection is interrupted by a
signal (or the exception raised by the signal handler).Changed in version 3.5: The method now waits until the connection completes instead of raising an
InterruptedError
exception if the connection is interrupted by a
signal, the signal handler doesn’t raise an exception and the socket is
blocking or has a timeout (see the PEP 475 for the rationale).
-
socket.
connect_ex
(address)¶ -
Like
connect(address)
, but return an error indicator instead of raising an
exception for errors returned by the C-levelconnect()
call (other
problems, such as “host not found,” can still raise exceptions). The error
indicator is0
if the operation succeeded, otherwise the value of the
errno
variable. This is useful to support, for example, asynchronous
connects.
-
socket.
detach
()¶ -
Put the socket object into closed state without actually closing the
underlying file descriptor. The file descriptor is returned, and can
be reused for other purposes.New in version 3.2.
-
socket.
dup
()¶ -
Duplicate the socket.
The newly created socket is non-inheritable.
Changed in version 3.4: The socket is now non-inheritable.
-
socket.
fileno
()¶ -
Return the socket’s file descriptor (a small integer), or -1 on failure. This
is useful withselect.select()
.Under Windows the small integer returned by this method cannot be used where a
file descriptor can be used (such asos.fdopen()
). Unix does not have
this limitation.
-
socket.
get_inheritable
()¶ -
Get the inheritable flag of the socket’s file
descriptor or socket’s handle:True
if the socket can be inherited in
child processes,False
if it cannot.New in version 3.4.
-
socket.
getpeername
()¶ -
Return the remote address to which the socket is connected. This is useful to
find out the port number of a remote IPv4/v6 socket, for instance. (The format
of the address returned depends on the address family — see above.) On some
systems this function is not supported.
-
socket.
getsockname
()¶ -
Return the socket’s own address. This is useful to find out the port number of
an IPv4/v6 socket, for instance. (The format of the address returned depends on
the address family — see above.)
-
socket.
getsockopt
(level, optname[, buflen])¶ -
Return the value of the given socket option (see the Unix man page
getsockopt(2)). The needed symbolic constants (SO_*
etc.)
are defined in this module. If buflen is absent, an integer option is assumed
and its integer value is returned by the function. If buflen is present, it
specifies the maximum length of the buffer used to receive the option in, and
this buffer is returned as a bytes object. It is up to the caller to decode the
contents of the buffer (see the optional built-in modulestruct
for a way
to decode C structures encoded as byte strings).
-
socket.
gettimeout
()¶ -
Return the timeout in seconds (float) associated with socket operations,
orNone
if no timeout is set. This reflects the last call to
setblocking()
orsettimeout()
.
-
socket.
ioctl
(control, option)¶ -
Platform: Windows The
ioctl()
method is a limited interface to the WSAIoctl system
interface. Please refer to the Win32 documentation for more
information.On other platforms, the generic
fcntl.fcntl()
andfcntl.ioctl()
functions may be used; they accept a socket object as their first argument.Currently only the following control codes are supported:
SIO_RCVALL
,SIO_KEEPALIVE_VALS
, andSIO_LOOPBACK_FAST_PATH
.Changed in version 3.6:
SIO_LOOPBACK_FAST_PATH
was added.
-
socket.
listen
([backlog])¶ -
Enable a server to accept connections. If backlog is specified, it must
be at least 0 (if it is lower, it is set to 0); it specifies the number of
unaccepted connections that the system will allow before refusing new
connections. If not specified, a default reasonable value is chosen.Changed in version 3.5: The backlog parameter is now optional.
-
socket.
makefile
(mode=’r’, buffering=None, *, encoding=None, errors=None, newline=None)¶ -
Return a file object associated with the socket. The exact returned
type depends on the arguments given tomakefile()
. These arguments are
interpreted the same way as by the built-inopen()
function, except
the only supported mode values are'r'
(default),'w'
and'b'
.The socket must be in blocking mode; it can have a timeout, but the file
object’s internal buffer may end up in an inconsistent state if a timeout
occurs.Closing the file object returned by
makefile()
won’t close the
original socket unless all other file objects have been closed and
socket.close()
has been called on the socket object.Note
On Windows, the file-like object created by
makefile()
cannot be
used where a file object with a file descriptor is expected, such as the
stream arguments ofsubprocess.Popen()
.
-
socket.
recv
(bufsize[, flags])¶ -
Receive data from the socket. The return value is a bytes object representing the
data received. The maximum amount of data to be received at once is specified
by bufsize. See the Unix manual page recv(2) for the meaning of
the optional argument flags; it defaults to zero.Note
For best match with hardware and network realities, the value of bufsize
should be a relatively small power of 2, for example, 4096.Changed in version 3.5: If the system call is interrupted and the signal handler does not raise
an exception, the method now retries the system call instead of raising
anInterruptedError
exception (see PEP 475 for the rationale).
-
socket.
recvfrom
(bufsize[, flags])¶ -
Receive data from the socket. The return value is a pair
(bytes, address)
where bytes is a bytes object representing the data received and address is the
address of the socket sending the data. See the Unix manual page
recv(2) for the meaning of the optional argument flags; it defaults
to zero. (The format of address depends on the address family — see above.)Changed in version 3.5: If the system call is interrupted and the signal handler does not raise
an exception, the method now retries the system call instead of raising
anInterruptedError
exception (see PEP 475 for the rationale).
-
socket.
recvmsg
(bufsize[, ancbufsize[, flags]])¶ -
Receive normal data (up to bufsize bytes) and ancillary data from
the socket. The ancbufsize argument sets the size in bytes of
the internal buffer used to receive the ancillary data; it defaults
to 0, meaning that no ancillary data will be received. Appropriate
buffer sizes for ancillary data can be calculated using
CMSG_SPACE()
orCMSG_LEN()
, and items which do not fit
into the buffer might be truncated or discarded. The flags
argument defaults to 0 and has the same meaning as for
recv()
.The return value is a 4-tuple:
(data, ancdata, msg_flags,
. The data item is a
address)bytes
object holding the
non-ancillary data received. The ancdata item is a list of zero
or more tuples(cmsg_level, cmsg_type, cmsg_data)
representing
the ancillary data (control messages) received: cmsg_level and
cmsg_type are integers specifying the protocol level and
protocol-specific type respectively, and cmsg_data is a
bytes
object holding the associated data. The msg_flags
item is the bitwise OR of various flags indicating conditions on
the received message; see your system documentation for details.
If the receiving socket is unconnected, address is the address of
the sending socket, if available; otherwise, its value is
unspecified.On some systems,
sendmsg()
andrecvmsg()
can be used to
pass file descriptors between processes over anAF_UNIX
socket. When this facility is used (it is often restricted to
SOCK_STREAM
sockets),recvmsg()
will return, in its
ancillary data, items of the form(socket.SOL_SOCKET,
, where fds is a
socket.SCM_RIGHTS, fds)bytes
object
representing the new file descriptors as a binary array of the
native Cint
type. Ifrecvmsg()
raises an
exception after the system call returns, it will first attempt to
close any file descriptors received via this mechanism.Some systems do not indicate the truncated length of ancillary data
items which have been only partially received. If an item appears
to extend beyond the end of the buffer,recvmsg()
will issue
aRuntimeWarning
, and will return the part of it which is
inside the buffer provided it has not been truncated before the
start of its associated data.On systems which support the
SCM_RIGHTS
mechanism, the
following function will receive up to maxfds file descriptors,
returning the message data and a list containing the descriptors
(while ignoring unexpected conditions such as unrelated control
messages being received). See alsosendmsg()
.import socket, array def recv_fds(sock, msglen, maxfds): fds = array.array("i") # Array of ints msg, ancdata, flags, addr = sock.recvmsg(msglen, socket.CMSG_LEN(maxfds * fds.itemsize)) for cmsg_level, cmsg_type, cmsg_data in ancdata: if (cmsg_level == socket.SOL_SOCKET and cmsg_type == socket.SCM_RIGHTS): # Append data, ignoring any truncated integers at the end. fds.fromstring(cmsg_data[:len(cmsg_data) - (len(cmsg_data) % fds.itemsize)]) return msg, list(fds)
Availability: most Unix platforms, possibly others.
New in version 3.3.
Changed in version 3.5: If the system call is interrupted and the signal handler does not raise
an exception, the method now retries the system call instead of raising
anInterruptedError
exception (see PEP 475 for the rationale).
-
socket.
recvmsg_into
(buffers[, ancbufsize[, flags]])¶ -
Receive normal data and ancillary data from the socket, behaving as
recvmsg()
would, but scatter the non-ancillary data into a
series of buffers instead of returning a new bytes object. The
buffers argument must be an iterable of objects that export
writable buffers (e.g.bytearray
objects); these will be
filled with successive chunks of the non-ancillary data until it
has all been written or there are no more buffers. The operating
system may set a limit (sysconf()
valueSC_IOV_MAX
)
on the number of buffers that can be used. The ancbufsize and
flags arguments have the same meaning as forrecvmsg()
.The return value is a 4-tuple:
(nbytes, ancdata, msg_flags,
, where nbytes is the total number of bytes of
address)
non-ancillary data written into the buffers, and ancdata,
msg_flags and address are the same as forrecvmsg()
.Example:
>>> import socket >>> s1, s2 = socket.socketpair() >>> b1 = bytearray(b'----') >>> b2 = bytearray(b'0123456789') >>> b3 = bytearray(b'--------------') >>> s1.send(b'Mary had a little lamb') 22 >>> s2.recvmsg_into([b1, memoryview(b2)[2:9], b3]) (22, [], 0, None) >>> [b1, b2, b3] [bytearray(b'Mary'), bytearray(b'01 had a 9'), bytearray(b'little lamb---')]
Availability: most Unix platforms, possibly others.
New in version 3.3.
-
socket.
recvfrom_into
(buffer[, nbytes[, flags]])¶ -
Receive data from the socket, writing it into buffer instead of creating a
new bytestring. The return value is a pair(nbytes, address)
where nbytes is
the number of bytes received and address is the address of the socket sending
the data. See the Unix manual page recv(2) for the meaning of the
optional argument flags; it defaults to zero. (The format of address
depends on the address family — see above.)
-
socket.
recv_into
(buffer[, nbytes[, flags]])¶ -
Receive up to nbytes bytes from the socket, storing the data into a buffer
rather than creating a new bytestring. If nbytes is not specified (or 0),
receive up to the size available in the given buffer. Returns the number of
bytes received. See the Unix manual page recv(2) for the meaning
of the optional argument flags; it defaults to zero.
-
socket.
send
(bytes[, flags])¶ -
Send data to the socket. The socket must be connected to a remote socket. The
optional flags argument has the same meaning as forrecv()
above.
Returns the number of bytes sent. Applications are responsible for checking that
all data has been sent; if only some of the data was transmitted, the
application needs to attempt delivery of the remaining data. For further
information on this topic, consult the Socket Programming HOWTO.Changed in version 3.5: If the system call is interrupted and the signal handler does not raise
an exception, the method now retries the system call instead of raising
anInterruptedError
exception (see PEP 475 for the rationale).
-
socket.
sendall
(bytes[, flags])¶ -
Send data to the socket. The socket must be connected to a remote socket. The
optional flags argument has the same meaning as forrecv()
above.
Unlikesend()
, this method continues to send data from bytes until
either all data has been sent or an error occurs.None
is returned on
success. On error, an exception is raised, and there is no way to determine how
much data, if any, was successfully sent.Changed in version 3.5: The socket timeout is no more reset each time data is sent successfully.
The socket timeout is now the maximum total duration to send all data.Changed in version 3.5: If the system call is interrupted and the signal handler does not raise
an exception, the method now retries the system call instead of raising
anInterruptedError
exception (see PEP 475 for the rationale).
-
socket.
sendto
(bytes, address)¶ -
socket.
sendto
(bytes, flags, address) -
Send data to the socket. The socket should not be connected to a remote socket,
since the destination socket is specified by address. The optional flags
argument has the same meaning as forrecv()
above. Return the number of
bytes sent. (The format of address depends on the address family — see
above.)Changed in version 3.5: If the system call is interrupted and the signal handler does not raise
an exception, the method now retries the system call instead of raising
anInterruptedError
exception (see PEP 475 for the rationale).
-
socket.
sendmsg
(buffers[, ancdata[, flags[, address]]])¶ -
Send normal and ancillary data to the socket, gathering the
non-ancillary data from a series of buffers and concatenating it
into a single message. The buffers argument specifies the
non-ancillary data as an iterable of
bytes-like objects
(e.g.bytes
objects); the operating system may set a limit
(sysconf()
valueSC_IOV_MAX
) on the number of buffers
that can be used. The ancdata argument specifies the ancillary
data (control messages) as an iterable of zero or more tuples
(cmsg_level, cmsg_type, cmsg_data)
, where cmsg_level and
cmsg_type are integers specifying the protocol level and
protocol-specific type respectively, and cmsg_data is a
bytes-like object holding the associated data. Note that
some systems (in particular, systems withoutCMSG_SPACE()
)
might support sending only one control message per call. The
flags argument defaults to 0 and has the same meaning as for
send()
. If address is supplied and notNone
, it sets a
destination address for the message. The return value is the
number of bytes of non-ancillary data sent.The following function sends the list of file descriptors fds
over anAF_UNIX
socket, on systems which support the
SCM_RIGHTS
mechanism. See alsorecvmsg()
.import socket, array def send_fds(sock, msg, fds): return sock.sendmsg([msg], [(socket.SOL_SOCKET, socket.SCM_RIGHTS, array.array("i", fds))])
Availability: most Unix platforms, possibly others.
New in version 3.3.
Changed in version 3.5: If the system call is interrupted and the signal handler does not raise
an exception, the method now retries the system call instead of raising
anInterruptedError
exception (see PEP 475 for the rationale).
-
socket.
sendmsg_afalg
([msg, ]*, op[, iv[, assoclen[, flags]]])¶ -
Specialized version of
sendmsg()
forAF_ALG
socket.
Set mode, IV, AEAD associated data length and flags forAF_ALG
socket.Availability: Linux >= 2.6.38
New in version 3.6.
-
socket.
sendfile
(file, offset=0, count=None)¶ -
Send a file until EOF is reached by using high-performance
os.sendfile
and return the total number of bytes which were sent.
file must be a regular file object opened in binary mode. If
os.sendfile
is not available (e.g. Windows) or file is not a
regular filesend()
will be used instead. offset tells from where to
start reading the file. If specified, count is the total number of bytes
to transmit as opposed to sending the file until EOF is reached. File
position is updated on return or also in case of error in which case
file.tell()
can be used to figure out the number of
bytes which were sent. The socket must be ofSOCK_STREAM
type.
Non-blocking sockets are not supported.New in version 3.5.
-
socket.
set_inheritable
(inheritable)¶ -
Set the inheritable flag of the socket’s file
descriptor or socket’s handle.New in version 3.4.
-
socket.
setblocking
(flag)¶ -
Set blocking or non-blocking mode of the socket: if flag is false, the
socket is set to non-blocking, else to blocking mode.This method is a shorthand for certain
settimeout()
calls:sock.setblocking(True)
is equivalent tosock.settimeout(None)
sock.setblocking(False)
is equivalent tosock.settimeout(0.0)
-
socket.
settimeout
(value)¶ -
Set a timeout on blocking socket operations. The value argument can be a
nonnegative floating point number expressing seconds, orNone
.
If a non-zero value is given, subsequent socket operations will raise a
timeout
exception if the timeout period value has elapsed before
the operation has completed. If zero is given, the socket is put in
non-blocking mode. IfNone
is given, the socket is put in blocking mode.For further information, please consult the notes on socket timeouts.
-
socket.
setsockopt
(level, optname, value: int)¶
-
socket.
setsockopt
(level, optname, value: buffer)
-
socket.
setsockopt
(level, optname, None, optlen: int) -
Set the value of the given socket option (see the Unix manual page
setsockopt(2)). The needed symbolic constants are defined in the
socket
module (SO_*
etc.). The value can be an integer,
None
or a bytes-like object representing a buffer. In the later
case it is up to the caller to ensure that the bytestring contains the
proper bits (see the optional built-in modulestruct
for a way to
encode C structures as bytestrings). When value is set toNone
,
optlen argument is required. It’s equivalent to call setsockopt C
function with optval=NULL and optlen=optlen.Changed in version 3.6: setsockopt(level, optname, None, optlen: int) form added.
-
socket.
shutdown
(how)¶ -
Shut down one or both halves of the connection. If how is
SHUT_RD
,
further receives are disallowed. If how isSHUT_WR
, further sends
are disallowed. If how isSHUT_RDWR
, further sends and receives are
disallowed.
-
Duplicate a socket and prepare it for sharing with a target process. The
target process must be provided with process_id. The resulting bytes object
can then be passed to the target process using some form of interprocess
communication and the socket can be recreated there usingfromshare()
.
Once this method has been called, it is safe to close the socket since
the operating system has already duplicated it for the target process.Availability: Windows.
New in version 3.3.
Note that there are no methods read()
or write()
; use
recv()
and send()
without flags argument instead.
Socket objects also have these (read-only) attributes that correspond to the
values given to the socket
constructor.
-
socket.
family
¶ -
The socket family.
-
socket.
type
¶ -
The socket type.
-
socket.
proto
¶ -
The socket protocol.
18.1.4. Notes on socket timeouts¶
A socket object can be in one of three modes: blocking, non-blocking, or
timeout. Sockets are by default always created in blocking mode, but this
can be changed by calling setdefaulttimeout()
.
- In blocking mode, operations block until complete or the system returns
an error (such as connection timed out). - In non-blocking mode, operations fail (with an error that is unfortunately
system-dependent) if they cannot be completed immediately: functions from the
select
can be used to know when and whether a socket is available for
reading or writing. - In timeout mode, operations fail if they cannot be completed within the
timeout specified for the socket (they raise atimeout
exception)
or if the system returns an error.
Note
At the operating system level, sockets in timeout mode are internally set
in non-blocking mode. Also, the blocking and timeout modes are shared between
file descriptors and socket objects that refer to the same network endpoint.
This implementation detail can have visible consequences if e.g. you decide
to use the fileno()
of a socket.
18.1.4.1. Timeouts and the connect
method¶
The connect()
operation is also subject to the timeout
setting, and in general it is recommended to call settimeout()
before calling connect()
or pass a timeout parameter to
create_connection()
. However, the system network stack may also
return a connection timeout error of its own regardless of any Python socket
timeout setting.
18.1.4.2. Timeouts and the accept
method¶
If getdefaulttimeout()
is not None
, sockets returned by
the accept()
method inherit that timeout. Otherwise, the
behaviour depends on settings of the listening socket:
- if the listening socket is in blocking mode or in timeout mode,
the socket returned byaccept()
is in blocking mode; - if the listening socket is in non-blocking mode, whether the socket
returned byaccept()
is in blocking or non-blocking mode
is operating system-dependent. If you want to ensure cross-platform
behaviour, it is recommended you manually override this setting.
18.1.5. Example¶
Here are four minimal example programs using the TCP/IP protocol: a server that
echoes all data that it receives back (servicing only one client), and a client
using it. Note that a server must perform the sequence socket()
,
bind()
, listen()
, accept()
(possibly
repeating the accept()
to service more than one client), while a
client only needs the sequence socket()
, connect()
. Also
note that the server does not sendall()
/recv()
on
the socket it is listening on but on the new socket returned by
accept()
.
The first two examples support IPv4 only.
# Echo server program import socket HOST = '' # Symbolic name meaning all available interfaces PORT = 50007 # Arbitrary non-privileged port with socket.socket(socket.AF_INET, socket.SOCK_STREAM) as s: s.bind((HOST, PORT)) s.listen(1) conn, addr = s.accept() with conn: print('Connected by', addr) while True: data = conn.recv(1024) if not data: break conn.sendall(data)
# Echo client program import socket HOST = 'daring.cwi.nl' # The remote host PORT = 50007 # The same port as used by the server with socket.socket(socket.AF_INET, socket.SOCK_STREAM) as s: s.connect((HOST, PORT)) s.sendall(b'Hello, world') data = s.recv(1024) print('Received', repr(data))
The next two examples are identical to the above two, but support both IPv4 and
IPv6. The server side will listen to the first address family available (it
should listen to both instead). On most of IPv6-ready systems, IPv6 will take
precedence and the server may not accept IPv4 traffic. The client side will try
to connect to the all addresses returned as a result of the name resolution, and
sends traffic to the first one connected successfully.
# Echo server program import socket import sys HOST = None # Symbolic name meaning all available interfaces PORT = 50007 # Arbitrary non-privileged port s = None for res in socket.getaddrinfo(HOST, PORT, socket.AF_UNSPEC, socket.SOCK_STREAM, 0, socket.AI_PASSIVE): af, socktype, proto, canonname, sa = res try: s = socket.socket(af, socktype, proto) except OSError as msg: s = None continue try: s.bind(sa) s.listen(1) except OSError as msg: s.close() s = None continue break if s is None: print('could not open socket') sys.exit(1) conn, addr = s.accept() with conn: print('Connected by', addr) while True: data = conn.recv(1024) if not data: break conn.send(data)
# Echo client program import socket import sys HOST = 'daring.cwi.nl' # The remote host PORT = 50007 # The same port as used by the server s = None for res in socket.getaddrinfo(HOST, PORT, socket.AF_UNSPEC, socket.SOCK_STREAM): af, socktype, proto, canonname, sa = res try: s = socket.socket(af, socktype, proto) except OSError as msg: s = None continue try: s.connect(sa) except OSError as msg: s.close() s = None continue break if s is None: print('could not open socket') sys.exit(1) with s: s.sendall(b'Hello, world') data = s.recv(1024) print('Received', repr(data))
The next example shows how to write a very simple network sniffer with raw
sockets on Windows. The example requires administrator privileges to modify
the interface:
import socket # the public network interface HOST = socket.gethostbyname(socket.gethostname()) # create a raw socket and bind it to the public interface s = socket.socket(socket.AF_INET, socket.SOCK_RAW, socket.IPPROTO_IP) s.bind((HOST, 0)) # Include IP headers s.setsockopt(socket.IPPROTO_IP, socket.IP_HDRINCL, 1) # receive all packages s.ioctl(socket.SIO_RCVALL, socket.RCVALL_ON) # receive a package print(s.recvfrom(65565)) # disabled promiscuous mode s.ioctl(socket.SIO_RCVALL, socket.RCVALL_OFF)
The last example shows how to use the socket interface to communicate to a CAN
network using the raw socket protocol. To use CAN with the broadcast
manager protocol instead, open a socket with:
socket.socket(socket.AF_CAN, socket.SOCK_DGRAM, socket.CAN_BCM)
After binding (CAN_RAW
) or connecting (CAN_BCM
) the socket, you
can use the socket.send()
, and the socket.recv()
operations (and
their counterparts) on the socket object as usual.
This example might require special privileges:
import socket import struct # CAN frame packing/unpacking (see 'struct can_frame' in <linux/can.h>) can_frame_fmt = "=IB3x8s" can_frame_size = struct.calcsize(can_frame_fmt) def build_can_frame(can_id, data): can_dlc = len(data) data = data.ljust(8, b'x00') return struct.pack(can_frame_fmt, can_id, can_dlc, data) def dissect_can_frame(frame): can_id, can_dlc, data = struct.unpack(can_frame_fmt, frame) return (can_id, can_dlc, data[:can_dlc]) # create a raw socket and bind it to the 'vcan0' interface s = socket.socket(socket.AF_CAN, socket.SOCK_RAW, socket.CAN_RAW) s.bind(('vcan0',)) while True: cf, addr = s.recvfrom(can_frame_size) print('Received: can_id=%x, can_dlc=%x, data=%s' % dissect_can_frame(cf)) try: s.send(cf) except OSError: print('Error sending CAN frame') try: s.send(build_can_frame(0x01, b'x01x02x03')) except OSError: print('Error sending CAN frame')
Running an example several times with too small delay between executions, could
lead to this error:
OSError: [Errno 98] Address already in use
This is because the previous execution has left the socket in a TIME_WAIT
state, and can’t be immediately reused.
There is a socket
flag to set, in order to prevent this,
socket.SO_REUSEADDR
:
s = socket.socket(socket.AF_INET, socket.SOCK_STREAM) s.setsockopt(socket.SOL_SOCKET, socket.SO_REUSEADDR, 1) s.bind((HOST, PORT))
the SO_REUSEADDR
flag tells the kernel to reuse a local socket in
TIME_WAIT
state, without waiting for its natural timeout to expire.
See also
For an introduction to socket programming (in C), see the following papers:
- An Introductory 4.3BSD Interprocess Communication Tutorial, by Stuart Sechrest
- An Advanced 4.3BSD Interprocess Communication Tutorial, by Samuel J. Leffler et
al,
both in the UNIX Programmer’s Manual, Supplementary Documents 1 (sections
PS1:7 and PS1:8). The platform-specific reference material for the various
socket-related system calls are also a valuable source of information on the
details of socket semantics. For Unix, refer to the manual pages; for Windows,
see the WinSock (or Winsock 2) specification. For IPv6-ready APIs, readers may
want to refer to RFC 3493 titled Basic Socket Interface Extensions for IPv6.
К старту курса по Fullstack-разработке на Python делимся заключительной частью руководства по программированию сокетов, эта часть посвящена устранению неполадок и справочным сведениям.
К концу руководства вы освоите основные функции и методы модуля Python socket, научитесь применять пользовательский класс для отправки сообщений и данных между конечными точками и работать со всем этим в собственных клиент-серверных приложениях.
Устранение проблем
Что-то будет «отказываться» работать, это неизбежно. И что тогда делать? Не переживайте, это случается с каждым. Надеемся, что с помощью этого руководства, отладчика и любимой поисковой системы вы сможете продолжить работу с частью исходного кода.
Иначе вам прямая дорога в модуль socket на Python. Обязательно прочитайте всю документацию по каждой вызываемой функции или методу. А чтобы почерпнуть какие-то идеи, загляните ещё в справочный раздел.
Иногда дело не в исходном коде. Он может быть правильным, а проблема связана с другим хостом, клиентом или сервером. Или сетью. А возможно, проводится «атака посредника», в качестве которого используется роутер, брандмауэр или какое-то другое сетевое устройство.
Для решения таких проблем нужны дополнительные инструменты. Ниже приводятся инструменты и утилиты, которые могут в этом пригодиться или хотя бы подвести к решению.
ping
Отправкой запроса проверки связи по ICMP в ping
проверяется, работает ли хост и подключён ли он к сети. Взаимодействие ping
со стеком протоколов TCP/IP прямое, поэтому его работа не зависит от каких бы то ни было приложений, запускаемых на хосте.
Вот пример запуска ping на macOS:
$ ping -c 3 127.0.0.1
PING 127.0.0.1 (127.0.0.1): 56 data bytes
64 bytes from 127.0.0.1: icmp_seq=0 ttl=64 time=0.058 ms
64 bytes from 127.0.0.1: icmp_seq=1 ttl=64 time=0.165 ms
64 bytes from 127.0.0.1: icmp_seq=2 ttl=64 time=0.164 ms
--- 127.0.0.1 ping statistics ---
3 packets transmitted, 3 packets received, 0.0% packet loss
round-trip min/avg/max/stddev = 0.058/0.129/0.165/0.050 ms
Статистика внизу может быть полезной, тчобы найти разрыв постоянного подключения и ответить на вопрос, теряются ли пакеты? Какова временнáя задержка? Можно посмотреть и время приёма-передачи.
Если между вами и другим хостом есть брандмауэр, запрос проверки связи в ping может быть запрещён. Политики соблюдения этого запрета реализуются администраторами брандмауэра, для которых обнаружение их хостов нежелательно. Если это ваш случай (и добавлены правила брандмауэра для взаимодействия хостов), убедитесь, что этими правилами также разрешается передача сообщений по ICMP между хостами.
ICMP — это протокол, применяемый в ping
, а также протокол TCP и другие более низкоуровневые протоколы, используемые для передачи сообщений об ошибках. Причина странного поведения или медленных подключений может быть в ICMP.
ICMP-сообщения идентифицируются по типу и коду. Чтобы дать вам представление о важности их информации, приведём несколько таких сообщений:
Информацию о фрагментации и ICMP-сообщениях см. в статье об обнаружении наименьшего MTU на пути следования пакета в сети. Это пример того, чтó может быть причиной странного поведения.
netstat
В разделе «Просмотр состояния сокета» вы узнали, как можно использовать netstat
для отображения информации о сокетах и их текущем состоянии. Эта утилита доступна на macOS, Linux и Windows.
В том разделе столбцы Recv-Q
и Send-Q
в выводе примера отсутствовали. В них показано количество байтов, которые хранятся в сетевых буферах и поставлены в очередь на передачу или приём, но по какой-то причине не считаны или не записаны в удалённом или локальном приложении.
То есть они остаются в ожидании в сетевых буферах, очередях ОС. Одна из причин — в приложении ограничено использование ресурсов ЦП либо нельзя вызвать socket.recv()
или socket.send()
и обработать байты. Или это проблемы с сетью, которые отражаются на передаче данных, например перегрузка сети или неисправное сетевое оборудование / кабели.
Посмотрим, сколько данных вы сможете отправить, прежде чем увидите ошибку. Попробуйте тестовый клиент с подключением к тестовому серверу и многократным вызовом socket.send()
. В тестовом сервере никогда не вызывается socket.recv()
, а лишь принимается подключение. Это становится причиной заполнения сетевых буферов на сервере, после чего в клиенте выдаётся ошибка.
Сначала запустите сервер:
$ python app-server-test.py 127.0.0.1 65432
Listening on ('127.0.0.1', 65432)
Затем, чтобы увидеть ошибку, запустите клиент:
$ python app-client-test.py 127.0.0.1 65432 binary test
Error: socket.send() blocking io exception for ('127.0.0.1', 65432):
BlockingIOError(35, 'Resource temporarily unavailable')
Вот вывод netstat
, когда в клиенте и на сервере продолжается выполнение. При этом в клиенте многократно выводится приведённое выше сообщение об ошибке:
$ netstat -an | grep 65432
Proto Recv-Q Send-Q Local Address Foreign Address (state)
tcp4 408300 0 127.0.0.1.65432 127.0.0.1.53225 ESTABLISHED
tcp4 0 269868 127.0.0.1.53225 127.0.0.1.65432 ESTABLISHED
tcp4 0 0 127.0.0.1.65432 *.* LISTEN
Первая запись — это сервер (у Local Address
порт 65432):
Proto Recv-Q Send-Q Local Address Foreign Address (state)
tcp4 408300 0 127.0.0.1.65432 127.0.0.1.53225 ESTABLISHED
Обратите внимание на 408300
в Recv-Q
.
Вторая запись — это клиент (у Foreign Address
порт 65432):
Proto Recv-Q Send-Q Local Address Foreign Address (state)
tcp4 0 269868 127.0.0.1.53225 127.0.0.1.65432 ESTABLISHED
Обратите внимание на 269868
в Send-Q
.
В клиенте, конечно, пытались записать байты, но на сервере они не считывались. Это стало причиной заполнения очереди сетевого буфера как на стороне приёма на сервере, так и на стороне отправки в клиенте.
Windows
Если работаете с Windows, обязательно ознакомьтесь с набором утилит Windows Sysinternals.
Одна из них — TCPView.exe
. Это графический netstat
для Windows. Кроме адресов, номеров портов и состояния сокета, в ней нарастающим итогом показывается число отправленных и полученных пакетов и байтов. Как и в случае с утилитой lsof
в Unix, здесь вы получаете имя и идентификатор процесса. Другие параметры отображения см. в меню.
Wireshark
Иногда нужно увидеть, что происходит при передаче по сети. Забудьте, чтó там в журнале приложения или какое значение возвращается из библиотечного вызова. Вам нужно видеть, чтó отправляется или получается в сети на самом деле. Здесь как с отладчиками: когда нужно увидеть это, они незаменимы.
Wireshark — это анализатор сетевых протоколов и приложение для захвата трафика, запускаемое на macOS, Linux, Windows и других ОС. Существует две версии: wireshark
с графическим интерфейсом и текстовая tshark
для терминала.
Захват трафика — это отличный способ понаблюдать за поведением приложения в сети и узнать: чтó, как часто и сколько в нём отправляется и получается. А ещё увидеть, когда клиент или сервер закрывается, когда в них прерывается подключение или прекращается отправка ответов. Эта информация может очень пригодиться при устранении проблем.
В интернете много хороших руководств и других ресурсов по основам использования Wireshark и TShark.
Вот пример захвата трафика в интерфейсе «внутренней петли» с помощью Wireshark:
А вот тот же пример с tshark
:
$ tshark -i lo0 'tcp port 65432'
Capturing on 'Loopback'
1 0.000000 127.0.0.1 → 127.0.0.1 TCP 68 53942 → 65432 [SYN] Seq=0 Win=65535 Len=0 MSS=16344 WS=32 TSval=940533635 TSecr=0 SACK_PERM=1
2 0.000057 127.0.0.1 → 127.0.0.1 TCP 68 65432 → 53942 [SYN, ACK] Seq=0 Ack=1 Win=65535 Len=0 MSS=16344 WS=32 TSval=940533635 TSecr=940533635 SACK_PERM=1
3 0.000068 127.0.0.1 → 127.0.0.1 TCP 56 53942 → 65432 [ACK] Seq=1 Ack=1 Win=408288 Len=0 TSval=940533635 TSecr=940533635
4 0.000075 127.0.0.1 → 127.0.0.1 TCP 56 [TCP Window Update] 65432 → 53942 [ACK] Seq=1 Ack=1 Win=408288 Len=0 TSval=940533635 TSecr=940533635
5 0.000216 127.0.0.1 → 127.0.0.1 TCP 202 53942 → 65432 [PSH, ACK] Seq=1 Ack=1 Win=408288 Len=146 TSval=940533635 TSecr=940533635
6 0.000234 127.0.0.1 → 127.0.0.1 TCP 56 65432 → 53942 [ACK] Seq=1 Ack=147 Win=408128 Len=0 TSval=940533635 TSecr=940533635
7 0.000627 127.0.0.1 → 127.0.0.1 TCP 204 65432 → 53942 [PSH, ACK] Seq=1 Ack=147 Win=408128 Len=148 TSval=940533635 TSecr=940533635
8 0.000649 127.0.0.1 → 127.0.0.1 TCP 56 53942 → 65432 [ACK] Seq=147 Ack=149 Win=408128 Len=0 TSval=940533635 TSecr=940533635
9 0.000668 127.0.0.1 → 127.0.0.1 TCP 56 65432 → 53942 [FIN, ACK] Seq=149 Ack=147 Win=408128 Len=0 TSval=940533635 TSecr=940533635
10 0.000682 127.0.0.1 → 127.0.0.1 TCP 56 53942 → 65432 [ACK] Seq=147 Ack=150 Win=408128 Len=0 TSval=940533635 TSecr=940533635
11 0.000687 127.0.0.1 → 127.0.0.1 TCP 56 [TCP Dup ACK 6#1] 65432 → 53942 [ACK] Seq=150 Ack=147 Win=408128 Len=0 TSval=940533635 TSecr=940533635
12 0.000848 127.0.0.1 → 127.0.0.1 TCP 56 53942 → 65432 [FIN, ACK] Seq=147 Ack=150 Win=408128 Len=0 TSval=940533635 TSecr=940533635
13 0.001004 127.0.0.1 → 127.0.0.1 TCP 56 65432 → 53942 [ACK] Seq=150 Ack=148 Win=408128 Len=0 TSval=940533635 TSecr=940533635
^C13 packets captured
Далее приводим вам в помощь справочные материалы по программированию сокетов.
Справочный раздел
Этот раздел может использоваться в качестве справочника общего содержания с дополнительной информацией и ссылками на внешние ресурсы.
Документация Python
- Модуль socket.
- Практическое руководство по программированию сокетов.
Ошибки
Следующее взято из документации к модулю socket
на Python:
«Все ошибки сопровождаются вызовом исключений. При недопустимых типах аргументов и нехватке памяти могут вызываться обычные исключения. Начиная с Python 3.3 ошибки, связанные с семантикой сокетов или адресов, сопровождаются вызовом
OSError
или одного из его подклассов». (Источник).
Вот типичные ошибки, с которыми вы можете столкнуться при работе с сокетами:
Семейства адресов сокетов
socket.AF_INET
и socket.AF_INET6
— это семейства адресов и протоколов для первого аргумента в socket.socket()
. В API предполагается адрес определённого формата — в зависимости от того, создан сокет с помощью socket.AF_INET
или socket.AF_INET6
.
Ниже приведена выдержка из документации Python к модулю socket о значении host
в кортеже адресов:
«Для IPv4-адресов вместо адреса хоста принимаются две специальные формы: пустая строка — это
INADDR_ANY
, а строка'<broadcast>'
— этоINADDR_BROADCAST
. Такое поведение несовместимо с IPv6, так что они вам, возможно, не понадобятся, если вы намерены поддерживать IPv6 в своих программах на Python». (Источник)
Подробнее см. в документации по семействам сокетов на Python.
В этом руководстве применяются сокеты IPv4. Если в вашей сети поддерживается IPv6, попробуйте по возможности протестировать и использовать эту версию. Это легко делается с функцией socket.getaddrinfo(). Её аргументы host
и port
преобразуются в последовательность из пяти кортежей со всеми аргументами, необходимыми для создания сокета, подключённого к этому сервису. В socket.getaddrinfo()
принимаются и интерпретируются переданные IPv6-адреса и имена хостов, которые разрешаются не только в IPv4, но и в IPv6-адреса.
В следующем примере возвращается информация об адресе для TCP-подключения к example.org
в порте 80
:
>>> socket.getaddrinfo("example.org", 80, proto=socket.IPPROTO_TCP)
[(<AddressFamily.AF_INET6: 10>, <SocketType.SOCK_STREAM: 1>,
6, '', ('2606:2800:220:1:248:1893:25c8:1946', 80, 0, 0)),
(<AddressFamily.AF_INET: 2>, <SocketType.SOCK_STREAM: 1>,
6, '', ('93.184.216.34', 80))]
На вашем компьютере результаты могут отличаться, если IPv6 не включена. Возвращаемые выше значения можно передавать в socket.socket()
и socket.connect()
. В документации Python к модулю socket, в разделе с примерами, содержится пример клиента и сервера.
Использование имён хостов
Кстати, этот раздел примени́м в основном к использованию имён хостов с .bind()
и .connect()
или .connect_ex()
, когда задействуется интерфейс «внутренней петли» (localhost). Но примени́м он и в любой момент, когда вы используете имя хоста и ожидается его разрешение в определённый адрес. Причём имя хоста имеет особое значение для приложения, что отражается на его поведении или делаемых в нём допущениях. Это отличается от типичного сценария, когда в клиенте имя хоста используется для подключения к серверу, разрешённому при помощи DNS, например www.example.com.
Следующее взято из документации к модулю socket
на Python:
«Если использовать имя хоста в хостовой части адреса сокета IPv4/v6, в программе может проявиться недетерминированное поведение, поскольку в Python используется первый адрес, возвращаемый из DNS-разрешения. Адрес сокета будет разрешён в фактический адрес IPv4/v6 по-разному в зависимости от результатов из DNS-разрешения и/или конфигурации хоста. Для детерминированного поведения используйте в хостовой части числовой адрес». (Источник).
Стандартным именем localhost предусматривается его разрешение в 127.0.0.1
или ::1
, интерфейс «внутренней петли». В вашей системе наверняка так и будет. А может, и нет. Это зависит от того, как она сконфигурирована для разрешения имён. Как и во всём, что связано с ИТ, всегда имеются исключения, и нет никаких гарантий, что при использовании имени localhost произойдёт подключение к интерфейсу «внутренней петли».
Например, на Linux см. файл конфигурации man nsswitch.conf
диспетчера службы имён. На macOS и Linux стóит ещё заглянуть в файл /etc/hosts
. На Windows см. C:WindowsSystem32driversetchosts
. В файле hosts
имеется статическая таблица сопоставления имён и адресов в простом текстовом формате. DNS — это совершенно иная часть пазла.
Примечательно, что с июня 2018 года существует черновой вариант RFC Let ‘localhost’ be localhost («Пусть ‘localhost’ будет localhost»), где обсуждаются соглашения, допущения и вопросы безопасности, связанные с применением имени localhost.
Важно понимать: когда в приложении используются имена хостов, в качестве адресов может возвращаться буквально всё что угодно. Не делайте допущений относительно имени, если в приложении важна безопасность. Представляет это повод для беспокойства или нет — зависит от приложения и окружения.
Даже если в приложении важность безопасности неочевидна, соответствующие рекомендации всё равно применяются. Если в приложении имеется доступ к сети, оно должно сопровождаться и быть защищено. То есть это как минимум:
- Регулярные обновления системного ПО и исправления уязвимостей, в том числе на Python. Обязательно также проверяйте и обновляйте любые сторонние библиотеки.
- Чтобы подключаться только к доверенным системам, по возможности используйте выделенный брандмауэр или межсетевой экран узлов.
- Какие DNS-серверы сконфигурированы? Вы доверяете им и их администраторам?
- Убедитесь, что данные запроса максимально очищены и проверены, прежде чем вызывать другой код, в котором они обрабатываются. Используйте для этого фаззинг-тесты и запускайте их регулярно.
Независимо от того, используете вы имена хостов или нет, если в приложении нужна поддержка безопасных подключений через шифрование и аутентификацию, то вам, вероятно, стóит попробовать TLS. Но это — тема отдельной статьи и в настоящем руководстве не рассматривается. Чтобы начать с ним работу, см. документацию по модулю ssl на Python. Это тот же протокол, который применяется в браузерах для безопасного подключения к сайтам.
Интерфейсы, IP-адреса, разрешения имён… Переменных много. Что же делать? Если у вас нет процесса рассмотрения сетевых приложений, используйте эти рекомендации:
Для клиентов или серверов, если нужно аутентифицировать хост, к которому подключаетесь, стóит попробовать TLS.
Блокирующие вызовы
Блокирующий вызов — это функция или метод сокета, на которых работа приложения временно приостанавливается. Например, .accept()
, .connect()
, .send()
и .recv()
блокируются, то есть немедленного возвращения в них не происходит. Прежде чем от блокирующих вызовов возвращается значение, они находятся в ожидании завершения системных (ввод-вывод). Поэтому источник вызова блокируется до их завершения, или истечения тайм-аута, или возникновения другой ошибки.
Чтобы в блокирующих вызовах сокетов происходило немедленное возвращение значений, такие вызовы можно настроить на неблокируемый режим. При этом, чтобы обрабатывать готовую операцию сокета, нужно как минимум провести рефакторинг или перепроектирование приложения.
Поскольку в вызове значения возвращаются немедленно, данные могут быть не готовы. Вызываемая сторона находится в сети в ожидании — ей не хватило времени завершить свою работу. В этом случае текущий статус — это errno
-значение socket.EWOULDBLOCK
. Неблокируемый режим поддерживается с помощью .setblocking().
По умолчанию сокеты всегда создаются в блокируемом режиме. Описание трёх режимов см. в примечаниях по тайм-аутам сокетов.
Закрытие подключений
В TCP примечательно то, что в клиенте или на сервере совершенно допустимо закрывать свою сторону подключения, пока другая остаётся открытой. Это называется «полуоткрытым» подключением. Желательно оно или нет — решается в приложении. Вообще говоря, нежелательно. В этом состоянии со стороны, чей конец подключения закрыт, данные больше отправляться не смогут. Они будут только приниматься.
Этот подход рекомендуется не как обязательный, но в HTTP в качестве примера используется заголовок с именем Connection для стандартизации того, как в приложениях должны закрываться или сохраняться открытыми подключения. Подробнее см. в разделе 6.3 RFC 7230 о протоколе передачи гипертекста (HTTP/1.1), синтаксисе и маршрутизации сообщений.
При разработке и написании приложения и его протокола прикладного уровня рекомендуется заранее продумать закрытие подключений. Иногда это просто и очевидно, а иногда могут потребоваться создание прототипов и предварительное тестирование. Всё зависит от приложения и от того, как обрабатывается цикл сообщений с ожидаемыми данными. Просто убедитесь, что сокеты всегда своевременно закрываются после завершения работы.
Порядок следования байтов
Подробнее о том, как порядок байтов хранится в памяти разных ЦП, см. в соответствующей статье «Википедии». При интерпретации отдельных байтов это не проблема. Но при обработке нескольких байтов, считываемых и обрабатываемых как одно значение, например 4-байтовое целое число, порядок байтов нужно изменить на противоположный, если взаимодействовать с компьютером, на котором другой порядок следования байтов.
Порядок байтов важен и для текстовых строк, представленных в виде многобайтовых последовательностей, таких как «Юникод». Если только вы не используете всегда true, строгий ASCII и не контролируете реализацию клиента и сервера, вам наверняка лучше использовать «Юникод» с кодировкой вроде UTF-8 или той, которой поддерживается маркер последовательности байтов.
Важно явно определить кодировку, применяемую в протоколе прикладного уровня. Это можно сделать, установив в качестве обязательной для всего текста UTF-8 или использовав заголовок content-encoding, в котором эта кодировка указана. Так приложение избавляется от необходимости определять кодировку, которую по возможности следует избегать.
Это становится проблематичным, когда имеются данные, которые хранятся в файлах или базе данных, и недоступны метаданные, в которых указана их кодировка. Когда данные передаются на другую конечную точку, в ней придётся попробовать определить кодировку. Идеи для обсуждения см. в статье «Википедии» о «Юникоде», в которой упоминается о RFC 3629: UTF-8, формат преобразования ISO 10646:
«Однако в RFC 3629 (стандарт UTF-8) рекомендуется запрещать маркер последовательности байтов в протоколах с UTF-8, но обсуждаются случаи, когда это бывает невозможно. Кроме того, под большим ограничением на возможные шаблоны в UTF-8 (например, не может быть одиночных байтов с установленным старшим битом) подразумевается, что должна быть возможность отличать UTF-8 от других кодировок символов без применения маркера последовательности байтов». (Источник).
А вывод из этого такой: всегда сохранять кодировку, используемую для обрабатываемых в приложении данных, если она может меняться. То есть пытаться каким-то образом сохранять кодировку в виде метаданных, если это не всегда UTF-8 или какая-то другая кодировка с маркером последовательности байтов. Затем можно отправить её в заголовке вместе с данными, чтобы сообщить получателю, что это такое.
В TCP/IP применяется обратный порядок байтов, который называется сетевым. Сетевой порядок используется для представления целых чисел на нижних уровнях стека протоколов, таких как IP-адреса и номера портов. В модуль socket на Python включены функции, в которых целые числа преобразуются в порядок байтов сети и хоста и обратно:
Кроме того, чтобы с помощью строк формата упаковывать и распаковывать двоичные данные, можно использовать модуль struct:
import struct
network_byteorder_int = struct.pack('>H', 256)
python_int = struct.unpack('>H', network_byteorder_int)[0]
Заключение
В этом руководстве рассмотрено много вопросов! Сети и сокеты — это большие темы. Если они вам в новинку, пусть вас не смущают все эти термины и сокращения.
Чтобы понять, как здесь всё сочетается, нужно ознакомиться с кучей подробностей. Но в Python начинаешь лучше понимать целое, осваивая отдельные части и проводя с ними больше времени. Теперь вы можете задействовать свой пользовательский класс и, опираясь на него, проще и быстрее создавать собственные приложения с сокетами.
Ознакомиться с примерами можно по ссылке ниже:
исходный код из руководства для примеров в этом руководстве.
Поздравляем с тем, что добрались до конца! Вы уже готовы применять сокеты в собственных приложениях. Желаю вам успехов в разработке сокетов.
Научим вас аккуратно работать с данными, чтобы вы прокачали карьеру и стали востребованным IT-специалистом. Если вы не найдёте работу, мы просто вернём деньги (возврат — акция в рамках «Чёрной пятницы»).
- Профессия Fullstack-разработчик на Python (16 месяцев)
- Профессия Data Scientist (24 месяца)