urllib ile Açılan Sitenin Charset’ini Değiştirme

Her site maalesef UTF-8 olmuyor… İşte UTF-8 olmayan sitelerle işlem yapmak gerektiğinde charseti değiştirmeniz gerekebilir…

Peki bunu urllib ile nasıl yaparsınız?

Örneğin sitenin charset’inin iso-8859-9 olduğunu varsayalım…

import urllib
site = urllib.urlopen('http://www.site.com').read().decode('iso-8859-9').encode('utf-8')
print site

Önce siteyi açıyoruz, okuyoruz. Okunulan veriyi sitedeki uygun charsete göre decode ettikten sonra istediğimiz charsete çeviriyoruz.

 
1 Kudos
Don't move

Yorum Yap


Not - Bunları KullanabilirsinizHTML tags and attributes:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>