V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
a2z
V2EX  ›  Python

shift_jis 如何完美转换成 utf8?

  •  
  •   a2z · 2015-02-18 16:03:49 +08:00 · 8113 次点击
    这是一个创建于 3362 天前的主题,其中的信息可能已经有所发展或是发生改变。
    用了codec.encode和codec.decode


    title='無料出会いサイト調査ファイル[地域別・セックス・逆援助・SMなどの攻略情報]'
    title=codecs.decode(title,charset,'replace')
    title=codecs.encode(title,"utf8","replace")

    無料出会いサイト調査ファイル[地域別・セックス・逆援助・SMなどの攻略情報]

    至少终端里看起来片假名全变成方块……
    16 条回复    2016-06-22 20:02:16 +08:00
    ehs2013
        1
    ehs2013  
       2015-02-18 16:07:28 +08:00
    终端的字体很有可能不带半角片假名字体。
    建议输出到文本进入专业文本编辑器中查看。
    rikeinei
        2
    rikeinei  
       2015-02-18 16:07:50 +08:00
    if getEncoding(resultSF) == "shift-jis":
    resultSF = resultSF.decode('shift-jis').encode('utf-8')
    if getEncoding(resultSF) == "euc-jp":
    resultSF = resultSF.decode('euc-jp').encode('utf-8')
    loading
        3
    loading  
       2015-02-18 16:09:32 +08:00 via Android
    @ehs2013 指了一条明路,楼主,冲吧。
    rikeinei
        4
    rikeinei  
       2015-02-18 16:11:04 +08:00
    @a2z 楼主做啥工作的? 这个title的内容有点......
    a2z
        5
    a2z  
    OP
       2015-02-18 16:16:25 +08:00
    @rikeinei
    爬虫相关……这个title是碰巧……
    rikeinei
        6
    rikeinei  
       2015-02-18 16:18:07 +08:00
    @a2z 楼主,快说,报警了!风俗相关产业的从业人员?还是???
    a2z
        7
    a2z  
    OP
       2015-02-18 16:19:52 +08:00
    @rikeinei
    搜索引擎相关,有些日语的title显示出来编码不对……我随便挑了一个看着眼熟的(逃
    rikeinei
        8
    rikeinei  
       2015-02-18 16:20:05 +08:00
    @a2z 嘿嘿,想像一下啊,边看某网站,边写代码,结果随手拷贝一段文字用来做测试,恰好是。。。
    哈哈哈
    a2z
        9
    a2z  
    OP
       2015-02-18 16:21:41 +08:00
    @rikeinei
    人坚不拆……
    la0wei
        10
    la0wei  
       2015-02-18 16:26:11 +08:00 via Android
    @rikeinei 我觉着楼主是做国外H站的,我记得有个站可以根据番号看封面......暴露了
    jamesxu
        11
    jamesxu  
       2015-02-18 16:29:55 +08:00
    大年三十的还在折腾
    imn1
        12
    imn1  
       2015-02-18 16:30:00 +08:00
    终端只是字体问题,你终端使用的字体不支持半角片假字符
    rikeinei
        13
    rikeinei  
       2015-02-18 16:31:13 +08:00
    @la0wei 看标题应该不是你说的那个网站,你要想看,sod,dmm随便看了
    orancho
        14
    orancho  
       2015-02-18 20:26:53 +08:00
    楼主爬的是什么网站, sm圆月抛都出来了
    wdlth
        15
    wdlth  
       2015-02-19 00:12:33 +08:00
    逆援助……这不是找牛郎么……
    xiaotaoqi
        16
    xiaotaoqi  
       2016-06-22 20:02:16 +08:00
    数据处理,加我 QQ574632347 ,一起交流一下。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   914 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 84ms · UTC 18:48 · PVG 02:48 · LAX 11:48 · JFK 14:48
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.