V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
drymonfidelia
V2EX  ›  程序员

需要一个在浏览器内本地运行的名称分类模型(100MB 内),输入一个或者多个关键词,猜测返回他们的共同属性,有没有好的建议?

  •  
  •   drymonfidelia · 21 天前 · 953 次点击
    例如:

    app-main.html app-main.css => app-main, Webpages
    angry-birds.apk flippy-birds.apk => Games, Apk Packages
    facebook.ipa tiktok.apk => Social App Packages, Apps, Software
    foobar2000 vlc => Media Players, Software
    rclone foobar2000 => PC Software

    实际输入可能是各种各样奇怪的东西。必须浏览器内本地运行,不能上传到服务器。
    8 条回复    2024-05-27 15:56:44 +08:00
    BeijingBaby
        1
    BeijingBaby  
       21 天前 via iPhone
    这不得自己训练?
    drymonfidelia
        2
    drymonfidelia  
    OP
       21 天前
    实际输入可能是各种类型的奇怪东西,只是我只想到程序相关的例子,以下这些才是大多数:

    Queenie, Reba, Fiasco => TV shows
    Avatar, Star Wars => Films
    Hermes Epsom Constance 24 Black, Hermès Swift Kelly Retourne => Luxury Handbag, Hermes Bags
    Gochiusa, Wataten => JP Anime, JP TV shows

    如果用字典肯定放不下。最好能有现成的 AI 模型能猜测这个词大概率是影片的名字来实现。
    drymonfidelia
        3
    drymonfidelia  
    OP
       21 天前
    强调三遍浏览器内本地运行了,应该不会还有人扯 GPT 那些大模型了吧
    dayeye2006199
        4
    dayeye2006199  
       21 天前
    分类的规则你可以清楚的定义吗?人看了你的定义之后可以清楚的得到答案吗?
    你有标注数据吗?

    如果上面都 yes ,那自己搞个模型,输出到 tensorflow.js 这种不难。

    上面都是 no ,建议还是老老实实 GPT
    murmur
        5
    murmur  
       21 天前   ❤️ 1
    关键词匹配不就完了

    这东西没法训练吧

    facebook 又不是 face (美颜)也不是 book (书籍)

    foobar 也不是 bar (工具栏)

    只有长内容,能提取出关键字的,才有分类和聚类的必要

    单词或者简单词组只能做关键字匹配
    godqueue
        6
    godqueue  
       21 天前
    如果是生产就老实的用 gpt 吧。。或者其他大模型也可以。。但是大模型有幻觉,输出的内容很可能第一次和第 2 次的内容不一样。。。这个问题好像没有太好的手段。。
    godqueue
        7
    godqueue  
       21 天前
    如果需要非常精确,那好像只能自己写字典来做这个事情。。
    forty
        8
    forty  
       21 天前
    浏览器内本地运行,那么不可能存储太大的模型数据吧。
    不能上传到服务器,和浏览器内本地运行,还是略有区别的,可以在本地启动服务,供浏览器调用,这样不算纯浏览器内运行,但是没有发送到服务器。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2888 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 13:58 · PVG 21:58 · LAX 06:58 · JFK 09:58
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.