回顾我Github开源与技术分享的那些事儿:实践开源是拥有产品想法的技术人最好的解压出口
作者: 老刘说NLP 来源: 老刘说NLP
今天是2024年1月28日,星期日,北京,天气晴,我们来谈谈最近一直在思考的事情。
那就是我们要做什么,当下做什么事情会更有长期性、更有意义,以及更能找到自己的位置。
个人观点:实践开源是拥有产品想法的技术人最好的解压渠道。
下面是关于开源,关于技术分享的一些胡言乱语,供大家一起思考 。
一、说说早期开源以及当今技术分享的一些事儿
先说开源,我在早年所做的一些开源的工作(github地址:https://github.com/liuhuanyong),做了一些归置和整理,一共包括近70项 ,几年下来,积累了5.5kfollowers,star数累计已有数十k 。
并在GitHub China User Ranking(github中国区) (地址:https://wangchujiang.com/github-rank/users.china.html)上排名第74位 。
地址:https://liuhuanyong.github.io
可以看到,开源项目所用的技术在6年前,还是基于规则以及RNN/CNN时代,这几年的技术发展的太多,这些技术已经逐步不见踪影。
但是,其对于一些主题的探索,如文本计算、语言资源、知识图谱、常识推理等,却又是亘古不变的,当初做开源是至今为止,最为充实的事情。
进入到2021年后,开始做一些技术分享上的事情 ,因为觉得说,授人以鱼不如授人以渔,渔是思想、是武器,更有受众 ,开始做社区,并陆续参加aidd、datafuntalk等进行知识图谱、大模型方向的演讲,也确实收到了一些很有趣的反馈,并且在演讲以及内容演绎上得到了很大的精神满足 。
例如,在AIDD-2023深圳上,获得top16最佳议题 (https://mp.weixin.qq.com/s/jyFFWaJwAMpapUxT0uA9tQ)。
又如,在Datafuntalk上的分享,获得2023中国数据智能影响力榜单-2023年度数据智能践行者 (https://mp.weixin.qq.com/s/y9HCPAcR6gFv2D5LmfvepA),
我最近在想,在写技术博客这件事上,整理阅读他人的笔记也好,自己写文章也罢,其实都没有太多的感悟和实物上的精神收获,尤其是近一年读的太多,而真正在实际产物(例如开源工具、数据)上并没有太多的深刻思考。
相应的,在做技术分享上,也需要有更多的、源源不断的思考经验以及创意想法来支撑。
因此,回顾前几年的激情,回顾到开源,用代码的方式去根据设定的主题,去做一些实现、做一些探索,哪怕做一些demo,做一些小工具,反而更为有趣 。
我也在规划一些事情,这两年,逐步走向社区和笔头建设,所以,今年,还是要回归开源建设,从实现端做一些有趣的事儿,有一些产品、算法上的一些小想法, 实务化出来,与大家一道更好进步。
开源是一个能够更能促使人深度思考,并将思考实现出来的一个绝佳路径,大模型时代,给予两个更多的想法实现的可能,何不再试一试。
下面来看看过去陆续开源的一些项目,主要针对知识图谱以及文本计算展开:
二、常识推理、系统平台与知识问答项目11项
常识推理,包括开放通用实体与事件schema工程、认知图谱及其推理、基于因果事理的事件预测。
系统平台,包括实时事理知识库构建系统、语言政策领域知识图谱系统、自然语言处理综合平台。
知识问答,包括医疗知识图谱问答、武器装备知识图谱问答、基于知道数据的机器问答、法律罪名预测与机器问答、基于es的歌词接龙问答。
三、知识图谱与语言资源项目12项
知识图谱包括一些结构化的三元组数据集,包括抽象上下位知识图谱数据集、人物关系图谱数据集、因果搭配抽取数据集、产品知识图谱数据集。
语言资源主要包括公开收集以及自行构造的自然语言处理资源,包括领域特征词汇知识库、中文历时语料库、中文语义知识库数据集、百度知道类问答数据集、历时热点事件数据集、中文开放语料数据集、基于word2vec的中文向量数据集、百科分类知识库数据集
四、语言工具与信息抽取项目20项
语言工具主要包括:中文反义词组件、中文字形拆解组件、基于HMM的问句纠错、基于HMM的拼音转汉字、基于共现、PCA、CBOW的词向量生成、基于HMM的拼音转汉字、手写的分词、词性标注、依存句法分析组件、基于HMM、最大切分的中文分词、基于CBOW的句子向量生成。
image
信息抽取主要包括:主谓宾事件三元组抽取、概念描述三元组抽取、基于boostrapping的人物关系抽取、基于HMM的问句纠错、法律条文知识抽取、医疗命名实体识别、基于百科数据的上下位抽取、基于 CHI、DF、 IG、MI的文本特征词提取、基于TFIDF、TextRank的关键词、摘要提取、基于MI的词语搭配抽取几类。
五、信息采集与文本生成项目8项
文本生成包括:序列到序列加注意力机制的文本生成、序列到序列的文本生成、基于seq2seq的中英翻译
信息采集包括:微博指数采集、阿里商品指数采集、基于HMM的问句矫正、百度指数采集、基于搜狗输入法的领域词收集等
六、文本计算项目11项
文本计算,主要指的是针对文本进行了一系列计算。包括基于Singlepass的增量快速文本聚类、基于孪生网络的句子相似度计算、自定义词云可视化、基于搜索引擎的事件监测、基于规则与向量化的句子相似度计算、中文文本蕴含推断、基于百科的词语消歧、基于lda与k-means的话题聚类、事件重要性判定与时间线生成、基于诗歌数据的诗人足迹挖掘以及基于关键信息的文本图谱化项目。
七、事理抽取与情感计算项目8项
事理抽取包括基于游记的顺承事件抽取、基于规则的因果事件抽取、基于规则的复合事件抽取三种。
情感计算主要包括篇章级情感分析、中文幽默情感计算、基于规则的主观性计算、基于SO-PMI的情感词扩展以及基于MLP, CNN, RNN的情感分类
总结
本文主要回顾了老刘在早年所做的一些开源的工作,做了一些归置和整理,一共包括近70项。
这两年,逐步走向社区、口头以及笔头建设,即日起,回归开源建设,从实现端再做一些有趣的事儿,与大家一道更好进步。
实践开源是拥有产品想法的技术人最好的解压出口。
参考文献
1、https://liuhuanyong.github.io
关于我们
老刘,刘焕勇,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。
老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。
对于想加入更优质的知识图谱、事件图谱、大模型AIGC实践、相关分享的,可关注公众号,在后台菜单栏中点击会员社区->会员入群加入。
更多AI工具,参考Github-AiBard123,国内AiBard123