- A+
不会技术也能使用正则表达式灵活批处理文本
原创
o君言o
2023年06月02日 16:50
福建
之前发布的图文批量生成器,有一个辅助的小功能还没有更新:
后来开发完之后,赶上ChatGPT,又觉得后续这类程序在AI面前并没有太多价值,所以一直没有发布。
但是,考虑到短时间里,类似ChatGPT这类应用对很多人来说还是有使用门槛,
而且基于web交互,不方便处理大量数据(至少百万级),因此还是选择发布出来。
文本批处理
顾名思义,这个工具可以批量处理很多文本方面的工作:
软件界面
它的背后基于正则表达式
,相当于我做了一层翻译的工作,
让不会技术的人使用它,也可以利用正则表达式的功能来灵活批处理。
文本处理
这个模式主要针对单一长文本
里的目标文本的:提取、替换、叠加、清除 等格式化工作。
常见场景比如:
1:格式化
我们在网上找到这样一些数据:
<p> 1.我并不失落,我也没有受伤,没有生气,我只是有点累了,我厌倦了付出太多,回报太少。</p><p> 2.所有的悲伤,总会留下一丝欢乐的线索。 所有的遗憾,总会留下一处完美的角落。</p><p> 3.爱情是一种过程而不是一个目的地,生命也是如此。</p><p> 4.遗憾是一种勾情未已的韵调,结束了,却是停不下缅怀的激念。</p><p> 5.恩怨纠葛如浮云过,她遗憾没在最好的年华里遇上他。</p><p> 6.人生可以有暂时的遗憾,却不可以有终生的遗憾!</p><p> 7.有些人,一辈子都不会在一起,但是有种感觉却可以放在心里守一辈子。</p><p> 8.遗憾是懵懂,是无奈,是成功后的反思,是甜蜜中的轻微喟叹。</p><p> 9.仍然可以为你一句话走很远到那条街,只是不会再有悸动,只是因为你是第一个喜欢的人,只是或许也是唯一一个。</p><p> 10.我很开心可以走近你身边,可是我却很遗憾不能走进你心里。</p><p> 11.不必遗憾。若是美好,叫做精彩。若是糟糕,叫做经历。</p><p> 12.梦中,一首歌的邂逅,得不到梦神的眷顾,生命的时钟锈蚀我苍白的世界,再也找不到你存在的理由</p>
通过软件可以批量:去除编号、去除换行、替换某些字符、提取加粗字体、统一叠加某些文字 格式化html代码 等等。
2:提取信息
<li> <a href="https://www.a.com/4987550.html" target="_blank">优美文艺句子</a></li><li> <a href="https://www.a.com/5355088.html" target="_blank">处暑文案</a></li><li> <a href="https://www.a.com/5492101.html" target="_blank">夏天唯美文案</a></li><li> <a href="https://www.a.com/5455280.html" target="_blank">霜降简短文案</a></li><li> <a href="https://www.a.com/118648.html" target="_blank">励志的文案</a></li>
像这样一批链接,有固定的格式,软件可以很方便的把符合规则的链接或标题全部提取出来。
如果你正在做自媒体、短视频方面的工作,那么在文案整理、内容编辑、数据生成等方面的工作,这个软件会在很多场合帮你提升效率。
数列筛选
这个模式主要针对多行短文本(比如关键词)的筛选或去除工作。
常见场景比如:
1:关键词清洗
抖音视频怎么去掉抖音的水印抖音视频怎么下载下来抖音视频素材库网站免费抖音视频如何去水印保存视频抖音视频播放量有收益吗抖音视频配音说话怎么弄的抖音视频怎么剪辑抖音视频怎么配音解说抖音视频怎么删除作品
类似这样一行一行的长尾词数据,我们可能在Excel里有百万行,
对于包含某些词根词缀的长尾词,我们想要清除,经常要在Excel里反复操作:
如果使用软件,就可以一次性设置一批词缀,然后一键去除。
又比如:开头或结尾是数字、有包含英文、存在空格、存在标点符号、即包含xx又包含xx 等等这样的情况,
都可以通过程序简单设置后,一键去除。
2:格式提取
比如某些长尾词数据里大量包含:xx怎么赚钱
这样的文本,
那我们可以将所有包含xx怎么赚钱
这样的长尾词提取出来,这里面的xx
可能就是一个项目描述。
如果你在从事SEO、sem,又或者是进行需求挖掘,这个软件会帮你减少很多繁琐的工作,百万级别的长尾词数据没有压力。
以上两个模式只是简单举个例子,相对于真正的正则表达式
,这个软件已经可以解决日常工作中的各种文本批处理工作。
所以只需要看完教程,理解一下使用逻辑,加以灵活运用,绝大部分你想得到的文本批处理工作都可以轻松搞定。
软件领取
统一微信找我领取:
君言
之前有购买图文批量生成器的朋友可以免费找我领取,其他朋友可以私下红包或直接赞赏,大小随意!
关键词批处理工具
这个工具之前也被很多人问起,不少朋友表示关键词相关的处理工作有很多,
但是作为行业相关的人,却连基本的关键词清洗都做不好,苦于不会技术,也不想学。
所以这个工具我有考虑去开发一个,并不难,主要涉及的功能点比如:
词频统计、长尾分词、简单分类、高频组合词提取、筛选清洗、模板识别、词云生成、关键词生成,以及其他一些零碎的小功能。
这些都是我过往文章有提到的,目前市面上只有一些工具有单独涉及到一两个,
我想可以整合封装一个专门的本地工具,可以反复使用、不受数据量限制。
如果你对这样的工具有需要,可以向我反馈一下,如果有一些功能建议也欢迎。
自媒体16
小工具10
Python14
图文3
关键词30
关键词 · 目录
#关键词
上一篇下一篇