话术大全
  • 销售话术
  • 汽车话术
  • 房产话术
  • 客服话术
  • 电销话术
  • 保险话术
  • 理财话术
  • 邀约话术
  • 招聘话术
  • 赞美话术
  • 招生话术
  • 淘宝话术
  • 面试话术
  • 回访话术
  • 导购话术
  • 贷款话术
  • 微商话术
  • 催款话术
  • 聊天话术
  • 促销话术
  • 招商话术
  • 微信话术
  • 投资话术
  • 自媒体话术
  • 销售管理
  • 销售技巧
  • 网络营销
  • 营销方案
  • 渠道销售
  • 团队建设
  • 团队精神
  • 团队口号
  • 团队名字
  • 执行力
  • 心态管理
  • 团队协作
  • 提成方案
  • 管理系统
  • 出差管理
  • 销售利润率
  • 会议营销
  • 销售必备
  • 销售故事
  • 销售口号
  • 销售书籍
  • 销售名人
  • 销售名言
  • 销售计划
  • 销售总结
  • 销售合同
  • 祝福短信
  • 销售心得
  • 销售日志
  • 销售心理学
  • 销售视频
  • 促销方案
  • 推广方案
  • 年会方案
  • 培训方案
  • 活动方案
  • 拓展方案
  • 营销策略
  • 销售流程
  • 售后服务
  • 职场天地
  • 职场法则
  • 职业规划
  • 面试技巧
  • 职场故事
  • 住房公积金
  • 生育保险
  • 工伤保险
  • 失业保险
  • 医疗保险
  • 养老保险
  • 劳动法规
  • 感谢的话
  • 时间管理
  • 升职加薪
  • 跳槽攻略
  • 拓展心得
  • 职场英语
  • 创业故事
  • 就业前景
  • 职场维权
  • 职场笑话
  • 企业管理
  • 岗位职责
  • 员工手册
  • 员工福利
  • 规章制度
  • 绩效管理
  • 企业文化
  • 领导艺术
  • 企业战略
  • 品牌经营
  • 人力资源
  • 财务管理
  • 工作管理
  • 小游戏
  • 辞职报告
  • Excel教程
  • 转正申请书
  • Word教程
  • PPT教程
  • WPS教程
  • 表扬信
  • 述职报告
  • 实习报告
  • 放假通知
  • 工作证明
  • 离职证明
  • 竞聘演讲
  • 领导致辞
  • 员工评语
  • 开场白
  • 自荐信
  • 求职信
  • 请假条
  • 任命通知书
  • 检讨书
  • 励志名言
  • 青春励志
  • 励志口号
  • 励志演讲
  • 励志作文
  • 高考励志
  • 名人名言
  • 励志签名
  • 励志英语
  • 励志格言
  • 励志语录
  • 励志网名
  • 励志对联
  • 励志诗句
  • 座右铭
  • 励志歌曲
  • 励志人物
  • 励志电影
  • 励志故事
  • 为人处事
  • 经典台词
  • 人生哲理
  • 励志书籍
  • 演讲口才
  • 销售口才
  • 领导口才
  • 职场口才
  • 名人口才
  • 主持人口才
  • 恋爱口才
  • 演讲手势
  • 即兴演讲
  • 少儿口才
  • 口才训练
  • 消除紧张
  • 礼仪大全
  • 商务礼仪
  • 会议礼仪
  • 坐姿礼仪
  • 礼仪常识
  • 个人礼仪
  • 社交礼仪
  • 服务礼仪
  • 涉外礼仪
  • 着装礼仪
  • 电话礼仪
  • 西餐礼仪
  • 中餐礼仪
  • 面试礼仪
  • 公关礼仪
  • 鲜花礼仪
  • 握手礼仪
  • 接待礼仪
  • 敬酒礼仪
  • 巧用WORD导出干净的网页文本

    发表时间:2021-10-16  热度:
    巧用WORD导出干净的网页文本

      平常爱逛一些音乐坛子,遇到好听的音乐必下之而后快,而且有些帖子附有歌词、介绍,当然也不能放过,将其复制存成文本更方便了我们这些爱好者日后的收藏、练唱。不过最近却发现有的坛子里的网页文字不是那么好保存了。

    过去见到需要的网页内容,只需点击浏览器的“文件”-》“另存为”命令并选“文本类型”项即可 得到想要的文字,但现在有些坛子似乎并不希望访客那么容易的得到它帖子里的文字内容,虽然浏览时并无任何异常,但当将其存成文本文件时就会发现文件里除了 你想要的文字外还多了许多不相干的乱码文字(见图一),导致我们无法正常查看和编辑这些文件的内容了。这到底是怎么回事呢?

      分析原因

    先将想要的内容存为网页文件(HTML格式),通过查看其源代码便会发现其中的奥秘(见图 二)。在帖子每行的文字中间都被加入了一大段的干扰文字,其内容甚至含有低值ASCII码(就是通常指的控制字符)且每段的干扰文字内容也都不尽相同,它 们就是我们在导出文本时所看到的那些不相干文字。显然这种处理不是由发贴人所做的,而是由坛子的管理者有意为之的结果。

      但是在我们浏览网页时为什么没有看到这些干扰文字呢?看看这些文字前面的HTML语言代码就明 白了。经过分析发现,干扰文字被用了两种方式加到了这些网页中:<SPAN>和<FONT>。代码<SPAN STYLE=“DISPLAY:NONE”>。。。</SPAN>中的STYLE语法表明这段文字在浏览时不会被显示出来;而代码 <FONT STYLE=“FONT-SIZE:0PX;COLOR:#F8F8F8”>。。。</FONT>中的两语法更限定了它所包含的文字在 浏览时显示为0字号、浅色。这也就是我们在网页上看不到而在存为文本时却能发现这些干扰文字的原因了。

    问题的解决

    要消除这些干扰文字并还原得到我们想要的文字的文本内容,一般都会想到使用各类编辑软件的查找 替换功能来实现,而事实并不那么简单。由于这些干扰文字里含有控制字符和回车换行符,就使得许多不支持低值ASCII码操作和多行替换处理的编辑软件只能 望之兴叹了。经过笔者的多次测试,最后发现用最常见的WINWORD软件来处理才是最好的选择。

    操作步骤如下:

    1. 浏览时先将网页内容存为HTML页面格式:点击浏览器“文件”-》“另存为”命令并选“仅HTML页面”项;

    2. 用系统自带的记事本软件打开该网页文件:点击“文件”-》“打开”命令并在文件名处输入先前保存好的网页文件全称(带扩展名如ABCD.HTM);

    3. 这时你在记事本中看到的是文件的全部源代码,选“编辑”-》“全选”和“复制”命令,接着新建一空白WORD文件并选“编辑”-》“粘贴”命令,将所有源代码转移到WORD文件中;

    4. 在WORD程序中点击“编辑”-》“替换”命令进行处理。首先选中“使用通配符”选项,根据前面的分析结果在查找栏处输入要查找的文字并执行替换命令(见图三)。

      它们分别是:
    /<SPAN STYLE=“DISPLAY:NONE”/>*/</SPAN/>
    及/<FONT STYLE=“FONT-SIZE:0PX;COLOR:#F8F8F8”/>*/</FONT/>

    其中替换栏处为空,目的是将所涉及文字全部去除。

    5. 执行完上述替换命令后,点击“文件”-》“另存为”命令将处理后的文字保存为新的网页文件。注意:保存时“保存类型”处不要选“WEB页”项而选“带换行符的纯文本”项,且“文件名称”处应填入带指定扩展名的名字,如“EFGH.HTM”;

    6. 双击打开新保存的网页文件,点击“文件”-》“另存为”命令并选“文本文件”项。最后得到的新文件就是去除了干扰文字后干净的文本内容了(如图四);

     


    提示

    不同的网站会加入不同的干扰文字,但其原理大多是一样的,通常都是通过<SPAN>、<FONT>等HTML语言代码的特殊语法来实现的,读者只要稍微分析一下就能找出它们的共同点及相应的处理方法。

    ULTRAEDIT是很强的文本编辑软件且受到许多电脑用户的推崇,但当用它来处理上述操作时需注意先在“高级”-》“设置”-》“常规”框中选中“允许输入低值ASCII码”项(如图五),以在查找替换操作中启用程序的控制字符识别功能。

    转发.分享

    人喜欢

    上一篇下一篇
    相关图文
    猜你喜欢
    点击加载更多内容  ↓