Java生成sitemap网站地图 sitemap 是什么?对应没有接触过网站 SEO 的同学可能不知道,这里引用一下百度站长的一段解释。 Sitemap(即站点地图)就是您网站上各网页的列表。创建并提交Sitemap有助于百度发现并了解您网站上的所有网页。您还可以使用Sitemap提供有关您网站的其他信息,如上次更新日期、Sitemap文件的更新频率等,供百度Spider参考 简单来说,sitemap 就是搜索引擎爬虫便于爬取 2018-10-21 其他工作技术总结 java生成sitemap sitemapgen4j生成sitemap seo
和我一起打造个简单搜索之SpringDataElasticSearch关键词高亮 前面几篇文章详细讲解了 ElasticSearch 的搭建以及使用 SpringDataElasticSearch 来完成搜索查询,但是搜索一般都会有搜索关键字高亮的功能,今天我们把它给加上。 2018-09-17 ElasticSearch SpringDataElasticSearch高亮 SpringDataElasticSearch关键词高亮 ElasticsearchTemplate使用
和我一起打造个简单搜索之SpringDataElasticSearch入门 网上大多通过 java 操作 es 使用的都是 TransportClient,而介绍使用 SpringDataElasticSearch 的文章相对比较少,笔者也是摸索了许久,接下来本文介绍 SpringDataElasticSearch 的 api 使用,更加方便的进行查询。 2018-09-13 ElasticSearch SpringDataElasticSearch使用教程 SpringDataElasticSearch查询 SpringDataElasticSearch入门
和我一起打造个简单搜索之Logstash实时同步建立索引 用过 Solr 的朋友都知道,Solr 可以直接在配置文件中配置数据库连接从而完成索引的同步创建,但是 ElasticSearch 本身并不具备这样的功能,那如何建立索引呢?方法其实很多,可以使用 Java API 的方式建立索引,也可以通过 Logstash 的插件 logstash-input-jdbc 完成,今天来探讨下如何使用 logstash-input-jdbc 完成全量同步以及增量同 2018-09-13 ElasticSearch ElasticSearch索引同步创建 logstash全量同步建立es索引 logstash增量同步建立es索引 logstash-input-jdbc增量同步时间不对 logstash-input-jdbc建立索引
和我一起打造个简单搜索之IK分词以及拼音分词 elasticsearch 官方默认的分词插件,对中文分词效果不理想,它是把中文词语分成了一个一个的汉字。所以我们引入 es 插件 es-ik。同时为了提升用户体验,引入 es-pinyin 插件。本文介绍这两个 es 插件的安装。 2018-09-13 ElasticSearch ElasticSearch之IK分词器安装 ElasticSearch之pinyin分词器安装 ElasticSearch之IK分词器与pinyin分词器一起使用
和我一起打造个简单搜索之ElasticSearch入门 本文简单介绍了使用 Rest 接口,对 es 进行操作,更深入的学习,可以参考文末部分。 2018-09-13 ElasticSearch ElasticSearch语法入门
和我一起打造个简单搜索之ElasticSearch集群搭建 我们所常见的电商搜索如京东,搜索页面都会提供各种各样的筛选条件,比如品牌、尺寸、适用季节、价格区间等,同时提供排序,比如价格排序,信誉排序,销量排序等,方便了用户去找到自己心里理想的商品。 站内搜索对于一个网站几乎是标配,只是搜索的强大与否的区别,有的网站只支持关键词模糊搜索,而淘宝,京东提供了精细的筛选条件,同时支持拼音搜索等更方便的搜索方式。 由于笔者在一家做网络文学的公司工作,所以实现就是以 2018-09-13 ElasticSearch ElasticSearch环境搭建
爬虫元素选择技巧 前言作为一个爬虫框架,WebMagic 提供了多种选择器便于我们的使用。使用 Selectable 来对内容进行链式抽取,常用的抽取方式有:CSS 选择器、XPath,正则表达式,JsonPath。今天写写如何利用一些工具,来快捷编写这些选择语法。 2018-08-31 WebMagic 爬虫技巧
聊聊我的规划 前言去年的这个时候,闲着无事刷知乎,看到一个问题觉得很有意思,【天天写业务代码的程序员,怎么成为技术大牛,开始写技术代码?】,当时的自己确实也一直是在写业务方面的代码,写的时间久了,面对着源源不断的需求,只能硬着头皮去应对,内心难免有所困扰;看到标题,我也不禁在想,什么时候我也能成为技术大牛呢?(对技术有所追求的 Coder 目标应该都是成为一个技术大牛吧)抱着这种心态,我点进了问题。 2018-08-26 闲谈
WebMagic实现分布式抓取以及断点抓取 前言从去年到今年,笔者主要负责的是与合作方的内容对接,新增的合作商不是很多的情况下,在我自从去年引入了 WebMagic 这个爬虫框架之后,基本很少需要去关注维护爬虫,做的最多的是新接入合作商去写对应爬虫抓取模板。 因为在代码中实现了增量抓取,单机也足以承担日常的抓取工作。 在前两周,由于公司拓展新的业务渠道,需要接入的合作商瞬间增加了 3 倍,又被要求在 2 天内全部接入,那两天和另外一个同事, 2018-08-04 WebMagic WebMagic分布式抓取 WebMagic断点抓取