自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

沈春旭的博客

优秀是一种习惯

原创 机器学习资源-Harvard Ph.D Sam维护

这篇博文转自哈佛大学博士生Sam整理的机器学习资料,包括了数据基础、几何、概率论、统计学习、深度学习等。内容非常丰富,Blog是完全拷贝用于备份。最新内容建议阅读Sam维护的博文:https://sgfin.github.io/learning-resources/ ML Resources ...

2018-11-13 16:52:27 12195 0

原创 个人主页

基本信息 教育经历: 2018.11- Cornell University Ph.D Candidate 2016.8-2019.6 图形与图像处理 GPA=3.98 1/121(清华大学硕士毕业设计) 2014.7-2016.6 图形与图像处理 ...

2017-08-29 17:59:22 18993 7

原创 Go协程池设计思路(Task-Job-Worker)

1. 铺垫:Go 的接收器Receiver 在go语言中,没有类的概念,但是可以给类型(结构体,自定义类型)定义方法。所谓方法就是定义了接受者的函数。接受者定义在func关键字和函数名之间。可以理解成为结构体定义函数方法,类似于C++中的类方法。 type Person struct { ...

2020-04-13 00:18:24 538 0

原创 Go协程与协程池

1. Golang协程 golang和其它语言最大区别莫过于goroutine,也就是go的协程,example如下: package main import "fmt" import "time" func go_worker(name strin...

2020-04-12 16:25:20 429 0

原创 HashMap底层实现和原理

本文是在阅读知乎老刘作品后的整理。内容基于JDK1.7进行分析,1.8做的改动文章末尾进行讲解。 1. 基本要义 1.1 概述 Hashmap在Map派生中的位置 HashMap基于Map接口实现,元素以键值对的方式存储,并且允许使用null键和null值,因为key不允许重复,因此只能...

2020-04-05 23:52:30 610 0

原创 获取keras中间层输出、模型保存与加载

1. 获取keras中间层输出 # model summary and plot import keras from keras.models import Model from keras.utils import plot_model DocEncoder.summary() DocE...

2020-03-29 22:52:18 915 0

原创 常见回归和分类损失函数比较

文章转自知乎作者wdmad,更多内容建议阅读原文:https://zhuanlan.zhihu.com/p/36431289 本博文属于阅读笔记,融合了个人观点。 1. 损失函数 损失函数的一般表示为L(y,f(x)),用以衡量真实值 y和预测值 f(x)之间不一致的程度,一般越小越好。为了...

2020-03-29 21:45:45 1542 0

原创 特征共线性问题

多重共线性是使用线性回归算法时经常要面对的一个问题。在其他算法中,例如决策树或者朴素贝叶斯,前者的建模过程时逐渐递进,每次都只有一个变量参与,这种机制含有抗多重共线性干扰的功能;后者假设变量之间是相互独立的。但对于回归算法来说,都要同时考虑多个预测因子,因此多重共线性不可避免。 多重共线性(Mu...

2020-03-13 18:27:22 1030 0

转载 NDCG:推荐系统/搜索评价指标

本文转载自【胖喵】博主,详细请看https://www.cnblogs.com/by-dream/p/9403984.html 1. CG:累计增益 CG,cumulative gain,只考虑到了相关性的关联程度,没有考虑到位置的因素。它是一个搜素结果相关性分数的总和。指定位置p上的CG为...

2020-03-07 16:17:43 725 0

转载 Redis批量操作详解及性能分析

通过mget批量执行指令可以节约网络连接和数据传输开销,在高并发场景下可以节约大量系统资源。本文中,我们更进一步,比较一下redis提供的几种批量执行指令的性能。 1.为什么需要批量执行redis指令 众所周知,Redis协议采取的是客户端-服务器方式,即在一次round trip中,客户端发...

2020-01-11 17:33:21 677 1

原创 golang中的flag模块小结

1. flag常用函数 无论是c语言还是golang语言或是其他语言,启动应用程序时都可以带一些参数,然后系统根据传入的参数进行特点的工作。如:./main -mode online -model bert_ch. 在Go中可以方便地使用flag模块进行命令行参数解析。 // 解析字符串 t...

2020-01-08 21:59:17 654 0

原创 SQL小结

1. SQL模糊查询 like: 效率低,容易全盘扫描 # 查找Name中包含字符'M'的数据 select ename from table where ename like '%M%' # 查找Name中第二个字母为'M'的数据 ...

2020-01-05 18:10:18 898 2

原创 Java中恒等条件判断:“equals”和“==”

1. 起因:字符串恒等判断 //String is reference type String str1 = new String("hello"); String str2 = new String("hello"); System.out.prin...

2019-11-27 19:36:02 420 1

原创 OCR-PIL.Image与Base64 String的互相转换

1. 基本环境 py2: python2.7.13 py3: python3.6.2 PIL: pip(2/3) install pillow, PIL库已不再维护,而pillow是PIL的一个分支,如今已超越PIL 2.Convert PIL.Image to Base64 String ...

2019-11-14 10:08:31 1101 0

原创 Bert演变总结

2019-11-03 21:41:36 326 0

原创 基于bert模型的文本分类研究:“Predict the Happiness”挑战

1. 前言 在2018年10月,Google发布了新的语言表示模型BERT-“Bidirectional Encoder Representations from Transformers”。根据他们的论文所言,在文本分类、实体识别、问答系统等广泛的自然语言处理任务上取得了最新的成果。 201...

2019-11-03 21:30:16 943 0

原创 faiss(2):理解product quantization算法

近几年,深度学习技术被广泛用于图像识别、语音识别、自然语言处理等领域,能够把每个实体(图像、语音、文本)转换为对应的embedding向量。如这里千人千面智能淘宝店铺背后的算法研究登陆人工智能顶级会议AAAI 2017。而对于推荐、搜索或者广告投放问题,都可以描述为从大规模候选中给用户提供有限的展...

2019-11-03 14:02:07 2214 0

原创 faiss(1):简介 安装 与 原理

1. 简介 Faiss是Facebook AI团队开源的针对聚类和相似性搜索库,为稠密向量提供高效相似度搜索和聚类,支持十亿级别向量的搜索,是目前最为成熟的近似近邻搜索库。它包含多种搜索任意大小向量集(备注:向量集大小由RAM内存决定)的算法,以及用于算法评估和参数调整的支持代码。Faiss用C...

2019-11-03 13:02:23 1550 0

原创 热词抽取与话题发现系列(1):郝晓玲研究

1. 背景 社区内容的数据挖掘方面主要可分为两大类:内容关联挖掘和用户关系挖掘, 热词/热点话题发现属于社区内容挖掘范畴,是指从大量的UGC文本中检测出用户广泛讨论的话题。涉及两个关键性技术:中文分词技术,中文话题发现技术。 中文分词算法主要分为两种:一是基于语言规则的方法,即计算机可以通过自...

2019-10-20 14:11:43 1053 0

原创 Spark写Redis+Spark资源配置总结

1. 起源于Error 19/10/16 11:22:06 ERROR YarnClusterScheduler: Lost executor 28 on **********: Container marked as failed: container_********** on host:...

2019-10-17 21:10:24 718 0

转载 ABtest用于推荐系统性能衡量

1. 背景介绍 无法衡量就无法优化,对于互联网产品而言,不仅是推荐系统,整个 app 系统的更新迭代必然需要建立一套度量衡,来把控整个流程优化的方向。而 ABtest 系统就是一个很好的进行变量控制和优化方向选取的工具,循环:衡量 - 发现 - 迭代 - 验证。所谓精细化迭代是一种建立在数据基础...

2019-10-13 19:48:24 3921 0

原创 SQL中的distinct的使用方法

1. distinct含义与使用方法 distinct用来查询不重复记录的条数,即用distinct来返回不重复字段的条数(count(distinct id)),其原因是distinct只能返回他的目标字段,而无法返回其他字段。 注意事项 distinct 【查询字段】,必须放在要查询字段的...

2019-10-13 19:19:23 293 0

原创 [scala-spark]12. RDD行动操作

first first返回RDD中的第一个元素,不排序。 scala> var rdd1 = sc.makeRDD(Array(("A","1"),("B","2"),("C","...

2019-09-23 01:21:33 297 0

原创 [scala-spark]11. RDD控制操作

Spark可以将RDD持久化到内存或者磁盘,持久化到内存可以极大的提高迭代计算以及计算模型之间的数据共享,一般情况下,执行节点60%内存用于缓存数据,剩下40%用于运行任务。Spark使用persist、cache进行操作持久化,其中cache是persist的特例。 cache():RDD[T...

2019-09-23 01:11:33 214 0

原创 [scala-spark]10. RDD转换操作

RDD提供了一组非常丰富的操作来操作数据,如:map,flatMap,filter等转换操作,以及SaveAsTextFile,conutByKey等行动操作。这里仅仅综述了转换操作。 map map是对RDD中的每一个元素都执行一个指定的函数来产生一个新的RDD,RDD之间的元素是一对一的关系...

2019-09-23 01:05:13 230 0

转载 [scala-spark]9. RDD创建操作

1.从集合创建RDD parallelize def parallelize[T](seq: Seq[T], numSlices: Int = defaultParallelism)(implicit arg0: ClassTag[T]): RDD[T] 目的:从一个Seq集合创建RDD 参数...

2019-09-23 00:28:50 404 0

原创 [scala-spark]8. RDD的实现和编程接口

1. RDD的实现 作业调度 当对RDD执行“转换操作”时,调度器(DGAScheduler)会根据RDD的血统来构建由若干调度阶段(State)组成的有向无环图(DAG),每个调度阶段包含尽可能多的连续“窄依赖”转换。调度器按照有向无环图顺序进行计算,并最终得到目标RDD。 调度器(Task...

2019-09-23 00:18:13 200 0

原创 [scala-spark]7. list 与 map

1. list Scala 语言中提供的数组是用来存储固定大小的同类型元素,数组对于每一门编辑应语言来说都是重要的数据结构之一。声明数组变量并不是声明 number0、number1、...、number99 一个个单独的变量,而是声明一个就像 numbers 这样的变量,然后使用 number...

2019-09-22 23:48:18 423 0

原创 [scala-spark]6. 继承与特质trait

1. 继承 定义抽象类 abstract class Element{ def contents:Array[String] } 抽象类的方法没有实现,抽象类的类本身必须被abstract修饰。而方法只要没有实现,它就是抽象的,不需要加abstract。 定义无参方法 abstrac...

2019-09-22 23:31:00 410 0

原创 [scala-spark]5. 伴生类和伴生对象

单例对象与类同名时,这个单例对象被称为这个类的伴生对象,而这个类被称为这个单例对象的伴生类。伴生类和伴生对象要在同一个源文件中定义,伴生对象和伴生类可以互相访问其私有成员。不与伴生类同名的单例对象称为孤立对象。(弥补了Scala中缺少static关键字的缺陷,可以与java无缝对接) impo...

2019-09-22 23:15:12 345 0

原创 [scala-spark]4. 函数式编程

1. 几个概念说明 在Scala中,方法与函数几乎可以等同(定义 使用 运行机制),只是函数的使用方法更加灵活多样 函数式编程是从编程方式的角度来谈的。函数式编程把函数当成一等公民,充分利用函数、支持函数的多种使用方式(调用)。既可以作为函数的参数使用,也可以将函数赋值给一个变量;此外函数的创...

2019-09-22 22:57:08 266 0

原创 [scala-spark]3. 变量 数据类型 分支与循环

1. 变量定义与初始化 package com.lineshen.chapter2 object variable { def main(args: Array[String]): Unit = { val age: Int = 10 val sal: Double =...

2019-09-22 20:27:53 235 0

原创 [scala-spark]2. Scala运行原理与源码查看

运行原理 韩顺平 查看源码 package com.lineshen.chapter1 object lookSourceCode { def main(args: Array[String]): Unit = { val arr = new Array[String](1...

2019-09-22 17:28:54 292 0

原创 [scala-spark]1. Spark vs Hadoop 及 基础

1. Spark与Hadoop 2. MapReduce的基本计算过程 与之相对比的是Spark往往在一个内存的物理节点完成计算(主要用内存,Shuffle的时候也用到磁盘)。很多操作,比如说单纯的map操作,没有reduce操作;或者Filter类的操作,都可以基于内存进行计算。 ...

2019-09-22 11:12:56 206 0

原创 Go进阶(9): For Range 性能研究

遍历数组,map集合,Slice切片等,Go提供比较好用的For Range方式。range是一个关键字,表示范围,和for配合使用可以迭代数组,map等集合。用法简洁,而且map、channel等也都是用for range的方式,所以在编码中我们使用for range进行循环迭代是最多的。对于这...

2019-09-21 15:25:16 245 0

原创 [java进阶]4.关键字throws和throw

1. throws 关键字 throws关键字主要用于方法声明上,指的是当方法之中出现异常后交由被调用处处理。 class MyMath{ //由于存在throws,那么就表示此方法里面产生的异常交给被调用处处理 public static int div(...

2019-08-29 02:42:07 553 1

原创 [Embeding-3]综述:词嵌入以及与分布式语义模型的关联

1. 前言 近年来,在许多NLP任务中,无监督学习单词嵌入已经取得了巨大的成功。他们的效果如此之好,以至于在许多NLP体系结构中,几乎完全取代了更传统的分布式表示,如LSA特征和Brown聚类。 可以看看2017的EMNLP和ACL会议,他们都及其关注词嵌入,即使最近的ACL Communic...

2019-08-29 02:32:19 861 0

原创 [java进阶]3.slf4j作用及其实现原理

参考博客:https://www.cnblogs.com/xrq730/p/8619156.html 1.简单回顾门面模式 slf4j是门面模式的典型应用,因此在讲slf4j前,我们先简单回顾一下门面模式,门面模式,其核心为外部与一个子系统的通信必须通过一个统一的外观对象进行,使得子系统更易于...

2019-08-28 01:13:09 158 0

原创 [java进阶]2.Jedis基础与List的接口

1. Jedis应用与基本连接 jedis 是 redis推荐的java客户端。通过Jedis可以很方便地使用java代码的方式,从而对redis进行操作。jedis使用起来比较简单,它的操作方法与redis命令相类似。jedis在github上的下载地址为https://github.com/...

2019-08-28 00:49:59 205 0

原创 [java进阶]1.Java读取txt文件和写入txt文件

1. Java读取txt文件 import java.io.*; import java.util.ArrayList; import java.util.List; public class unitTest { public static void main(String[] a...

2019-08-28 00:05:20 821 4

提示
确定要删除当前文章?
取消 删除