题目是这样子的:
有一个文本,事先不知道数据行数,要求等概率抽出1000行来,只准读1遍(即表示你对每一行的选择是二维的,要么要,要么不要,如果选择不要这一行那么再没有机会选择这一行了)
题目主要有两个难点,一个是保证等概率,另一个是对于当前行是要还是不要呢
这个题目的解法目前我只知道以下这种,如果你知道更多的解法,欢迎留言讨论
解法:
假设:i为当前记录序号,S所有采样,要求采样的数量为n,i = 1,2,3...
1. 当i <= n的时候,都放到S
2. 当i>n的时候,每次生成[1, i]均匀分布的随机数r,如果1<=r<=n,就用当前记录i替换掉S中第r个记录
那么对于该解法的证明如下
A. 首先,假设当前S中的样本都是符合题目要求的 那么显然,每个新到的记录有n/i的概率被选中,符合题目要求(题目要就就是一共有m个元素的话,那么每个元素被选中的概率都应该是n/m)
B. 再看之前就在S中的记录,因为假设符合要求,那么S中的一个元素,在i到来之前,是以 n/(i-1)的概率选出的,i到来后,它被抽到去掉的概率是1/i,那么保留的概率是(i-1)/i,这样最终它在S中的概率就是(n/(i-1)) * ( (i-1)/i) = n/i
分享到:
相关推荐
可随机抽取题目的不重复PPT课件.pptx
为了解决上述问题,本文以主动学习为切入点,实现了多种采样算法,主要有不确定性,多样性,代表性等算法,在验证主动学习适用于关系抽取任务的基础上,通过融合多种采样标准最终获得一个可以在多个数据集和多种学习...
针对领域术语抽取问题,采用基于规则和多种统计策略相融合的方法,从词语度和领域度两个角度出发,提出一种领域术语的抽取算法并构建出相应的抽取系统。系统流程包括基于左右信息熵扩展的候选领域术语获取、基于词性...
实体关系抽取作为信息抽取、自然语言理解、信息检索等领域的核心任务和重要环节,能够从文本中抽取实体对间的语义关系.近年来,深度学习在联合学习、远程监督等方面上的应用,使关系抽取任务取得了较为丰富的研究成果....
评标专家抽取系统
kettle增量抽取数据
随机抽取数字,随机抽奖等!随机抽取数字,随机抽奖等!随机抽取数字,随机抽奖等!随机抽取数字,随机抽奖等
(1)Kettle数据抽取---全量抽取
提出了一种多变参概率潜在语义索引(pLSI)算法,可以利用社交网站标签、文本表情图片等多种辅助信息提高特征抽取的效果。实验数据显示,该算法有较高的分类准确率和较低的时间开销。该算法是理想的降维算法,适用于...
西安电子的博士论文,主要讲述了基于条件概率图模型的DeepWeb数据抽取与集成研究
NULL 博文链接:https://snv.iteye.com/blog/1963759
2020语言与智能技术竞赛:事件抽取任务2020语言与智能技术竞赛:事件抽取任务2020语言与智能技术竞赛:事件抽取任务2020语言与智能技术竞赛:事件抽取任务2020语言与智能技术竞赛:事件抽取任务2020语言与智能技术...
事件抽取数据集事件抽取数据集事件抽取数据集
该资源对中文信息抽取关键技术进行了研究。信息抽取 (Information Extraction: IE)是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。信息...
有关ETL抽取方式的详细介绍。 数据抽取是从数据源中抽取数据的过程。实际应用中,数据源采用较多的是关系数据库。 从数据库中抽取数据一般有一下几种方式。 1、全量抽取 全量抽取类似于数据迁移或复制,它将数据源中...
基于python实现的随机抽取器源码(带GUI界面)+项目说明.zip # 随机抽取器 *一款轻量方便的课堂小工具* ## **1. 功能介绍** - 一键抽取班里的一位同学 - 可选择是否允许重复抽取同一位同学 - 可更改每个同学被抽...
原始采样频率为44.1kHz,采样点数为10240点,并得出CIC抽取滤波器的抽取仿真结果示意图。文件名为:cicdecimation.m
可以从数据库中随机抽取数据,并且显示出来
插值抽取信号演示,演示信号传输过程中的插值与抽取操作,并与之间小数倍采样作比较
此系统是一款随机抽题系统,可以从题库中随机抽取考试题目