学术论文中的数据收集规则

5个回答默认排序

默认排序

按时间排序

小蝴蝶飞不过

已采纳

论文数据来源有：1、专业行业网站或统计网站(年鉴)。主要依据主题的相关专业行业网站获取数据，同时注意记录各种数据源。2、相关的新闻报导，或者是学术文献文献作为数据的来源。但需要对最新的数据进行整理。3、上市公司的年报或者市政府门户统计的经济数据，这种数据相对来说比较宏观的数据，准确一点。 4、相应的内部员工提供。通过访谈、问卷调查、运营数据收集等获得。资料：论文是一个汉语词语，拼音是lùn wén，古典文学常见论文一词，谓交谈辞章或交流思想。当代，论文常用来指进行各个学术领域的研究和描述学术研究成果的文章，简称之为论文。它既是探讨问题进行学术研究的一种手段，又是描述学术研究成果进行学术交流的一种工具。它包括学年论文、毕业论文、学位论文、科技论文、成果论文等。

287 评论 1小时前发布

战斗鸭鸭

刘明亮1 吴跃民1 杨明2（湖南万源评估咨询有限公司，长沙，410011；武汉大学资源与环境科学学院，武汉，430079）摘要：本文介绍和分析了两种非经典数学方法云理论和粗糙集理论，通过对这两个方法进行比较和结合，建立了以云理论和粗糙集理论相结合为基础的土地适宜性评价模型，并在此基础上进行了实例的研究和应用。关键词：粗糙集理论；云理论；数据挖掘；土地适宜性评价土地适宜性评价是针对某种特定土地利用类型的适宜性及适宜程度的评价。它是土地合理利用的重要内容，通过其对地区全部土地资源的研究，为土地利用总体规划工作中的人地平衡、用地布局与土地结构调整、土地开发利用等工作提供了科学依据。因此，对土地适宜性进行正确的评价，对适宜级别做出合理划分是进行规划决策的首要任务之一，而评价方法作为获取正确评价结果的途径就显得尤为重要。传统的评价方法，如极限条件法、回归分析法、经验指数和法、层次分析法等，由于其评价方法过于简单，在一定程度上不能客观全面地反应实际情况。随着智能化技术的不断发展与完善，评价方法也由传统的简单的数值方法向智能化发展。由于土地适宜程度本身的不确定性，用处理大量的不确定性数据的挖掘技术显得更有优势。1 粗糙集理论与云理论的特点粗糙集理论是一种刻画不完整性和不确定性的数学工具，能有效地分析和处理不精确、不一致、不完整等各种不完备信息，并从中发现隐含的知识，揭示潜在的规律。它能够完全从已有的数据中有效地发现关联规则，它可支持知识获取的多个步骤，如数据预处理、数据约简、规则生成、数据依赖关系获取等。云理论是在传统模糊集理论和概率统计的基础上提出的定性定量转换模型，用期望值Ex、熵En和超熵He表征定性概念，是以研究定性定量间的不确定性转换为基础的系统。作为处理不确定性问题的一种新理论，它可协助数据的离散化，规则的推理，使得该方法更趋近于人类的思维领域，为更好地向人工智能发展打下基础。云理论和粗糙集理论在处理不确定性和不精确性问题方面都推广了经典集合论，它们都可以用来描述知识的不精确性和不完全性，但它们的出发点和侧重点不同，云理论结合了模糊性和随机性，而粗糙集通过上近似集、下近似集来刻画不可分辨性。粗糙集不需要任何预备的额外的有关数据信息，在推导关联规则方面，有其特有的优势；而云理论处理不确定信息的方法需要一些数据的附加信息或先验知识，但提供了定性定量转换的方法。虽然云理论和粗糙集理论特点不同，但它们之间有着密切的联系，在研究不确定性数据方面，有很强的互补性。把云理论方法引入到粗糙集方法中，对粗糙集的结构化的模型进行改进，不仅可提高发现算法的效率，还可提高系统模型的鲁棒性。土地适宜性是一个定性的概念，利用粗糙集理论和云理论相结合建立土地适宜性评价模型，可以互相补充，取长补短，为土地适宜性评定的客观性提供可能性。2 基于云理论和粗糙集评价模型的建立云理论与粗糙集方法相结合是将基于云理论的定量到定性的转换方法作为粗糙集方法的预处理手段，把定量数据转换为定性数据，或把定性数据转换为不同概念层次的新的定性数据，然后应用粗糙集方法发现分类决策知识，最后运用云理论的不确定性推理方法应用这些知识，即根据新的定量或定性条件数据推理出定量或者定性结果，从而表达和传递知识和推理的不确定性。就具体模型建立而言，首先根据原始数据制成初始决策表，对每个条件属性，查看它是否为离散属性，若是，则进行离散化处理，直至整个决策表全部转化为离散数据为止，据此制成最终决策表。在此决策表的基础上，利用粗糙集方法发现关联规则并计算属性重要性，得到关联规则，最后用基于云理论的推理方法得出定性的推理结果。整个模型如图1所示。图1 评价模型图其中，基于云理论规则推理的详细过程，如图2 所示。1 决策表的建立收集影响土地适宜性的数据，如坡度、质地、有机质含量，厚度等等，进行原始数据的采样和整理，并根据土地适宜性评价的目的（如宜林宜牧等）做成信息决策表。2 数据预处理在很多情况下，所得到待处理的信息表并不是一个完备的信息表，表中的某些属性值是被遗漏的。对于这种情况，可通过将空缺属性值赋予特殊值来处理，以区别于其他属性值。图2 云理论推理3 数据离散化用云模型模拟人类的思维划分属性空间。每一个属性看作一个语言变量（或多个语言变量的组合）。对于每一个语言变量，定义几个语言值，相邻的语言值间允许有重叠，表达语言值的云可以由用户交互地给定。设对于一个数字型属性给定云A1 （Ex1，En1，He1），A2 （Ex2，En2，He2），……，An （Exn，Enn，Hen），作为语言项，将任一属性值 x输入到云发生器 CG1，CG2，……，CGn，得到输出值 μ1，μ2，……，μn，即属性值 μ 与A1，A2，……，An的隶属度，检索出最大隶属度μi，则x分配给Ai。如果两个隶属度μi和μj，均等于最大值，则 x 随机地分配给 Ai或 Aj。4 决策表属性约简基于粗糙集理论的知识获取，通过采用决策表可辨识矩阵和可辨识函数的属性约简算法对原始决策表约简，包括属性约简和属性值约简。令S＝＜U，R，V，f＞是一个决策表系统，R＝P∪ D 是属性集合，子集 P＝｛ai ｜i＝1，…，m｝和 D＝｛d｝分别为条件属性集和决策属性集，U＝｛x1，x2，…，xn｝是论域，ai （xj）是样本 xj在属性ai 上的取值。CD （i，j）表示可辨识矩阵中第 i 行 j 列的元素，则可辨识矩阵CD 定义为：｛ak ｜ ak∈ P ∧ak （xi）≠ ak （xj）｝，d （xi）≠ d （xj）；土地信息技术的创新与土地科学技术发展：2006年中国土地学会学术年会论文集其中 i，j＝1，…，n。根据可辨识矩阵的定义可知，当两个样本（实例）的决策属性取值相同时，它们所对应的可辨识矩阵取值为0；当两个样本的决策属性不同而且可以通过某些条件属性的取值不同加以区分时，它们所对应的可辨识矩阵元素的取值为这两个样本属性值不同的条件属性集合，即可以区分这两个样本的条件属性集合；当两个样本发生冲突时，即所有的条件属性取值相同而决策属性的取值不同时，则它们所对应的可辨识矩阵中的元素取值为空。5 计算属性权重对于属性集C导处的分类的属性子集B′⊆B的重要性，可用两者依赖程度的差来度量，即：rB （C）－rB－B′（C）这表示当从集合 B 中去掉某些属性子集B′对象分类时，分类 U/C 的正域受到怎样的影响。其中，rB （C）＝card （posp （Q））/card （U）是知识依赖性的度量，其中 card 表示集合的基数：土地信息技术的创新与土地科学技术发展：2006年中国土地学会学术年会论文集称为Q的P正域，对于 U/P 的分类，U/Q 的正域是论域中所有通过分类 U/P 表达的知识能够确定地化入 U/Q 类的对象集合。6 基于值约简的决策规则最小化的提取基于值约简的决策规则的提取是建立在决策表值约简的基础上进行的。假设决策表有三个条件属性 a、b、c，一个决策属性 d。通过对［x］a、［x］b、［x］c、［x］d，进行属性值约简，在规则最小化的原则下，计算得出最小决策规则。7 基于云理论的规则推理基于云理论的不确定性推理按规则的条数分为单规则和多规则推理，每一条规则又可以根据规则前件的条数分为单条件规则和多条件规则。土地适宜性评价只要求得到定性的推理结果，所以本模型通过计算属性重要性来解决。首先激活一个实例的几条规则，得到各个规则的隶属度的云滴，拟合成虚拟云，该虚拟云的期望值即为结果，最后根据最大隶属度的选择选取定性结果。根据以上理论设计的土地适用性评价系统如图3 所示。菜单是关于常用理论的基本方法，右侧的一系列步骤是关于组建数学模型的实现方法。中间的坐标界面用来显示图形结果。图3 评价系统界面3 应用实例琼海市地处海南省东部。东临南海，北靠文昌，西接屯昌，南与万宁县交界。琼海市有着优越的农业自然条件、丰富的旅游资源，但全市存在工业底子薄、矿产资源贫乏、能源短缺、科技水平较低以及建设资金不足等制约因素。土地适宜性评价的主要任务是在收集土壤、地形、水利、气候等资料的基础上，对评价范围内的所有土地进行适宜性评价，找出不适宜现状用途的土地，并给出指定用途的适宜性土地的等级。1 收集资料、整理数据收集所有有关琼海市土地适宜性评价的数据，5个条件属性和1个决策属性，根据原有的单元划分9311个实例。表1是其中一实例的决策表的一部分。表1 决策表示例其中，Yjz 表示土壤有机质含量，Hd 表示土壤厚度，Zd 表示土壤质地条件属性，Sl表示水利条件属性，S_c 表示宜水产养殖地类决策属性。2 数据预处理因为本实例中所得到的初始数据并没有缺失，无需对初始决策表进行预处理，故可以省略这一步，所以得到的最终决策表同表1。3 数据离散化对决策表中的每个属性，依次进行以下步骤，分别得到离散结果。1 计算属性的数据分布函数对属性 i 定义域中的每一个可能取值，计算得到属性 i 的数据分布函数gi （x）；图4是属性厚度（Hd）的数据分布函数的图。图4 属性数据分布图2 计算单个云模型的数据分布函数寻找数据分布函数 gi （x）的波峰所在的位置，将其属性定义为云的重心位置，然后计算用于拟合 gi （x）的云模型，云模型函数 fi （x）计算如图5 所示。图5 云模型分布该图是寻找第二波峰位置时，所拟合的基于云的数据分布函数（红色实线）。云模型参数为：土地信息技术的创新与土地科学技术发展：2006年中国土地学会学术年会论文集4 离散化通过上一步得到的归纳并了解概念云后，对于每个需要离散化的属性值，一一计算出对于每个概念云的隶属度，选取其最大值为离散化的结果，表2 是离散化结果的一部分。表2 属性离散结果5 属性约简求出布尔函数表达式，用布尔函数极小化算法计算约简结果。将布尔函数转化为二进制区分矩阵，对二进制区分矩阵实行简化算法，得到决策表的约简结果，如表3所示。表3 属性化简结果6 计算属性权重根据条件属性对决策属性的分类产生的影响，计算每个条件属性对决策结果产生的重要性及系数，如表4所示。（这个度量是根据论域中的样例来得到的，不依赖于人的先验知识。）表4 属性权重结果7 决策推理根据云理论多条件多规则推理方法，对原有数据参照最小规则进行推理，得到最终的等级划分结果，如图6 所示。图6 等级划分结果4 结论利用上述模型，首先应该尽可能多地收集对土地适宜性问题有影响的因素，运用云理论进行连续数据的离散化之后，可以根据属性重要性确定的方法来筛选评价因素，在此基础之上，运用粗糙集方法获取评价规则。另外应注意的是土地多宜性问题，在土地适宜性评价中，对于每一种土地用途，都要分别确定它的等级，这区别于粗糙集一般的信息处理过程中，把几个不同的决策属性归并为一个决策属性集的综合决策。应用结果表明，云模型汲取了自然语言的优点，突破了已有方法的局限，能够把模糊性和随机性有机地综合在一起，在空间数据挖掘中构成定性和定量相互间的映射，发现的知识具有可靠性。粗糙集理论对模糊和不完全知识的处理比较出色，但其对原始模糊数据的处理能力比较弱，而基于云模型的定性定量转换方法作为粗糙集的预处理是比较合适的。二者相结合的方法应用于土地适宜性评价可以集两种理论之所长，更具优势地解决对其定性评价的实际问题。参考文献张文修，吴伟志等粗糙集理论与方法［M］北京：科学出版社，2001曾黄麟粗糙集理论及其应用［M］重庆：重庆大学出版社，1998张丽，马良基于粗糙集属性约简的模糊模式识别［J］上海理工大学学报，2003，25 （1）：50～53杨昭辉，李德毅二维云模型及其在预测中的运用［J］计算机学报，1998，21 （11）：961～969邸凯昌著空间数据发掘与知识发现［M］武汉：武汉大学出版社，12

161 评论 3小时前发布

吃货独依

可以使用腾讯问卷回答小组，它是连接问卷投放者和回答者的样本库平台，能轻松匹配调研目标人群，不收取中间费用，在1天内可以达到目标回收量的90%！让你在短时间获取大量高质量的答卷。回答小组仅以题目数量评估费用，单份问卷的样本成本低至2元起，低负担更适合学生群体，现在在该平台投问卷，还有好礼相送！

121 评论 5小时前发布

扬州灰豆子

选定了自己有体会、有基础、难度大小适宜、又有相当意义的具体题目后，就要对这个问题作细致周密的调查研究，即围绕论题广泛地搜集资料。所谓广泛搜集资料，就是尽可能了解前人对这一问题已经发表过的意见。这些意见可以给我们启发。他们已经取得的成果，正确的，可吸取、继承，错误的，可批判、纠正。他们有时结论是对的，但引例不当，或论证缺乏逻辑性；有时引例生动恰切，论证也有严密的逻辑性，但结论却错误；有时从引例、论证过程和结论都是错误的。他们正确的体系中，可能有错误观点，错误的体系中，又可能有合理的因素。凡此种种方面的资料，我们都要力所能及地搜集。这种掌握某一问题全部资料的方法，就是“竭泽而渔”的方法。经过“竭泽而渔”的工夫收集资料，写出的论文就具有了坚实的基础，就能立于不败之地，也就有重要的学术价值。但是，有时受条件的限制，百分之百地获取资料不易做到，但是，重要的有代表性的资料是一定要阅读、考察的。马克思撰写《资本》论遍读了当时西方各国全部有关经济学的资料。列宁写作《唯物主义和经验批判主义》，也阅读了当时西方几百种关于哲学、物理学的著作和论文。要写出六、七千字的一篇论文，最少得阅读三、四十万字的资料。不大量地阅读、搜集、记录资料，要想写出高质量的论文是难以想象的事。搜集资料时还要注意：（1）不要满足于第三手、第二手资料，要尽可能搜集第一手资料即原始资料。因为第二、三手资料可能有错讹之处，而第一手资料，没有经过别人改动，比较可靠。（2）搜集的资料应包括感性的和理性的，既包括理论观点，又包括典型事例、数字、图表等与论题有关的东西。（3）自己所选的论题，别人从未研究过，根本没有这方面的资料，搜集什么呢？如要评一篇别人刚发表的没有评论过的新小说，该如何搜集资料呢？那就要披阅作者的其他作品，了解作者的情况，了解本作品发表的时代背景、作品所反映的实际生活、体现的思想感情以及是如何体现的，有何特色和社会意义等等。（4）搜集的资料不仅是与论题相应的本学科的资料，还应有与论题有关的其他学科的资料。如要写一篇关于修辞格的论文，除了搜集本辞格的资料外，还要搜集与分析本辞格有关的哲学、心理学、逻辑学、美学、文化学、文艺学等方面的资料。只有这样，才有可能把论文写得透彻、有深度。

291 评论 12小时前发布

开心准新娘

参考文献是毕业论文中最为基础的，同时也是用处最大、影响最大的一个板块，在撰写论文的时候要以参考文献为基础，很多导师在指导学生论文之前要求学生在确定选题后先搜集不少于十篇关于本课题的相关研究文献，反复精读并提炼其中的论点，之所以要这样做是为了参考文献会直接影响整篇文章学术水平和价值，因此在提交毕业论文检测前一定要全方位的搜集参考文献。渠道一、学校图书馆图书馆和毕业论文可以说是官方标配，至少在毕业前的两个月里你每天要花大量的时间呆在图书馆。图书馆的图书量大且范围广，能够满足学生的要求，关键学校图书馆的文献资料权威度很高，不用担心自己找的文献有质量问题，但是大部分都是纸质图书，因此在后期引用的过程中会比较的麻烦，同时毕业论文检测也会受到影响。渠道二、互联网除了学校图书馆，互联网应该是大家使用频率最高的文献搜集渠道。目前比较受欢迎的有知网、百度学术、爱学术等，但是这些平台的期刊居多，对于博士和硕士论文的参考价值不高。最重要的是文献的质量和真实性难以查证，存在虚假信息和数据，因此在提交毕业论文检测前，建议大家权威的平台重新考证文献的来源。渠道三、学长学姐和导师建议你多结交几位你们学院的优秀研究生学长学姐，因为他们已经有了相关的经验并且手上的文献资料肯定是要比你的丰富，当然有的导师也会直接根据学生分的研究课题提供资料包，这些资料包的珍贵性可想而知，入伙你有幸进入行业交流群，那就更不用担心参考文献的搜集了，行业群往往能在第一时间发布最新的消息，如果你担心权威度，可以询问导师，当然，在毕业论文检测的时候，这些参考文献的质量也会一眼看出。

204 评论 12小时前发布

学术论文中的数据收集规则

5个回答 默认排序 默认排序 按时间排序

相关问答

论文问答

向你推荐

热门问题

5个回答默认排序

默认排序

按时间排序