選擇在正確的時間正確的二進制指標
在计算机领域,对于某种特定的计算机设计而言,字(word)是用于表示其自然的数据单位的术语,是用来表示一次性处理事务的固定长度。一个字的位数,即字长,是计算机系统结构中的一个重要特性。字长在计算机结构和操作的多个方面均有体现。计算机中大多数寄存器的大小是一个字长。计算机处理的典型数值也可能是以字长为单位。CPU和内存之间的数据传送单位也通常是一个字长。还有内存中用于指明一个存储位置的地址也经常是以字长为单位的。现代计算机的字长通常为16、32、64位。其他曾经使用过的字长有:8、9、12、18、24、36、39、40、48、60位;slab是早期的另一个字长实例。
字长 概念
字长 通俗含义
字长 固定字长与可变字长
在某些计算机中,每一储存位置是由固定的位数所组成的。每当计算机涉及到某一个储存位置时,即表示它要引用此一固定长度的位置,亦称为一个“字” ( word ) 。像此种型态的组织,我们称之为固定字长( fixed word length)或可定址字( word-address-able)。例如典型的迷你计算机,一个字长为16个位。 [6]
另一些计算机,它的每个地址所引用是一个位元组或一个字。这种计算机,我们称之为可定址字( character-ddressable )或可定址位元组( byte-addresable )。右图所示即为此种储存体,因为这10个位元组的每一个位元组,皆可个别设定一个位址。 [6]
我们之所以称之“可变字长” ,乃是因为只要利用一个计算机已有的指令(如" add"或"選擇在正確的時間正確的二進制指標 move " ),它就可以去处理字数目为可变的字。但对固定字长的计算机而言,它所处理的字数目是由指合本身所指定的。 [6]
可变字长组织其主要优点为储存体的使用效率高;即,只需使用与字数一样的位置即可储存该组字(注:如果想储存SANTA这一组字,只需使用5个位置即可)。然而,固定字长的组织可能会有浪费内存空间的现象。例如图a中的第三个字(位址为003 )仅被利用一半,而其另一半则未被使用。 [6]
字长 双倍字长
字长 字长的选择
字长 各种字长的架构
早期的计算机设计中包括所谓的“可变字长”设计。(原文:Early machine designs included some that used what is often termed avariable word length.——译者)。在这类设计中,数字操作数没有固定的长度,它们通过检查某个特殊字符来判断是否结束。这样的机器使用BCD编码表示数字,例如IBM 702、IBM 705、IBM 7080、IBM 7010、UNIVAC 1050、IBM 1401和IBM 1620。 [8]
大部分这样的机器一次处理一个存储单元,因为每条指令和数据占用的数个单元,所以指令将使用数个周期来读取存储器。这类机器经常因为这个原因变得非常慢。例如,在IBM 1620 Model I上,取指令需要8个周期,只是为了读取12个数字(Model II降低到6个周期,不过如果指令不需要取其中的一个1个地址域的话,可以只需要4个周期;如果两个都不需要,则只需要1个周期)。 [8]
字长 字和字节编址
当计算机很大的工作量是用来处理字节时,通常定义字节作为地址编址单位要比字更好。这样做字符串中的单个字符可以通过地址直接指定。当然,一个字仍然可以被地址访问,但是比起字编址方案,它的地址将使用更多的位数。在这种组织结构中,字长需要被定义为字符长度的整数倍。这种编址方案在IBM 360中被使用,此后即变成计算机设计中最普遍的方案。 [8]
您需要针对机器学习性能进行优化的6个指标
默认情况下,精度是第一要注意的事情。 但是,真正的数据科学家知道准确性太误导了。 一种更好的称呼方法是预测所有类别的平均准确性。 就像我在True True Rate中提到的那样,它是最理想的指标。 准确度将取"真正值"和"真负值"之和的平均值。 在不平衡分类问题中,大多数情况下,否定类比肯定类的代表更多,因此您更有可能具有很高的真实否定率。 然后,准确度将偏向负面类别的准确预测,这可能不会引起任何人的兴趣。
机器学习中的回归优化
5.错误
该错误通常会在R旁边被忽略,它告诉我们更多有关拟合值相对于回归线(即拟合值与优秀拟合线之间的平均距离)的精度的信息。 在计算模型的置信度和预测间隔时,这一点尤为重要。 由于使用响应变量的自然单位,因此更易于解释,而R没有单位,并且仅在0到1之间。
6. R2
现在,尽管"标准误差"很重要,但R已成为良好回归模型的实际度量。 它告诉我们模型解释了因变量和自变量之间的差异。 较高的R会给出更好的模型,但是,如果过高(接近99%)有时会导致过度拟合的风险。 由于相关性与因果关系的争论可能会给R带来不合逻辑的高R,因此R可能会产生误导。
用户的目标会影响模型的性能,因此请谨慎选择
精度并非始终是分类问题中的优秀度量,R对于回归而言可能并非最佳。 无疑,它们都是最容易理解的,尤其是对于非技术利益相关者而言(这也许是首先构建模型的较大原因)。 比较好的方法可能是考虑各种性能指标并考虑您的初始目标。 模型的性能始终取决于用户的目标。 从一个人的角度来看,表现不佳对于另一个人而言可能并非如此。
選擇在正確的時間正確的二進制指標
微信搜一搜
微信搜一搜