weixin_39923262

python获取字符串行数_关于文本文件：如何在python中获取行数？

我需要在python中获取一个大文件(数十万行)的行数。记忆和时间方面最有效的方法是什么？

现在我这样做了：

def file_len(fname):

with open(fname) as f:

for i, l in enumerate(f):

pass

return i + 1

有没有可能做得更好？

您需要精确的行数还是近似值就足够了？

我需要一个准确的。

使用核心卢克。

我会在for循环之前添加i=-1，因为此代码不适用于空文件。

@传说：我打赌皮科在想，得到文件大小(使用seek(0,2)或equiv)，除以大约的行长。你可以在开头读几行来猜测平均行长。

enumerate(f, 1)和Ditch the i + 1？

@ianmackinnon适用于空文件，但在for循环之前必须将i初始化为0。

下面还有另一个(更好的)答案。是否要重新考虑移动勾号？

相关：为什么从STDIN到C++的读行要比Python慢得多？.见此处与wc-l.py的比较。

我最初是想找到一种快速的方法来预先分配一个存储为文本的表。但是，在我的例子中，我发现将值附加到列表(允许列表动态增长)比读取文件两次更快。根据您的I/O速度，这可能是需要考虑的问题。

有更好的方法，不会改变太多。将"r"标志添加到open函数中，这样它就不必自动找出要使用的标志。我对它进行了计时，该方法在没有"r"标志的情况下慢了约0.01秒。

您可以考虑使用终端并运行wc-l yourfilename

您需要首先检查文件是否存在。这可以使用os.path.isfile(fname)完成。我假设fname是完整的路径。然后在用open调用之前，将i初始化为-1。否则，如果文件是空的，您将得到一个unboundlocalerror，因为我不会被初始化。

我不知道效率有多高，但len(f.readlines())看起来可读性更强。

@Riitek:那会读取整个文件，导致内存溢出…

我已经用熊猫做了一些测试，而且似乎快得多。len(pd.read_csv(file_name，header=none))。索引

将文件拆分为多个文件，并使用并行程序或Hadoop？

一行，可能很快：

num_lines = sum(1 for line in open('myfile.txt'))

不错，也适用于空文件。

它是如何工作的？

它类似于和(1的序列)，每行都计为1。>>>[1 for line in range(10)][1，1，1，1，1，1，1，1，1]>>>sum(1 for line in range(10))10>>>

num_lines=sum(1代表打开的行(‘myfile.txt’)if line.rstrip())代表筛选空行

当我们打开一个文件时，一旦我们遍历了所有元素，它会自动关闭吗？是否需要"close()"？我认为我们不能在这个简短的语句中使用'with open()'，对吗？

如果有一个解释解释为什么它起作用的话，那么对于那些抓住这个答案快速解决问题的人来说，这将是非常有益的。

@Mannaggia您是正确的，最好使用"with open(filename)"来确保文件在完成时关闭，并且最好在try-except块中执行此操作，如果无法打开文件，将引发和ioerror异常。

另一件需要注意的事情是：这比原始问题在30万行文本文件上给出的速度慢大约0.04-0.05秒。

@安德鲁，你确定你测试过……科学地？

如果使用枚举，则不需要求和。除非使用列表理解，否则计数将在for循环之后维护。对于num_行，u in enumerate(open("file.txt"))：pass

你能解释一下这行1的作用吗？num_lines=sum(open("myfile.txt")中的行为1)……(这里还是初学者)您能解释一下这行代码是如何计算文件中的行数的吗？我不知道"1"是什么，它是用来干什么的？谢谢

@stryker 1 for line in open(..)基本上为每条线路提供了1的列表(但不是因为它是一个生成器)。因此，如果文本文件包含三行，那么[1 for line in open(...)]将是[1, 1, 1]：对于每行，1将添加到数组中。然后将该列表传递给sum()，后者汇总迭代器内的所有值。所以sum([1,2,3])就是6。在前面的例子中，文本有三行，我们得到了一个[1,1,1]的列表。当求和时，得到3，这当然是行数。这似乎是多余的，但它的内存很便宜。

"可能很快"。代码越少并不意味着代码效率越高。

我们用len()代替sum()怎么样，比如len([l for l in open('myfile.txt')])？

你不会比这更好的。

毕竟，任何解决方案都必须读取整个文件，找出您拥有多少，并返回该结果。

在不读取整个文件的情况下，您有更好的方法吗？不确定。。。最好的解决方案将始终是I/O绑定的，您所能做的最好的就是确保不使用不必要的内存，但看起来您已经覆盖了这一点。

准确地说，即使是wc也在读取文件，但在c中，它可能是相当优化的。

据我所知，python文件IO也是通过C完成的。docs.python.org/library/stdtypes.html文件对象

posix_fadvise()可以使用stackoverflow.com/questions/860893/&hellip；虽然我没有注意到任何改进gist.github.com/0ac760859e614cd03652

@托马拉克那是条红鲱鱼。虽然python和wc可能发出相同的系统调用，但python有wc没有的操作码调度开销。

您可以通过采样估计行数。它可以快上千倍。参见：documentroot.com/2011/02/&hellip；

其他答案似乎表明这个分类答案是错误的，因此应该删除而不是保留为接受。

使用sum()方法的生成器或列表理解方法是否更快？

这个答案显然是错误的。请参阅glglgl的答案：stackoverflow.com/a/9631635/217802

简直不真实。找线就是找新线。您可以并行读取文件块，并搜索换行符，例如，通过让多个进程搜索内存映射文件的区域。

我相信内存映射文件将是最快的解决方案。我尝试了四个函数：op发布的函数(opcount)；对文件中的行进行简单迭代(simplecount；使用内存映射文件的readline(mmap)(mapcount；以及mykola kharechko提供的缓冲区读取解决方案(bufcount)。

我运行了五次每个函数，并计算了120万行文本文件的平均运行时间。

Windows XP、python 2.5、2GB RAM、2 GHz AMD处理器

以下是我的结果：

mapcount : 0.465599966049

simplecount : 0.756399965286

bufcount : 0.546800041199

opcount : 0.718600034714

编辑：python 2.6的数字：

mapcount : 0.471799945831

simplecount : 0.634400033951

bufcount : 0.468800067902

opcount : 0.602999973297

因此，对于Windows/python 2.6来说，缓冲区读取策略似乎是最快的。

代码如下：

from __future__ import with_statement

import time

import mmap

import random

from collections import defaultdict

def mapcount(filename):

f = open(filename,"r+")

buf = mmap.mmap(f.fileno(), 0)

lines = 0

readline = buf.readline

while readline():

lines += 1

return lines

def simplecount(filename):

lines = 0

for line in open(filename):

lines += 1

return lines

def bufcount(filename):

f = open(filename)

lines = 0

buf_size = 1024 * 1024

read_f = f.read # loop optimization

buf = read_f(buf_size)

while buf:

lines += buf.count('

buf = read_f(buf_size)

return lines

def opcount(fname):

with open(fname) as f:

for i, l in enumerate(f):

pass

return i + 1

counts = defaultdict(list)

for i in range(5):

for func in [mapcount, simplecount, bufcount, opcount]:

start_time = time.time()

assert func("big_file.txt") == 1209138

counts[func].append(time.time() - start_time)

for key, vals in counts.items():

print key.__name__,":", sum(vals) / float(len(vals))

这很有趣，因为我看到了不同的数字。文件的实际大小(字节)？

文件大小为53064630字节。

正如我之前所说，bufcount在我的机器上速度非常慢(最多6次)。mapcount确实是最快的，仅次于wc-l解决方案(stackoverflow.com/questions/845058/&hellip；)。我看到的唯一缺点是消耗了额外的100MB内存，这取决于您的设置可能是相当合适的。我认为你的回答应该得到支持：)

整个内存映射文件未加载到内存中。您得到一个虚拟内存空间，操作系统根据需要交换内存。以下是在Windows上处理它们的方法：msdn.microsoft.com/en-us/library/ms810613.aspx

抱歉，这里有一个关于内存映射文件的更一般的参考：en.wikipedia.org/wiki/memory-mapped_file，感谢投票。：)

尽管它只是一个虚拟内存，但它正是限制这种方法的原因，因此对于大型文件来说，它将不起作用。我用~1.2 GB的文件尝试过，文件容量超过了1000万。行(通过wc-l获得)并得到一个windowserror:[错误8]没有足够的存储空间来处理此命令。当然，这是一个边缘案例。

+1用于实时数据。我们知道1024*1024的缓冲区大小是最佳的还是更好的？

似乎wccount()是最快的gist.github.com/0ac760859e614cd03652

我有疑问。当使用opcount()中的另一个函数call enumerate()时，opcount()比simpleCount()效率如何？

@rgk，python中的addition操作符相当昂贵：/但是请注意，两者之间的差别很小。

为什么用r+打开地图，不需要写访问！

我不得不把这个贴在一个类似的问题上，直到我的名誉分数跳了一点(多亏了撞我的人！).

所有这些解决方案都忽略了一种使运行速度大大加快的方法，即使用未缓冲(原始)接口、使用bytearray和执行自己的缓冲。(这仅适用于python 3。在python 2中，原始接口在默认情况下可以使用，也可以不使用，但是在python 3中，您将默认为unicode。)

使用修改过的计时工具，我相信下面的代码比提供的任何解决方案都快(而且稍微多一些Python式的代码)：

def rawcount(filename):

f = open(filename, 'rb')

lines = 0

buf_size = 1024 * 1024

read_f = f.raw.read

buf = read_f(buf_size)

while buf:

lines += buf.count(b'

buf = read_f(buf_size)

return lines

使用单独的生成器功能，运行速度更快：

def _make_gen(reader):

b = reader(1024 * 1024)

while b:

yield b

b = reader(1024*1024)

def rawgencount(filename):

f = open(filename, 'rb')

f_gen = _make_gen(f.raw.read)

return sum( buf.count(b'

') for buf in f_gen )

这完全可以通过使用itertools的内联生成器表达式来完成，但是看起来很奇怪：

from itertools import (takewhile,repeat)

def rawincount(filename):

f = open(filename, 'rb')

bufgen = takewhile(lambda x: x, (f.raw.read(1024*1024) for _ in repeat(None)))

return sum( buf.count(b'

') for buf in bufgen )

以下是我的时间安排：

function average, s min, s ratio

rawincount 0.0043 0.0041 1.00

rawgencount 0.0044 0.0042 1.01

rawcount 0.0048 0.0045 1.09

bufcount 0.008 0.0068 1.64

wccount 0.01 0.0097 2.35

itercount 0.014 0.014 3.41

opcount 0.02 0.02 4.83

kylecount 0.021 0.021 5.05

simplecount 0.022 0.022 5.25

mapcount 0.037 0.031 7.46

我正在处理100GB以上的文件，您的rawgencounts是目前为止我看到的唯一可行的解决方案。谢谢！

该表中的wccount是否用于子流程shell wc工具？

我在另一条评论中找到了这个，我想是gist.github.com/zed/0ac760859e614cd03652

将第一个示例中的RETURN语句更改为return sum(map(methodcaller("count", b'

'), f_gen))，从operator导入methodcaller，是否有助于加快速度(imap，如果是python2)？我还将构造_make_gen中的1024*1024数学，以节省一些额外的周期。希望也能看到与纯生成器示例的比较。

您可以执行一个子进程并运行wc -l filename。

import subprocess

def file_len(fname):

p = subprocess.Popen(['wc', '-l', fname], stdout=subprocess.PIPE,

stderr=subprocess.PIPE)

result, err = p.communicate()

if p.returncode != 0:

raise IOError(err)

return int(result.strip().split()[0])

Windows版本是什么？

gnuwin32.sourceforge.net/packages/coreutils.htm文件包

你可以参考这个问题。stackoverflow.com/questions/247234/&hellip；

实际上，在我的例子(mac os x)中，计算"for x in file(…)"生成的行数需要0.13秒，而计算对str.find或mmap.find的重复调用需要0.5秒。(我用来测试的文件有130万行。)

没有必要让壳牌公司参与其中。编辑答案并添加示例代码；

在命令行上(不需要创建另一个shell的开销)，这与更清晰、更可移植的纯Python解决方案一样快。另请参见：stackoverflow.com/questions/849058/&hellip；

不是跨平台。

你所说的"跨平台"是指它不适用于Windows。

这里有一个python程序，它使用多处理库在机器/内核之间分配行计数。我的测试使用8核Windows64服务器将2000万在线文件的计数从26秒提高到7秒。注意：不使用内存映射会使事情慢得多。

import multiprocessing, sys, time, os, mmap

import logging, logging.handlers

def init_logger(pid):

console_format = 'P{0} %(levelname)s %(message)s'.format(pid)

logger = logging.getLogger() # New logger at root level

logger.setLevel( logging.INFO )

logger.handlers.append( logging.StreamHandler() )

logger.handlers[0].setFormatter( logging.Formatter( console_format, '%d/%m/%y %H:%M:%S' ) )

def getFileLineCount( queues, pid, processes, file1 ):

init_logger(pid)

logging.info( 'start' )

physical_file = open(file1,"r")

# mmap.mmap(fileno, length[, tagname[, access[, offset]]]

m1 = mmap.mmap( physical_file.fileno(), 0, access=mmap.ACCESS_READ )

#work out file size to divide up line counting

fSize = os.stat(file1).st_size

chunk = (fSize / processes) + 1

lines = 0

#get where I start and stop

_seedStart = chunk * (pid)

_seekEnd = chunk * (pid+1)

seekStart = int(_seedStart)

seekEnd = int(_seekEnd)

if seekEnd < int(_seekEnd + 1):

seekEnd += 1

if _seedStart < int(seekStart + 1):

seekStart += 1

if seekEnd > fSize:

seekEnd = fSize

#find where to start

if pid > 0:

m1.seek( seekStart )

#read next line

l1 = m1.readline() # need to use readline with memory mapped files

seekStart = m1.tell()

#tell previous rank my seek start to make their seek end

if pid > 0:

queues[pid-1].put( seekStart )

if pid < processes-1:

seekEnd = queues[pid].get()

m1.seek( seekStart )

l1 = m1.readline()

while len(l1) > 0:

lines += 1

l1 = m1.readline()

if m1.tell() > seekEnd or len(l1) == 0:

break

logging.info( 'done' )

# add up the results

if pid == 0:

for p in range(1,processes):

lines += queues[0].get()

queues[0].put(lines) # the total lines counted

else:

queues[0].put(lines)

m1.close()

physical_file.close()

if __name__ == '__main__':

init_logger( 'main' )

if len(sys.argv) > 1:

file_name = sys.argv[1]

else:

logging.fatal( 'parameters required: file-name [processes]' )

exit()

t = time.time()

processes = multiprocessing.cpu_count()

if len(sys.argv) > 2:

processes = int(sys.argv[2])

queues=[] # a queue for each process

for pid in range(processes):

queues.append( multiprocessing.Queue() )

jobs=[]

prev_pipe = 0

for pid in range(processes):

p = multiprocessing.Process( target = getFileLineCount, args=(queues, pid, processes, file_name,) )

p.start()

jobs.append(p)

jobs[0].join() #wait for counting to finish

lines = queues[0].get()

logging.info( 'finished {} Lines:{}'.format( time.time() - t, lines ) )

如何处理比主内存大得多的文件？例如，在具有4GB RAM和2核的系统上有一个20GB的文件

现在很难测试，但我想它会把文件调进调出。

这是非常整洁的代码。我很惊讶地发现使用多个处理器更快。我想IO会成为瓶颈。在旧的python版本中，第21行需要int()，如chunk=int((fsize/processes))+1

它是否将所有文件加载到内存中？如果一场大火的大小比电脑上的内存大呢？

文件被映射到虚拟内存中，因此文件的大小和实际内存量通常不是一个限制。

我将使用python的文件对象方法readlines，如下所示：

with open(input_file) as foo:

lines = len(foo.readlines())

这将打开文件，在文件中创建行列表，计算列表的长度，将其保存到变量中，然后再次关闭文件。

虽然这是人们首先想到的方法之一，但它可能没有很好的内存利用率，尤其是在计算高达10GB的文件中的行数时(就像我这样)，这是一个值得注意的缺点。

…大文件有xreadlines()。

@Timesheep对于有许多(比如说，数十亿)小行的文件，或者有非常长的行(比如，每行千兆字节)的文件，这是一个问题吗？

我问的原因是，似乎编译器应该能够通过不创建中间列表来优化这一点。

@dmityugov per python docs，xreadlines从2.3开始就被弃用，因为它只返回一个迭代器。for line in file是规定的替代品。参见：docs.python.org/2/library/stdtypes.html file.xreadlines

这是我用的，看起来很干净：

import subprocess

def count_file_lines(file_path):

"""

Counts the number of lines in a file using wc utility.

:param file_path: path to file

:return: int, no of lines

"""

num = subprocess.check_output(['wc', '-l', file_path])

num = num.split(' ')

return int(num[0])

更新：这比使用纯python快了一点，但代价是内存使用。在执行命令时，子进程将使用与父进程相同的内存占用量派生一个新进程。

作为旁注，这在Windows上当然不起作用。

core utils显然为windows stackoverflow.com/questions/247234/&hellip；提供了"wc"。如果代码最终在prod中的Linux中运行，您也可以在Windows框中使用Linux虚拟机。

或者说WSL，如果你只做这样的事情的话，就要对任何虚拟机给予高度的建议。:-)

是的，很有效。我不是一个windows用户，但从googing我学到了wsl=windows subsystem for linux=)

def file_len(full_path):

""" Count number of lines in a file."""

f = open(full_path)

nr_of_lines = sum(1 for line in f)

f.close()

return nr_of_lines

这只是解决方案的句法糖分。

你有没有时间数据显示这更快？

使用时间

我在这个版本中得到了一个小的(4-8%)改进，它重新使用了一个常量缓冲区，因此应该避免任何内存或GC开销：

lines = 0

buffer = bytearray(2048)

with open(filename) as f:

while f.readinto(buffer) > 0:

lines += buffer.count('

您可以随意使用缓冲区大小，也许会看到一些改进。

很好。若要说明不以结尾的文件，请在循环外添加1 if buffer和buffer[-1]！=‘n’

一个错误：上一轮的缓冲区可能不干净。

如果在缓冲区之间，一部分以结尾，另一部分以n开头，该怎么办？这将丢失其中的一行新行，我将向变量sudgest存储每个块的结尾和开头，但这可能会给脚本增加更多时间。=(

凯尔的回答

num_lines = sum(1 for line in open('my_file.txt'))

可能是最好的选择

num_lines = len(open('my_file.txt').read().splitlines())

以下是两者的性能比较

In [20]: timeit sum(1 for line in open('Charts.ipynb'))

100000 loops, best of 3: 9.79 μs per loop

In [21]: timeit len(open('Charts.ipynb').read().splitlines())

100000 loops, best of 3: 12 μs per loop

类似于此答案的单行bash解决方案，使用现代subprocess.check_output函数：

def line_count(file):

return int(subprocess.check_output('wc -l {}'.format(file), shell=True).split()[0])

对于Linux/Unix用户，这个答案应该在这个线程中被选到更高的位置。尽管在跨平台解决方案中有大多数偏好，但在Linux/Unix上这是一种极好的方式。对于一个1.84亿行的csv文件，我必须从中提取数据，它提供了最佳的运行时间。其他纯python解决方案平均需要100多秒，而wc -l的子进程调用则需要约5秒。

是的，它的性能非常好！

一线解决方案

import os

os.system("wc -l filename")

我的片段

os.system('wc -l *.txt')

< /块引用>< /块引用>

0 bar.txt

1000 command.txt

3 test_file.txt

1003 total

好主意，但不幸的是，这在Windows上不起作用。

如果你想成为Python冲浪者，向Windows说再见。相信我，有一天你会感谢我的。

我只是认为值得注意的是，这只适用于Windows。我更喜欢自己在Linux/Unix堆栈上工作，但是在编写IMHO软件时，应该考虑程序在不同操作系统下运行时可能产生的副作用。由于OP没有提到他的平台，如果有人通过谷歌在这个解决方案上弹出并复制它(不知道Windows系统可能有什么限制)，我想添加注释。

这是我用纯Python找到的最快的东西。你可以通过设置缓冲区来使用你想要的任何数量的内存，尽管2*16在我的电脑上似乎是一个最佳选择。

from functools import partial

buffer=2**16

with open(myfile) as f:

print sum(x.count('

') for x in iter(partial(f.read,buffer), ''))

我在这里找到答案，为什么从STDIN中读取线比Python慢得多？稍微调整了一下。了解如何快速计算行数是一个很好的读物，尽管wc -l仍然比其他任何东西快75%。

这段代码简短明了。这可能是最好的方法：

num_lines = open('yourfile.ext').read().count('

您还应该关闭该文件。

这个简单的脚本适用于小文件。

它将把整个文件加载到内存中。

为了完成上面的方法，我尝试了一个文件输入模块的变体：

import fileinput as fi

def filecount(fname):

for line in fi.input(fname):

pass

return fi.lineno()

并将一个60英里的行文件传递给上述所有方法：

mapcount : 6.1331050396

simplecount : 4.588793993

opcount : 4.42918205261

filecount : 43.2780818939

bufcount : 0.170812129974

让我有点惊讶的是，文件输入如此糟糕，扩展比所有其他方法都糟糕…

简单方法：

num_lines = len(list(open('myfile.txt')))

在此示例中，文件未关闭。

也许是小文件…

OP想要一些记忆效率高的东西。这绝对不是。

print open('file.txt', 'r').read().count("

") + 1

对于我来说，这个变种将是最快的：

#!/usr/bin/env python

def main():

f = open('filename')

lines = 0

buf_size = 1024 * 1024

read_f = f.read # loop optimization

buf = read_f(buf_size)

while buf:

lines += buf.count('

buf = read_f(buf_size)

print lines

if __name__ == '__main__':

main()

原因：缓存比逐行读取快，string.count也很快

是吗？至少在osx/python2.5上，根据timeit.py的说法，OP的版本仍然快了10%。

也许，我不测试它。

如果最后一行不以''结尾怎么办？

我不知道你是如何测试它的，df，但是在我的机器上，它比任何其他选项慢2.5倍。

您声明它将是最快的，然后声明您没有测试过它。不是很科学吧？：)

请参阅下面的Ryan Ginstrom答案提供的解决方案和统计数据。也可以查看JF塞巴斯蒂安的评论和同一答案的链接。

它显示：mapcount()和wccount()都比buffcount快，尽管buffcount似乎比opcount和simplecount快。

我对缓冲区的修改如下：

def CountLines(filename):

f = open(filename)

try:

lines = 1

buf_size = 1024 * 1024

read_f = f.read # loop optimization

buf = read_f(buf_size)

# Empty file

if not buf:

return 0

while buf:

lines += buf.count('

buf = read_f(buf_size)

return lines

finally:

f.close()

现在还将计算空文件和最后一行(不带)。

也许还可以解释(或在代码中添加注释)您更改了什么以及为什么；)。可能会让人们更容易理解你的代码(而不是"解析"大脑中的代码)。

我认为循环优化允许python在read_f，python.org/doc/随笔/list2str执行局部变量查找。

打开文件的结果是一个迭代器，它可以转换为序列，序列的长度为：

with open(filename) as f:

return len(list(f))

这比显式循环更简洁，并避免使用enumerate。

这意味着需要将100MB文件读取到内存中。

是的，很好，不过我想知道速度(与记忆不同)的不同。可能可以创建一个这样做的迭代器，但我认为它相当于您的解决方案。

就记忆而言，这很糟糕…

-1，它不仅是内存，还必须在内存中构建列表。

count = max(enumerate(open(filename)))[0]

这将给出真值的计数-1。

enumerate()的可选第二个参数是根据docs.python.org/2/library/functions.html enumerate开始计数

这个怎么样？

def file_len(fname):

counts = itertools.count()

with open(fname) as f:

for _ in f: counts.next()

return counts.next()

如果要在Linux中以较低的成本获得python中的行数，我建议使用以下方法：

import os

print os.popen("wc -l file_path").readline().split()[0]

文件路径既可以是抽象文件路径，也可以是相对路径。希望这能有所帮助。

这个怎么样？

import fileinput

import sys

counter=0

for line in fileinput.input([sys.argv[1]]):

counter+=1

fileinput.close()

print counter

这条班轮怎么样：

file_length = len(open('myfile.txt','r').read().split('

'))

使用此方法在3900行文件上花费0.003秒的时间

def c():

import time

s = time.time()

file_length = len(open('myfile.txt','r').read().split('

'))

print time.time() - s

def line_count(path):

count = 0

with open(path) as lines:

for count, l in enumerate(lines, start=1):

pass

return count

您可以按以下方式使用os.path模块：

import os

import subprocess

Number_lines = int( (subprocess.Popen( 'wc -l {0}'.format( Filename ), shell=True, stdout=subprocess.PIPE).stdout).readlines()[0].split()[0] )

，其中Filename是文件的绝对路径。

这个答案与os.path有什么关系？

另一种可能性：

import subprocess

def num_lines_in_file(fpath):

return int(subprocess.check_output('wc -l %s' % fpath, shell=True).strip().split()[0])

不是多平台=/

def count_text_file_lines(path):

with open(path, 'rt') as file:

line_count = sum(1 for _line in file)

return line_count

如果你认为它是错的，你能解释一下它有什么问题吗？这对我很有用。谢谢！

我想知道为什么这个答案也被否决了。它按行对文件进行迭代，并对它们进行汇总。我喜欢它，它很短，而且直截了当，有什么问题吗？

如果文件可以装入内存，则

with open(fname) as f:

count = len(f.read().split(b'

')) - 1

创建名为count.py的可执行脚本文件：

#!/usr/bin/python

import sys

count = 0

for line in sys.stdin:

count+=1

然后将文件的内容通过管道传输到python脚本：cat huge.txt | ./count.py。管道也可以在PowerShell上工作，因此您最终将计算行数。

对我来说，在Linux上，它比：

count=1

with open('huge.txt') as f:

count+=1

如果文件中的所有行的长度相同(并且只包含ASCII字符)*，则可以非常便宜地执行以下操作：

fileSize = os.path.getsize( pathToFile ) # file size in bytes

bytesPerLine = someInteger # don't forget to account for the newline character

numLines = fileSize // bytesPerLine

*我怀疑如果使用像_这样的Unicode字符，需要更多的努力来确定一行中的字节数。

为什么下面的工作不行？

import sys

# input comes from STDIN

file = sys.stdin

data = file.readlines()

# get total number of lines in file

lines = len(data)

print lines

在这种情况下，len函数使用输入行作为确定长度的方法。

问题不在于如何计算行数，我已经在问题本身中演示了我在做什么：问题是如何有效地做到这一点。在您的解决方案中，整个文件都被读取到内存中，这对于大型文件来说至少是低效的，对于大型文件来说是不可能的。

实际上，它可能非常有效，除非它是不可能的。-)

这个怎么样？

import sys

sys.stdin=open('fname','r')

data=sys.stdin.readlines()

print"counted",len(data),"lines"

我认为它并没有解决这个大文件正在被读取到内存中的问题。

打印"counted"，len(数据)，"lines"^语法错误：无效语法

为什么不读取前100行和后100行并估计平均行长度，然后将总文件大小除以这些数字？如果你不需要一个精确的值，这是可行的。

我需要一个精确的值，但问题是一般情况下，行长度可能会有很大的不同。恐怕你的方法不是最有效的。

类似地：

lines = 0

with open(path) as f:

for line in f:

lines += 1

你可能感兴趣的:(python获取字符串行数)

今日Github热门仓库推荐2025-07-08
今日Github热门仓库推荐2025-07-08如果让AI分别扮演后端开发人员和前端开发人员，然后看看他们分别对github每天的trending仓库感兴趣的有哪些，并且给出他感兴趣的理由，那会发生什么呢？本内容通过Python+AI生成，项目地址跳转后端开发人员推荐仓库名称：rustfs/rustfs仓库推荐理由：作为一个有10年后端开发经验的工程师，我对高性能和分布式系统有浓厚的兴趣。Rust
MySQL 截取字符串函数 MYians MySQL mysql 数据库 sql
MySQL截取字符串的几种常用函数测试数据及语句如下(FN：functionname，方法名称)1、从字符串左边截取FN：left(str,length);2、从字符串右边截取FN：right(str,length)从右边截取length;3、从字符串特定位置开始，截取到末尾FN：substring(str,index)4、从字符串特定位置截取FN：substring(str,index)、sub
有了 25k Star 的MediaCrawler爬虫库加持，三分钟搞定某红书、某音等平台爬取！前端后端爬虫
大家好，我是程序员凌览。今天给大家介绍一个超实用的Python爬虫实战项目——MediaCrawler。这个项目可以实现小红书、抖音、快手、B站和微博的爬虫功能，覆盖了当下热门的自媒体平台。它能够高效抓取这些平台上的视频、图片、评论、点赞和转发等信息。MediaCrawler支持的平台及功能如下图：快速开始下载项目代码访问MediaCrawlerGitHub仓库，点击“Code”按钮下载项目代码。
【机器学习|学习笔记】随机森林（Random Forest, RF）详解，附代码。努力毕业的小土博^_^ 机器学习基础算法优质笔记1 机器学习学习笔记随机森林人工智能
【机器学习|学习笔记】随机森林（RandomForest,RF）详解，附代码。【机器学习|学习笔记】随机森林（RandomForest,RF）详解，附代码。文章目录【机器学习|学习笔记】随机森林（RandomForest,RF）详解，附代码。前言起源随机子空间法与Bagging的萌芽原理算法机制理论保障发展应用优缺点优点缺点Python实现示例（Scikit-learn）欢迎铁子们点赞、关注、收藏
基于JAVA+SpringBoot+Vue+Echarts的充电数据大屏可视化分析
✌全网粉丝20W+,csdn特邀作者、博客专家、CSDN新星计划导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌文末获取项目下载方式一、项目背景介绍：随着电动汽车的普及，城市中充电设施的需求日益增长。为了提高充电设施的管理效率和用户体验，本文提出了一个停车场充电桩数据可视化平台的设计与实现。该平台旨在集成、处理并展示来自
axios无感刷新token
html代码Document获取token测试刷新constgetToken=()=>{returnlocalStorage.getItem('token');}constsetToken=(token)=>{localStorage.setItem('token',token);}axios.defaults.baseURL='http://localhost:18565';axios.inte
C#编写的SQL Server数据库配置工具源码韦先波
本文还有配套的精品资源，点击获取简介：《SQLServerConfiguration_C#_exe.execom.exe_源码》是一个C#编写的工具，用于管理SQLServer数据库连接和用户表操作。它允许用户直接通过图形界面进行数据库连接和交互，而无需深入了解SQL语句。工具包含了一个可执行文件execom.exe，可以实现无需额外编译的直接运行。用户可通过界面选择数据库，执行用户表的相关操作，
构建完整的ASP+C#和SQL Server新闻发布系统飞翔的袋鼠弟
本文还有配套的精品资源，点击获取简介：新闻发布系统是互联网的关键应用，本文详细介绍了如何利用ASP、C#和SQLServer技术栈开发和管理新闻内容。文章涵盖了ASP用于生成动态网页、C#后端编程和SQLServer数据库管理的应用和实践，以及新闻发布流程、安全性和性能优化的要点。1.ASP动态网页生成在开发动态网站的过程中，ASP（ActiveServerPages）是一种流行的服务器端脚本环境
Python （类型提示）指定参数类型: 以及参数注解斐非韭 python python pycharm
类型标注的使用类型标注（Typeannotations）是一种直接的方式，并且是类型文档中最常见到的那种方式。声明一个函数参数的类型，只要在参数名称的后面加个":“号，带上类型名称就行了。声明函数的返回值类型，只要在函数声明结束之前，也就是”:“号之前加入一个”->"，带上类型名称。常见数据类型int,long,float:整型,长整形,浮点型bool,str:布尔型，字符串类型List,Tupl
python3 annotations weixin_30615767 python 开发工具
引文与描述：AddingarbitrarymetadataannotationstoPythonfunctionsandvariables说说我的体会：类似编译的作用，能够帮助你尽早地避免错误1.不支持Python2+>>>deftest_annotation_py2(a_str:str):File"",line1deftest_annotation_py2(a_str:str):^SyntaxE
python聚合函数aggregate和annotate的小坑你喝不喝热水啊 python python
最近在工作项目中发现了一个坑，就是关于aggregate和annotate这两个聚合函数的区别用法。现在百度上很多搜索的答案对初学者不是很友好，就是直接给出了一句代码，然后也不讲清楚，就用annotate后的结果取第一条（如：a[0]）取值。这样就导致很多初学者也不会去思考太多，直接copy下来就用，最后导致数据汇总有问题（也不止初学者了，项目组里面有些工作了几年的人都不知道二者区别，也是百度到了
**深度解析Annotated Jieba：Python中的高效中文分词库**
深度解析AnnotatedJieba：Python中的高效中文分词库去发现同类优质开源项目:https://gitcode.com/项目简介是一个基于Jieba的增强版分词库，为了解决原Jieba库在复杂场景下的需求，它提供了更丰富的功能和更友好的API设计。该项目由USTCDane开发并维护，旨在帮助开发者更好地理解和使用Jieba进行中文文本处理。技术分析1.代码注释与文档AnnotatedJ
python中使用annotate时，报错误
TypeErrorTraceback(mostrecentcalllast)CellIn[58],line161159plt.xlabel("FPR")160plt.ylabel("TPR")-->161plt.annotate(xy=(.4,.2),xytext=(.5,.2),s='ROCcurve(area=%0.2f)'%auc_test)TypeError:annotate()missi
Python 异步爬虫（aiohttp）高效抓取新闻数据小白学大数据 python 爬虫开发语言
一、异步爬虫的优势在传统的同步爬虫中，爬虫在发送请求后会阻塞等待服务器响应，直到收到响应后才会继续执行后续操作。这种模式在面对大量请求时，会导致大量的时间浪费在等待响应上，爬取效率较低。而异步爬虫则等待可以在服务器响应的同时，继续执行其他任务，大大提高了爬取效率。aiohttp是一个支持异步请求的Python库，它基于asyncio框架，可以实现高效的异步网络请求。使用aiohttp构建异步爬虫，
Python破解东方财富反爬机制：热榜数据获取小白学大数据 python 开发语言
一、了解东方财富热榜数据东方财富热榜数据包括人气榜、飙升榜等多种类型，涵盖了A股市场、ETF基金、港股市场和美股市场等。这些数据通常每5分钟自动更新一次，能够动态展示最新的市场走势。热榜数据可以帮助投资者了解市场的热点和投资者的情绪倾向。二、反爬机制分析东方财富网的反爬机制主要包括以下几种：限制访问频率：频繁的请求可能会被识别为爬虫行为，导致IP被封禁。动态加载内容：部分数据通过JavaScrip
AIGC 领域 AI 写作如何实现智能内容推荐 SuperAGI2025 AIGC 人工智能 ai
AIGC领域AI写作如何实现智能内容推荐关键词：AIGC、AI写作、智能内容推荐、推荐算法、用户画像摘要：本文聚焦于AIGC领域中AI写作的智能内容推荐实现。首先介绍了该主题的背景，包括目的、预期读者等内容。接着阐述了核心概念与联系，如AIGC、AI写作、智能内容推荐等概念及其关联。详细讲解了核心算法原理，包括协同过滤、基于内容的推荐等，并给出Python代码示例。探讨了相关数学模型和公式，通过具
构建一个Python爬虫系统：从各大旅游网站抓取旅游价格数据并进行数据分析 Python爬虫项目 2025年爬虫实战项目 python 爬虫旅游自动化开发语言 selenium 数据分析
一、前言随着互联网的普及和旅游业的发展，旅游价格的实时获取和分析变得尤为重要。对于旅游爱好者、企业、甚至是政府部门而言，实时获取旅游价格数据并进行分析能够帮助他们做出更好的决策。然而，许多旅游网站的数据并不公开，爬取这些网站的数据并加以分析成为一个实际需求。本博客将介绍如何构建一个Python爬虫系统，该系统能够从多个主要旅游网站（如携程、飞猪、途牛、马蜂窝等）抓取旅游价格数据，定时更新数据，并进
【Python】Python类型标注革命：Annotated类型深度解析与实战田辛 | 田豆芽 Python python 设计模式类型驱动设计
一、初识Annotated：类型系统的拓展革命作为深耕Python领域多年的开发者，田辛老师在第一次接触typing.Annotated时的感受可以用"惊艳"来形容。这个Python3.9引入的类型构造器，为我们打开了元数据整合的新维度。基本语法结构：fromtypingimportAnnotatedTemperature=Annotated[float,"Celsius"]这里我们创建了一个带有
HYTop.mdb解压工具：MDB文件自动化处理
本文还有配套的精品资源，点击获取简介：HYTop.mdb解压工具是一款处理MicrosoftAccess默认格式MDB数据库文件的实用工具。它能够帮助用户在空间压缩后进行解压操作，并支持网站打包流程的自动化启动。工具的主要功能是恢复压缩数据至原始状态，确保文件的完整性和安全性，在网络传输和服务器存储过程中发挥作用。此外，它还能自动化进行文件解压、配置调整和数据库连接验证等部署步骤，简化网站部署流程
MySQL数据库管理与查询分析器入门指南 Clown爱电脑
本文还有配套的精品资源，点击获取简介：MySQL是一个广受欢迎的开源关系型数据库管理系统，以高效、稳定和易管理著称。本文档主要讨论MySQL的安装程序，尤其是查询分析器部分的使用，该工具对SQL语句进行解析并帮助用户进行数据库操作。文中提及MySQL4.0.18-win版本的安装步骤，包括解压缩、配置环境变量、初始化数据库、设置root用户密码、启动服务以及查询分析器的使用。此外，介绍了数据库引擎
ipmitool java版本_IPMITool使用梁豆子 ipmitool java版本
内核模块加载ipmi_devintf和ipmi_si后，会生成/dev/ipmi0。ps:获取传感器信息请安装lm-sensors，然后运行sensors-detect。常见ipmitool$ipmitoolbmcresetcold#ResetBMC/DRACtodefault$ipmitool–Iopenbmcinfo#checkBMCinfo$ipmitoolsel#checkSELlog$i
深度学习Pytorch(一) Bgemini 深度学习 pytorch 深度学习 python
深度学习Pytorch(一)前言：必须使用英伟达显卡才能使用cuda（显卡加速）！移除环境：condaremove-npytorch--all一、安装Pytorch下载Anaconda打开AnacondaPrompt创建一个Pytorch环境：condacreate-npytorchpython=3.9激活Pytorch环境：condaactivatepytorch查看当前包：piplist安装P
华为OD机试 2025B卷 - 字符串加密 (C++ & Python & JAVA & JS & C语言) YOLO大师华为od 华为OD机试2025B卷华为OD2025B卷华为OD机考2025B卷
2025B卷目录点击查看：华为OD机试2025B卷真题题库目录｜机考题库+算法考点详解2025B卷100分题型题目描述给你一串未加密的字符串str，通过对字符串的每一个字母进行改变来实现加密，加密方式是在每一个字母str[i]偏移特定数组元素a[i]的量，数组a前三位已经赋值：a[0]=1,a[1]=2,a[2]=4。当i>=3时，数组元素a[i]=a[i-1]+a[i-2]+a[i-3]。例如：
Spring AI深度解析（7/50）：Tool Calling 工具调用解析 Spring AI学习 spring 人工智能 microsoft
SpringAI深度解析（7/50）：ToolCalling工具调用解析一、工具调用的本质突破传统大模型存在两大核心限制：知识时效性与动作执行能力。SpringAI通过工具调用（ToolCalling）机制，将大模型从「信息处理中心」升级为「智能调度中枢」，实现三大飞跃：实时数据获取：连接数据库、API等动态数据源物理世界交互：触发硬件设备、业务流程复杂逻辑编排：多工具链式调用与结果聚合二、Spr
俄罗斯方块AI深度解析：从算法原理到实现细节智算菩萨 Python小游戏项目实战人工智能算法
俄罗斯方块AI深度解析：从算法原理到实现细节前言俄罗斯方块，这个诞生于1984年的经典游戏，至今仍然是人工智能研究领域的热门课题。当简单的几何形状在网格中不断下落时，看似简单的规则背后却隐藏着复杂的策略决策问题。本文将深入剖析一个基于Python实现的俄罗斯方块AI系统，探讨其如何通过精巧的算法设计实现近乎完美的自动游戏表现。游戏状态的数字化抽象在构建任何游戏AI之前，我们首先需要将人类直观理解的
双系统如何做接口认证-V2 CATTLECODE python 开发语言
现有A系统，B系统，A系统启动的时候调用B系统的注册接口API1（把A系统配置信息注册到B系统），A系统定时向B系统接口AP2发送心跳信息，B系统根据业务情况，调用A系统的业务接口AP3，请设计两系统的接口认证方式。以下是为A系统（Python）与B系统（SpringBoot）设计的双向安全认证方案及关键代码实现，结合JWT、数字签名和HTTPS加密，确保注册、心跳、业务调用的安全可靠。整体认证方
多模态融合：现代搜索引擎底层图像、视频检索的技术架构设计何雅琪¥ 搜索引擎
在多媒体内容爆炸式增长的当下，用户对搜索引擎的需求已从单纯的文本检索拓展到图像、视频等多元模态。多模态融合技术打破了信息载体的界限，使搜索引擎能够理解图像的视觉语义、视频的动态内容，并实现跨模态的精准检索。从特征提取到检索匹配，现代搜索引擎底层围绕图像、视频检索构建起复杂而精妙的技术架构，重塑了用户获取信息的方式。一、多模态数据的特征提取：解码视觉信息图像与视频包含丰富的视觉信息，其特征提取是实现
深入理解安卓系统架构与开发技术
本文还有配套的精品资源，点击获取简介：安卓基础知识课程为初学者及进阶开发者提供安卓系统架构、关键开发技术以及最新开发工具的全面介绍。课程涵盖了从系统架构层面的核心概念如HAL、系统库、应用框架、应用程序层，到应用开发的关键组件，包括Dalvik/ART虚拟机、UI设计、Intent通信机制、资源管理、权限系统、进程与线程处理、AndroidStudio/Gradle集成、应用调试与测试，以及And
Python实现MCP Server的完整Demo CATTLECODE python 开发语言
mcpserverfromfastmcpimportFastMCPimportlogging#配置日志记录logging.basicConfig(level=logging.INFO)logger=logging.getLogger(__name__)mcp=FastMCP("DemoServer")@mcp.tool()asyncdefcalculate(a:float,b:float,op:s
【华为od刷题（C++）】HJ23 删除字符串中出现次数最少的字符 m0_64866459 哈希算法算法 c++华为od
我的代码：#include//用于输入输出操作#include//引入哈希表容器unordered_map，用来存储每个字符出现的次数usingnamespacestd;intmain(){stringstr;//声明一个字符串变量str，用于接收输入的字符串intmin=27;//声明一个整型变量min，初始值设为27unordered_mapmp;//声明一个unordered_map//它的
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><