ouyangbro

python 探索（三） Python CookBook 文本处理笔记

Python 文本处理，看完本博文对python cookbook的笔记，足够了。

请善用目录。

更多的，详细的会更新。

每次处理一个字符

每次处理一个字符的方法：list，for，列表推导，map()，sets.Set()

列表推导和map() 比较推荐，简洁。至于效率高不高，这里不知。

# -*- coding: cp936 -*-
import sets

mystr = "abcdefghijklmn"

def do_sth_with(c):
    print c

#method 1
#直接内建list，然后for遍历list的每个c
print "method 1"
list1 = list(mystr)
for c in list1:
    do_sth_with(c)

#method 2
#不创建list也能for遍历字符串的每个c
print "method 2"
for c in mystr:
    do_sth_with(c)
 
#method 3
#列表推导
print "method 3"
res = [do_sth_with(c) for c in mystr]

#method 4
#map映射
print "method 4"
res = map(do_sth_with,mystr)

#method 5
#set操作，也就set有& | - ^这些操作
magic_chars = sets.Set('abracadabra')
print "magic_chars : " + str(magic_chars)
poppins_chars = sets.Set('supercalifragilisticexpialidocious')
print "poppins_chars : "+str(poppins_chars)
print 'magic_chars和poppins_chars的交集：'+''.join(magic_chars & poppins_chars)

结果：

#1 ~4 都是打印a到n
method 5:
acrd

拓展阅读：

Python的函数参数传递：传值？引用？

Python 学习笔记 02 – List 推导式-zhoukeli2005-ChinaUnix博客

python内置函数map/reduce/filter - 云计算架构师-解占辉 - 51CTO技术博客

Python Sets.Set 的& | - ^ 等操作

字符和字符值之间的转换

关键函数：ord,chr,unichr,利用好map()。

# -*- coding: cp936 -*-

#ascii
print ord('a')
print chr(97)

#unicode
print ord(u'\u2020')
print repr(unichr(8224))

#把字符串变成各个字符的值的列表
print map(ord,'Hello Wolrd')

#反过来
print ''.join(map(chr,range(97,100)))

结果：

97
a
8224
u'\u2020'
[72, 101, 108, 108, 111, 32, 87, 111, 108, 114, 100]
abc

拓展阅读：

str()和 repr() (及 `` 操作符) - 51CTO.COM

测试一个对象是否是类字符串

推荐使用isStringLike()方法，这里被python的 鸭子判断法逗笑了。

# -*- coding: cp936 -*-

#最傻的方法，连unicode对象都无法通过，自己的str子类也无法通过
def isExactlyAString(anobj):
    return type(anobj) is type('')

#接近完美的方法,basestring是str和unicode的共同基类
#用户自定义类型也是应该从basestring派生
#美中不足的是python标准库的UserString无法通过，因为它不是从basestring派生
def isAString(anobj):
    return isinstance(anobj,basestring)

#退而求其次的方法，虽慢，但有效。行为判断！
#python的鸭子判断法，走路像鸭子，叫声像鸭子，那么我们就认为它是鸭子！
def isStringLike(anobj):
    try: anobj.lower() + anobj + ''
    except: return False
    else: return True

print isExactlyAString('a')
print isExactlyAString(u'a')
print isAString('a')
print isAString(u'a') #暂时找不到UserString使用教程
print isStringLike('a')
print isStringLike(u'a')

结果：

True
False
True
True
True
True

字符串对齐

python处理文本对齐：ljust，rjust，center

# -*- coding: cp936 -*-
#共生成20个字符
print '|','hej'.ljust(20),'|','hej'.rjust(20),'|','hej'.center(20),'|'
#还可以指定分隔字符
print '|','hej'.ljust(20,'#'),'|','hej'.rjust(20,'#'),'|','hej'.center(20,'#'),'|'

结果：

| hej                  |                  hej |         hej          |
| hej################# | #################hej | ########hej######### |

结果看到的首尾的空格是print , 造成的。

去除字符串两端的空格

关键函数：lstrip(),rstrip(),strip() ，他们还能指定要去掉的字符（字符串）

# -*- coding: cp936 -*-
x = '                hej                 '
print '|',x.lstrip(),'|',x.rstrip(),'|',x.strip(),'|'
y = 'ababab xx bababa'
print '|',y.lstrip('ab'),'|',y.rstrip('ab'),'|',y.strip('ab'),'|'

结果：

| hej                  |                 hej | hej |
|  xx bababa | ababab xx  |  xx  |

合并字符串

以后再用+或者+=就剁手吧！因为字符串是不可改变对象，所以在用+或+=的时候，会产生大量的中间对象，它们不断被创建和丢弃，效率不高。

reduce其实和+或+=一样。

原则是：避免中间对象!用join！！

# -*- coding: cp936 -*-
l = ['a','b','c','d','e','f','g']
largeString = ''.join(l)
print largeString

结果：

abcdefg

拓展阅读：

Python print函数用法，print 格式化输出

将字符串逐字符或逐词反转

对于逐字符：很喜欢[::-1]这种靠步长来整的。

对于逐词汇：reverse 和 [::-1] 也有用！

最后的正则：(\s+) 匹配不是空白字符的字符串。

re.split(r('\s+'),s) 能够保留原来的空格。

# -*- coding: cp936 -*-
import re

s = 'Hello  World'
#步长为-1，表示从尾开始复制
print s[::-1]

#逐词
revwords = s.split()
revwords.reverse()
print ' '.join(revwords)

#逐词简约版
revwords = ' '.join(s.split()[::-1])
print  revwords

#正则版本，保留空格
revwords = re.split(r'(\s+)',s)
revwords.reverse()
revwords = ''.join(revwords)
print revwords

#正则简约版
revwords = ''.join(re.split(r'(\s+)',s)[::-1])
print revwords

#reversed 代替 [::-1]
revwords = ' '.join(reversed(s.split( )))
print revwords
revwords = ''.join(reversed(re.split(r'(\s+)',s)))
print revwords

检查字符串中是否包含某字符集合中的字符

这一节收获最大的是学会了一个思路：集合set，difference！

学会了一个装的艺术：maketrans 和 translate。

maketrans 和 translate的用法，简单说就是：

s = 'abcdefg-1234567' #原始字符

table = string.maketrans('abc', 'ABC') #把字符串中的abc字符集合映射成ABC字符集合

deltable = 'bc123' #待删除字符集合

s.translate(table,deltable) #s删除掉deltable的字符后，对着table映射

结果是：Adefg-4567

Ps：这两个货，仅仅限于普通字符串，连Unicode都不行

在判断str1是否包含str2某些元素的时候：

import string

notrans = string.maketrans('','') #意思是不做映射

def containsAny(str1,str2):

return len(str1) != len(str1.translate(notrans,str2)) #str1删除str2中元素后，若len值发生改变，返回True，被删除的是共同元素

在判断str1是否完全包含str2的时候：

import string

notrans = string.maketrans('','')

def containsAll(str1,str2):

return not str2.translate(notrans,str1)

如果str1完全包含str2，str2.translate(notrans,str1)会是一个空集合，not {} 就是True

如果str1不能全含str2，str2.translate(notrans,str1)会是一个非空集合{},，非空为True，not 非空就是False

# -*- coding: cp936 -*-

import itertools
import string

'''aset包含seq任意字符即可'''
#method 1 这是最朴素简单实用的短路法。
def containsAny(seq,aset):
    for c in seq:
        if c in aset: return True
    return False

#method 2 装逼写法，依旧短路法
def containsAny2(seq,aset):
    for item in itertools.ifilter(aset.__contains__,seq):
        return True
    return False

#method 3 装的艺术 - maketrans和translate
notrans = string.maketrans('','')
def containsAny3(astr,strset):
    return len(astr) != len(astr.translate(notrans,strset))

'''seq包含aset全部字符'''
#method 4 这也是最朴素简单实用的短路法
def containsAll(seq,aset):
    for c in aset:
        if c not in seq: return False
    return True

#method 5 set集合 difference 不是短路法，效率没3高
def containsAll2(seq,aset):
    return  not set(aset).difference(seq)

#method 6 装的艺术 - maketrans和translate
notrans = string.maketrans('','')
def containsAll3(astr,strset):
    return not strset.translate(notrans,astr)


str1 = 'abcdefg'
str2 = 'ghijklm'

str3 = 'abcdef'
str4 = 'abcd'

L1 = [1,2,3,3]
L2 = [1,2,3,4]

print containsAny(str1,str2)       #str1 contains any of str2 True 
print containsAny2(str1,str2)      #str1 contains any of str2 True

print containsAll(str3,str4)       #str3 contains all of str4 True 
print containsAll(str4,str3)       #str4 contains all of str3 False

print containsAll2(L1,L2)           #L1 contains aLL of L2 False
print containsAll2(L2,L1)           #L2 contains all of L1 True

print containsAny3(str1,str2)      #str1 contains any of str2 True 
print containsAll3(str3,str4)      #str3 contains all of str4 True  
print containsAll3(str4,str3)      #str4 contains all of str3 False

拓展阅读：

Python：itertools模块

python之maketrans translate_阿雅菲菲儿_新浪博客

简化字符串的translate方法的使用

首次接触：工厂函数，闭包。

定义不说，直接上实例：

def line_conf(a,b):
def line(x):
return a*x + b
return line

line1 = line_conf(1,1)
line2 = line_conf(4,5)
print line1(5),line2(5) #6 25

其中line_conf 这个函数为一个工厂函数，也可以称为闭包工厂，强调它创建并返回闭包（类似于C++函数指针？）。

说到这里，你应该猜到了，内层函数line()，由一个变量line来指代，这内层函数就是一个闭包。

博客园的Vamei这么说：一个函数和它的环境变量在一起，就可以被称为闭包。这里函数为line()，它的环境变量时a,b。

引入上面的概念是为了说一件事，Fred L.Drake,Jr 认为，translate 和 maketrans 很好用，但是老在用的时候想不起细节，耽误时间，所以自己写一个工厂函数，可以方便许多。

import string

#这是由Fred L.Drake,Jr 提供的 闭包工厂
#我觉得特别不错！！！忽略delete和keep同时存在的情况，因为那不科学
#如果真要同时存在，我认为分两次处理，才是科学的

def translator(frm='',to='',delete='',keep=None):
    if len(to) == 1:
        to = to * len(frm)
    trans = string.maketrans(frm,to)
    if keep is not None:
        allchars = string.maketrans('','')
        #delete = allchars.translate(allchars,keep)
        delete = allchars.translate(allchars,keep.translate(allchars,delete))
    def translate(s):
        return s.translate(trans,delete)
    return translate

digits_only = translator(keep=string.digits)
print digits_only('aaaaa11111111aaaaa') #11111111

no_digits = translator(delete=string.digits)
print no_digits('aaaaa11111111aaaaa') #aaaaaaaaaa

#用字符替换某个集合的字符
digits_to_hash = translator(frm=string.digits,to='#')
print digits_to_hash('aaaaa11111111aaaaa') #aaaaa########aaaaa

拓展阅读：

Python深入04 闭包 - Vamei - 博客园

过滤字符串中不属于指定集合的字符

关键：我又找到一个给 字符去重和排序的方法了。

又一次闭包工厂！

import string

#这个只要translate取反keep即可
allchars = string.maketrans('','')
def makefilter(keep):
    delchars = allchars.translate(allchars,keep)
    def thefilter(s):
        return s.translate(allchars,delchars)
    return thefilter

#准备阶段
keep = makefilter('abc')
#执行阶段
print keep('abcdefgaaa') # abcaaa


#规整字符串，无重，排好序
def canonicform(s):
    return makefilter(s)(allchars)

s = 'aaaaaaaaaasldkfjgh'
print canonicform(s) #adfghjkls

#等同于
aa = makefilter(s)
print aa(allchars) #adfghjkls

可是！Unicode，不行！Unicode的translate 反而更加简单。

import string

#unicode translate 反而更加简单，就一个table，映射即可
tb = dict([ (ord(ch), None) for ch in u" aeiou"])
s = u'four score and seven years ago'
print s.translate(tb) #frscrndsvnyrsg

#本任务中考虑到str要被keep，而不是被del
#要有一个巨大的dict来标记想要的和不想要的！
#Fred L.Drake,Jr提供了一个特不错的方法(大神就是大神)：

import sets
class Keeper(object):
    def __init__(self,keep): #构造函数
        self.keep = sets.Set(map(ord,keep))
    def __getitem__(self,n):  #重载[]
        if n not in self.keep:
            return None
        return unichr(n)
    def __call__(self,s): #被调用触发
        return unicode(s).translate(self)
makefilter = Keeper #重命名下
 
if __name__ == '__main__':
    just_vowels = makefilter('aeiouy')
    print just_vowels(u'four score and seven years ago')

检查一个字符串是文本还是二进制

我这个直接拓展成，检查一个文件是文本文件还是二进制文件！

在istextfile中，切记，用"rb"打开。

Fred的想法好奇特：用启发式探索法来判断。最高位为1的概率，超过阈值%30就判断为二进制。

from __future__ import division #Fred说，这兼容未来？
import string

text_characters = "".join(map(chr,range(32,127))) + "\n\r\t\b"
_null_trans = string.maketrans("","")
def istext(s,text_characters=text_characters,threshold = 0.30):
    #threshold 阈值 
    #s包含了空值，不是文本，空值是文本的结束标志
    if "\0" in s:
        return False
    #逻辑判定：空字符串是文本
    if not s:
        return True
    print 'aa'   
    t = s.translate(_null_trans,text_characters)
    print len(t),len(s),len(t) / len(s)
    return  len(t) / len(s) <= threshold

def istextfile(filename,blocksize=512):
    return istext(open(filename,"rb").read(blocksize))

print istext("123123123123") #True
print istextfile('1.bin') #False
print istextfile('1.txt') #True

拓展阅读：

[Python学习]判断一个文件是文本还是二进制的 - limodou的学习记录

控制大小写

upper() THIS IS OUYANG

lower() this is ouyang

capitalize() This is ouyang

title() This Is Ouyang

哈，又看到喜闻乐见的 鸭子判断法。

#检查字符串是不是符合 开头大写，其余小写的情况
import string

notrans = string.maketrans('','')
def containsAny(str,strset):
    return len(str) != len(str.translate(notrans,strset))

#还记得鸭子判断法吗？叫声像(能capitalize)+长得像(containsAny)。
def isCapitaliezd(s):
    return s == s.capitalize() and containsAny(s,string.letters)

s1 = 'This is ouyang...'
s2 = 'this is ouyang...'
print isCapitaliezd(s1) #True
print isCapitaliezd(s2) #False

拓展阅读：

Python String capitalize() Method

访问子字符串

本节接触了：

struct.unpack()

zip()

封装和 memoizing思想

python不会溢出

三元运算符 flag and 's' or 'x' == flag?'s':'x'

yield (请看拓展阅读)

import struct

theline = 'abcdefghijklmnopqrstuvwxyz1234567890'

#struct.unpack()按照指定格式
baseformat = "5s 3x 8s 8s"
numremain = len(theline) - struct.calcsize(baseformat)
format = "%s %ds" % (baseformat,numremain)
l,s1,s2,t = struct.unpack(format,theline)
print l,s1,s2,t

#struct.unpack()这么优秀的东西 - 封装
def fields(baseformat,theline,lastfield = False):
    numremain = len(theline) - struct.calcsize(baseformat)
    #lastfield and 's' or 'x' == lastfield ? 's':'x'
    format = "%s %d%s" % (baseformat,numremain,lastfield and 's' or 'x')
    return struct.unpack(format,theline)

print 'lastField == True : ',fields(baseformat,theline,True)
print 'lastField == False : ',fields(baseformat,theline,False)

#struct.unpack()这么优秀的东西 - 封装 - memoizing 版本 - 字典做缓存
def fields_memoizing(baseformat,theline,lastfield = False,_cache={}):
    key = baseformat,len(theline),lastfield
    format = _cache.get(key)
    if format == None:
        numremain = len(theline) - struct.calcsize(baseformat)
        _cache[key] = format = "%s %d%s" % (baseformat,numremain,lastfield and 's' or 'x')
    return struct.unpack(format,theline)

print 'lastField == True : ',fields_memoizing(baseformat,theline,True)
print 'lastField == False : ',fields_memoizing(baseformat,theline,False)



#5字节一组,最后不足5字节也不会越界
fivers = [theline[k:k+5] for k in xrange(0,len(theline),5)]
print fivers

#5字节一组,最后不足5字节也不会越界 - 封装
def split_by(theline,n,lastfield):
    pieces = [theline[k:k+n] for k in xrange(0,len(theline),5)]
    #如果最后一段太短或不需要，丢弃
    if not lastfield and len(pieces[-1]) < n:
        pieces.pop()
    return pieces

print 'split_by lastField == True : ',split_by(theline,5,True)
print 'split_by lastField == False : ',split_by(theline,5,False)

#指定长度的切片,zip()打包成元组
cuts = [8,14,20,26,30]
pieces = [theline[i:j] for i,j in zip([0]+cuts,cuts+[None])]
print pieces

#指定长度的切片,zip()打包成元组 - 封装
def split_at(theline,cuts,lastfield):
    pieces = [theline[i:j] for i,j in zip([0]+cuts,cuts+[None])]
    #若不要最后一段，丢弃
    if not lastfield :
        pieces.pop()
    return pieces
print 'split_at lastField == True : ',split_at(theline,cuts,True)
print 'split_at lastField == False : ',split_at(theline,cuts,False)

在拓展阅读第二篇，南柯一梦介绍了利用zip() 以指定概率获取元素，我觉得不错。

在拓展阅读第四篇，讲解了yield的用法，他让我明白了为什么引入yield。

#指定长度的切片,zip()打包成元组 - 封装 - yield 迭代对象
#这已经不是一个fun()了，而是一个generator()，返回一个迭代器对象
def split_at_yeild(theline,cuts,lastfield = True):
    last = 0
    for cut in cuts:
        yield theline[last:cut]
        last = cut
    if  lastfield:
        yield theline[last:]
    
for i in split_at_yeild(theline,cuts,True):
    print i

拓展阅读：

Python模块学习 ---- struct 数据格式转换

Python中zip()函数用法举例 | 南柯一梦

字典和元组——菜鸟的Python笔记

Python yield 使用浅析

改变多行文本字符串的缩进

关键：str.splitlines(False or True) ,为True的时候保留'\n'

#对齐
def reinent(s,numSpaces):
    leading_space = numSpaces * ' '
    lines = [leading_space + line.strip() for line in s.splitlines()]
    return '\n'.join(lines)

def addSpaces(s,numAdd):
    white = " "*numAdd
    return white + white.join(s.splitlines(True))

def numSpaces(s):
    return [len(line) - len(line.lstrip()) for line in s.splitlines()]

def delSpaces(s,numDel):
    if numDel > min(numSpaces(s)):
        raise ValueError,"删的空格比最小空格数大"
    return '\n'.join(line[numDel:] for line in s.splitlines())

x = """    line one
    line two
    and line three """

print x
print reinent(x,4)
print addSpaces(x,4)
print delSpaces(x,3)

拓展和压制制表符

关键词：enumerate() 是同时去index索引，和内容list[index]的内置函数。

关键词：expandtabs() 把tab转成空格

我认为，tab和空格的互转，一般是tab转空格，一个expandtabs()就足够了，空格转tab可能只出在考试题中。

#把tab转成空格
s = "a\t aaaaa\t         aaaa"
s1 = s.expandtabs()
print s,len(s) 	 
print s1,len(s1)

#把空格转成tab
def unexpand(s,tablen = 8):
    import re
    #切分成空格和非空格
    pieces = re.split(r'( +)',s.expandtabs())
    #记录当前字符串总长度
    lensofar = 0
    for i,piece in enumerate(pieces):
        thislen = len(piece)
        lensofar += thislen
        if piece.isspace():
            #把每个空格序列改成tab+spaces
            numtabs = (thislen-numblanks+tablen-1)/tablen
            print numblanks,numtabs
            pieces[i]='\t'*numtabs +' '*numblanks
    return ''.join(pieces)

s2 = unexpand(s1)
print s1,len(s1)
print s2,len(s2)

差点被路过的真相：python下用expandtabs()，会发现有的'\t'占8个，有的占4个，有的3个，总之很乱，我还以为是IDLE的问题。

刚刚手里吃着玉米，也不能编码，就谷歌：python expandtabs ，出现了拓展阅读的第二篇。解答了我的疑惑。

其实这都和拓展位有关。感谢同事和他递过来的玉米。

拓展阅读：

python天天进步(7)--enumerate用法 - 久月 - 博客园

字符串方法expandtabs和制表位(tabstops) | Shine.IT

替换字符串中的子串

任务要求是：某字符串中被标记的字符串要被按照字典，替换掉。

比如说：str = 'just "a" test' dict = {'a':'one'} ，那么结果是：'just one test'

关键词：偶数项就是要替换的子字符串。

Ps：增加一个安全模式感觉很专业。

def expand(format,d,marker='"',safe = False):
    if safe:
        #dict.get(key[, default])
        def lookup(w):return d.get(w,w.join(marker*2))
    else:
        def lookup(w):return d[w]
    parts = format.split(marker)
    #偶数项 就是要替换的子字符串
    parts[1::2] = map(lookup,parts[1::2])
    return ''.join(parts)

format = 'just  a "a" "b" test '
print expand(format,{'a':'one','b':'two'})

#>>> 
#just  a one two test  
#>>>

还有个更加专业的做法：

Tem = string.Template('$thing')

Tem.substitute({'thing':5})

local() 内置函数，存储了本地变量

import string
new_style = string.Template('this is $thing')

print new_style.substitute({'thing':5})
print new_style.substitute({'thing':'test'})
print new_style.substitute(thing = 5)
print new_style.substitute(thing = 'test')

#local() 本地变量
msg = string.Template('the square of $number is $square')
for number in range(10):
    square = number * number
    print msg.substitute(locals())

一次完成多个替换

sub( pattern, repl, string[, count]) :用repl替换pattern匹配到的string，最多count次

其中，repl可以是string，也可以是func()

当repl是函数的时候，对每一个在string内的，不重叠的，匹配pattern的子串，调用repl（substring），然后用返回值替换substring。

对于上述的黑体字，本人做了个小实验，实验代码：

import re

adict = {'a':'1','b':'2'}
s = 'abacabc'

print  '|'.join(map(re.escape,adict))
def multiple_replaces(text,adict):
    robj = re.compile('|'.join(map(re.escape,adict)))
    def one_xlat(match):
        print '###',match.group(0)
        return adict[match.group(0)]
    return robj.sub(one_xlat,text)

print multiple_replaces(s,adict)

实验结果：

>>> 
a|b
### a
### b
### a
### a
### b
121c12c
>>>

明显发现：

（1）我们调用一次sub()，sub()内部就调用了5次one_xlat()。
（2）顺序是 a b a a b ，和s='abacabc'中a,b出现的顺序一致。

我猜测，按照s从左到右顺序，s被'a|b'匹配一次就替换一次，然后重头再匹配，所以s的生成历程是：

1bacabc

12acabc

121cabc

121c1bc

121c12c

match.gourp(0) ：匹配整个表达式的字符串，group(i) 就表示第i个括号表达式匹配到的字符串

考虑到以后很多情况下，dict是固定的，其实我们只要做一次准备工作就够了。而上面的版本是用一次，准备一次。

很自然的想到闭包工厂！（在前几节有提到这概念）

我们就准备一次transalte，然后就能用translate去无限匹配替换text了。

import re

def make_xlat(*args,**kwds):
    adict = dict(*args,**kwds)
    rx = re.compile('|'.join(map(re.escape,adict)))
    def one_xlat(match):
        return adict[match.group(0)]
    def xlat(text):
        return rx.sub(one_xlat,text)
    return xlat

adict = {"a":"1","b":"2"}
translate = make_xlat(adict)
print translate('abacacb')

如果老板让处理单词的替代（正则中单词：r'\b\S+\b' ）：

rx = re.compile(r'\b%s\b' % r'\b|\b'.join(map(re.escape,adict))) #单词版本

如果用函数，这两个版本得重复代码，为了追求专业和优秀，就编码一次！

你说函数传入rx？还是传入compile的内容？oh，天啊，还得在函数外定义些玩意，不够优秀。

alex说，可以用class，以后想要rx就重载make_rx()。

import re

class make_xlat:
    def __init__(self,*args,**kwds):
        self.adict = dict(*args,**kwds)
        self.rx = self.make_rx()
    def make_rx(self):
        return re.compile('|'.join(map(re.escape,self.adict)))
    def one_xlat(self,match):
        return self.adict[match.group(0)]
    def __call__(self,text):
        return self.rx.sub(self.one_xlat,text)

#重载！
class make_xlat_by_whole_words(make_xlat):
    def make_rx(self):
        return re.compile(r'\b%s\b' % r'\b|\b'.join(map(re.escape,self.adict)))


adict = {"a":"1","b":"2","xyz":"456"}

translate = make_xlat(adict)
translate_by_whole_words = make_xlat_by_whole_words(adict)

print translate('aba xyz cacb')
print translate_by_whole_words('aba xyz cacb')

''' 结果：            
>>> 
121 456 c1c2
aba 456 cacb
>>>
'''

Ps：本节重新洗脑了：闭包工厂的思想。同时给我的大脑，加入一个神经发射：当代码重复的时候，就不美丽了，改用class以及重载了。

拓展阅读：

python正则表达式学习百变贝贝

检查字符串中的结束标记

我需要先介绍下 itertools.imap（选自Python API）：

def imap(function, *iterables):
    # imap(pow, (2,3,10), (5,2,3)) --> 32 9 1000
    iterables = map(iter, iterables)
    while True:
        args = [next(it) for it in iterables]
        if function is None:
            yield tuple(args)
        else:
            yield function(*args)

1、先把参数都变成iter对象，iter是个funciton

2、循环调用func来处理iter对象

3、如果看不懂yield，请看拓展阅读第二篇

检查字符串中的结束标记：

Ps：s.endswith 是个function

import itertools,os

def anyTrue(predicate,sequence):
    return True in itertools.imap(predicate,sequence)
def endswith(s,*endings):
    return anyTrue(s.endswith,endings)

for f in os.listdir('.'):
    if endswith(f,'.jpg','.png','.jepg'):
        print f
'''
>>> 
psu.jpg
QQ图片20130927105447.jpg
>>> 
'''

本节还引入了一个概念：被绑定办法（Bound Method）

L = ['a','b','c']
x = L.append
x('d')
print L

这里的x('d') == L.append('d')，x也就是L的一个被绑定办法
这么操作，x是List类型的一个被绑定方法：

x = List.append
x(L,'d') == L.append('d')

拓展阅读：

iter API

Python yield 使用浅析（第二次介绍了）

使用Unicode来处理国际化文本

为什么用utf8，因为它通用：

german_ae = unicode('\xc3\xa4','utf8')
print german_ae
'''
>>> 
ä
>>>
'''

实际上，如果不转换的话，'\xc3\xa4'它就既不是unicode，又不是ascii（高位为1）。python拒绝猜测，所以会报错。

这里也是接触到了几条Python原则：

1、在模糊面前拒绝猜测

2、在IO动作的关口做转换

好吧，在任何一个Python交互式shell输入import this：

>>> import this
The Zen of Python, by Tim Peters

Beautiful is better than ugly.
Explicit is better than implicit.
Simple is better than complex.
Complex is better than complicated.
Flat is better than nested.
Sparse is better than dense.
Readability counts.
Special cases aren't special enough to break the rules.
Although practicality beats purity.
Errors should never pass silently.
Unless explicitly silenced.
In the face of ambiguity, refuse the temptation to guess.
There should be one-- and preferably only one --obvious way to do it.
Although that way may not be obvious at first unless you're Dutch.
Now is better than never.
Although never is often better than *right* now.
If the implementation is hard to explain, it's a bad idea.
If the implementation is easy to explain, it may be a good idea.
Namespaces are one honking great idea -- let's do more of those!
>>>

在Unicode和普通字符串之间转换

这里放下预言：将来某一天一定会被这个Unicode和str搞死的。

拓展阅读：

str和unicode解析（这是一段有趣的对话，明白encode和decode的真正意义）

在标准输出中打印Unicode字符

pass

对Unicode数据编码并用于XML和HTML

pass

让某些字符串大小写不敏感

pass

将HTML文档转化为文本显示到UNIX终端上

tty是终端设备的统称，isatty应该是is attached tty？：

if sys.stdout.isatty():
    # You're running in a real terminal
else:
    # You're being piped or redirected

拓展阅读：

Linux中tty、pty、pts的概念区别 - 小苗 - 51CTO技术博客

python - How do I detect whether sys.stdout is attached to terminal or not? - Stack Overflow

formatter的相关资料

你可能感兴趣的:(Python)

【部署】Ktransformer是什么、如何利用单卡24GB显存部署Deepseek-R1 和 Deepseek-V3 仙人掌_lz 人工智能人工智能 AI 部署自然语言处理
简介KTransformers是一个灵活的、以Python为中心的框架，旨在通过先进的内核优化和放置/并行策略提升HuggingFaceTransformers的使用体验。它具有高度的可扩展性，用户可通过单行代码注入优化模块，获得兼容Transformers的接口、符合OpenAI和Ollama的RESTfulAPI，甚至简化的ChatGPT风格的WebUI。KTransformers的性能优化基
C语言-回调函数的应用 woainizhongguo. C/C++c语言
什么是回调函数回调函数就是一个被作为参数传递的函数。在C语言中，回调函数只能使用函数指针实现，在C++、Python、ECMAScript等更现代的编程语言中还可以使用仿函数或匿名函数。工作机制⑴定义一个回调函数；⑵提供函数实现的一方在初始化的时候，将回调函数的函数指针注册给调用者；⑶当特定的事件或条件发生的时候，调用者使用函数指针调用回调函数对事件进行处理。应用案例（1）应用层：通过调用hal层
Python Union 联合类型注解详解人才程序员杂谈 python 服务器 java linux 后端软件工程开发语言
文章目录PythonUnion联合类型注解详解1.什么是Union联合类型？**语法（Python3.9及之前版本）**：**语法（Python3.10及之后版本）**：2.Union联合类型注解示例**(1)使用Union来表示多个类型的参数****(2)使用`|`来表示联合类型（Python3.10及之后版本）**3.使用Union进行复杂类型注解**(1)使用Union与列表结合****(2
释放 DeepSeek 的力量：像专家一样本地安装与探索！ guzhoumingyue AI python
要在本地运行DeepSeek，您需要遵循以下步骤。请确保您的计算机上已安装Python和Git，并且满足DeepSeek的依赖项。步骤1:安装依赖项安装Python和pip确保您已安装Python（建议使用Python3.6及以上版本）。您可以通过在终端/命令提示符中输入以下命令来检查Python是否已安装：bash复制代码python--version或者bash复制代码python3--ver
ffmpeg-python安装 neverayever 计算机 ffmpeg python linux
centos-ffmpeg-python安装安装ffmpeg一：下载并解压wgethttp://www.ffmpeg.org/releases/ffmpeg-4.2.tar.gztar-zxvfffmpeg-4.2.tar.gz若linux服务器没网，可以在windows上直接访问http://www.ffmpeg.org/releases/ffmpeg-4.2.tar.gz就可下载，然后上传至服
Python的那些事第二十七篇：Python中的“数据魔法师”NumPy 暮雨哀尘 Python的那些事 python numpy 开发语言数据分析算法数组索引
摘要在这篇幽默风趣的论文中，我们将深入探讨NumPy——Python中最强大的数值计算库之一。它不仅提供了高性能的多维数组对象，还让复杂的数学运算变得像吃冰淇淋一样简单。本文将通过生动的代码示例和幽默的比喻，带你领略NumPy的魔法世界，让你在欢笑中掌握这个强大的工具。一、引言：为什么NumPy是程序员的“超级英雄”？1.1NumPy的起源：从“数据苦力”到“数据魔法师”想象一下，你被困在一个全是
Python爬虫TLS dme. Python爬虫零基础入门爬虫 python
TLS指纹校验原理和绕过浏览器可以正常访问，但是用requests发送请求失败。后端是如何监测得呢？为什么浏览器可以返回结果，而requests模块不行呢？https://cn.investing.com/equities/amazon-com-inc-historical-data1.指纹校验案例1.1案例：ascii2dhttps://ascii2d.net/importrequestsres
python爬虫Selenium库详细教程_python爬虫之selenium库的使用详解嘻嘻哈哈学编程程序员 python 爬虫 selenium
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化学习资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！2.2访问页面2.3查找元素2.3.1单个元素下面
排序算法：冒泡排序（Python）娱乐不打烊丶排序算法算法数据结构
思路：大家一定都喝过汽水吧，汽水中常常有许多小小的气泡，往上飘，这是因为组成小气泡的二氧化碳比水要轻，所以小气泡才会一点一点的向上浮。而冒泡排序之所以叫冒泡排序，正是因为这种排序算法的每一个元素都可以向小气泡一样，根据自身大小，一点一点向着数组的一侧移动。一图解百惑，上图！那么，话不多说，上代码！defbubble_sort(input_list):#冒泡排序：每次循环，锁定一个最值，并朝着最大或
supervisord 命令介绍和使用案例 lisanmengmeng linux 命令工具系统运维 shell编程服务器 linux 运维
supervisord命令介绍和使用案例supervisord是一个用Python编写的进程管理工具，用于监控和管理Linux系统中的进程。它可以将普通的命令行进程转变为后台守护进程（daemon），并监控进程状态，在进程异常退出时自动重启。它通过fork/exec的方式把被管理的进程当作自己的子进程来启动。主要功能:进程管理：能够启动、停止、重启和关闭进程.自动重启：监控进程状态，并在进程崩溃时
ptython setup.py install 设置python包编译时的并行数 leo0308 基础知识 Python python pytorch3d
通过源码编译安装pytorch3d的时候，直接执行pythonsetup.pyinstall时，默认开的并行数很多，有10几个，直接导致机器卡死。通过设置下面的环境变量，可以设置较小的并行数，避免占用过多的资源。exportMAX_JOBS=4设置后，同时只有4个编译的进程。
python 自动化数据提取之正则表达式_python 正则提取(2) m0_60607245 程序员 python 学习面试
一、Python所有方向的学习路线Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照下面的知识点去找对应的学习资源，保证自己学得较为全面。二、Python必备开发工具工具都帮大家整理好了，安装就可直接上手！三、最新Python学习笔记当我学到一定基础，有自己的理解能力的时候，会去阅读一些前辈整理的书籍或者手写的笔记资料，这些笔记详细记载了他们对一些技术点的理
GUI编程（window系统→Linux系统）诚信爱国敬业友善心得 linux python gui
最近有个项目需要将windows系统的程序往Linux系统上面移植，由于之前程序没有考虑过多平台兼容的问题，导致部分功能不可用以下是对近期遇到的问题的总结，以及相应的解决方案和经验分享。1.Python模块安装与管理在Linux系统中，安装和管理Python模块时可能会遇到权限问题或依赖冲突。安装模块：使用pip安装模块时，建议使用--user选项，避免需要管理员权限：bash复制pipinsta
spring boot基于知识图谱的阿克苏市旅游管理系统python-计算机毕业设计 QQ1963288475 spring boot 知识图谱旅游 python vue.js django flask
目录功能和技术介绍具体实现截图开发核心技术：开发环境开发步骤编译运行核心代码部分展示系统设计详细视频演示可行性论证软件测试源码获取功能和技术介绍该系统基于浏览器的方式进行访问，采用springboot集成快速开发框架，前端使用vue方式，基于es5的语法，开发工具IntelliJIDEAx64，因为该开发工具，内嵌了Tomcat服务运行机制，可不用单独下载Tomcatserver服务器。由于考虑到
Python从0到100（三十九）：数据提取之正则（文末免费送书）是Dream呀 python mysql 开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
Python学习心得两大编程思想 lifegoesonwjl python 开发语言 pycharm 前端 c语言
一、两大编程思想：1.面向过程：功能上的封装典型代表：C语言2.面向对象：属性和行为上的封装典型代表：Python、Java二、面向过程与面向对象的异同点：1.区别：面向过程：事物比较简单，可用线性的思维去解决面向对象：事务比较复杂，使用简单的线性思维无法解决2.共同点：（1）面向过程和面向对象都是解决实际问题的一种思维方式；（2）二者相辅相成，并不是对立的；（3）解决复杂问题，通过面向对象方式便
Linux升级Anacodna并配置jupyterLab 伪_装环境部署 linux 服务器 Anaconda python jupyter
在使用Anaconda的过程中，随着项目和需求的发展，可能需要升级Anaconda的Base环境中的Python版本。本文将详细介绍如何安全地进行升级，包括步骤、代码示例与最终流程图。升级Python一、环境准备在进行任何升级之前，建议先检查当前的Python版本以及各个库的兼容性。我们可以通过以下命令检查当前的Python版本：condainfo你会看到类似以下的输出，其中包含了当前Python
【Linux】删除Conda虚拟环境不是伍壹 Linux linux conda 运维
1、查看当前系统的conda虚拟环境condainfo--envscondaenvlist2、创建虚拟的环境condacreate-n（你的环境名字）python=（你需要的版本号，如（3.7,3.8,3.10））3、查看安装了哪些包condalist4、删除虚拟环境condaremove-nname--all5、删除虚拟环境中的包condaremove--name$（需要删除的环境名字）$（需要
动态规划之背包问题--python版本我是小码搬运工 #python基础动态规划背包问题 python版本
动态规划之背包问题–python版本问题已知一个最大量的背包，给定一组给定固定价值和固定体积的物品，求在不超过最大值的前提下，能放入背包中的最大总价值。解题思路该问题是典型的动态规划问题，分为三种不同的类型（0-1背包问题、完全背包和多重背包问题）解题关键–状态转移表达式：B(k,C)=max(B(k−1,C),B(k−1,C−ci)+vi)B(k,C)=max(B(k-1,C),B(k-1,C-
Centos7 搭建 Jupyter + Nginx 服务某龙兄 python nginx linux centos
JupyterNotebook（此前被称为IPythonnotebook）是一个交互式笔记本，支持运行40多种编程语言。JupyterNotebook的本质是一个Web应用程序，便于创建和共享文学化程序文档，支持实时代码，数学方程，可视化和markdown。用途包括：数据清理和转换，数值模拟，统计建模，机器学习等等。本文讲述如何搭建Jupyter+Nginx服务,仅供学习与交流，请勿用于商业用途一
动态规划之背包问题的Python实现名侦探debug Python 数据结构 python 数据结构动态规划求解
目录1.问题描述2.动态规划之网格法3.python实现1.问题描述题目来源于《算法图解》第9章练习题9.2，如下图所示。对于背包问题，通常的做法有列举法、贪婪算法和动态规划（1）列举法：列举出所有的可能情况，再选择最优解，但当情况很多时，这种算法复杂度很高（2）贪婪算法：在容量允许范围内，每次都拿剩余物品中价值最高的，贪婪算法能够快速解决复杂度很高的问题，但通常得到的是次优解，但就对这个题目而言
总结10个Python赚钱的接单平台兼职月入5000+ begefefsef 面试学习路线阿里巴巴 android 前端后端
前言“如果说当下什么编程语言最靠谱或者比较适合搞副业？”答案肯定100%是：Pythonpython是所有语法中最简单易上手的语言，不需要特别的的英语词汇量，逻辑思维也不需要很差就能上手。而且学会了之后就能编写代码爬取各种数据，制作各种图表，提升工作效率。而且还能利用业余时间接点私活，一个月轻松收入过万不是问题，这样的生活他不香吗？今天就给大家盘点几个基本入门接私活的资源，让你轻松学python，
大学生学完python靠几个接单网站兼职，实现经济独立「已注销」 python 开发语言
大学生学完python靠几个接单网站兼职，实现经济独立程序员就是当今时代的手艺人，程序员可以通过个人的技术来谋生。而在工作之余接私单可以作为一种创富的途径，受到程序员的广泛认可。说句实在话，现在这个时代，很多人仅靠主业顶多维持基本生活，想让自己、家人生活好一点很难。我接的私活并不算多，加起来也就几万左右，只能算一半，我想把一些经验分享出来，毕竟现在生活都不容易，能赚一点是一点。一、程序员接活、新手
Python wifi 安装手机app yichengace python
目的当测试机数量越来越多时，测试包的安装会成为一个问题，用wifi安装来解决这个问题，并且用脚本语言来批量控制思路思路就是py调用pc端的adb命令，向手机发送请求，无线是因为，如果未来测试机越来越多，一台电脑的usb接口数量肯定不够准备工具python，adb，pycharm，测试用app，这里选择qq（https://qd.myapp.com/myapp/qqteam/AndroidQQ/mo
深度学习之目标检测的常用标注工具铭瑾熙人工智能机器学习深度学习深度学习目标检测目标跟踪
1LabelImgLabelImg是一款开源的图像标注工具，标签可用于分类和目标检测，它是用Python编写的，并使用Qt作为其图形界面，简单好用。注释以PASCALVOC格式保存为XML文件，这是ImageNet使用的格式。此外，它还支持COCO数据集格式。2labelmelabelme是一款开源的图像/视频标注工具，标签可用于目标检测、分割和分类。灵感是来自于MIT开源的一款标注工具Label
Python 舆论风向分析爬虫：全流程数据获取、清洗与情感剖析西攻城狮北 python 爬虫开发语言实战案例
引言在当今信息爆炸的时代，互联网上充斥着海量的用户言论和观点。了解舆论风向对于企业、政府机构以及研究者等具有重要的意义，可以帮助他们及时把握公众情绪、调整策略与决策。Python作为一种强大的编程语言，在数据爬取与分析方面具有得天独厚的优势，能够助力我们高效地实现舆情监测与深入剖析。一、环境搭建与目标确定1.环境搭建为了顺利完成爬虫与数据分析任务，首先需要确保你的开发环境已经安装了以下Python
PyCharm 集成 DeepSeek：本地运行 or API 直连？打造你的 AI 编程神器！ AI云极【AI智能系列】pycharm 人工智能 ide deepseek
在AI赋能编程的时代，如何让AI辅助写代码，提升开发效率？DeepSeek作为一款开源、强大、免费的AI编程助手，结合PyCharm，能够大幅提升Python编程体验。今天，我们就来详细讲解如何在PyCharm中接入DeepSeek，无论你想使用本地部署的DeepSeek，还是官方API版本，都能轻松实现！为什么选择DeepSeek+PyCharm？DeepSeekR1采用6710亿参数的MoE（
Python3.5源码分析-sys模块及site模块导入小屋子大侠 python Python分析 python源码
Python3源码分析本文环境python3.5.2。参考书籍>python官网Python3的sys模块初始化根据分析完成builtins初始化后，继续分析sys模块的初始化，继续分析_Py_InitializeEx_Private函数的执行，void_Py_InitializeEx_Private(intinstall_sigs,intinstall_importlib){...sysmod=
【CUDA】Pytorch_Extensions joker D888 深度学习 pytorch python cuda c++深度学习
【CUDA】Pytorch_Extensions为什么要开发CUDA扩展？当我们在PyTorch中实现自定义算子时，通常有两种选择：使用纯Python实现（简单但效率低）使用C++/CUDA扩展（高效但需要编译）对于计算密集型的操作（如神经网络中的自定义激活函数），使用CUDA扩展可以获得接近硬件极限的性能。本文将以实现一个多项式激活函数x²+x+1为例，展示完整的开发流程。完整CUDA扩展代码解
Labelbox：引领AI与人类协作的未来魏兴雄Milburn
Labelbox：引领AI与人类协作的未来labelbox-pythonLabelboxPythonClient项目地址:https://gitcode.com/gh_mirrors/la/labelbox-python项目介绍Labelbox是一款专为企业和学术研究社区设计的开源工具，旨在简化数据标注、生成高质量的人类反馈数据、评估和提升模型性能，并通过无缝结合AI与人类工作流程来自动化任务。无
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号

python 探索（三） Python CookBook 文本处理 笔记

每次处理一个字符

字符和字符值之间的转换

测试一个对象是否是类字符串

字符串对齐

去除字符串两端的空格

合并字符串

将字符串逐字符或逐词反转

检查字符串中是否包含某字符集合中的字符

maketrans 和 translate的用法，简单说就是：

在判断str1是否包含str2某些元素的时候：

在判断str1是否完全包含str2的时候：

简化字符串的translate方法的使用

过滤字符串中不属于指定集合的字符

检查一个字符串是文本还是二进制

控制大小写

访问子字符串

改变多行文本字符串的缩进

拓展和压制制表符

替换字符串中的子串

一次完成多个替换

检查字符串中的结束标记

使用Unicode来处理国际化文本

在Unicode和普通字符串之间转换

在标准输出中打印Unicode字符

对Unicode数据编码并用于XML和HTML

让某些字符串大小写不敏感

将HTML文档转化为文本显示到UNIX终端上

你可能感兴趣的:(Python)

python 探索（三） Python CookBook 文本处理笔记